期刊文献+
共找到718篇文章
< 1 2 36 >
每页显示 20 50 100
A Parallel Platform for Web Text Mining
1
作者 Ping Lu Zhenjiang Dong +4 位作者 Shengmei Luo Lixia Liu Shanshan Guan Shengyu Liu Qingcai Chen 《ZTE Communications》 2013年第3期56-61,共6页
With user-generated content, anyone can De a content creator. This phenomenon has infinitely increased the amount of information circulated online, and it is beeoming harder to efficiently obtain required information.... With user-generated content, anyone can De a content creator. This phenomenon has infinitely increased the amount of information circulated online, and it is beeoming harder to efficiently obtain required information. In this paper, we describe how natural language processing and text mining can be parallelized using Hadoop and Message Passing Interface. We propose a parallel web text mining platform that processes massive amounts data quickly and efficiently. Our web knowledge service platform is designed to collect information about the IT and telecommunications industries from the web and process this in-formation using natural language processing and data-mining techniques. 展开更多
关键词 natural language processing text mining massive data paral-lel web knowledge service
在线阅读 下载PDF
中文Web文本挖掘系统WebTextMiner开发 被引量:1
2
作者 魏松 钟义信 王翔英 《计算机应用研究》 CSCD 北大核心 2006年第6期211-213,共3页
W eb文本挖掘系统的开发对W eb文本挖掘的研究有着很大的推进作用。因此在对基于SVM的中文网页分类器性能研究的基础上,根据研究和实用的需要,实现了一个性能较好的中文W eb文本挖掘系统。
关键词 web文本挖掘 支持向量机 K-最近邻
在线阅读 下载PDF
基于众测操作记录的Web测试用例自动生成方法 被引量:1
3
作者 张清睿 黄松 孙乐乐 《计算机技术与发展》 2024年第1期83-90,共8页
众包测试是软件测试领域的一种新兴趋势,具有更加可靠、成本更低和效率更快的优点。但是由于众测工人专业水平不同,提交的测试用例报告缺乏规范性,为报告的审核、缺陷的复现都增加了困难。该文提出了一种通过众测工人的操作记录自动生... 众包测试是软件测试领域的一种新兴趋势,具有更加可靠、成本更低和效率更快的优点。但是由于众测工人专业水平不同,提交的测试用例报告缺乏规范性,为报告的审核、缺陷的复现都增加了困难。该文提出了一种通过众测工人的操作记录自动生成文本测试用例的新方法,并实现了该测试工具。首先,对测试工人的操作进行录制从而获取录制信息,录制信息可以划分为三大模块,包含静态页面信息、动态页面信息和交互信息;其次,通过深度优先遍历算法获取组件名称、组件类型、交互动作和交互数据,并按照众测工人的实际操作步骤生成测试序列;对于测试序列中存在组件名称匹配错误的问题,通过YOLOv5目标检测和OCR文字识别技术设计了n元组生成算法,用于生成组件名称与其选项的对应关系,并对匹配错误的组件名称进行自动修改;最后,通过自定义规则集将测试序列转换为文本测试用例。该方法自动生成统一规范的测试用例,降低了众测的门槛,提高了测试效率,并且有利于众测服务平台的质量评估工作。为了验证该方法的有效性,针对不同开发技术的Web系统进行了测试,并与目前最新版本的UFT,Selenium IDE和Katalon Recorder三款工具进行了对比。实验结果表明,该方法生成的测试用例在测试步骤完整性、测试用例信息完整性和时间性能方面具有较好的表现。 展开更多
关键词 众包测试 web测试 测试记录 文本测试用例 测试用例生成
在线阅读 下载PDF
Web Voice Browser Based on an ISLPC Text-to-Speech Algorithm
4
作者 LIAO Rikun JI Yuefeng LI Hui 《Wuhan University Journal of Natural Sciences》 CAS 2006年第5期1157-1160,共4页
A kind of Web voice browser based on improved synchronous linear predictive coding (ISLPC) and Text-toSpeech (TTS) algorithm and Internet application was proposed. The paper analyzes the features of TTS system wit... A kind of Web voice browser based on improved synchronous linear predictive coding (ISLPC) and Text-toSpeech (TTS) algorithm and Internet application was proposed. The paper analyzes the features of TTS system with ISLPC speech synthesis and discusses the design and implementation of ISLPC TTS-based Web voice browser. The browser integrates Web technology, Chinese information processing, artificial intelligence and the key technology of Chinese ISLPC speech synthesis. It's a visual and audible web browser that can improve information precision for network users. The evaluation results show that ISLPC-based TTS model has a better performance than other browsers in voice quality and capability of identifying Chinese characters. 展开更多
关键词 improved synchronous linear predictive coding (ISLPC) text-to-Speech (TTS) web voice browser voice quality
在线阅读 下载PDF
乾陵国家考古遗址公园官方投射形象与公众感知形象对比研究
5
作者 席岳婷 韩钰如 罗莎 《特区经济》 2025年第5期148-151,共4页
以乾陵国家考古遗址公园为例,基于供需视角,运用内容分析方法,以“投射—感知”模型为基础,分析比较投射形象和感知形象之间的偏差。研究发现:官方投射形象和公众感知形象高频词集中于资源条件、功能属性、管理与运营3个范畴;官方投射... 以乾陵国家考古遗址公园为例,基于供需视角,运用内容分析方法,以“投射—感知”模型为基础,分析比较投射形象和感知形象之间的偏差。研究发现:官方投射形象和公众感知形象高频词集中于资源条件、功能属性、管理与运营3个范畴;官方投射偏向于从宏观角度进行宣传推广,而公众感知形象则聚焦单一要素;公众感知的主要情感为积极情绪。研究为国家考古遗址公园加强运营管理并提升公众感知提供了建议。 展开更多
关键词 乾陵考古遗址公园 投射形象 感知形象 认知偏差 网络文本分析
原文传递
基于Bagging_BiLSTM的网络文本情感分析
6
作者 刘杰 葛浩伟 《计算机仿真》 2025年第9期274-278,共5页
网络文本处理中,颗粒度过大或过小都会造成情感分析关键词断裂,无法精准定位文本内部固有的结构断裂点,从而难以全面捕捉关键词,导致情感识别准确性、特征贡献率减弱。为此,提出基于Bagging_BiLSTM的网络文本情感分析方法。基于word2ve... 网络文本处理中,颗粒度过大或过小都会造成情感分析关键词断裂,无法精准定位文本内部固有的结构断裂点,从而难以全面捕捉关键词,导致情感识别准确性、特征贡献率减弱。为此,提出基于Bagging_BiLSTM的网络文本情感分析方法。基于word2vec方法将网络文本中的词语转换为词向量,并根据词向量计算文本中各语句的重要度,选取重要度较高的语句作为颗粒度基准,构建文本摘要,更准确地反映文本的情感和结构特点;基于最大距离法的K-means算法对各文本摘要展开聚类,将相似的文本摘要归为一类,避免文本结构断裂造成的情感分析关键词断裂;在各聚类中任选一个文本,将该文本摘要的词向量输入到Bagging_BiLSTM模型中,识别各聚类文本的具体情感类型特征信息,完成情感分析。实验结果表明,上述方法的文本聚类效果较好,情感识别准确性、特征贡献率较高。 展开更多
关键词 情感分析 网络文本分类 词向量
在线阅读 下载PDF
Web文本情感分类研究综述 被引量:31
7
作者 王洪伟 刘勰 +1 位作者 尹裴 廖雅国 《情报学报》 CSSCI 北大核心 2010年第5期931-938,共8页
对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其... 对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 展开更多
关键词 web文本 情感分类 综述 主观性文本
在线阅读 下载PDF
“空间+精神”感知视角下工业遗产改造后评估:以首钢六工汇购物中心为例 被引量:1
8
作者 张扬清 郑小东 +1 位作者 段威 张若诗 《世界建筑》 2025年第2期78-85,共8页
本文从“空间+精神”感知视角,运用网络文本语义分析与SD法,探究游客对工业遗产商业化改造的评价,揭示空间感知和精神感知对满意度的影响。文章以首钢六工汇为例,通过情感量化分析网络点评总结空间感知维度,融入“工业+冬奥”精神感知维... 本文从“空间+精神”感知视角,运用网络文本语义分析与SD法,探究游客对工业遗产商业化改造的评价,揭示空间感知和精神感知对满意度的影响。文章以首钢六工汇为例,通过情感量化分析网络点评总结空间感知维度,融入“工业+冬奥”精神感知维度,构建后期评估框架,提炼3组影响建筑评价的关键因子并针对性提出改进建议。 展开更多
关键词 后评估 工业遗产改造 网络文本分析 首钢六工汇
在线阅读 下载PDF
基于Web的文本挖掘系统的研究与实现 被引量:22
9
作者 唐菁 沈记全 杨炳儒 《计算机科学》 CSCD 北大核心 2003年第1期60-62,共3页
With the development of network technology, the spread of information on Internet becomes more andmore quick. There are many types of complicated data in the information ocean. How to acquire useful knowledgequickly f... With the development of network technology, the spread of information on Internet becomes more andmore quick. There are many types of complicated data in the information ocean. How to acquire useful knowledgequickly from the information ocean is the very difficult. The Text Mining based on Web is the new research fieldwhich can solve the problem effectively. In this paper, we present a structure model of Text Mining and research thecore arithmetic - Classification arithmetic. We have developed the Text Mining system based on Web and appliedit in the modern long-distance education. This system can automatically classify the text information of education fieldwhich is collected from education site on Internet and help people to browser the important information quickly andacquire knowledge. 展开更多
关键词 web 文本挖掘系统 数据库 知识发现 数据挖掘
在线阅读 下载PDF
基于语义规则的Web金融文本情感分析 被引量:40
10
作者 吴江 唐常杰 +1 位作者 李太勇 崔亮 《计算机应用》 CSCD 北大核心 2014年第2期481-485,495,共6页
为有效提高非结构化Web金融文本情感倾向和强度分析的精度,提出了基于语义规则的Web金融文本情感分析算法(SAFT-SR)。该算法基于Apriori算法对金融文本进行属性抽取,构建金融情感词典和语义规则识别情感单元及强度,进而得到文本的情感... 为有效提高非结构化Web金融文本情感倾向和强度分析的精度,提出了基于语义规则的Web金融文本情感分析算法(SAFT-SR)。该算法基于Apriori算法对金融文本进行属性抽取,构建金融情感词典和语义规则识别情感单元及强度,进而得到文本的情感倾向和强度。实验结果表明,与Ku提出的算法相比,在情感倾向分类方面,算法SAFT-SR情感分类性能良好,提高了分类器的F值、查全率和查准率;在情感强度计算方面,算法SAFT-SR的误差更小,更接近真实评分,证明了SAFT-SR是一种有效的金融文本情感分析算法。 展开更多
关键词 web金融文本 情感词典 语义规则 情感分析 情感倾向
在线阅读 下载PDF
Web文档中词语权重计算方法的改进 被引量:14
11
作者 初建崇 刘培玉 王卫玲 《计算机工程与应用》 CSCD 北大核心 2007年第19期192-194,198,共4页
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,... 以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。 展开更多
关键词 向量空间模型 web文本分类 权重调整 互信息
在线阅读 下载PDF
基于Web的文本挖掘 被引量:28
12
作者 唐菁 张前 +2 位作者 陈泓婕 刘宁 杨炳儒 《计算机工程与应用》 CSCD 北大核心 2002年第21期198-201,共4页
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。在茫茫的信息海洋如何快速有效地获取所需要的信息,一直是困绕着网上用户的难题。而Web挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上... 万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。在茫茫的信息海洋如何快速有效地获取所需要的信息,一直是困绕着网上用户的难题。而Web挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上解决了用户的困绕。该文主要介绍了Web挖掘基本情况,并在此基础上对基于Web的文本挖掘进行了分析研究;给出了一个基于Web的文本挖掘的结构模型图。同时,在Web挖掘和数据挖掘研究的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型。它比传统的远程教育系统具有更大的发展前景。 展开更多
关键词 web 文本挖掘 数据挖掘 INTERNET WWW
在线阅读 下载PDF
Web文本挖掘技术研究 被引量:275
13
作者 王继成 潘金贵 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也... 作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . 展开更多
关键词 文本挖掘 文本分类 文本聚类 信息检索 web
在线阅读 下载PDF
Web页面中文文本主题的自动提取研究 被引量:12
14
作者 韩客松 王永成 滕伟 《情报学报》 CSSCI 北大核心 2001年第2期217-223,共7页
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的... Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。 展开更多
关键词 web页面文本 主题抽取 加权 机器标引 主题标引
在线阅读 下载PDF
基于本体的Web文本挖掘与信息检索 被引量:8
15
作者 艾伟 孙四明 张峰 《计算机工程》 CAS CSCD 北大核心 2010年第22期75-77,80,共4页
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。... 针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。 展开更多
关键词 本体 web文本挖掘 向量空间模型 信息检索
在线阅读 下载PDF
Web数据挖掘技术及工具研究 被引量:32
16
作者 邓英 李明 《计算机工程与应用》 CSCD 北大核心 2001年第20期92-94,共3页
Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。文章就Web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述,并在此基础上介绍了一些实用的Web挖掘工具。
关键词 web 数据挖掘 数据库 数据挖掘工具 INTERNET
在线阅读 下载PDF
基于主题的Web文本聚类方法 被引量:4
17
作者 张万山 肖瑶 +1 位作者 梁俊杰 余敦辉 《计算机应用》 CSCD 北大核心 2014年第11期3144-3146,3151,共4页
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚... 针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。 展开更多
关键词 多主题 web文本 聚类 特征词 准确率
在线阅读 下载PDF
一种Web主题文本通用提取方法 被引量:5
18
作者 蒲强 李鑫 +1 位作者 刘启和 杨国纬 《计算机应用》 CSCD 北大核心 2007年第6期1394-1396,共3页
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其... 为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。 展开更多
关键词 web文本 文本提取 文本语料库
在线阅读 下载PDF
基于支持向量机的Web文本分类方法 被引量:19
19
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《微电子学与计算机》 CSCD 北大核心 2006年第9期102-104,共3页
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结... Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 展开更多
关键词 支持向量机 特征提取 web文本 文本分类
在线阅读 下载PDF
Web页面清洗技术的研究与实现 被引量:20
20
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 web页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部