期刊文献+
共找到718篇文章
< 1 2 36 >
每页显示 20 50 100
A Parallel Platform for Web Text Mining
1
作者 Ping Lu Zhenjiang Dong +4 位作者 Shengmei Luo Lixia Liu Shanshan Guan Shengyu Liu Qingcai Chen 《ZTE Communications》 2013年第3期56-61,共6页
With user-generated content, anyone can De a content creator. This phenomenon has infinitely increased the amount of information circulated online, and it is beeoming harder to efficiently obtain required information.... With user-generated content, anyone can De a content creator. This phenomenon has infinitely increased the amount of information circulated online, and it is beeoming harder to efficiently obtain required information. In this paper, we describe how natural language processing and text mining can be parallelized using Hadoop and Message Passing Interface. We propose a parallel web text mining platform that processes massive amounts data quickly and efficiently. Our web knowledge service platform is designed to collect information about the IT and telecommunications industries from the web and process this in-formation using natural language processing and data-mining techniques. 展开更多
关键词 natural language processing text mining massive data paral-lel web knowledge service
在线阅读 下载PDF
中文Web文本挖掘系统WebTextMiner开发 被引量:1
2
作者 魏松 钟义信 王翔英 《计算机应用研究》 CSCD 北大核心 2006年第6期211-213,共3页
W eb文本挖掘系统的开发对W eb文本挖掘的研究有着很大的推进作用。因此在对基于SVM的中文网页分类器性能研究的基础上,根据研究和实用的需要,实现了一个性能较好的中文W eb文本挖掘系统。
关键词 web文本挖掘 支持向量机 K-最近邻
在线阅读 下载PDF
Web Voice Browser Based on an ISLPC Text-to-Speech Algorithm
3
作者 LIAO Rikun JI Yuefeng LI Hui 《Wuhan University Journal of Natural Sciences》 CAS 2006年第5期1157-1160,共4页
A kind of Web voice browser based on improved synchronous linear predictive coding (ISLPC) and Text-toSpeech (TTS) algorithm and Internet application was proposed. The paper analyzes the features of TTS system wit... A kind of Web voice browser based on improved synchronous linear predictive coding (ISLPC) and Text-toSpeech (TTS) algorithm and Internet application was proposed. The paper analyzes the features of TTS system with ISLPC speech synthesis and discusses the design and implementation of ISLPC TTS-based Web voice browser. The browser integrates Web technology, Chinese information processing, artificial intelligence and the key technology of Chinese ISLPC speech synthesis. It's a visual and audible web browser that can improve information precision for network users. The evaluation results show that ISLPC-based TTS model has a better performance than other browsers in voice quality and capability of identifying Chinese characters. 展开更多
关键词 improved synchronous linear predictive coding (ISLPC) text-to-Speech (TTS) web voice browser voice quality
在线阅读 下载PDF
基于Spark的Web文本挖掘系统的研究与实现
4
作者 林昊 喻金平 《信息与电脑》 2025年第22期144-147,共4页
文章基于Spark大数据处理框架,设计并实现了一个Web文本挖掘系统。该系统通过异步爬虫技术从学术期刊获取文本数据,利用Spark框架的分布式计算能力与结巴分词工具,结合词云等可视化技术,最终通过Web界面对文本挖掘结果进行展示。实验结... 文章基于Spark大数据处理框架,设计并实现了一个Web文本挖掘系统。该系统通过异步爬虫技术从学术期刊获取文本数据,利用Spark框架的分布式计算能力与结巴分词工具,结合词云等可视化技术,最终通过Web界面对文本挖掘结果进行展示。实验结果表明,该设计能够高效处理大规模文本数据,与传统方法相比,具有更高的处理效率。 展开更多
关键词 文本挖掘 SPARK 分布式计算 数据可视化 web系统
在线阅读 下载PDF
Web文本情感分类研究综述 被引量:31
5
作者 王洪伟 刘勰 +1 位作者 尹裴 廖雅国 《情报学报》 CSSCI 北大核心 2010年第5期931-938,共8页
对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其... 对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 展开更多
关键词 web文本 情感分类 综述 主观性文本
在线阅读 下载PDF
基于Web的文本挖掘系统的研究与实现 被引量:22
6
作者 唐菁 沈记全 杨炳儒 《计算机科学》 CSCD 北大核心 2003年第1期60-62,共3页
With the development of network technology, the spread of information on Internet becomes more andmore quick. There are many types of complicated data in the information ocean. How to acquire useful knowledgequickly f... With the development of network technology, the spread of information on Internet becomes more andmore quick. There are many types of complicated data in the information ocean. How to acquire useful knowledgequickly from the information ocean is the very difficult. The Text Mining based on Web is the new research fieldwhich can solve the problem effectively. In this paper, we present a structure model of Text Mining and research thecore arithmetic - Classification arithmetic. We have developed the Text Mining system based on Web and appliedit in the modern long-distance education. This system can automatically classify the text information of education fieldwhich is collected from education site on Internet and help people to browser the important information quickly andacquire knowledge. 展开更多
关键词 web 文本挖掘系统 数据库 知识发现 数据挖掘
在线阅读 下载PDF
基于语义规则的Web金融文本情感分析 被引量:40
7
作者 吴江 唐常杰 +1 位作者 李太勇 崔亮 《计算机应用》 CSCD 北大核心 2014年第2期481-485,495,共6页
为有效提高非结构化Web金融文本情感倾向和强度分析的精度,提出了基于语义规则的Web金融文本情感分析算法(SAFT-SR)。该算法基于Apriori算法对金融文本进行属性抽取,构建金融情感词典和语义规则识别情感单元及强度,进而得到文本的情感... 为有效提高非结构化Web金融文本情感倾向和强度分析的精度,提出了基于语义规则的Web金融文本情感分析算法(SAFT-SR)。该算法基于Apriori算法对金融文本进行属性抽取,构建金融情感词典和语义规则识别情感单元及强度,进而得到文本的情感倾向和强度。实验结果表明,与Ku提出的算法相比,在情感倾向分类方面,算法SAFT-SR情感分类性能良好,提高了分类器的F值、查全率和查准率;在情感强度计算方面,算法SAFT-SR的误差更小,更接近真实评分,证明了SAFT-SR是一种有效的金融文本情感分析算法。 展开更多
关键词 web金融文本 情感词典 语义规则 情感分析 情感倾向
在线阅读 下载PDF
Web文档中词语权重计算方法的改进 被引量:14
8
作者 初建崇 刘培玉 王卫玲 《计算机工程与应用》 CSCD 北大核心 2007年第19期192-194,198,共4页
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,... 以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。 展开更多
关键词 向量空间模型 web文本分类 权重调整 互信息
在线阅读 下载PDF
基于Web的文本挖掘 被引量:28
9
作者 唐菁 张前 +2 位作者 陈泓婕 刘宁 杨炳儒 《计算机工程与应用》 CSCD 北大核心 2002年第21期198-201,共4页
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。在茫茫的信息海洋如何快速有效地获取所需要的信息,一直是困绕着网上用户的难题。而Web挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上... 万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。在茫茫的信息海洋如何快速有效地获取所需要的信息,一直是困绕着网上用户的难题。而Web挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上解决了用户的困绕。该文主要介绍了Web挖掘基本情况,并在此基础上对基于Web的文本挖掘进行了分析研究;给出了一个基于Web的文本挖掘的结构模型图。同时,在Web挖掘和数据挖掘研究的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型。它比传统的远程教育系统具有更大的发展前景。 展开更多
关键词 web 文本挖掘 数据挖掘 INTERNET WWW
在线阅读 下载PDF
Web文本挖掘技术研究 被引量:275
10
作者 王继成 潘金贵 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也... 作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . 展开更多
关键词 文本挖掘 文本分类 文本聚类 信息检索 web
在线阅读 下载PDF
Web页面中文文本主题的自动提取研究 被引量:12
11
作者 韩客松 王永成 滕伟 《情报学报》 CSSCI 北大核心 2001年第2期217-223,共7页
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的... Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。 展开更多
关键词 web页面文本 主题抽取 加权 机器标引 主题标引
在线阅读 下载PDF
基于本体的Web文本挖掘与信息检索 被引量:8
12
作者 艾伟 孙四明 张峰 《计算机工程》 CAS CSCD 北大核心 2010年第22期75-77,80,共4页
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。... 针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。 展开更多
关键词 本体 web文本挖掘 向量空间模型 信息检索
在线阅读 下载PDF
Web数据挖掘技术及工具研究 被引量:32
13
作者 邓英 李明 《计算机工程与应用》 CSCD 北大核心 2001年第20期92-94,共3页
Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。文章就Web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述,并在此基础上介绍了一些实用的Web挖掘工具。
关键词 web 数据挖掘 数据库 数据挖掘工具 INTERNET
在线阅读 下载PDF
基于主题的Web文本聚类方法 被引量:4
14
作者 张万山 肖瑶 +1 位作者 梁俊杰 余敦辉 《计算机应用》 CSCD 北大核心 2014年第11期3144-3146,3151,共4页
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚... 针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。 展开更多
关键词 多主题 web文本 聚类 特征词 准确率
在线阅读 下载PDF
一种Web主题文本通用提取方法 被引量:5
15
作者 蒲强 李鑫 +1 位作者 刘启和 杨国纬 《计算机应用》 CSCD 北大核心 2007年第6期1394-1396,共3页
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其... 为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。 展开更多
关键词 web文本 文本提取 文本语料库
在线阅读 下载PDF
基于支持向量机的Web文本分类方法 被引量:19
16
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《微电子学与计算机》 CSCD 北大核心 2006年第9期102-104,共3页
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结... Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 展开更多
关键词 支持向量机 特征提取 web文本 文本分类
在线阅读 下载PDF
Web页面清洗技术的研究与实现 被引量:20
17
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 web页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
在线阅读 下载PDF
基于KNN的Web文本分类方法的研究 被引量:8
18
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机应用与软件》 CSCD 北大核心 2007年第10期210-211,共2页
为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的... 为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 KNN算法 特征提取 web文本 文本分类
在线阅读 下载PDF
Web网页信息文本分类的研究 被引量:5
19
作者 李净 袁小华 沈晓晶 《计算机工程与设计》 CSCD 北大核心 2008年第23期6026-6028,共3页
面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Bo... 面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。 展开更多
关键词 web文本分类 多主题 多分类器 BOOSTING算法 综合Bayesian分类法
在线阅读 下载PDF
Web文本挖掘系统及其分类算法的研究与实现 被引量:10
20
作者 沈记全 唐菁 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2003年第17期37-39,共3页
介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮... 介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。 展开更多
关键词 web文本挖掘 知识发现 文本分类 信息导航
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部