期刊文献+
共找到140篇文章
< 1 2 7 >
每页显示 20 50 100
基于信息增益与信息熵的TFIDF算法 被引量:48
1
作者 李学明 李海瑞 +1 位作者 薛亮 何光军 《计算机工程》 CAS CSCD 2012年第8期37-40,共4页
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TF... 传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。 展开更多
关键词 文本分类 信息增益 信息熵 tfidf算法
在线阅读 下载PDF
基于文本分类TFIDF方法的改进与应用 被引量:121
2
作者 张玉芳 彭时名 吕佳 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期76-78,共3页
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TF... TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。 展开更多
关键词 文本分类 特征选择 tfidf 类别区分
在线阅读 下载PDF
TFIDF算法研究综述 被引量:224
3
作者 施聪莺 徐朝军 杨晓江 《计算机应用》 CSCD 北大核心 2009年第B06期167-170,180,共5页
文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关... 文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考。 展开更多
关键词 tfidf 文本分类 VSM
在线阅读 下载PDF
基于信息熵的改进TFIDF特征选择算法 被引量:29
4
作者 周炎涛 唐剑波 王家琴 《计算机工程与应用》 CSCD 北大核心 2007年第35期156-158,171,共4页
特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法... 特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。 展开更多
关键词 词条信息熵 特征选择 tfidf 数据挖掘
在线阅读 下载PDF
用于文本挖掘的特征选择方法TFIDF及其改进 被引量:23
5
作者 景丽萍 黄厚宽 石洪波 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期142-145,共4页
文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法.
关键词 文本挖掘 tfidf 评估函数 空间矢量模型 特征选择
在线阅读 下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
6
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 tfidf 文本分类 特征加权 向量空间模型
在线阅读 下载PDF
一种改进的TFIDF网页关键词提取方法 被引量:31
7
作者 李静月 李培峰 朱巧明 《计算机应用与软件》 CSCD 2011年第5期25-27,共3页
传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取... 传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。 展开更多
关键词 文本结构 关键词抽取 tfidf
在线阅读 下载PDF
基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究 被引量:6
8
作者 邵晓根 鞠训光 +1 位作者 胡局新 马忠伟 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期57-60,65,共5页
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯... 本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%. 展开更多
关键词 贝叶斯推理 位置权重 提取 tfidf算法
在线阅读 下载PDF
基于循环迭代算法改进的TFIDF方法及应用 被引量:2
9
作者 王行恒 曹军 +2 位作者 邓学 刘垚 高适 《计算机应用与软件》 CSCD 北大核心 2012年第11期305-308,共4页
文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的... 文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类。采用支持向量机分类器对文本分类。通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度。 展开更多
关键词 tfidf 文本聚类 文本分类 VSM 支持向量机 SVM 迭代算法
在线阅读 下载PDF
一种基于TFIDF的网络聊天关键词提取算法 被引量:15
10
作者 许晓昕 李安贵 《计算机技术与发展》 2006年第3期122-123,222,共3页
随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活。利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点。聊天文本不... 随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活。利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点。聊天文本不同于普通的文章,它是一种动态输入的文本,对于这种文本,传统的TFIDF算法存在着缺陷。文中针对传统TFIDF在处理此类文本时的不足之处,利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力。 展开更多
关键词 tfidf 文本挖掘 即时通讯软件 关键词提取
在线阅读 下载PDF
改进TFIDF算法在潜在合作关系挖掘中的应用研究 被引量:7
11
作者 孙鸿飞 侯伟 《现代图书情报技术》 CSSCI 北大核心 2014年第10期84-92,共9页
【目的】弥补传统方法在潜在合作关系挖掘中的缺陷和不足,提高潜在合作关系的挖掘效果。【方法】在分析简单计算法、最小值计算法与传统TFIDF算法缺陷和不足的基础上,提出改进TFIDF算法,并将其引入到潜在合作关系挖掘中。【结果】利用... 【目的】弥补传统方法在潜在合作关系挖掘中的缺陷和不足,提高潜在合作关系的挖掘效果。【方法】在分析简单计算法、最小值计算法与传统TFIDF算法缺陷和不足的基础上,提出改进TFIDF算法,并将其引入到潜在合作关系挖掘中。【结果】利用《北大中文期刊核心目录(2012年版)》中19种图书情报类期刊近5年情报学研究方法应用领域的论文作为样本数据,发现简单计算法与最小值计算法受到作者发文量影响较大,传统TFIDF算法的挖掘结果很难实现从潜在合作关系转化为现实合作关系,而改进TFIDF算法对此的满足度则表现得非常突出。【局限】改进TFIDF算法未考虑论文中作者之间的排名顺序对潜在合作关系的影响。【结论】通过将4种挖掘结果进行对比和评价,证明改进TFIDF算法较其他传统方法更科学、更具有优越性和实用价值。 展开更多
关键词 改进tfidf算法 潜在合作关系 数据挖掘 耦合分析
原文传递
基于改进TFIDF算法的文本分类研究 被引量:27
12
作者 郑霖 徐德华 《计算机与现代化》 2014年第9期6-9,14,共5页
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,... 由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 展开更多
关键词 tfidf算法 特征选择 文本分类
在线阅读 下载PDF
基于TFIDF和词语关联度的中文关键词提取方法 被引量:44
13
作者 张建娥 《情报科学》 CSSCI 北大核心 2012年第10期1542-1544,1555,共4页
关键词提取技术是文本分类、文本聚类、信息检索等技术的基础,在自然语言处理领域有着非常广泛的应用。结合TFIDF关键词抽取方法的特点和中文具有的自然语言词语间相互关联的特性,提出一种基于TFIDF和词语关联度的中文关键词提取方法。... 关键词提取技术是文本分类、文本聚类、信息检索等技术的基础,在自然语言处理领域有着非常广泛的应用。结合TFIDF关键词抽取方法的特点和中文具有的自然语言词语间相互关联的特性,提出一种基于TFIDF和词语关联度的中文关键词提取方法。该方法通过引入词语关联度,有效避免了单纯采用TFIDF算法产生的偏差。实验结果表明,该方法的平均召回率与传统方法相比得到明显提升。 展开更多
关键词 词语关联度 tfidf 关键词提取
原文传递
基于信息熵与词长信息改进的TFIDF算法 被引量:15
14
作者 金燕 黄杰 《浙江工业大学学报》 CAS 北大核心 2021年第2期203-209,共7页
针对文本分类中传统的TFIDF特征提取算法的缺陷,引入信息熵与词长信息改进TFIDF算法。传统的TFIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征。改进的TFIDF算法中加入了表达词长信息的因... 针对文本分类中传统的TFIDF特征提取算法的缺陷,引入信息熵与词长信息改进TFIDF算法。传统的TFIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征。改进的TFIDF算法中加入了表达词长信息的因子并且引入词条信息熵来反映特征词在文本中的分布特征,实验比较了其与TFIDF、TFIDFL等算法在相同数据集上使用逻辑回归分类器的分类准确率。改进的算法平均准确率比TFIDF算法高了7.34%,比TFIDFL算法高了5.99%,结果表明引入信息熵与词长信息改进TFIDF算法能够有效提升分类准确率。 展开更多
关键词 tfidf 信息熵 特征提取 文本分类
在线阅读 下载PDF
基于TFIDF的社区问答系统问句相似度改进算法 被引量:11
15
作者 赵胜辉 李吉月 +1 位作者 徐碧 孙博研 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第9期982-985,共4页
针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的T... 针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能. 展开更多
关键词 向量空间模型 tfidf算法 社区问答系统 问句相似度
在线阅读 下载PDF
融合多因素的TFIDF关键词提取算法研究 被引量:27
16
作者 牛永洁 田成龙 《计算机技术与发展》 2019年第7期80-83,共4页
为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的TF... 为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的TFIDF关键词提取算法相结合,采用不同权重的方法得到最终的词语权重,按照词语权重从大到小取得前5个词作为文本的关键词。以本校图书馆提供的8045篇《红色中华》新闻为源数据,从准确度、召回率及F1值三个指标对文中算法、经典的TFIDF算法和专家标注进行对比,发现文中算法在三个指标上均优于经典的TFIDF算法,与专家标注比较接近。 展开更多
关键词 tfidf算法 词位置 词性 词语关联 词长 词跨度
在线阅读 下载PDF
基于贝叶斯推理和TFIDF算法的中文关键词智能抽取 被引量:2
17
作者 胡局新 鞠训光 《微电子学与计算机》 CSCD 北大核心 2012年第9期197-200,共4页
针对传统的TFIDF中文关键词智能抽取模型中,遇到冗余、或者动态性较强的词汇时,词汇挖掘效果不好的问题,提出一种基于贝叶斯推理和TFIDF算法的中文关键词智能抽取方法.利用贝叶斯统计原理对文本信息进行概率化的统计,运用贝叶斯决策理论... 针对传统的TFIDF中文关键词智能抽取模型中,遇到冗余、或者动态性较强的词汇时,词汇挖掘效果不好的问题,提出一种基于贝叶斯推理和TFIDF算法的中文关键词智能抽取方法.利用贝叶斯统计原理对文本信息进行概率化的统计,运用贝叶斯决策理论对TFIDF算法进行优化,克服传统的TFIDF算法存在着缺陷.实验结果表明,优化后的TFIDF算法在进行中文关键词智能抽取中,抽取的准确性大幅提高. 展开更多
关键词 tfidf 文本挖掘 贝叶斯统计 关键词提取
在线阅读 下载PDF
基于Hadoop平台的TFIDF算法并行化研究 被引量:2
18
作者 王静宇 赵伟燕 《计算机工程与科学》 CSCD 北大核心 2014年第6期1018-1022,共5页
针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传... 针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验。实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化。 展开更多
关键词 文本分类 MAPREDUCE 并行化 tfidf算法
在线阅读 下载PDF
基于双重并行计算模型的TFIDF算法 被引量:2
19
作者 孙玉强 巢碧霞 《计算机工程与设计》 北大核心 2016年第11期3016-3021,共6页
针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document freque... 针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document frequency)改进算法的特点,实现基于双重并行自适应计算模型的改进TFIDF算法。实验中,在不同的运行环境下对改进TFIDF算法的运行效率进行对比分析,比较不同计算节点下算法的执行效率,实验结果表明,改进TFIDF算法可实现对海量数据的高速有效处理,随着节点数量的增加,双重并行自适应计算下,算法执行效率更加高效。 展开更多
关键词 tfidf改进算法 MAPREDUCE模型 图形处理器 并行计算 自适应
在线阅读 下载PDF
中国本土管理学派研究——基于TFIDF关键词抽取算法的聚类分析与内核提取 被引量:1
20
作者 宋孜宇 张迪 《商业经济研究》 北大核心 2015年第30期97-100,共4页
为了深入研究中国本土管理理论的六大学派,本文应用基于TFIDF算法的关键词抽取技术,通过关键词群的抽取和提炼,构建了六个特征性变量,同时计算出各学派在这六个变量上的TFIDF值,并以此为基础进行了聚类分析,从而明确了各学派之间的区别... 为了深入研究中国本土管理理论的六大学派,本文应用基于TFIDF算法的关键词抽取技术,通过关键词群的抽取和提炼,构建了六个特征性变量,同时计算出各学派在这六个变量上的TFIDF值,并以此为基础进行了聚类分析,从而明确了各学派之间的区别与联系,最后对中国本土管理学派的共性思想内核进行了提炼和深刻阐释。 展开更多
关键词 中国本土管理学派 tfidf算法 聚类分析 思想内核
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部