基于领域特征词加权的文本相似度计算被引量：2

Text similarity calculation based on weighting domain feature word

下载PDF

导出

摘要为了改善一个词可能在多个类别中有较大的互信息而模糊了词的类别信息的问题,提出了一种改进的特征选择方法。该方法利用特征词在不同类别之间的表征差异建立领域特征词(即最能表现一个领域的信息的一系列词)从而可以对用互信息建立的特征集进行再次选择,这样既减少了特征的维数又使特征表示更有效。同时,还设计了一个文本相似度计算系统,系统中改进了传统的tf-idf。实验结果表明,改进的特征选择方法和设计的系统具有良好的性能效果。 To solve that a word may has greater mutual in multiple categories which leads to the category information of the word is fuzzy, a new method for feature selection based on mutual information is proposed by establishing domain feature words （They behave domain information better） which utilize the differences in the representation of word in different domains. By the me thod, the feature set out of the established one based on the traditional mutual information is reselected. It not only reduces the dimension of the vector but also represent the text more effectively. At the same time, a text similarity calculation system is designed and in this system the tradition tf-idf is improved. The experimental results show that the improved method of feature extraction is much more superior to traditional mutual information and the performance of the system is good.

作者欧阳宁罗艳

机构地区桂林电子科技大学研究生学院

出处《计算机工程与设计》 CSCD 北大核心 2012年第11期4338-4342,共5页 Computer Engineering and Design

基金广西自然科学基金项目(2011GXNSFA018158) 广西科学研究与技术开发计划基金项目(桂科攻11107006-45 桂科攻0996028)

关键词互信息文本分类特征选择领域特征词文本相似度 mutual information text classification feature selection domain feature word text similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1张翔,邓赵红,王士同,蔡及时.极大熵Relief特征加权[J].计算机研究与发展,2011,48(6):1038-1048. 被引量：9
2Christopher D. Manning, Parbhakar Ragha-van, Hinrich Schutze.信息检索导论[M].王斌,译.北京:人民邮电出版社,2010:76-287.
3何绍荣,梁金明,何志勇.基于互信息和关系积理论的特征选择方法[J].计算机工程,2010,36(13):257-259. 被引量：11
4王红军,李志蜀,戚建淮,成飏,周鹏,周维.基于贝叶斯网络的半监督聚类集成模型[J].软件学报,2010,21(11):2814-2825. 被引量：9
5陈诗国,张道强.半监督降维方法的实验比较[J].软件学报,2011,22(1):28-43. 被引量：24
6杨云,吴亚男,李健.基于潜在特征词的文本相似度计算方法[J].计算机工程与设计,2011,32(2):572-575. 被引量：5
7陈景年,黄厚宽,田凤占,瞿有利.一种用于贝叶斯分类器的文本特征选择方法[J].计算机工程与应用,2008,44(13):24-26. 被引量：6
8Antonio Arauzo-Azofra, Jose Luis Aznart, Jose M. Benitez. Empirical study of feature selection methods based on individual feature evaluation for classification problems[J]. Expert Systems withApplieations, 2011, 38 (7): 8170-8177.
9Constantin F Aliferis, Alexander Statnikov, Ioannis Tsamardinos, et al. Local causal and Markov blanket induction for causal discovery and feature selection for classification [J]. Journal of Machine Learning Research, 2010, 11: 171-234.
10Chow Kok Kent, Naomie Salim. Features based text similarity detection [J]. Journal of Computing, 2010, 2 (1): 2151-9617.

二级参考文献46

1邓赵红,王士同,吴锡生,胡德文.鲁棒的极大熵聚类算法RMEC及其例外点标识[J].中国工程科学,2004,6(9):38-45. 被引量：12
2唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：99
3王熙照,安素芳.基于极大模糊熵原理的模糊产生式规则中的权重获取方法研究[J].计算机研究与发展,2006,43(4):673-678. 被引量：7
4寇苏玲,蔡庆生.中文文本分类中的特征选择研究[J].计算机仿真,2007,24(3):289-291. 被引量：30
5Yang Y,Pedersen J O. A comparative study on feature selection in text categorization[C]//Proceedings of the 14th International Conference on Machine Learning, Nashville, USA, 1997:412-420.
6Mladenic D,Grobelnik M.Feature selection for unbalanced class distribution and Naive Bayes[C]//Proceedings of 16th International Conference on Machine Learning,San Francisco,1999:255-267.
7Forman G.An extensive empirical study of feature selection metrics for text classification[J]Journal of Machine Learning Research,2003,3:1289-1305.
8McCallum A,Nigam K& comparison of event models for naive bayes text classification[C]//Proceedings of AAAI-98 Workshop on Learning for Text Categorization.Menlo Park : AAAI Press, 1998 : 41-48.
9黄麟.智能计算[M].重庆:重庆大学出版社,2004:30-45.
10彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：45

共引文献61

1钟将,孙启干,李静.面向文本分类的矩阵投影算法[J].计算机工程与应用,2010,46(35):129-132.
2李春生,程兆全,赵冰冶.一种基于分类的扩展向量空间信息检索模型研究与应用[J].科学技术与工程,2010,10(33):8164-8167.
3徐丽,蔡方凯,陈小锋.贝叶斯分类器在智能交通中人车识别的研究[J].成都电子机械高等专科学校学报,2011,14(1):43-46.
4梁昌勇,王倩倩,陆文星,丁勇.结合商品标题和描述的在线评论特征词选择方法研究[J].现代图书情报技术,2011(5):49-54. 被引量：4
5张春涛,郭皎,徐家良.基于稀疏表示的半监督降维方法[J].计算机工程与应用,2011,47(20):181-183. 被引量：8
6牟琦,龚尚福,毕孝儒,厍向阳.基于快速属性约简的网络入侵特征选择[J].计算机工程,2011,37(17):113-115. 被引量：4
7陈建华,王治和,蒋芸.基于类别区分度和关联性分析的综合特征选择[J].计算机工程,2012,38(9):186-188. 被引量：1
8蒋勇,谭怀亮,王祖析,张朝霞.基于量子遗传算法的XML聚类集成[J].计算机应用研究,2012,29(6):2200-2204.
9张晓龙,尧世文,胡建杭,董人菘,王华.基于广义最大熵回归的自适应艾萨炉铜熔炼工艺参数的软测量[J].昆明理工大学学报（自然科学版）,2012,37(4):19-25. 被引量：3
10张爱科,符保龙,李辉.基于改进的模糊聚类RBF网络集成的文本分类方法[J].四川大学学报（自然科学版）,2012,49(6):1235-1239. 被引量：5

同被引文献16

1施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：227
2毛林,高正红.概念层次下文本特征权修正[J].科技创新导报,2009,6(27):190-191. 被引量：2
3黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：230
4徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：248
5宋昊苏,李宁,张伟.VSM模型在文档结构识别中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):66-69. 被引量：10
6刘勘,周丽红,陈譞.基于关键词的科技文献聚类研究[J].图书情报工作,2012,56(4):6-11. 被引量：18
7吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
8杨春媛,李满生,朱云平.生物医学领域本体的构建、评估与应用[J].中国科学：生命科学,2013,43(3):223-239. 被引量：10
9鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
10张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：60

引证文献2

1郭涛,霸元婕,李绍昂.基于公共词集对长篇小说相似度的研究[J].软件工程,2018,21(10):11-13.
2郝淼,谭红,张成梅,于杰,黄伟.基于TF-IDF方法融合生物医学同义词的相似度计算方法[J].贵州科学,2019,37(6):91-96.

1李斌.五种最高的Unix服务器[J].管理观察,1996,0(10):48-48.
2韩永峰,郭志刚,陈翰,许旭阳.基于领域特征词的突发事件层次分类方法[J].信息工程大学学报,2012,13(5):593-600. 被引量：3
3申剑博.改进的TF-IDF中文本特征词加权算法研究[J].软件导刊,2015,14(4):67-69. 被引量：10
4秦杰,曹雷,彭辉,赖俊.一种面向军事文本的领域特征词向量描述方法[J].计算机工程,2016,42(8):160-165. 被引量：7
5王红玲,郑纲.改进的贝叶斯算法在垃圾邮件过滤中的应用[J].信息通信,2013,26(9):85-86. 被引量：1
6张志强,郑家恒.基于加权类轴的Web文本分类方法研究[J].计算机应用,2004,24(2):148-150. 被引量：3
7刘杰,骆力明,吴宇航,马轶芳,蔡红梅.一种中文领域网页过滤方法[J].北京理工大学学报,2014,34(5):533-536. 被引量：2
8刘聪,许莉娟.基于Java的分布式高性能计算架构[J].盐城工学院学报（自然科学版）,2013,26(3):10-13. 被引量：1
9蒋云涛.使用＂360硬件大师＂查阅硬盘性能参数[J].电子乐园,2012(2):111-111.
10陈少英,黄浩锋.支持向量机算法在邮件过滤中的应用[J].福建电脑,2007,23(8):99-100.

计算机工程与设计

2012年第11期

浏览历史

内容加载中请稍等...

基于领域特征词加权的文本相似度计算被引量：2

参考文献11

二级参考文献46

共引文献61

同被引文献16

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于领域特征词加权的文本相似度计算 被引量：2

参考文献11

二级参考文献46

共引文献61

同被引文献16

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于领域特征词加权的文本相似度计算被引量：2