基于信息熵的TFIDF文本分类特征选择算法研究被引量：5

Feature Selection Model of TFIDF Text Categorization Based on Information Entropy

下载PDF

导出

摘要特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度. The selection of feature weight is a basic link of text categorization. First, the traditional TFIDF feature selection algorithm was introduced in detail. Then we presented an improved TFIDF feature selection method based on information entropy. Finally, simulation examples indicated the presented algorithm is effective. The theoretical analysis indicates that the presented algorithm has the obvious advantage compared with the traditional TFIDF model and it can improve the accuracy of text categorization.

作者陈国松黄大荣

机构地区浙江省宁波市北仑区灵山学校重庆交通大学信息与计算科学所

出处《湖北民族学院学报（自然科学版）》 CAS 2008年第4期401-404,409,共5页 Journal of Hubei Minzu University(Natural Science Edition)

基金重庆市自然科学基金项目(CSTC 2006BB2422) 重庆市教委科学技术研究项目(KJ060414) 重庆交通大学博士启动基金(07-01-12)

关键词文本分类特征词条信息熵 TFIDF 特征选择 text categorization feature lemma information entropy TFIDF feature selection

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Sebastiani F Machine learning in automated text categorization [ J ]. ACM Computing Survey,2002,34 (I) :1 -47.
2陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
3余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
4罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：56
5Yah Jun, Liu Ning, Zhang Benyu. OCFS:Optimal orthogonal Centroid Feature Selection for test eatagorization[ M ]. Brazil:SlGIR,2005.
6鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
7Qin, Yu Shiwen. An adaptive knearest neighbor[ C ]//ACM Transactions on Asian Languague Ifmation Processing( TALIP), New York :ACM Press, 2004:215 -226.
8初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14

二级参考文献44

1陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
2Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页
3Apte C, Damerau F J, and Weiss S M. Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 1994, 12:233- 251.
4Yang Yiming, and Pedersen J O. A comparative study on feature selection in text categorization. In- Proceedings of the 14^th International Conference on Machine Learning (ICML-97), 1997. 412 - 420.
5Hwee Tou Ng, Wei Boon Goh, and Kok Leong Low. Feature selection, perceptron learning, and a usability case study for text categorization. In: Proceedings of the 20^th ACM International Conference on Research and Development in Information Retrieval (SIGIR-97), 1997. 67 - 73.
6Schutze H, Hull D A, and Pedersen J O. A comparison of classifiers and document representations for the routing problem. In: Proceedings of the 18^th ACM International Conference on Research and Development in Information Retrieval (SIGIR-95). 1995. 229 - 237.
7Li Y H, and Jain A K. Classification of text document. The Computer Journal, 1998, 41(8) :537 - 546.
8Deerwester S, Dumais S, Furnas D, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990, 41 (6) : 391 - 407.
9Thomas Hofmann. Probabilistic latent semantic indexing. In:Proceedings of the 22^nd ACM International Conference on Research and Development in Information Retrieval (SIGIR-99), 1999. 50-57.
10Thomas K Landauer, Peter W Foltz, and Darrell Laham. An introduction to latent semantic analysis. Discourse Processes,1998, 25:259 - 284.

共引文献259

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：21
2周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
3况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
4刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
5许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
6胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
7王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
8徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：57
9吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法[J].计算机与数字工程,2005,33(3):11-13. 被引量：4
10王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3

同被引文献39

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
3寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
4庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
5张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
6张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
7钱晓东.数据挖掘中分类方法综述[J].图书情报工作,2007,51(3):68-71. 被引量：28
8龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
9初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
10周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：29

引证文献5

1赵小华,马建芬.文本分类算法中词语权重计算方法的改进[J].电脑知识与技术,2009,0(12X):10626-10628. 被引量：9
2周源,刘怀兰,杜朋朋,廖岭.基于改进TF-IDF特征提取的文本分类模型研究[J].情报科学,2017,35(5):111-118. 被引量：56
3王宇,刘斌.基于中心向量法与万有引力模型相结合的文本分类[J].微电子学与计算机,2017,34(11):119-123. 被引量：1
4段国仑,谢钧,郭蕾蕾,王晓莹.Web文档分类中TFIDF特征选择算法的改进[J].计算机技术与发展,2019,29(5):49-53. 被引量：4
5邵欣欣.改进的贝叶斯算法在商品分类中的应用研究[J].软件工程,2021,24(7):28-30. 被引量：1

二级引证文献71

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：11
2郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
3路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：55
4路永和,李焰锋.多因素影响的特征选择方法[J].现代图书情报技术,2013(5):34-39. 被引量：3
5李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
6杜坤,刘怀亮,郭路杰.结合复杂网络的特征权重改进算法研究[J].现代图书情报技术,2015(11):26-32. 被引量：6
7黄炜,张展程,朱彬,李岳峰,陆薇.基于回归分析的网络恐怖信息主题爬虫[J].图书情报工作,2018,62(4):121-129. 被引量：4
8吴刚勇,张千斌,吴恒超,顾冰.基于自然语言处理技术的电力客户投诉工单文本挖掘分析[J].电力大数据,2018,21(10):68-73. 被引量：19
9潘小换,蒋保建.基于文本挖掘的技术路线图构建研[J].情报工程,2018,4(4):73-81. 被引量：4
10李时.基于大数据的电网设备台账对应准确度提升[J].电力大数据,2018,21(11):15-21. 被引量：3

1连远锋,侯锟,张沛露,许建潮.演化计算在特征词条优化中的应用[J].长春工业大学学报,2004,25(1):32-35.
2许高建,路遥,胡学钢,涂立静.一种改进的文本特征选择方法的研究与设计[J].苏州大学学报（工科版）,2008,28(2):18-22. 被引量：4
3许高建,胡学钢,路遥,涂立静.一种改进的文本特征选择方法的研究与设计[J].微型电脑应用,2008,24(5):21-23. 被引量：1
4宋志辉.一种改进的特征选择方法[J].贵州教育学院学报,2009,25(6):54-56. 被引量：1
5曹二堂,刘玉林.基于语义理解的智能搜索引擎的研究[J].情报杂志,2005,24(6):58-59. 被引量：7
6王珏,刘三阳,张杰.基于广义粗糙近似的信息检索方法研究[J].系统工程与电子技术,2004,26(12):1887-1891. 被引量：2
7马静,何雪枫,简旭文.动态热门话题的“特征词条本体”自动构建与进化研究[J].现代图书情报技术,2016(10):33-41. 被引量：3
8邹加棋,陈国龙,郭文忠.基于图模型的中文文档分类研究[J].小型微型计算机系统,2006,27(4):754-757. 被引量：3
9易明,饶洋辉.基于点击流数据的用户近期兴趣视图生成方法[J].现代图书情报技术,2006(6):55-58. 被引量：1
10张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121

湖北民族学院学报（自然科学版）

2008年第4期

浏览历史

内容加载中请稍等...

基于信息熵的TFIDF文本分类特征选择算法研究被引量：5

参考文献8

二级参考文献44

共引文献259

同被引文献39

引证文献5

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于信息熵的TFIDF文本分类特征选择算法研究 被引量：5

参考文献8

二级参考文献44

共引文献259

同被引文献39

引证文献5

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于信息熵的TFIDF文本分类特征选择算法研究被引量：5