一种改进的特征选择方法被引量：1

An improved feature selection

下载PDF

导出

摘要特征权值的选择是文本分类的基础环节,TFIDF是文档特征权值表示常用方法之一。但其过于简单的词频和反文档频率表达式会忽略在一个类中频繁出现的特征,导致了特征预测能力相互削弱。文中提出了一种改进的特征选择算法(I-TFIDF),能更好的体现特征词条的权重,从而有效提高分类的正确率。实验结果表明I-TFIDF比传统的TFIDF算法具有更好的性能。 The selection of feature weight is a basic link of text categorization. And TFIDF is a kind of common method of feature weight. But the formula of Term Frequency and Inverse Document Frequency is too easy to ignore the terms which appears repeatedly,and can result in the fact that one feature＇s predictive power is weakened by oth- ers. In this paper, we propose a new improved feature selection method（I -TFIDF）. The simulated results show that the presented algorithm has the obvious advantage compared with the traditional IFIDF model and it can improve the accuracy of text categorization.

作者宋志辉

机构地区贵州师范学院

出处《贵州教育学院学报》 2009年第6期54-56,共3页 Journal of Guizhou Educational College(Social Science Edition)

关键词文本分类特征项 TFIDF text categorization feature selection TFIDF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1何中市,刘里.基于上下文关系的文本分类特征描述方法[J].计算机科学,2007,34(5):183-186. 被引量：6
2张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
3李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
4徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：57
5范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53
6寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
7张云涛,龚玲,王永成.An improved TF-IDF approach for text classification[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):49-55. 被引量：6
8李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：79

二级参考文献35

1谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：54
2任纪生,王作英.基于特征有序对量化表示的文本分类方法[J].清华大学学报（自然科学版）,2006,46(4):527-529. 被引量：4
3James Auen.Natural Language Understandin[M].The Benjamin/Cummings Publishing Company, 1991-05.
4Apte C,Damerau F J,Weiss S M.Automated Learning of Decision Rules for Text Categorization[J].ACM Trans On Inform Syst,12(3): 233-251.
5Salton G,Buckley B.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management, 1998 ; 24(5 ) :513 -523.
6Larkey L S.A Patent Search and Classification System[C].In:proceedings of DL-99,4th ACM Conference on Digital Libraries Berkeley,CA,1999:179-187.
7Salton G,Lesk M E.Computer Evaluation of Indexing and Text Processing[J].Association for Computing Machinery, 1968 ; 15 ( 1 ) : 8-36.
8Yang Y，http://citeseernjneccom/yang97comparativehtml，1997年
9Lang K，Proc the 12th Int Conference on Machine Learning（ICML 95），1995年，331页
10Maron M E.On relevance probabilistic indexing and information retrival [J]. Journal of the ACM, 1960,7(3).

共引文献417

1田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
2李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：8
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4王世卫,李爱国.报税欺诈检测研究[J].仪器仪表学报,2005,26(z1):900-901.
5张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
6童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
7于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
8刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
9单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
10陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2

同被引文献5

1刘宇松.本体构建方法和开发工具研究[J].现代情报,2009,29(9):17-24. 被引量：41
2蒋建慧,陈玉泉.基于词语量化关系的主题概念抽取算法研究[J].计算机仿真,2009,26(12):122-125. 被引量：2
3宋宣辰,刘贵全.基于主题概念抽取的多文档文摘方法[J].计算机工程,2010,36(4):190-192. 被引量：5
4游宏梁,张巍,沈钧毅,刘挺.一种基于加权投票的术语自动识别方法[J].中文信息学报,2011,25(3):9-16. 被引量：16
5何琳.基于多策略的领域本体术语抽取研究[J].情报学报,2012,31(8):798-804. 被引量：16

引证文献1

1时公泽,王浩畅.基于双模式的产品指标本体概念抽取[J].信息技术,2017,41(3):26-29. 被引量：1

二级引证文献1

1袁钺,庞娜,李广建.美国《商业管制清单》中技术指标自动抽取研究[J].数据分析与知识发现,2023,7(1):35-48. 被引量：5

1陈国松,黄大荣.基于信息熵的TFIDF文本分类特征选择算法研究[J].湖北民族学院学报（自然科学版）,2008,26(4):401-404. 被引量：5
2连远锋,侯锟,张沛露,许建潮.演化计算在特征词条优化中的应用[J].长春工业大学学报,2004,25(1):32-35.
3许高建,路遥,胡学钢,涂立静.一种改进的文本特征选择方法的研究与设计[J].苏州大学学报（工科版）,2008,28(2):18-22. 被引量：4
4许高建,胡学钢,路遥,涂立静.一种改进的文本特征选择方法的研究与设计[J].微型电脑应用,2008,24(5):21-23. 被引量：1
5聂瑞华,张科伦,梁军.一种改进的云存储系统容错机制[J].计算机应用研究,2013,30(12):3724-3728. 被引量：3
6阿乱.改良版本别样红 XFX讯景GeForce 7600GS DDR3版[J].电脑迷,2006,0(12):19-19.
7范寒柏,尹成群,马岗.用VHDL语言设计数字系统[J].电力情报,2000(1):52-55. 被引量：1
8刘怡.物流企业运输管理系统的分布式数据库设计[J].电脑知识与技术（过刊）,2009,15(10X):8104-8106. 被引量：2
9曹二堂,刘玉林.基于语义理解的智能搜索引擎的研究[J].情报杂志,2005,24(6):58-59. 被引量：7
10听音识密码[J].新电脑,2013(5):48-48.

贵州教育学院学报

2009年第6期

浏览历史

内容加载中请稍等...

一种改进的特征选择方法被引量：1

参考文献8

二级参考文献35

共引文献417

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种改进的特征选择方法 被引量：1

参考文献8

二级参考文献35

共引文献417

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种改进的特征选择方法被引量：1