基于支持向量机的中文文本自动分类研究被引量：14

Research of chinese-text automatic classification based on SVM

下载PDF

导出

摘要提出了一种基于支持向量机的文本自动分类方法,并进行了实验研究。在详细介绍了进行文本分类的实验过程和在实验中使用支持向量机的方法的基础上,通过实验比较了支持向量机算法和传统的KNN算法应用于文本分类的效果,并针对支持向量机算法的缺点,提出了进行文本预处理时的改进方法。实验结果表明了支持向量机在处理文本分类问题上的优越性。 A Chinese-text automatic classification method based on SVM is presented. After describing the experiment programming of text classification and how to use Support Vector Machine to text classification, we compare the experiment results of using SVM and using the traditional text-classification algorithm--KNN to Chinese-text automatic classification, and to counter shortcoming in SVM, a improved method for pre-processing text is proposed. It shows that the SVM is superior.

作者马金娜田大钢

机构地区上海理工大学管理学院

出处《系统工程与电子技术》 EI CSCD 北大核心 2007年第3期475-478,共4页 Systems Engineering and Electronics

基金上海市重点学科基金(T0502) 上海市教育委员会发展基金(05E233)资助课题

关键词文本分类支持向量机特征提取 text classification SVM feature selection

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1周雪忠,吴朝晖.文本知识发现:基于信息抽取的文本挖掘[J].计算机科学,2003,30(1):63-66. 被引量：32
2唐菁,沈记全,杨炳儒.基于Web的文本挖掘系统的研究与实现[J].计算机科学,2003,30(1):60-62. 被引量：22
3肖健华.基于支持对象的野点检测方法[J].计算机工程,2003,29(11):43-45. 被引量：23
4Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34 (12):41-47.
5刘志刚,李德仁,秦前清,史文中.支持向量机在多类分类问题中的推广[J].计算机工程与应用,2004,40(7):10-13. 被引量：154
6Atkinson-Abutridy John.Combining information extraction with genetic algorithms for text mining[J].www.Computer.org/Intelligent,IEEE Intelligent Systems,2004:22-30.
7Sun Aixin,Lim EePeng.Blocking reduction strategies in hierarchical text classification[J].IEEE,2004,16(10):1305-1308.
8Pedersen J A Comparative study on feature selection in text categorization[C]// ICML-99,412-420.
9都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究[J].计算机工程,2002,28(11):137-138. 被引量：25
10李辉,史忠植,许卓群.运用文本领域的常识改善基于支撑向量机的文本分类器性能[J].中文信息学报,2002,16(2):7-13. 被引量：16

二级参考文献63

1范金城,胡峰.动态测量数据的抗扰性分析研究[J].数理统计与应用概率,1996,11(3):244-248. 被引量：25
2邹涛.基于WWW的信息发现技术研究（博士学位论文）[M].南京：南京大学,1999..
3袁曾任.人工神经元网络及其应用[M].北京:清华大学出版社,2000..
4李辉.支撑向量机及其在文本分类中的应用，北京大学博士论文[M].,2001..
5Peter Cord等邵维忠等（译）.Object-Oriented Analysis.Yourdon Press[M].北京:北京大学出版社,1992.65-77.
6HANJIAWEI MICHELINEKAMBER.DataMiningconceptsandtechniques[M].北京：高等教育出版社,2001..
7C Cortes, V N Vapnik. Support vector networks. Machine Learning, 1995, 20(3): 273-297
8C Burges. A tutorial on support vector machines for pattern recongnition. Data Mining and Knowledge Discovery, 1998, 2(2): 1～43
9T Joachims. Text categorization with support vector machines:Learning with many relevant features. In: C Nedellec ed. Proc of ECML-98. Heidelberg: Springer-Verlag, 1998. 137～142
10E Leopold, J Kindermann. Text categorization with support vector machines, How to represent texts in input space? Machine Learning, 2002,46(1-3): 423～444

共引文献323

1杨丽华,李保林.邮件过滤系统中预处理方法的研究与实现[J].湖北汽车工业学院学报,2007,21(3):40-43. 被引量：2
2马建斌,滕桂法,李滢,赵洋.TSVM在电子邮件作者身份分类技术上的应用[J].河北工业大学学报,2005,34(Z1):124-126.
3袁胜发,褚福磊.SVM多类分类算法及其在故障诊断中的应用[J].振动工程学报,2004,17(Z1):419-421.
4邱绵浩,田辉,安钢,刘东利.有向无环图决策支持向量机和经验模式分解在轴承故障诊断中的应用[J].装甲兵工程学院学报,2008,22(4):53-56.
5何文才,张琼,余菲,都婧,焦黎冰.基于树状SVM的网页分类与信息安全过滤系统研究[J].网络安全技术与应用,2008(8):27-29.
6刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
7王媛,杨兆升,管青,杨朝.基于层次支持向量机的区域战略交通控制策略优化方法[J].吉林大学学报（工学版）,2009,39(1):38-44. 被引量：3
8李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
9吕秀莲,高国臣,石瑛.吉化“五性”工作法──生产经营中的思想政治工作方法探索[J].石油政工研究,2002(2):15-16.
10李一平,姚宏亮.C4.5算法在成绩分析中的应用[J].微型电脑应用,2011(6):51-53. 被引量：1

同被引文献143

1金永强,苏怀智,李子阳.基于和声搜索的边坡稳定性投影寻踪聚类分析[J].水利学报,2007,38(S1):682-686. 被引量：13
2庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
3邱江涛,唐常杰,乔少杰,段磊,刘齐宏.基于加权频繁项集的文本分类规则挖掘[J].四川大学学报（工程科学版）,2008,40(6):110-114. 被引量：3
4祁亨年.支持向量机及其应用研究综述[J].计算机工程,2004,30(10):6-9. 被引量：196
5赵国涛,何钦铭.基于本体的异构文本分类系统[J].计算机工程,2004,30(21):123-125. 被引量：4
6陈雪天,李荣陆.使用最大熵模型进行文本分类[J].计算机工程与应用,2004,40(35):78-79. 被引量：4
7胡于进,周小玲,凌玲,王学林.基于向量空间模型的贝叶斯文本分类方法[J].计算机与数字工程,2004,32(6):28-30. 被引量：7
8孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
9崔国勤,高文.基于双层虚拟视图和支持向量的人脸识别方法[J].计算机学报,2005,28(3):368-376. 被引量：14
10陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14

引证文献14

1姚兴山.基于统计的中文文本分类研究[J].情报理论与实践,2009,32(5):95-98. 被引量：1
2周法国,王映龙,杨炳儒,陈卓.基于发现特征子空间模型的文本分类算法[J].计算机应用研究,2009,26(10):3712-3715. 被引量：2
3兰均,施化吉,李星毅,徐敏.基于特征词复合权重的关联网页分类[J].计算机科学,2011,38(3):187-190. 被引量：12
4仲兆满,李存华.基于重要事件的文本分类方法研究[J].微电子学与计算机,2012,29(3):6-9.
5朱平,范少辉,岳永德.一种集成本体和SVM的文本分类方法[J].江西理工大学学报,2012,33(1):68-72. 被引量：4
6杨敏,谷俊.基于SVM的中文书目自动分类及应用研究[J].图书情报工作,2012,56(9):114-119. 被引量：23
7艾青,赵骥,秦玉平.基于最大间隔最小体积超球支持向量机的多主题分类算法[J].计算机科学,2012,39(8):237-238. 被引量：1
8傅丽君,潘旭伟,李娜.集成自动分类的垂直搜索引擎及其应用[J].情报杂志,2012,31(12):135-139. 被引量：1
9阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11
10邹钰.基于逻辑回归模型的垃圾短信过滤系统的研究[J].数字技术与应用,2013,31(2):77-77. 被引量：2

二级引证文献63

1钱程,阳小兰.基于语义扩展的网页标签推荐系统[J].计算机工程与科学,2012,34(10):145-149.
2朱平,费本华,范少辉,王虎.基于本体的自动文摘方法研究与实现[J].计算机与现代化,2013(3):34-37.
3姜锐,衣马木艾山.阿布都力克木.一种基于支持向量机集成的决策树分类算法[J].科技通报,2013,29(8):145-147. 被引量：5
4施晓华,李芳.知识体系互操作中贝叶斯学习方法应用研究[J].情报杂志,2013,32(8):165-168. 被引量：2
5阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,瓦依提.阿不力孜,艾山.吾买尔.基于类别分布差异和特征熵的维吾尔语文本特征选择[J].计算机应用研究,2013,30(10):2958-2961. 被引量：5
6丛伟杰,刘红卫.基于积极集策略的最小闭包球问题算法研究[J].计算机科学,2013,40(9):234-236. 被引量：4
7洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
8库波.一种基于子集抽取的数据分布不一致学习算法[J].科技通报,2013,29(12):118-120.
9张亚军,吴晓林,贺琛琛.浅谈新疆多语种智能化研究现状[J].电脑知识与技术,2014(1):138-140.
10韩文凤,胡正华.基于逻辑回归分析的性格测试模型[J].江苏科技信息,2014,31(4):81-82.

1彭玉容,沈红岩,程芳.搜索引擎中的文本分类方法研究[J].中国新技术新产品,2008(17):21-21.
2李琼,董燕燕.基于支持向量机的多类文本自动分类方法研究[J].汉口学院学报,2013,6(2):65-67.
3白如江.基于粗糙集和RBF神经网络的文本自动分类方法[J].现代图书情报技术,2006(6):47-51. 被引量：3
4王汉萍,孟庆春,张继军,李占斌,殷波.基于粗糙集的文本自动分类方法的研究[J].信息技术,2003,27(8):46-48. 被引量：7
5游琪.基于BP神经网络的文本自动分类系统设计[J].现代计算机,2010,16(5):56-58.
6盛秋艳.文本自动分类技术的研究[J].交通科技与经济,2006,8(3):92-93.
7杨应全.网络环境下文本自动分类分析[J].现代情报,2005,25(3):168-170.
8郑凤萍.基于模糊VSM和RBF网络文本分类方法的研究与实现[J].图书情报工作,2007,51(7):47-49. 被引量：2
9郭少友.一种基于词上下文向量的文本自动分类方法[J].情报科学,2008,26(7):1030-1034. 被引量：5
10谭德坤.基于混沌微粒群算法的文本分类研究[J].计算机应用研究,2010,27(12):4464-4466. 被引量：2

系统工程与电子技术

2007年第3期

浏览历史

内容加载中请稍等...

基于支持向量机的中文文本自动分类研究被引量：14

参考文献15

二级参考文献63

共引文献323

同被引文献143

引证文献14

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的中文文本自动分类研究 被引量：14

参考文献15

二级参考文献63

共引文献323

同被引文献143

引证文献14

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的中文文本自动分类研究被引量：14