基于SVM的中文网页分类方法的研究被引量：22

Study on Chinese web page classification based on SVM

下载PDF

导出

摘要中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 Chinese web page classification has been considered as a hot research area in data mining. SVM is an effective method for learning the classification knowledge from massive data, especially in the situation of high cost in getting labeled classical examples. Based on the analyses of features of Chinese web pages, A Chinese web page classification algorithm based on SVM is presented to effectively organize the rich information on the Internet, including the important aspects of text preprocessing, feature selection and multiple-class algorithm. The experiments show that it not only reduces the size of train set, but also has very high training efficiency. Its precision and recall are also very good.

作者牛强王志晓陈岱夏士雄

机构地区中国矿业大学计算机科学与技术学院

出处《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页 Computer Engineering and Design

基金中国矿业大学青年科研基金项目(OD4490)

关键词支持向量机特征提取核函数网页文本分类 support vector machine feature selection kernel function web page text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：295
2Zhang Yizhong,Zhao Mingsheng,Wu Youshou.The automatic classification of web pages based on neural networks[C].Neural Information Processing,ICONIP2001 Proceedings,2001.570-575.
3Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34 (1):11-12,32-33.
4杜树新,吴铁军.模式识别中的支持向量机方法[J].浙江大学学报（工学版）,2003,37(5):521-527. 被引量：121
5张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2314
6朱明,王军,王俊普.Web网页识别中的特征选择问题研究[J].计算机工程,2000,26(8):35-37. 被引量：29
7Deng Zhi-Hong,Tang Shi-Wei,Yang Dong-Qing,et al.Two odds radio-based text classification algorithms[C].Singapore:Proceedings of 1st International Workshop on Mining for Enhanced Web Search (MEWS 2002,Workshop of 3rd Conference of Web Information Systems Engineering),IEEE CS Press,2002.223-230.
8Liang Jiu-zhen.Svm based Chinese web page automatic classification[C].Shanghai:Proceedings of the Third International Conference on Machine Learning and Cybernetics,IEEE,2003.2265-2268.
9陈展荣,曾毅平.Web汉语料的智能抽取与词汇切分[J].计算机工程与设计,2005,26(6):1422-1424. 被引量：4

二级参考文献42

1黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
2黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
3鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
4卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
5VAPNIK V N. The nature of statistical learning [M].Berlin:Springer, 1995.
6VAPNIK V N. Statistical learning theory [M]. New York:John Wiley & Sons, 1998.
7SCHōLKOPH B, SMOLA A J, BARTLETT P L. New support vector algorithms[J]. Neural Computation.2000, 12(5):1207--1245.
8SUYKENS J A K, VANDEWALE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293--300.
9CHEW H-G, BOGNER R E, LIM C-C, Dual v-support vector machine with error rate and training size beasing[A]. Proceedings of 2001 IEEE Int Conf on Acoustics,Speech, and Signal Processing [C]. Salt Lake City,USA: IEEE, 2001. 1269--1272.
10LIN C-F, WANG S-D. Fuzzy support vector machines[J]. IEEE Trans on Neural Networks, 2002, 13(2):464--471.

共引文献2733

1白岗岗,侯精明,史玉品,韩浩,郭凯华,李丙尧,付德宇.基于支持向量机的葫芦河流域径流变化的多因素贡献率分析[J].水土保持研究,2020,27(2):112-117. 被引量：3
2曾赟.第四种法学知识新形态——数据法学的研究定位[J].法制与社会发展,2023,29(1):41-59. 被引量：21
3乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
4孟琮棠,赵银娣,向阳.基于卷积神经网络的遥感图像变化检测[J].现代测绘,2019,0(5):1-5. 被引量：4
5田海军,门洪,郎世伟.基于LS-SVM的电厂过热汽温仿真研究[J].微计算机信息,2007,23(10):270-272. 被引量：2
6张磊,夏士雄,牛强.基于SVM二叉决策树方法的矿井提升机故障诊断[J].微计算机信息,2008,24(10):198-199. 被引量：4
7瞿伟廉,谭冬梅.基于小波分析和支持向量机的结构损伤识别[J].武汉理工大学学报,2008,30(2):80-82. 被引量：3
8郑树剑,刘冀伟,何积铨,韩旭.基于支持向量机的混凝土结构中钢筋腐蚀的判别[J].电子器件,2007,30(5):1935-1938.
9殷彬,方思行.脾虚证诊断的数学模型[J].暨南大学学报（自然科学与医学版）,2006,27(3):363-367. 被引量：4
10王宇,丁萍,吴峻.基于SVM的光纤陀螺标度因数建模研究[J].舰船电子工程,2008,28(5):78-80. 被引量：1

同被引文献157

1孙伟,冯萍.一种启发式宏病毒扫描技术[J].长春大学学报,2007,17(2):59-62. 被引量：3
2彭涛,左万利,赫枫龄,张长利.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006,43(z3):33-38. 被引量：2
3高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
4高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
5龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
6王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
7刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
8李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
9许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
10贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12

引证文献22

1童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
2冀胜利,李波.基于SVM的中文文本分类算法[J].重庆工学院学报（自然科学版）,2008,22(7):84-87. 被引量：5
3童亚拉.结合链接结构聚类的混沌粒子群网页分类规则抽取[J].华中师范大学学报（自然科学版）,2008,42(4):535-538.
4王永智,滕至阳,王鹏,聂江涛.基于LSA和SVM的文本分类模型的研究[J].计算机工程与设计,2009,30(3):729-731. 被引量：10
5阎红灿,李敏强,任蕴丽,阎少宏.结构和内容联合提取的XML网页分类研究[J].天津大学学报（社会科学版）,2009,11(3):272-276. 被引量：2
6宋军涛,周铜,杜庆灵.支持向量机和蚁群算法的网页分类研究[J].计算机工程与应用,2009,45(17):122-124. 被引量：6
7包剑,冀明,冯军.基于模糊支持向量机的文本分类[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):974-977. 被引量：3
8谭德坤.基于混沌微粒群算法的文本分类研究[J].计算机应用研究,2010,27(12):4464-4466. 被引量：2
9左敬龙,余桂兰.具有量子特性的ACA-SVM网页分类方法[J].计算机工程与应用,2011,47(12):49-51. 被引量：3
10李勇.中文网页分类研究综述[J].现代计算机,2012,18(15):3-7. 被引量：1

二级引证文献149

1韩祥民,刘晓波,徐邦贤,邱知,唐辉.基于CEEMD与GWO-SVM算法的配电网高阻接地故障选线方法[J].智能计算机与应用,2021,11(12):143-148. 被引量：2
2施聪莺,徐朝军,杨晓江.基于规则和Rocchio分类器的学前综合教育资源分类[J].现代图书情报技术,2009(7):75-79. 被引量：1
3张玉峰,何超.基于潜在语义分析和改进的HS-SVM的文本分类模型研究[J].图书情报工作,2010,54(10):109-113. 被引量：3
4张玉峰,何超.基于潜在语义分析和HS-SVM的文本分类模型研究[J].情报理论与实践,2010,33(7):104-107. 被引量：9
5左敬龙,余桂兰.具有量子特性的ACA-SVM网页分类方法[J].计算机工程与应用,2011,47(12):49-51. 被引量：3
6张玉峰,何超.基于语义空间和SVM的竞争情报分类分析模型研究[J].情报杂志,2011,30(6):161-163. 被引量：1
7杜利峰,牛永洁.蚁群算法在MATLAB中的实现[J].信息技术,2011,35(6):115-118. 被引量：8
8路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(7):76-81. 被引量：6
9陈葡,谢晓尧,徐洋.基于词序列核的垃圾邮件过滤[J].武汉大学学报（理学版）,2011,57(5):419-423. 被引量：1
10毕明霞,黄汉明,边银菊,李锐,陈银燕,赵静.天然地震与人工爆破波形信号HHT特征提取和SVM识别研究[J].地球物理学进展,2011,26(4):1157-1164. 被引量：27

1刘科.基于KNN算法的文本分类[J].科技经济市场,2009(6):12-14. 被引量：3
2王晓锋,秦玉平.基于支持向量机的网页多类分类技术[J].大连轻工业学院学报,2007,26(4):359-362. 被引量：1
3计算机应用[J].中国学术期刊文摘,2006,12(12):3-3.
4牛强,王志晓,陈岱,夏士雄.基于KNN的Web文本分类方法的研究[J].计算机应用与软件,2007,24(10):210-211. 被引量：8
5张如云.文本配色在网页设计中的应用研究[J].办公自动化,2016,21(19):57-58.
6田苗苗.基于决策树的文本分类研究[J].吉林师范大学学报（自然科学版）,2008,29(1):54-56. 被引量：9
7郑津,景彦昊.中文网页分类技术解析[J].福建电脑,2015,31(2):73-74.
8包剑,冀明,冯军.基于模糊支持向量机的文本分类[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):974-977. 被引量：3
9李锐.网页文本分类挖掘的几种算法研究[J].福建电脑,2008,24(10):36-36. 被引量：2
10软件速递[J].大众硬件,2003(8):130-130.

计算机工程与设计

2007年第8期

浏览历史

内容加载中请稍等...

基于SVM的中文网页分类方法的研究被引量：22

参考文献9

二级参考文献42

共引文献2733

同被引文献157

引证文献22

二级引证文献149

相关作者

相关机构

相关主题

浏览历史

基于SVM的中文网页分类方法的研究 被引量：22

参考文献9

二级参考文献42

共引文献2733

同被引文献157

引证文献22

二级引证文献149

相关作者

相关机构

相关主题

浏览历史

基于SVM的中文网页分类方法的研究被引量：22