组合降维技术在中文网页分类中的应用被引量：3

Web page categorization based on LSA and features selection

下载PDF

导出

摘要基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。 The feature vector of Chinese Web page is high dimension and very sparse for text categorization.How to reduce the dimensionality of feature space is a very key problem for practical text classification.In this paper a new method is described.The approach is to take advantage of latent semantic analysis and feature selection that use statistical methods.The K-Nearest Neighbor method is selected as the evaluating classifiers.The experimental result shows that the proposed method for Chinese Web page categorization to be promising.

作者李新福

机构地区河北大学数学与计算机学院

出处《计算机工程与应用》 CSCD 北大核心 2007年第24期169-171,共3页 Computer Engineering and Applications

基金河北省自然科学基金(the Natural Science Foundation of Hebei Province Grant No.F2006001020) 河北省教育厅科学基金(the Founda-tion of Education Bureau of Hebei Province Grant No.2005347) 河北大学科学基金(the Fundation of Hebei University Grant No.Y2004045)

关键词网页分类隐含语义分析特征选择KNN Web Page categorization latent semantic analysis feature selection KNN

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
2代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：230
3周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：166
4Constantine Kotropoulos,Athanasios Papaioannou.A novel updating scheme for probabilistic latent semantic indexing[C]//LNCS 3955:Lecture Notes in Artificial Intelligence:2006:137-147.
5Marin Simina,Costin Barbu.Meta latent semantic analysis[C]//2004IEEE Interantional Conference on Systems,Man & Cybernetics,2004(4):3720-3724.
6何伟.LSI潜在语义信息检索模型[J].数学的实践与认识,2003,33(9):1-10. 被引量：9
7Schutze H,Hull D,Pedersen J O.A comparison of Classifiers and document representations for the routing problem[C]//SIGIR Conference in Research and Development in Information Retrieval,1995,229-237.
8Zhang Hao,Berg A C,Maire M,et al.SVM-KNN:discriminative nearest neighbor classification for visual cate gory recognition[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:2126-2136.
9Chiang Jung-Hsien,Chen Yan-Cheng.Hierarchical fuzzy-KNN networks for news documents categorization[C]//10th IEEE International Conference on Fuzzy Systems,2001 (2):720-723.
10Renato Fernandes Correa,Teresa Bernarda Ludermir.Web documents categorization using neural networks[C]//LNCS 3316:Neural Information Processing,2004:758-762.

二级参考文献27

1黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
2Golub G, Loan V Van. Matrix Computations[M]. 3rd ed. The Johns Hopkins University Press, Baltimore, MD,1996.
3Mirsky L. Symmetric gage functions and unitarilly invariant norm[J]. Q J Math, 1960,11:50-59.
4Michael Berry, Jack Dongarra. Atlanta organizers put mathematics to work for the math sciences community[J].SIAM News, 1999,32 : 10-11.
5Scott Deerwester, Susan T Dumais, George W Furnas, Thomas K Landauer, Richard harshman. Indexing by latent semantic analysis[J]. J of the Amer Soc for Inform Sci, 1990,41:391-407.
6Dumais S T. Improving the retrieval of information from external sources[J]. Behavior Res Meth & Comp, 1991,23:229-236.
7Salton G, Buckley C. Improving retrieval performance by relevance feedback[J]. J Amer Soc for Inform Sci, 1990,41:288-297.
8Michael W Berry, Zlatko Drmac, Elizabeth R Jessup. Matrices, vector spaces, and information retrieval[J].SIAM Rev, 1999,41:335-362.
9Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
10Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.

共引文献398

1毕砚昭,张捷,汪浩文,赵歌,王苗苗.可视化技术在媒介丰富性研究中的应用[J].系统仿真技术,2020(3):166-170.
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：9
3骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
4张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
5张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
6王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
7蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
8黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
9贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
10尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.

同被引文献73

1廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
2高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
3付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
4曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
5侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：15
6宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
7宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
8王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：21
9李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：98
10程泽凯 ,林士敏 .文本分类器稳定性评估研究[J].情报学报,2005,24(1):64-68. 被引量：3

引证文献3

1李新福,赵蕾蕾,何海斌,李芳.使用Logistic回归模型进行中文文本分类[J].计算机工程与应用,2009,45(14):152-154. 被引量：10
2肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
3李勇.中文网页分类研究综述[J].现代计算机,2012,18(15):3-7. 被引量：1

二级引证文献17

1路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(7):76-81. 被引量：6
2王欢,武刚,杨抒.基于文本分类的林业Web黄页分类系统[J].计算机系统应用,2012,21(1):21-24. 被引量：2
3许文婕.国际儿科临床期刊PEDIATRICS文献计量学分析[J].中华实用儿科临床杂志,2013,28(4):311-314. 被引量：1
4张志武.跨领域迁移学习产品评论情感分析[J].现代图书情报技术,2013(6):49-54. 被引量：6
5王贤文,毛文莉,王治.基于论文下载数据的科研新趋势实时探测与追踪[J].科学学与科学技术管理,2014,35(4):3-9. 被引量：25
6路永和,梁明辉.遗传算法在改进文本特征提取方法中的应用[J].现代图书情报技术,2014(4):48-57. 被引量：18
7路永和,彭燕虹,刘文秋.面向科研与教学的文本分类平台构建[J].现代情报,2015,35(9):56-62.
8杨艳霞.基于本体的旅游网络评论情感分析与预警系统[J].计算机与数字工程,2016,44(4):649-652. 被引量：4
9万会芳,杜彦璞.K近邻和Logistic回归分类算法比较研究[J].洛阳理工学院学报（自然科学版）,2016,26(3):83-86. 被引量：5
10李平,戴月明,王艳.基于混合卡方统计量与逻辑回归的文本情感分析[J].计算机工程,2017,43(12):192-196. 被引量：19

1西贝.Word文档选择小窍门[J].少年电脑世界（低年级）,2002(6):23-23.
2严淑萍.小技巧两则[J].农村财务会计,2009(11):41-41.
3田东风,欧飞,申维.矩阵奇异值分解理论在中文文本分类中的应用[J].数学的实践与认识,2008,38(24):132-140. 被引量：1
4文本选取高手自有快招[J].电脑爱好者,2012(1):63-63.
5电脑系统维护经验与技巧[J].电脑编程技巧与维护,2015(5):95-95.
6EmEditor V3．34英文版[J].软件,2003,24(6):9-9.
7马前雪.超级技巧大拼盘——玩玩Word纵向选择文本[J].信息时空,2003(5):22-22.
8薛寺中,戴飞,陈秀宏.一种非参数核函数鉴别分析法及其在人脸识别中的应用[J].计算机科学,2012,39(B06):507-509. 被引量：1
9姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,艾斯卡尔.艾木都拉.三音素模型的维吾尔语最佳文本选取算法[J].计算机工程与应用,2009,45(18):242-244. 被引量：5
10仲勇.用F8键快捷选Word文本[J].家庭科技,2010(2):51-51.

计算机工程与应用

2007年第24期

浏览历史

内容加载中请稍等...

组合降维技术在中文网页分类中的应用被引量：3

参考文献10

二级参考文献27

共引文献398

同被引文献73

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

组合降维技术在中文网页分类中的应用 被引量：3

参考文献10

二级参考文献27

共引文献398

同被引文献73

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

组合降维技术在中文网页分类中的应用被引量：3