基于IIG和LSI组合特征提取方法的文本聚类研究被引量：14

下载PDF

导出

摘要本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法，对文本进行了有效的自动聚类。从语料库中抽取了250篇文本，首先利用向量空间模型和改进的信息增益特征选择方法，构造文本特征向量，利用C-均值方法聚类，聚类结果准确率、查全率、F-measure分别达到0.82、0.88、0.83。在此基础上，对最优的特征选择结果运用潜在语义索引方法，对奇异值分解的结果进行截断处理，发现奇异值K取40时聚类结果的准确率、查全率、F-measure达到0．95、0．57、0．78，在有效地降维的同时，大幅度地提高了聚类的准确率。

作者陈涛宋妍谢阳群

机构地区宁波大学商学院信息管理系南京大学工商管理系

出处《情报学报》 CSSCI 北大核心 2005年第2期203-209,共7页 Journal of the China Society for Scientific and Technical Information

关键词 IIG 改进的信息增益 LSI 潜在语义索引特征提取文本聚类

分类号 G201 [文化科学—传播学] G350 [文化科学—情报学]

引文网络
相关文献

参考文献10

1周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2):239-243. 被引量：41
2刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法[J].中文信息学报,2000,14(3):25-29. 被引量：27
3秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46. 被引量：73
4李雪蕾,张冬茉.一种基于向量空间模型的文本分类方法[J].计算机工程,2003,29(17):90-92. 被引量：31
5代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：230
6Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys,2002, 34( 1 ) : 1 - 47.
7Tom Mitchell. Machine learning. McGraw Hill, New York. 1996.
8R.D. Fierro and M.W. Berry. Efficient Computation of the Riemannian SVD in TLS Problems in Information Retrieval, in Total Least Squares and Errors-In-Variables Modeling: Analysis, Algorithms, and Applications, S. van Huffel and P. Lemmerling (Eds.), Kluwer Academic Publishers, Boston, 2002. 349 - 360.
9Thomas Hofmann. Gaussian Latent Semantic Models for Collaborative Filtering. 26th Annual International ACM SIGIR Conference, 2003.
10宫秀军,史忠植.基于Bayes潜在语义模型的半监督Web挖掘[J].软件学报,2002,13(8):1508-1514. 被引量：28

二级参考文献18

1黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
2[1]Warren R Greiff. A Theory of Term Weighting Based on Exploratory Data Analysis, www. cs. umass.edu/～ greiff/
3[2]Kaski S, Lagus K, Honkela T et al. Statistical Aspects of the WFEBSOM System in Organizing Document Collections. Computer Science and Statistics, 1998, (29) :281 - 290
4Koller D. Hierarchically Classifying Documents Using Very Few Words. Proceedings of tile Fourteenth International Conference on Machine Learning (ICML-97), 1997.
5Zhang Li, Li Xing. Net-compass, A Search Engine for Chinese Web Pages[A]. The First AEARU Workshop on Web Technology[C] ,Kyoto, Japan, 1998: 1 0-15.
6Young P，学位论文，1994年
7史忠植.知识发现[M].北京:清华大学出版社,2000..
8何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
9刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法[J].中文信息学报,2000,14(3):25-29. 被引量：27
10李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57

共引文献413

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：9
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5贺国旗,张强.基于用户模型的文献检索研究[J].雁北师范学院学报,2002,18(5):29-32. 被引量：1
6王洪,贾惠波,徐端颐.基于中文学术期刊人工标引的自动分类新算法[J].现代图书情报技术,2002(S1):59-62. 被引量：1
7姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
8李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
9贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
10尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.

同被引文献146

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005,45(S1):1783-1786. 被引量：11
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4郑亚非.潜在语义分析与篇章理解[J].浙江工业大学学报（社会科学版）,2006,5(1):70-75. 被引量：1
5顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
6何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
7王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
8李锋,冯珊.基于人工神经网络的案例检索与案例维护[J].系统工程与电子技术,2004,26(8):1053-1056. 被引量：12
9王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
10王琦,席酉民,汪莹.和谐主题漂移的涵义及其过程描述[J].管理科学,2004,17(6):10-17. 被引量：15

引证文献14

1杨鑫华,于宽.基于密度半径自适应选择的K-均值聚类算法[J].大连交通大学学报,2007,28(1):41-44. 被引量：2
2陈京莲.信息选择的初步探讨[J].情报科学,2007,25(9):1314-1316. 被引量：2
3孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
4刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
5刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法[J].广西师范大学学报（自然科学版）,2007,25(4):208-211. 被引量：9
6宁涛,晋博晨,宋存利.基于子空间变量自动加权的K-均值文本聚类算法的研究[J].计算机应用与软件,2008,25(8):251-253. 被引量：1
7史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.
8刘海峰,王元元,姚泽清,陈琦.文本分类中一种基于选择的二次特征降维方法[J].情报学报,2009,28(1):23-27. 被引量：8
9史旗凯,郭菊娥,马续补,叶金凤.基于SMA信息抽取的事实主题的识别研究[J].情报学报,2009,28(1):82-87. 被引量：1
10姚兴山.基于统计的中文文本分类研究[J].情报理论与实践,2009,32(5):95-98. 被引量：1

二级引证文献53

1于海,陈海雷,左万利.小生境免疫算法在中文文本聚类中的应用[J].广西师范大学学报（自然科学版）,2008,26(1):216-219. 被引量：2
2薛晓飞,张永奎,任晓东.基于新闻要素的新事件检测方法研究[J].计算机应用,2008,28(11):2975-2977. 被引量：8
3孙挺,耿国华,周明全.一种有效的特征权重计算方法[J].郑州大学学报（理学版）,2008,40(4):48-51. 被引量：9
4李英.基于词性选择的文本预处理方法研究[J].情报科学,2009,27(5):717-719. 被引量：8
5孙巍.一种基于复合文本描述的科学数据特征表示方法[J].现代图书情报技术,2009(5):22-27. 被引量：2
6袁园.经济学视角的网络用户信息选择行为分析[J].情报杂志,2009,28(8):53-56. 被引量：4
7杨奋强,刘玉贵.文本分类中基于类别概念的特征选择方法[J].计算机系统应用,2009,18(10):93-96. 被引量：4
8刘海峰,赵华,刘守生.一种基于位置的改进中文文本特征选择[J].图书情报工作,2009,53(21):102-105. 被引量：3
9焦莉娟,冯丽萍.Web页面分类中特征提取方法的改进[J].科技广场,2009(9):39-40. 被引量：1
10马续补,郭菊娥.基于《知网》语义相似度的企业事实主题诊断研究[J].情报杂志,2010,29(5):54-57. 被引量：1

1陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2
2陈华辉.一种基于潜在语义索引的“垃圾”邮件过滤方法[J].计算机应用研究,2000,17(10):17-18. 被引量：17
3杨清,游星雅,蒋向红.基于LSI的图书馆个性化信息服务系统的设计与研究[J].计算机工程与科学,2006,28(4):15-18.
4冯项云.LSI潜在语义标引方法在情报检索中的应用[J].现代图书情报技术,1998(4):19-21. 被引量：12
5牛伟霞,张永奎.潜在语义索引方法在信息过滤中的应用[J].计算机工程与应用,2001,37(9):57-60. 被引量：16
6龚根华,陈恳,万钧.应用LSI实现WEB图片的索引和查询[J].南昌大学学报（理科版）,2005,29(4):391-395. 被引量：2
7马晓佳.基于潜在语义标引的文本聚类研究[J].情报探索,2010(7):3-5. 被引量：3
8何伟.LSI潜在语义信息检索模型[J].数学的实践与认识,2003,33(9):1-10. 被引量：9
9秦春秀,刘怀亮,赵捧未.一种基于本体论和潜在语义索引的文本语义处理方法[J].现代图书情报技术,2006(9):34-37.
10李华云,金玉坚.基于层次搜索的潜在语义索引方法研究[J].图书情报工作,2006,50(11):36-38. 被引量：1

情报学报

2005年第2期

浏览历史

内容加载中请稍等...

基于IIG和LSI组合特征提取方法的文本聚类研究被引量：14

参考文献10

二级参考文献18

共引文献413

同被引文献146

引证文献14

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于IIG和LSI组合特征提取方法的文本聚类研究 被引量：14

参考文献10

二级参考文献18

共引文献413

同被引文献146

引证文献14

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于IIG和LSI组合特征提取方法的文本聚类研究被引量：14