期刊文献+

基于IIG和LSI组合特征提取方法的文本聚类研究 被引量:14

在线阅读 下载PDF
导出
摘要 本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,首先利用向量空间模型和改进的信息增益特征选择方法,构造文本特征向量,利用C-均值方法聚类,聚类结果准确率、查全率、F-measure分别达到0.82、0.88、0.83。在此基础上,对最优的特征选择结果运用潜在语义索引方法,对奇异值分解的结果进行截断处理,发现奇异值K取40时聚类结果的准确率、查全率、F-measure达到0.95、0.57、0.78,在有效地降维的同时,大幅度地提高了聚类的准确率。
出处 《情报学报》 CSSCI 北大核心 2005年第2期203-209,共7页 Journal of the China Society for Scientific and Technical Information
  • 相关文献

参考文献10

二级参考文献18

  • 1黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 2[1]Warren R Greiff. A Theory of Term Weighting Based on Exploratory Data Analysis, www. cs. umass.edu/~ greiff/
  • 3[2]Kaski S, Lagus K, Honkela T et al. Statistical Aspects of the WFEBSOM System in Organizing Document Collections. Computer Science and Statistics, 1998, (29) :281 - 290
  • 4Koller D. Hierarchically Classifying Documents Using Very Few Words. Proceedings of tile Fourteenth International Conference on Machine Learning (ICML-97), 1997.
  • 5Zhang Li, Li Xing. Net-compass, A Search Engine for Chinese Web Pages[A]. The First AEARU Workshop on Web Technology[C] ,Kyoto, Japan, 1998: 1 0-15.
  • 6Young P,学位论文,1994年
  • 7史忠植.知识发现[M].北京:清华大学出版社,2000..
  • 8何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量:54
  • 9刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法[J].中文信息学报,2000,14(3):25-29. 被引量:27
  • 10李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量:57

共引文献413

同被引文献146

引证文献14

二级引证文献53

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部