期刊文献+

重复串特征提取算法及其在文本聚类中的应用 被引量:6

Algorithm of Repeats-based Term Extraction and Its Application in Text Clustering
在线阅读 下载PDF
导出
摘要 针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战,该文提出一种基于重复串的特征提取方法,可以从文本中提取有意义的特征,且对于中文无需分词。实验表明,该方法可以降低特征空间维度,同时能有效改善传统以词为特征的聚类算法的性能。 This paper proposes a novel term extraction method based on repeats, which can extract meaningful terms from text. For Chinese, it need not word segmentation. Experimental results show that the proposed approach can remarkably reduce the dimensionality and effectively improve the performance of traditional clustering algorithms.
出处 《计算机工程》 CAS CSCD 北大核心 2007年第2期65-67,共3页 Computer Engineering
基金 国家"973"计划基金资助项目(2004CB318109)
关键词 文本聚类 特征提取 重复串 Text clustering Term extraction Repeats
  • 相关文献

参考文献5

  • 1Zamir O E.Clustering Web Documents:A Phrase-based Method for Grouping Search Engine Results[D].University of Washington,1999.
  • 2Furnkranz J.A Study Using N-gram Features for Text Categorization[R].Technical Report:TR-98-30,http://www.ai.univie.ac.at/ cgi-bin/tr-online?number+98-30,1998.
  • 3Chien L F.PAT-tree-based Adaptive Key Phrase Extraction for Intelligent Chinese Information Retrieval[J].Information Process and Management,1999,35(4):501-521.
  • 4Yamamoto M,Church K W.Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus[J].Computational Linguistics,2001,27(1):1-30.
  • 5Steinbach M,Karypis G,Kumar V.A Comparison of Document Clustering Techniques[C].Proc.of KDD Workshop on Text Mining'00,2000.

同被引文献36

引证文献6

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部