摘要
针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战,该文提出一种基于重复串的特征提取方法,可以从文本中提取有意义的特征,且对于中文无需分词。实验表明,该方法可以降低特征空间维度,同时能有效改善传统以词为特征的聚类算法的性能。
This paper proposes a novel term extraction method based on repeats, which can extract meaningful terms from text. For Chinese, it need not word segmentation. Experimental results show that the proposed approach can remarkably reduce the dimensionality and effectively improve the performance of traditional clustering algorithms.
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第2期65-67,共3页
Computer Engineering
基金
国家"973"计划基金资助项目(2004CB318109)
关键词
文本聚类
特征提取
重复串
Text clustering
Term extraction
Repeats