摘要
文本聚类随着网上文本的激增以及实际应用中的需求 ,引起了人们越来越多的重视 通过分析文本的特征以及常用的文本聚类方法 ,提出了一种对文本进行细致划分获取细化簇、并在细化簇基础上进行聚类的文本聚类方法 在聚类过程中 ,采用曲线的多项式拟合技术提出了一种自动发现阈值的方法 ,并把该方法应用于细化簇的寻找步骤中 与凝聚的层次聚类方法的实验比较结果表明 ,使用自动阈值发现的方法在时间消耗、聚类效果。
Text clustering is becoming more and more popular due to the increasing of texts on Web and the requirements in real application In this paper a novel text clustering method is proposed, in which cluster texts are clustered into fine clusters firstly, and then the fine clusters are clustered using agglomerative nesting clustering method A method that can select threshold automatically in clustering process is also proposed, based on multinomial simulation technique This method is applied in the clustering algorithm The experiments show that the algorithm adopted has a good result in computational complexity, clustering effect and tolerance of outliers
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1748-1753,共6页
Journal of Computer Research and Development
基金
国家自然科学基金项目 ( 60 173 0 5 1)
关键词
文本聚类
细化簇
自动阈值发现
text clustering
fine clusters
auto-selected threshold