摘要
网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。
With the ceaseless resource inflation and rapid change of information on Web, it has become difficult to manage vast e-data through traditional manual method. Web clustering can automatically classify documents and help us to discover new information. Considering the complexity of Web documents, we offer a method of feature re-select and document re-cluster and perform a good Web clustering.
出处
《中文信息学报》
CSCD
北大核心
2003年第3期21-26,共6页
Journal of Chinese Information Processing
基金
国家 8 63资助项目 ( 2 0 0 1AA1140 4 0 )