期刊文献+

基于主题的Web文档聚类研究 被引量:31

Study on Topic-Based Web Clustering
在线阅读 下载PDF
导出
摘要 网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。 With the ceaseless resource inflation and rapid change of information on Web, it has become difficult to manage vast e-data through traditional manual method. Web clustering can automatically classify documents and help us to discover new information. Considering the complexity of Web documents, we offer a method of feature re-select and document re-cluster and perform a good Web clustering.
出处 《中文信息学报》 CSCD 北大核心 2003年第3期21-26,共6页 Journal of Chinese Information Processing
基金 国家 8 63资助项目 ( 2 0 0 1AA1140 4 0 )
关键词 计算机应用 中文信息处理 WEB文档聚类 OPTICS算法 特征提取 K近邻准则 二次特征提取和聚类的方法 computer application Chinese information processing Web clustering OPTICS algorithm feature selection K-NN method of feature re-selection and re-cluster
  • 相关文献

参考文献5

  • 1韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量:36
  • 2M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases. In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD'96),1996.
  • 3M. Ankerst, M. Breunig, H. -P. Kriegel, and J. Sander. OPTICS: Ordering points to identify the clustering structure. In Proc. 1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD' 99),1999.
  • 4Yang, Y., Pedersen, J.O. A Comparative Study on Feature Selection in Text Categorization. Proc. of the 14th International Conference on Machine Learning ICML97.
  • 5Eui-Hong Han, George Karypis and Vipin Kumar. Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification. Pacific-Asia Conference on Knowledge Diseovery and Data Minings, 2001.

二级参考文献5

共引文献35

同被引文献315

引证文献31

二级引证文献275

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部