期刊文献+

基于网站结构挖掘的Web文档自动分类 被引量:2

Automatic Web Page Categorization Based on Structure Mining of Sites
在线阅读 下载PDF
导出
摘要 对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。 Web text classification by hand can get the exact result,but it will spend a lot in time and manpower. Traditional algorithm based on feature vector will lead to low veracity. This paper put forwards an automatic web text classification that combined the structure mining with the existing text classification. This kind of algorithm mines the classification pattern for each web site first by distilling features of Extended pages,then synthesizes,and creates the classification pattern for the search engine.
出处 《计算机应用》 CSCD 北大核心 2003年第7期37-39,共3页 journal of Computer Applications
基金 天津市科技发展计划项目 (0 2 3 1 0 0 51 1 )
关键词 结构挖掘 Web文档自动分类 分类模式 扩展网页 structure mining automatic web page categorization classification pattern extended page
  • 相关文献

参考文献6

  • 1朱斌,宋先忠.动态网页开发技术探讨[J].计算机应用,2001,21(9):55-56. 被引量:16
  • 2Yang Y. Expert network: Effective and efficient leaming from human decisions in text categorization and retrieval[ A]. 17th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'94) [ C], 1994. 13 -22.
  • 3Spertus E. ParaSite: Mining the Stuctural Information on the World- Wide Web[ A]. Proceedings of the 6th World Wide Web Conference[ C], 1997.
  • 4Blum A, Mitchell T. Combining labeled and unlabeled data with cotraining[ A]. COLT: Proceedings of the Workshop on Computational Learning Theory[ C]. Morgan Kaufmann Publishers, 1998.
  • 5Salton G, Wong A, Yang CS. A vector space model for automatic indexing[ J]. Communications of the ACM, 1975, 18(5) : 613 -620.
  • 6Fumkranz J. Exploiting structural information for text classification on the WWW[ A]. Intelligent Data Analysisl[ C], 1999. 487 -496.

二级参考文献5

  • 1李香敏.ASP网页开发秘笈[M].北京:北京希望电子出版社,2001..
  • 2黄理.JSP轻松开发Web网站[M].北京:北京希望电子出版社,2001..
  • 3李香敏,ASP网页开发秘笈,2001年
  • 4黄理,JSP轻松开发Web网站,2001年
  • 5蒋长浩,PHP 专家指南,2000年

共引文献15

同被引文献10

引证文献2

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部