基于网站结构挖掘的Web文档自动分类被引量：2

Automatic Web Page Categorization Based on Structure Mining of Sites

下载PDF

导出

摘要对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。 Web text classification by hand can get the exact result,but it will spend a lot in time and manpower. Traditional algorithm based on feature vector will lead to low veracity. This paper put forwards an automatic web text classification that combined the structure mining with the existing text classification. This kind of algorithm mines the classification pattern for each web site first by distilling features of Extended pages,then synthesizes,and creates the classification pattern for the search engine.

作者谢振亮何丕廉陈霞孟昭鹏

机构地区天津大学计算机科学与技术系

出处《计算机应用》 CSCD 北大核心 2003年第7期37-39,共3页 journal of Computer Applications

基金天津市科技发展计划项目 (0 2 3 1 0 0 51 1 )

关键词结构挖掘 Web文档自动分类分类模式扩展网页 structure mining automatic web page categorization classification pattern extended page

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1朱斌,宋先忠.动态网页开发技术探讨[J].计算机应用,2001,21(9):55-56. 被引量：16
2Yang Y. Expert network: Effective and efficient leaming from human decisions in text categorization and retrieval[ A]. 17th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'94) [ C], 1994. 13 -22.
3Spertus E. ParaSite: Mining the Stuctural Information on the World- Wide Web[ A]. Proceedings of the 6th World Wide Web Conference[ C], 1997.
4Blum A, Mitchell T. Combining labeled and unlabeled data with cotraining[ A]. COLT: Proceedings of the Workshop on Computational Learning Theory[ C]. Morgan Kaufmann Publishers, 1998.
5Salton G, Wong A, Yang CS. A vector space model for automatic indexing[ J]. Communications of the ACM, 1975, 18(5) : 613 -620.
6Fumkranz J. Exploiting structural information for text classification on the WWW[ A]. Intelligent Data Analysisl[ C], 1999. 487 -496.

二级参考文献5

1李香敏.ASP网页开发秘笈[M].北京:北京希望电子出版社,2001..
2黄理.JSP轻松开发Web网站[M].北京:北京希望电子出版社,2001..
3李香敏，ASP网页开发秘笈，2001年
4黄理，JSP轻松开发Web网站，2001年
5蒋长浩，PHP 专家指南，2000年

共引文献15

1蔡敏.基于ASP的虚拟图书馆检索功能的研究与实现[J].信息与电子工程,2004,2(2):149-152. 被引量：1
2孟永东,田斌,刘德富.基于Web3D技术的工程施工可视化仿真应用研究[J].水力发电,2004,30(7):22-25. 被引量：9
3王艳红.几种Web数据库技术的比较研究[J].北京广播电视大学学报,2002(1):41-47. 被引量：4
4高风,肖万程.例题48 基于JSP＋Servlet＋JavaBeans的动态网开发技术[J].电脑编程技巧与维护,2005(B08):191-196. 被引量：1
5黄泽雄.食品包装行业面临新标准的考验[J].国外塑料,2006,24(1):53-53.
6杜文龙,秦澄.基于B/S和C/S架构的农产品成本分析系统的设计与开发[J].科技信息,2009(9):59-60.
7杜文龙,于国防.农产品成本数据库管理系统关键技术的实现[J].电脑学习,2009(3):113-114.
8杜文龙,于国防.农产品成本数据库管理系统关键技术的实现[J].计量与测试技术,2009,36(8):35-36.
9张明岳,于云华,时海涛.稠油热采锅炉远程监测系统的方案设计[J].化工自动化及仪表,2011,38(10):1174-1176. 被引量：3
10邓浩,李保宙.利用VB编程快速实现局域网通信[J].科技信息,2012(34):312-313. 被引量：1

同被引文献10

1Kleinberg J M.Authoritative sources in a hyperlinked environment[A].Proceedings of 9th ACM-SIAM Symposium on Discrete Algorithms[C].New Orleans,US:ACM Press,1998.668-677.
2Tai K C.The tree-to-tree correction problem[J].Journal of ACM,1979,26(3):422-433.
3Chawathe S.Comparing hierarchical data in external memory[A].Twenty-fifth International Conference on Very Large Data Bases[C].Edinburgh:Morgan Kaufmann Publishers,1999.90-101.
4牛忠兰,陈跃新,徐正同,潘鲁军.网络文本自动分类系统的研究与设计[J].微处理机,2002,23(2):41-43. 被引量：9
5孙波,马小强,琚磊.文本素材资源的自动分类算法研究[J].中国电化教育,2003(2):80-82. 被引量：3
6王汉萍,孟庆春,张继军,李占斌,殷波.基于粗糙集的文本自动分类方法的研究[J].信息技术,2003,27(8):46-48. 被引量：7
7代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：230
8邵波.用户接受:网络信息资源开发与利用的重要因素[J].中国图书馆学报,2004,30(1):51-54. 被引量：34
9毕强,杨达,霍红梅.国外信息资源管理的主流研究领域及热点内容分析[J].中国图书馆学报,2004,30(1):81-84. 被引量：15
10刘延章.近5年网络信息分类组织研究述略[J].图书情报工作,2004,48(1):99-101. 被引量：11

引证文献2

1王燕.网络信息自动分类研究[J].情报杂志,2005,24(3):62-63. 被引量：2
2朱英,瞿有利,陈谊,孙悦红.信息抽取中网站结构树生成方法的研究[J].北京工商大学学报（自然科学版）,2006,24(5):54-58.

二级引证文献2

1崔艳华.网络信息分类体系的研究[J].图书馆学刊,2006,28(2):72-73. 被引量：7
2李鹏,韩建奇.用于网络信息组织的分类体系研究[J].价值工程,2012,31(14):183-184.

1soap.FLASH Professional 8新功能实例体验（连载三）[J].大众软件,2005(24):63-66.
2戚涌,徐永红,刘凤玉.基于潜在语义标引的WEB文档自动分类[J].计算机工程与应用,2004,40(22):28-31. 被引量：9
3黎昱,黄席樾,周欣,刘涛.一种Web文档在线自适应分类新方法[J].重庆大学学报（自然科学版）,2003,26(7):47-51. 被引量：1

计算机应用

2003年第7期

浏览历史

内容加载中请稍等...

基于网站结构挖掘的Web文档自动分类被引量：2

参考文献6

二级参考文献5

共引文献15

同被引文献10

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于网站结构挖掘的Web文档自动分类 被引量：2

参考文献6

二级参考文献5

共引文献15

同被引文献10

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于网站结构挖掘的Web文档自动分类被引量：2