基于局部标签树匹配的改进网页聚类算法被引量：14

Improved Web page clustering algorithm based on partial tag tree matching

下载PDF

导出

摘要 Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。 In the process of Web information extraction,Web pages on the target websites should be clustered in order to detect and generate templates that are used to extract required information.Traditional page clustering algorithm based on DOM tree edit distance is not suitable for the complex Document Object Model（DOM）tree structure pages created from dynamic templates.In this paper,an improved Web page clustering algorithm was proposed based on partial tag tree matching.In the proposed algorithm,the appropriate weights were assigned to the nodes according to their effects on the layout of Web pages and the level difference between template nodes and non-template nodes.After that,the structure similarity between Web pages was computed efficiently based on partial tree matching approach.Compared with the traditional algorithms,the experimental results show that the proposed algorithm is of higher accuracy in clustering dynamic Web pages and lower computing complexity.

作者李睿曾俊瑀周四望

机构地区湖南大学软件学院

出处《计算机应用》 CSCD 北大核心 2010年第3期818-820,共3页 journal of Computer Applications

基金湖南省自然科学基金资助项目(09JJ3123)

关键词 WEB信息抽取网页聚类树编辑距离局部标签树匹配 Web information extraction Web page clustering tree edit distance partial tag tree matching

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1FLORESCU D,LEVY A,MENDELZON A.Database techniques for the world-wide Web:Survey[J].SIGMOD Record,1998,27(3):59-74.
2肖建鹏,张来顺,任星.直推式支持向量机在Web信息抽取中的应用研究[J].计算机工程与应用,2009,45(2):147-149. 被引量：6
3支宗良,陈少飞.一种基于XQuery的优化Web信息抽取方法[J].计算机应用,2008,28(1):152-154. 被引量：4
4CRESCENZI V,MECCA G,MERIALDO P.Wrapping-oriented classification of Web pages[C]// Proceedings of the 2002 ACM Symposium on Applied Computing.New York:ACM Press,2002:1108-1112.
5REIS D C,GOLGHER P B,SILVA A S,et al.Automatic Web news extraction using tree edit distance[C]// Proceedings of the 13th International Conference on World Wide Web.New York:ACM Press,2004:502-511.
6ZHAI Y,LIU B.Structured data extraction from the Web based on partial tree alignment[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(12):1614-1628.
7YANG W.Identifying syntactic differences between two programs[J].Software-Practice and Experience,1991,21(7):739-755.

二级参考文献16

1Vapnik V.The nature of statistical learning theory[M].New York:Springer-Verlag,2000.
2Joachims T.Transductive inference for text classification using support vector machines[C]//Proceeding of the 16th International Conference on Machine Learning.San Francisco:Morgan Kanfmann,1999:200-209.
3Thorsten J.Transductive inference for text classification using support vector machines[C]//Proc of International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufmann,1999:200-209.
4Nikola K,Shaoning P.Transductive support vector machines and applications in bioinformatics for promoter recognition,letters and reviews[J].Neural Information Processing,2004,3 (2):31-38.
5Yu S P,Cai D,Wen J R,et al.Improving pseudo-relevance feedback in Web information retrieval using Web page segmentation[EB/OL].http://research.microsoft.com/research/pubs/view.aspx?type=Technical] 20Report&id=6322002.
6许建华,张学工.统计学理论基础[M].北京:电子工业出版社,2004.
7LAENDER A H F, RIBEIRO-NETO B A. SILVA A S, et al. A brief survey of Web data extraction tools [ J]. SIGMOD Record, 2002, 31(2): 84 - 93.
8SODERLAND S . Learning information extraction rules for semi-structured and free text [J]. Machine Learning, 1999, 34(1/ 3) : 233 -272.
9HAN W, BUTrLER D, PU C. Wrapping Web data into XML [J]. SIGMOD Record, 2001, 30(3) : 33 -39.
10SAHUGUET A, AZAVANT F. Building light - weight wrappers for legacy Web data-sources using W4F[ C]// Proceedings of the 25th VLDB Conference. San Francisco: Morgan Kaufmann Publishers, 1999,738 - 741.

共引文献8

1张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：10
2柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
3刘金红,陆余良,施凡,宋舜宏.基于语义上下文分析的因特网人物信息挖掘[J].安徽大学学报（自然科学版）,2009,33(4):33-37. 被引量：1
4谭龙江.基于贝叶斯网络的网站信息抽取模型[J].四川理工学院学报（自然科学版）,2011,24(1):58-61. 被引量：1
5谭龙江.基于信息抽取的电子商务联盟系统[J].鸡西大学学报（综合版）,2011,11(2):49-50.
6柳佳刚,龙军,李泽军.一种用于Web信息抽取的页面信息本体自动学习方法[J].计算技术与自动化,2011,30(1):119-123. 被引量：2
7白晓雷,黄广君,段建辉.一种基于BP神经网络的关键词抽取方法[J].合肥工业大学学报（自然科学版）,2014,37(7):808-811. 被引量：4
8林春杰,韩晓琴.基于半监督条件随机场的信息抽取方法[J].信息与电脑,2020,32(10):103-106. 被引量：1

同被引文献108

1陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
2何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4陈小兵,张汉煜,骆力明,黄河.SQL注入攻击及其防范检测技术研究[J].计算机工程与应用,2007,43(11):150-152. 被引量：73
5ZAMIR O,ETZIONI O,MADANI O,et al.Fast and intuitive clus-tering of Web documents[C]//Proceedings of the 3rd InternationalConference on Knowledge Discovery and Data Mining.New York:AAAI Press,1997:287-290.
6HONG YI,SAM K.Learning assignment order of instances for theconstrained K-means clustering algorithm[J].IEEE Transactions onSystems Man and Cybernetics Part B-Cybernetics,2009,39(2):568-574.
7HALL L O,GOLDGOF D B.On convergence properties of the sin-glepass and online fuzzy c-means algorithm[C]//2010 IEEE Inter-national Conference on Fuzzy Systems,Washington,DC:IEEE,2010:1-3.
8AIOLLI F,SAN-MARTINO G,HAGENBUCHNER M,et al.Learning nonsparse kernels by self organizing maps for structured da-ta[J].IEEE Transactions on Neural Networks,2009,20(12):1938-1949.
9ZAMIR O,ETZIONI O.Web document clustering:A feasibilitydemonstration[C]//SIGIR'98:Proceedings of the 21st Interna-tional ACM SIGIR Conference on Research and Development in In-formation Retrieval.New York:ACM Press,1998:46-54.
10CHEN CHUNXI,BERTIL S.Parallel construction of large suffixtrees on a PC cluster[C]//Euro-Par 2005 Parallel Processing:11th International Euro-Par Conference.Berlin:Springer,2005:1227-1236.

引证文献14

1翟献民,田生伟,禹龙,冯冠军.面向维吾尔语文本的改进后缀树聚类[J].计算机应用,2012,32(4):1078-1081. 被引量：2
2廖浩伟,杨燕,贾真,尹红风.一种改进的基于树路径匹配的网页结构相似度算法[J].吉林大学学报（理学版）,2012,50(6):1199-1203. 被引量：8
3贺秋芳,曾启杰,蔡延光.挖掘用户标签的增强型社区网页聚类算法[J].微电子学与计算机,2013,30(2):74-77. 被引量：4
4唐青松.路径存储法在生成树形结构中的应用研究[J].计算机与现代化,2014(4):178-181. 被引量：1
5唐青松.深度优先算法在创建树形结构中的应用研究[J].计算机技术与发展,2014,24(9):226-229. 被引量：11
6杨慧,赵兰草.基于FP-Tree的QAR数据故障检测研究[J].计算机应用与软件,2014,31(10):41-44.
7罗明宇,凌捷.基于DOM树序列值比对的SQL注入漏洞检测[J].计算机工程与设计,2015,36(2):350-354. 被引量：3
8范意兴,郭岩,李希鹏,赵岭,刘悦,俞晓明,程学旗.一种基于网页块特征的多级网页聚类方法[J].山东大学学报（理学版）,2015,50(7):1-8. 被引量：1
9余钧,郭岩,张凯,刘林,刘悦,俞晓明,程学旗.FPC:大规模网页的快速增量聚类[J].中文信息学报,2016,30(2):182-188. 被引量：4
10宋军,杨晓夫,李益才,王家伟.主题网页标签树邻接矩阵识别算法研究[J].计算机科学,2016,43(6):316-320. 被引量：2

二级引证文献54

1赵露.基于聚类分析的网络安全数据特征可视化融合研究[J].长春工程学院学报（自然科学版）,2020(2):94-97. 被引量：3
2姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
3朱红.给MBA算笔账[J].知识经济,2000(6):67-67.
4段美美,于本海,朱萌.基于CBR的软件项目成本估算方法[J].计算机工程与设计,2014,35(11):3837-3844. 被引量：5
5顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
6罗明宇,凌捷.基于DOM树序列值比对的SQL注入漏洞检测[J].计算机工程与设计,2015,36(2):350-354. 被引量：3
7张力生,洪小云,雷大江.基于路径特征的XML文档结构相似性度量[J].计算机应用与软件,2015,32(7):39-42. 被引量：4
8王佩,牛晨,丁立彤.基于PHP的在线跨站脚本检测工具[J].现代电子技术,2015,38(20):41-43.
9刘让国,刘晓杰,刘顺喜,韦二龙.一种基于TMS的瓦片金字塔切分方法[J].无线电工程,2015,45(11):40-43. 被引量：5
10张瑞军,黎雯霞,张志清,张凌,张鹏.基于“超”实体构件的信息组织与呈现[J].武汉科技大学学报,2015,38(5):385-390. 被引量：2

1吴谋硕.基于数据分布特征的网页聚类算法[J].电脑知识与技术,2013,9(10X):6894-6895.
2买买提依明·哈斯木,维尼拉·木沙江.基于后缀树的维吾尔文网页聚类算法的研究与实现[J].电脑知识与技术,2010,6(9):7072-7073.
3贺秋芳,曾启杰,蔡延光.挖掘用户标签的增强型社区网页聚类算法[J].微电子学与计算机,2013,30(2):74-77. 被引量：4
4王树鹏.浅析网页色彩及布局的应用[J].信息与电脑,2016,28(2):57-58.
5张涛,邓军.现代远程教育个性化Web挖掘研究[J].科学技术与工程,2007,7(5):742-746. 被引量：2
6买买提依明.哈斯木,维尼拉.木沙江.维吾尔文网页聚类算法的设计与实现[J].现代计算机,2010,16(9):21-24.
7王元芝,刘利华,何建虎.仿真软件在航空典型结构件上的应用[J].电子技术与软件工程,2016(20):86-86.
8王启新,李毅,董丽,聂宇,王克宏.渐进/分布式网页聚类算法PG+与PG++[J].软件学报,2002,13(8):1500-1507.
9匡唐清,柳和生,周国发,李桂金.气辅共注射成型工艺中气道布局影响的CAE研究[J].工程塑料应用,2006,34(2):25-30. 被引量：2
10王运巧,梅中义,范玉青.薄壁弧形件装夹布局有限元优化[J].机械工程学报,2005,41(6):214-217. 被引量：31

计算机应用

2010年第3期

浏览历史

内容加载中请稍等...

基于局部标签树匹配的改进网页聚类算法被引量：14

参考文献7

二级参考文献16

共引文献8

同被引文献108

引证文献14

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于局部标签树匹配的改进网页聚类算法 被引量：14

参考文献7

二级参考文献16

共引文献8

同被引文献108

引证文献14

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于局部标签树匹配的改进网页聚类算法被引量：14