基于DOM树及行文本统计去噪的网页文本抽取技术被引量：4

Content extraction from web page based on the DOM tree and line-text statistical noise-elimination

导出

摘要首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。 As different web pages have different codes, the HTML web page first need to be encoded with the uniform code UTFS, and then translated into an XML document which is parsed into the DOM tree. After removing some noise nodes from the DOM tree according to the features of XML language and the rules of the noise characteristics, text con- tents are extracted from the DOM tree by the method of statistics of punctuation and noise information is continued to be eliminated from contents extracted above by the method of statistics of line-text. The result of experiments on 2000 web pages obtained from different web sites shows that our method has high accuracy, great generality, and simplicity, and can be automatically used to extract the right contents from different web sites.

作者李霞蒋盛益

机构地区广东外语外贸大学思科信息学院

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2012年第3期38-42,共5页 Journal of Shandong University(Natural Science)

基金国家自然科学基金资助项目(61070061) 教育部人文社会科学研究青年基金资助项目(11YJCZH086) 广州社科青年基金资助项目(11Q20)

关键词网页文本抽取 DOM树行文本统计标点符号统计 content extraction from web pages DOM tree statistical of line-text statistical of punctuation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1梅雪,程学旗,郭岩,张刚,丁国栋.一种全自动生成网页信息抽取Wrapper的方法[J].中文信息学报,2008,22(1):22-29. 被引量：21
2汪建伟,杨冬青,高军,王腾蛟.一种基于分类算法的网页信息提取方法[J].计算机科学,2008,35(3):91-93. 被引量：11
3李文立,王乐超,宋春雷.基于HTML树和模板的文献信息提取方法研究[J].计算机应用研究,2010,27(12):4615-4617. 被引量：7
4DAVISION B D. Recognizing nepotistic links on the Web [ C ]//Proceedings of the AAAI-2000 Workshop on Arti-ficial Intelligence for Web Search. Austin: AAAI Press, 2000 : 23-28.
5JUSHMERICK N. Learning to remove Internet advertise- ments[ C]// Proceedings of the 3th International Confer- ence on Autonomous Agents. Washington: ACM Press, 1999: 1-7.
6LIN S H, HO J M. Discovering informative content blocks from web documents [ C ]// Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discov- ery and Data Mining. NewYork:ACM Press, 2002: 588- 593.
7黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
8SUHIT G, GAIL K, DAVID N, et al. DOM-based content extraction of HTML documents [ C ]// Proceedings of the 12th International World Wide Web Conference. Buda- pest: ACM Press, 2003: 207-217.
9宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20
10Dave Raggett. Clean up your web pages with HTML TI- DY [EB/OL ].[ 2011-05-30 ]. http://www, w3. org/ People/Raggett/tidy/.

二级参考文献32

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
7CAI Deng,YU Shi-peng,WEN Ji-rong,et al.VIPS:a vision-based page segmentation algorithm,Microsoft Technical Report MSR-TR-2003-79[R].Redmond:Microsoft Corporation,2003.
8HAMMAR J,GARCIA-MOLINA H,CHO J,et al.Extracting semi-structured information from the Web[J].SIGMOD Record,1997,26(2):18-25.
9ASHISH N,KNOBLOCK C A.Wrapper generation for semi-structured Internet sources[J].ACM SIGMOD Record,1997,26(4):8-15.
10JI Xiang-wen,ZENG Jian-ping,ZHANG Shi-yong,et al.Tag tree template for Web information and schema extraction[J].Expert Systems with Applications,2010,37(12):8492-8498.

共引文献79

1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
2何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
3黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
4宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
5白似雪,刘华斌.基于页面分块模型的PageRank算法研究[J].南昌大学学报（工科版）,2008,30(2):179-183. 被引量：4
6孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
7王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3
8霍滨焱.最小节点信息树抽取规则及可视化生成方法[J].应用科技,2009,36(7):37-40.
9张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
10周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16

同被引文献43

1秦鸿.基于Web的数据挖掘[J].电子科技大学学报,2002,31(S1):56-59. 被引量：7
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3陈金森,原福永,张园园.XML搜索引擎研究[J].图书情报工作,2007,51(1):114-117. 被引量：2
4王诗彬,林聪仁.用于嵌入式系统的汉字点阵提取方法[J].现代电子技术,2007,30(7):162-165. 被引量：7
5赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
6刘忠平,郭俊福.基于GSM短信无线式LED气象信息发布屏系统设计[J].气象科技,2007,35(2):303-306. 被引量：20
7王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
8中国互联网络信息中心.第35次中国互联网络发展状况统计报告[R/OL].[2015-02-03].http://www.cnnic.neLcn/hlw.fzyj.
9孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22.
10梅雪,程学旗,郭岩,张刚,丁国栋.一种全自动生成网页信息抽取Wrapper的方法[J].中文信息学报,2008,22(1):22-29. 被引量：21

引证文献4

1彭伟.Web气象信息树型提取算法与LED显示设计[J].实验室研究与探索,2013,32(1):203-208. 被引量：1
2卢远征,叶晓彤.XML的DOM树结构在WEB挖掘中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):64-67. 被引量：2
3向菁菁,耿光刚,李晓东.一种新闻网页关键信息的提取算法[J].计算机应用,2016,36(8):2082-2086. 被引量：6
4韦佳佳.基于HTML5语义化标签的Web文本提取技术[J].贵阳学院学报（自然科学版）,2017,12(3):25-28. 被引量：3

二级引证文献12

1谢娜,戚晓明,朱洪浩,郭有强.半结构化多Web文本数据挖掘的研究[J].齐齐哈尔大学学报（自然科学版）,2015,31(2):75-78. 被引量：3
2刘耀钦.基于HTML5的Web离线应用研究与探讨[J].河南工程学院学报（自然科学版）,2015,27(1):77-80. 被引量：4
3刘志杰,潘洋.基于文本行特征的网页正文信息抽取方法研究[J].软件导刊,2017,16(10):15-18.
4李欣,李绍稳,许高建,林建彬.基于正则抽取的竹种数据结构化方法研究[J].计算机技术与发展,2018,28(6):147-150.
5何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2
6黄珍,蔡亮.基于矩阵分析的语义化web智能检索平台设计与研究[J].九江学院学报（自然科学版）,2018,33(4):66-71. 被引量：1
7王荣海,罗金生,李岷,曹斌.基于STM32的网络天气预报系统的设计与实现[J].电子世界,2019,0(1):110-113. 被引量：7
8吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
9陈梅,苏晨,赵静雅.从网页制作的发展浅析语义化[J].电脑知识与技术,2019,15(10):236-237.
10王立志.网页信息抽取方法综述[J].网络安全技术与应用,2022(3):12-13. 被引量：3

1苏锋.谁该为用户体验负责?[J].微电脑世界,2011(5):2-2. 被引量：1
2李云峰.IE打不开二级链接[J].网管员世界,2010(12):95-95.
3啊D注入助手[J].黑客防线,2005(B06):25-25.
4Windows近期相关漏洞[J].网管员世界,2005(10):112-112.
5曹英,徐卫.基于网页的语料库自动生成[J].电脑知识与技术（过刊）,2010,0(23):6438-6439. 被引量：1
6陈春艳,李宝智.基于高效UTF的Unicode编码方式研究[J].电脑知识与技术,2007(7):105-106. 被引量：7
7施锦飞.Word技巧两则[J].电子制作．电脑维护与应用,2005(10):53-53.
8查看远程网页源码[J].家庭电脑世界,2004(05X):58-58.
9刘静.基于特征编码的维吾尔文文本水印算法[J].喀什师范学院学报,2015,36(3):48-50. 被引量：2
10丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(B06):175-177. 被引量：6

山东大学学报（理学版）

2012年第3期

浏览历史

内容加载中请稍等...

基于DOM树及行文本统计去噪的网页文本抽取技术被引量：4

参考文献10

二级参考文献32

共引文献79

同被引文献43

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于DOM树及行文本统计去噪的网页文本抽取技术 被引量：4

参考文献10

二级参考文献32

共引文献79

同被引文献43

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于DOM树及行文本统计去噪的网页文本抽取技术被引量：4