针对模板生成网页的一种数据自动抽取方法(英文) 被引量：45

Automatic Data Extraction from Template-Generated Web Pages

下载PDF

导出

摘要当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率. A substantial fraction of the Web consists of pages that are dynamically generated using a common template populated with data from databases, such as product description pages on e-commerce sites. The objective of the proposed research is to automatically detect the template behind these pages and extract embedded data （e.g., product name, price...）. The template detection problem is formalized and an analysis of the underlying structure of template-generated pages is made. A template detection approach is presented and the detected templates are used to extract data from instance pages. Comparing with many other existing work, the approach is applicable for both ＂list pages＂ and ＂detail pages＂. Experimental results on two large third-party test beds show that the approach can achieve high extraction accuracy.

作者杨少华林海略韩燕波

机构地区中国科学院计算技术研究所网格与服务计算研究中心

出处《软件学报》 EI CSCD 北大核心 2008年第2期209-223,共15页 Journal of Software

基金 Supported by the National Basic Research Program of China under Grant No.2007CB310804 (国家重点基础研究发展计划(973)) the National Natural Science Foundation of China under Grant No.60573117 (国家自然科学基金重大研究计划) the National High-Tech Research and Development Plan of China under Grant No.2006AA01A106 (国家高技术研究发展计划(863))

关键词 WEB 自动数据抽取信息抽取模板发现 Wrapper生成 Web automatic data extraction information extraction template detection wrapper generation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Chang CH, Kayed M, Girgis MR, Shaalan K. A survey of Web information extraction systems. IEEE Trans. on Knowledge and Data Engineering, 2006,18(10): 1411-1428.
2Gold ME. Language identification in the limit. Information and Control, 1967,10(5):447-474.
3Laender AHF, Ribeiro-Neto BA, da Silva AD, Teixeira JS. A brief survey of Web data extraction tools. SIGMOD Record, 2002,31 (2):84-93.
4Arasu A, Hector GM. Extracting structured data from Web pages. In: Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. San Diego: ACM Press, 2003. 337-348.
5EXALG datasets, http://infolab.stanford.edu/-arvind/extract/
6TBDW v1.02, http://daisen.cc.kyushu-u.ac.jp/TBDW/testbed/
7Zhao HK, Meng WY, Wu ZH, Raghavan V, Yu C. Fully automatic wrapper generation for search engines. In: Proc. of the 14th Int'l Conf. on World Wide Web (WWW 2005). Chiba: ACM Press, 2005.66-75.
8Simon K, Lausen G. VIPER: Augmenting automatic information extraction with visual perceptions. In: Proc. of the ACM CIKM Int'l Conf. on Information and Knowledge Management. Bremen: ACM Press, 2005. 381-388.
9Crescenzi V, Mecca G, Meraldo P. RoadRunner: Towards automatic data extraction from large Web sites. In: Proc. of the 27th Int'l Conf. on Very Large Data Bases (VLDB 2001). Roma: Morgan Kaufmann Publishers, 2001. 109-118.
10Wang JY, Lochovsky FH. Data extraction and label assignment for Web databases. In: Proc. of the 12th Int'l World Wide Web Conf. (WWW 2003). Budapest: ACM Press, 2003. 187-196.

同被引文献328

1杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
3陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
4郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：9
5周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
6方胜华,王俊杰,唐海萍.个性化需求与图书馆信息服务模式探讨[J].情报杂志,2004,23(8):40-41. 被引量：32
7张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
8李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
9曹罗生.Internet浏览翻译系统数字与数词表达形式的识别技术[J].佛山科学技术学院学报（自然科学版）,2004,22(3):31-34. 被引量：1
10王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6

引证文献45

1赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
2李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
3耿焕同,宋庆席,何宏强.一种基于视觉分块的Web信息抽取方法研究[J].情报理论与实践,2009,32(3):106-109. 被引量：4
4陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：10
5张彦超,刘云,李勇,沈波.基于自动生成模板的Web信息抽取技术[J].北京交通大学学报,2009,33(5):40-45. 被引量：12
6周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16
7李广建,乔建忠.全自动生成网页信息抽取包装器的主要技术方法研究[J].情报理论与实践,2010,33(1):100-104. 被引量：5
8寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5):858-865. 被引量：17
9赵刚,郭东伟,李丹.基于序列比对的动态Web信息抽取算法[J].吉林大学学报（理学版）,2010,48(3):421-426.
10关冕,马军.针对Web论坛的一种结构化数据自动抽取方法[J].山东大学学报（理学版）,2010,45(5):42-47. 被引量：1

二级引证文献195

1步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
2徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
3姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
4高明,黄哲学.Deep Web研究现状与展望[J].集成技术,2012,1(3):47-54. 被引量：1
5刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：17
6廉捷,刘云.网络舆情中的信息预处理与自动摘要算法[J].北京交通大学学报,2010,34(5):94-99. 被引量：8
7陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
8陈志雄,朱向庆.基于特征词统计的网页结构化信息抽取[J].嘉应学院学报,2011,29(2):18-21. 被引量：1
9李贵,张琪,郑新录,韩子扬,李征宇.嵌套数据记录列表页的Web信息抽取[J].郑州大学学报（理学版）,2011,43(2):20-23.
10冯曦曦,朱学芳.基于Spring框架的农业网站信息资源采集器设计与实现[J].信息化研究,2011,37(3):19-22. 被引量：1

1宋兴彬,王耀波.基于EAI的税务数据交换平台的建立[J].计算机工程与设计,2006,27(23):4581-4584. 被引量：6
2IE无法打开淘宝宝贝详细页面[J].电脑爱好者,2010(2):70-70.
3高明,王继成,李江峰.基于语义支持的Deep Web数据抽取[J].计算机科学,2010,37(3):156-158. 被引量：1
4蒋勇.用EXCEL设计试卷分析模板[J].黑龙江科技信息,2009(24):70-70.
5郁金祥.在Excel中制作分数录入与分析模板[J].宁波工程学院学报,2000,16(4):75-81. 被引量：1
6IE无法打开淘宝宝贝详细页面[J].电脑迷,2010(6):92-92.
7顾士学.基于Excel2003 VBA成绩分析模板的设计与实现[J].白城师范学院学报,2011,25(3):51-54. 被引量：5
8段建勇,闫启伟,张梅,胡熠.维基百科中翻译对的模板挖掘方法研究[J].中文信息学报,2015,29(2):190-198. 被引量：2
9李盛瑜.用OFFICE 97设计试卷分析模板[J].渝州大学学报,1999,16(2):28-32. 被引量：1
10PCDream.Google图片查看有捷径[J].计算机应用文摘,2009(31):46-46.

软件学报

2008年第2期

浏览历史

内容加载中请稍等...

针对模板生成网页的一种数据自动抽取方法(英文) 被引量：45

参考文献12

同被引文献328

引证文献45

二级引证文献195

相关作者

相关机构

相关主题

浏览历史