基于XML的密集型Web信息抽取与集成研究被引量：2

Extraction and integration of intensive Web information based on XML

下载PDF

导出

摘要针对密集型Web信息的数据抽取问题,提出了一种适合于XML结构又较为通用的树型结构抽取规则,把密集型Web上的数据抽取出来整合到指定模式的XML文档中.使用基于样例学习的半结构化Web信息抽取方法,自行开发了一个基于XML的Web新书查询原型系统,抽取Web页面效果良好,可直接应用于专门的Web网站信息的抽取,也可以用于其他相关应用的数据准备阶段. For the problem of intensive web information data extraction, one kind of general tree structure extraction rule which suits in the XML structure is proposed. It assigned the pattern of the intensive Web on data extraction conformity in the XML documents. Using the half structure Web information extraction method based on the example studies, the prototype system based on the XML Web inquiry has been developed which can extract the Web page with good effect. It can be applied in the special Web website information extraction directly, and also may be used the data preparation stage in other correlation application.

作者卢中宁刘放美严宇辉

机构地区郑州轻工业学院计算机与通信工程学院河南省农业银行银行卡部

出处《郑州轻工业学院学报（自然科学版）》 CAS 2008年第3期31-35,共5页 Journal of Zhengzhou University of Light Industry:Natural Science

基金河南省自然科学基金资助项目(0411010500)

关键词 XML 密集型Web数据数据抽取信息集成 XML iritensive Web data data extract information integration

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1高军,唐世渭,杨冬青,王腾蛟.数据集成中XML数据查询语义重写[J].计算机研究与发展,2002,39(4):435-442. 被引量：9
2曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：49
3庄毅,徐海力.半结构化数据与关系数据的比较研究[J].计算机与现代化,2004(1):29-30. 被引量：3
4王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
5张成洪,古晓洪,白延红.Web数据抽取技术研究进展[J].计算机科学,2004,31(2):129-131. 被引量：13
6朱明,黄云,蔡庆生.基于多知识的Web网页信息抽取方法[J].小型微型计算机系统,2001,22(9):1058-1061. 被引量：10

二级参考文献20

1Hammer J，Proceedings of the Workshop on Management of Semistructured Tucson，1997年，18～25页
2Arvind Arasu,Hector Garcia-Molina.Extracting structured data from web pages[R].Technical Report,Stanford University,2002
3Alberto H F Laender,Berthier A Ribeiro-Neto.A Brief Survey of Web Data Extraction Tools[J].ACM SIGMOD Record,2002;31(2)
4C Hsu,M Dung.Generating finite-state transducers for semistructured data extraction from the web[J].Information System,1998 ;23(8)
5N Kushmerik.Wrapper induction:Efficiency and expressiveness[J].Artificial Intelligence ,2000;(118)
6I Muslea,S Minton,C A Knobolock.A hierarchical approach to wrapper induction[C].In:Proc of Autonomous Agents,1999
7S Soderland.Learning information extraction rules for semistructured and free text[J].Machine Learning,1999;34(1-3)
8B Adelberg.NoDoSE-a tool for semi-automatically extracting structured and semistructured data from text documents.In SIGMOD 98
9B A Ribeiro-Neto,A Laender.Extracting semistructured data through example.In CIKM 99
10D W Embley,D M Campbell.A conceptual-modeling approach to extracting data from the web.In ER 98

共引文献86

1沈晓娟,刘渊.WEB半结构化数据查询[J].计算机工程与设计,2004,25(7):1178-1181. 被引量：1
2安兴亚,周本新,童小念.基于XML的网络数据更新模式[J].微计算机应用,2005,26(1):41-44. 被引量：2
3周霜菊,孙济庆.基于Agent的Web知识过滤器设计[J].计算机与数字工程,2005,33(3):85-89.
4许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
5谢维成,吕先竞,宋玉忠.基于XML的Web数据抽取模型研究(英文)[J].西华大学学报（自然科学版）,2006,25(1):82-86.
6车建华,刘国华,杨小刚,艾鸿.基于视图的查询重写[J].燕山大学学报,2006,30(1):38-43. 被引量：1
7易平,胡运安,陈福生,张世永.基于PATRICIA-TRIES的XML路径索引设计[J].小型微型计算机系统,2006,27(3):474-480. 被引量：2
8陈轶群.高速公路路政档案管理工作之我见[J].北京档案,2006(7):35-36. 被引量：2
9贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
10龙波,邓健爽,陈琼.基于网页布局及关键词组的垂直搜索技术[J].现代计算机,2006,12(9):46-49. 被引量：3

同被引文献41

1王刚.基于数据库和中间件技术的数据中心建设[J].计算机时代,2004(11):25-26. 被引量：2
2曹波,杨波.数据中心规划与实施探讨[J].华中电力,2004,17(5):37-39. 被引量：14
3卢廷杰.数据中心的系统设计[J].电力信息化,2004,2(7):69-71. 被引量：4
4任永功,于戈.数据可视化技术的研究与进展[J].计算机科学,2004,31(12):92-96. 被引量：56
5刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：137
6张素智,刘放美.基于矩阵约束法的中文分词研究[J].计算机工程,2007,33(15):98-100. 被引量：11
7Nature. Big Data[EB/OL]. http://www.nature.com/news/specials/bigdata/index.html [2012-10-02].
8Science. Special Online Collection: Dealing with Data[EB/OL]http://www.sciencemag.org/site/speeial/data/[2012-10-02].
9Baumgartner R, Flesca S, Gotflob G, editors. Visual Web Information Extraction with Lixto. VLDB; 2001.
10Liu L, Pu C, Han W, Editors. XWRAP: An XML-Enabled Wrapper Construction System for Web Information Sources. Data Engineering, 2000. Proceedings. 16th International Conference on; 2000: IEEE.

引证文献2

1陈洁.高校应用系统数据统一性研究[J].信息通信,2012,25(4):126-127.
2张素智,孙嘉彬,王威.大数据下的Web数据集成与挖掘研究[J].现代计算机（中旬刊）,2014(10):37-42.

1李姗,黄水源.基于XML的WEB信息抽取模型设计[J].微计算机信息,2009(9):207-208. 被引量：5
2李桂元.基于数据挖掘技术的三峡库区信息查询系统[J].科学咨询,2009(17):57-58.
3任艳娜,郭伟.浅谈数据挖掘技术在市场营销中的应用[J].中国电力教育（下）,2009(12):254-255. 被引量：1
4潘翔,章国栋,陈启华.三维可变形物体的特征点层次提取[J].计算机科学,2014,41(4):292-296. 被引量：2
5柴秀娟,山世光,高文,陈熙霖.基于样例学习的面部特征自动标定算法[J].软件学报,2005,16(5):718-726. 被引量：15
6杨启仁,王娟,张科.基于神经网络的数据挖掘研究[J].信息与电脑（理论版）,2010(8):36-37. 被引量：3
7高建中.计算机技术在自动导航中的应用 "电脑,你来开飞机!"[J].新电脑,2005(1):174-176.
8何牧.4D打印技术在服装设计领域中的应用[J].艺术教育,2016(9):213-214. 被引量：2
9于凤东,黄利萍,刘莹,张斌.基于设计模式的组件代码及描述的自动生成工具[J].南京大学学报（自然科学版）,2005,41(z1):180-183.
10张军,戴霞.基于样例学习的任意光照下的人脸3D重建方法[J].计算机工程与应用,2008,44(3):81-84. 被引量：3

郑州轻工业学院学报（自然科学版）

2008年第3期

浏览历史

内容加载中请稍等...

基于XML的密集型Web信息抽取与集成研究被引量：2

参考文献6

二级参考文献20

共引文献86

同被引文献41

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于XML的密集型Web信息抽取与集成研究 被引量：2

参考文献6

二级参考文献20

共引文献86

同被引文献41

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于XML的密集型Web信息抽取与集成研究被引量：2