Deep Web信息抽取研究被引量：5

On Deep Web Information Extraction

导出

摘要针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。 Aiming at solving the problem of how to utilize the information resources in the Deep Web, this paper indicates the approach by information extraction, and through analyses and compares the technologies used in two major processes of handling database searching interface and extracting structured data, does information extraction experiment on patent databases by using the approach based on keywords search and document object modeling technologies. The results of experiment verify the precision of extraction approach and the author lastly points out the disadvantages and the ways to improve, so as to provide references for the full use of Deep Web information resources.

作者董旻方曙

机构地区中国科学院研究生院中科院图书馆成都分馆

出处《图书情报工作》 CSSCI 北大核心 2007年第10期25-28,共4页 Library and Information Service

关键词 DEEP Web 信息抽取查询接口命名实体识别文档对象模型 Deep Web information extraction searching interface named entity recognition document object model

分类号 TP393.09 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Bergman M K. The deep web: surfacing hidden value. [2006-09-10]. http://www.press.umich.edu/jep/07-01/bergman.html.
2Bin He, Patel M, Zhen Zhang, et al. Accessing the deep web: A survey. [2007-01-17]. http://eagle.cs.uiuc.edu/tr/dwsurvey-trhpzc-ju1104.pdf.
3Liu V Z, Luo R C, Cho J, et al. DPro: A probabilistic approach for hidden web database selection using dynamic probing. [2007- 03-11]. http://www.cobase.cs.ucla.edu/tech-docs/vicliu/ Report030024.pdf.
4Ipeirotis P G, Gravano L. When one sample is not enough: improving text database selection using shrinkage. [2007-03-20]. http://www1.cs.columbia.edu/-gravano/Papers/2004/ sigmod2004.pdf.
5郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
6Liddle S W, Embley D W, et al. Extracting data behind web forms//Masatoshi Yoshikawa, Yu E S K eds. 21st International Conference on Conceptual Modeling. Advanced Conceptual Modeling Techniques:Tampere, Finland, 2003:402-413.
7He Hai, Meng Weiyi, Yu Clement, et al. Wise-integrator: A system for extracting and integrating complex web search interfaces of the deep web.[2007-03-251, http://www.vldb2005. org/program/paper/demo/p1314-he.pdf.
8Zhang Zhen, He Bin, Chen K,et al. Understanding web query interfaces: best-effort parsing with hidden syntax. [2007-03- 29]. http://eagle.cs.uiuc.edu/pubs/2004/parsing-sigmod04-zhcmar04.pdf.
9Raghavan S, Garcia-Molina H. Crawling the hidden web. [2007-04-01]. http://www.dia.uniroma3.it/-vldbproc/017_129.pdf.
10Appelt E D, Israel D J. Introduction to information extraction technology. [2007-04-01]. http://ranger.uta.edu/-alp/dm/ ixtutorial.pdf.

二级参考文献12

1Raghavan S,Garcia-Molina H.Crawling the hidden web[C].Roma,Italy:Proceedings of the 27th International Conference on Very Large Data Bases,2001.129-138.
2Cormen T H,Leiserson C E,Rivest R L.Introduction to algorithms[M].2nd Edition.MIT Press/McGraw Hill,2001.
3Ipeirotis P,Gravano L.Distributed search over the hidden web:Hierarchical database sampling and selection[C].VLDB,2002.
4Ntoulas A,Cho J,Olston C.What's new on the web? The evolution of the web from a search engine perspective[Z].WWW,2004.
5Barbosa L,Freire J.Siphoning hidden-web data through keyword-based interfaces[C].SBBD,2004.
6Cope J,Craswell N,Hawking D.Automated discovery of search interfaces on the web[C].14th Australasian conference on Data Base technologies,2003.
7He B,Chang K C C.Statistical schema matching across web query interfaces[C].SIGMOD Conference,2003.
8Ipeirotis P G,Gravano L,Sahami M.Probe,count,and classify:Categorizing hidden web databases[C].SIGMOD,2001.
9Liu V Z,Luo J C Richard C,Chu W W.Dpro:A probabilistic approach for hidden web database selection using dynamic probing[C].ICDE,2004.
10Wang Jiying.Information discovery,extraction and integration for the hidden web[C].2002.

共引文献12

1曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：40
2张云冬,徐和祥,胡运发,邓河.基于个性化图书馆的Deep Web Crawler研究与实现[J].计算机应用与软件,2009,26(4):148-149. 被引量：1
3周二虎,张水平,胡洋.基于Deep Web检索的查询结果处理技术的应用[J].计算机工程与设计,2010,31(1):106-109.
4黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
5李贵,韩子扬,郑新录,李征宇.基于Apriori算法的Deep Web网页关系挖掘研究[J].山东大学学报（理学版）,2011,46(5):67-70.
6郭少友,赵善义,李建平,王斌.基于数据库分类的deep web爬行器研究[J].情报科学,2011,29(10):1575-1579.
7周杨.支持Ajax的Deep Web爬虫研究与设计[J].计算机系统应用,2012,21(2):167-171. 被引量：1
8钱程,阳小兰.一种支持Ajax框架的网络爬虫的设计与实现[J].计算机与数字工程,2012,40(4):69-71. 被引量：3
9赵昊,卫刚,赵晓东.基于主题Deep Web数据挖掘的研究与探索[J].电脑知识与技术,2012,8(6):3792-3795.
10朱云鹏,冯枫,陈江宁.多策略融合的中文微博数据采集方法[J].计算机工程与设计,2013,34(11):3835-3839. 被引量：6

同被引文献167

1沈迪飞.谈谈我国图书馆应用计算机的起步问题[J].中国图书馆学报,1979,7(2):66-71. 被引量：7
2深圳大学图书馆计算机管理集成系统通过鉴定[J].图书情报工作,1988,32(2):43-43. 被引量：1
3张惠惠.DIALOG国际联机检索系统——检索策略的探讨[J].图书馆杂志,1987,6(5):24-26. 被引量：3
4毕强.联机情报检索网络浅谈[J].现代情报,1987,8(1):30-32. 被引量：1
5夏波.情报检索系统的误差与分析[J].情报理论与实践,1987,10(6):35-38. 被引量：1
6莫少强.广东省西文图书自动编目系统简介[J].图书馆论坛,1984,6(3):23-27. 被引量：2
7姜戈,邓琼芳.俄亥俄学院图书馆网络[J].图书馆,1980(6):41-44. 被引量：1
8李哲民.国外图书馆应用计算机的一些情况[J].国家图书馆学刊,1978(1):42-43. 被引量：1
9吴振新.RSS元数据在门户网站建设中的应用[J].现代图书情报技术,2004(10):60-64. 被引量：62
10王知津,郑红军.基于集合理论的信息检索模型[J].情报科学,2004,22(11):1288-1291. 被引量：6

引证文献5

1张云坤.基于数据集成的高校图书馆个性化信息服务研究[J].图书馆工作与研究,2010(7):25-27. 被引量：4
2张志平,张云坤,李文骏.Deep web在个性化信息服务中的应用[J].电子商务,2010,11(8):62-63.
3张云坤.基于Deep Web数据集成的个性化信息服务研究[J].现代情报,2010,30(10):74-76.
4顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：16
5李广建,陈瑜,张庆芝.新中国70年现代图书情报技术研究与实践[J].图书馆杂志,2019,38(11):4-20. 被引量：10

二级引证文献30

1郭晓宇,彭浩.基于本体的网页数据抽取技术的探讨[J].中国多媒体与网络教学学报（电子版）,2020(19):4-5.
2赵光,刘益兵,王人颢,齐晓林,张红萍,王志萍.中外大学附属医院图书情报学领域数据挖掘研究现状对比分析与应对[J].新一代信息技术,2022,5(4):114-117. 被引量：1
3高中丽.信息技术对儿童图书馆工作的影响[J].科技情报开发与经济,2011,21(28):93-94.
4来红梅.大数据时代图书馆信息服务面临的挑战与对策[J].图书馆学刊,2014,36(3):91-93. 被引量：20
5何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
6王晓征.基于大数据的高校图书馆个性化信息服务系统设计[J].图书馆学刊,2015,37(11):108-110. 被引量：4
7茹蓓,陈建彪.基于朴素贝叶斯方法的Web数据噪音分类研究[J].内江科技,2016,37(7):36-37.
8刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
9曹亮.基于大数据环境的高校图书馆个性化信息服务探究[J].科技风,2016(24):170-170. 被引量：5
10阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1

1李剑波,李小华,董树明,杨科华.一种基于XML的Web信息抽取方法[J].情报杂志,2006,25(8):49-51. 被引量：7
2万静,涂喆,冯晓.基于条件随机场的医药领域症状信息抽取[J].北京化工大学学报（自然科学版）,2016,43(1):98-103. 被引量：11
3于江德,樊孝忠,尹继豪.隐马尔可夫模型在自然语言处理中的应用[J].计算机工程与设计,2007,28(22):5514-5516. 被引量：15
4胡致涌,胡迎松.基于领域本体的信息抽取系统的设计与实现[J].价值工程,2010,29(14):158-159. 被引量：2
5张英.农业Web信息获取系统的研究与设计[J].农业网络信息,2009(8):42-45.
6胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：44
7金燕,王志华.基于推理的语义网检索模型及关键技术研究[J].计算机工程与设计,2013,34(7):2585-2589. 被引量：9
8黄小瑜.智能Agent在电子商务中的应用[J].计算机时代,2003(6):1-2.
9高玉琢,任思佳,王恒,佘廉.基于数值编码规则的信息抽取方法[J].宁夏大学学报（自然科学版）,2009,30(1):46-49. 被引量：2
10季红洁,赵知纬,钱龙华.面向信息抽取的中文跨文本指代消解研究[J].福建电脑,2012,28(11):10-12. 被引量：1

图书情报工作

2007年第10期

浏览历史

内容加载中请稍等...

Deep Web信息抽取研究被引量：5

参考文献11

二级参考文献12

共引文献12

同被引文献167

引证文献5

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

Deep Web信息抽取研究 被引量：5

参考文献11

二级参考文献12

共引文献12

同被引文献167

引证文献5

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

Deep Web信息抽取研究被引量：5