基于扩展标记图的Web信息抽取器被引量：2

Web Information Extractor Based on Extended Tag Graph

下载PDF

导出

摘要介绍了一种新的Web信息抽取器,该抽取器基于扩展标记图模型,实现了数据和模式的分离,应用于Web检索系统中,能够有效地支持标记级实时信息检索、抽取和重组。还介绍了其在Web信息检索系统PowerSearcher中的实际应用。 A new Web information extractor is discussed. It is based on extend tag graph (ETC), and has the ability to separate the data from the pattern data. This extractor is used in Web information retrieval, with supporting effective real-time information retrieval, extract and reform in tag level inside the Web page. Besides the design of the extractor, it also discusses its practice in experimental system.

作者王亮朱征宇

机构地区重庆大学计算机学院

出处《计算机工程》 EI CAS CSCD 北大核心 2005年第8期159-161,191,共4页 Computer Engineering

基金重庆大学骨干教师资助计划项目(2003A33)

关键词 Web信息抽取器扩展标记图半结构数据 WEB检索 Web information extractor Extend tag graph Semi-structured data Web retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1陈滢,徐宏炳,王能斌.基于标记图的Web数据模型[J].计算机学报,1999,22(3):306-312. 被引量：12
2朱征宇,朱庆生.有限自动机研究的矩阵模型方法[J].计算机科学,2001,28(4):46-48. 被引量：37
3李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：102
4朱征宇,王亮,赵银春,程代杰.基于扩展标记图的网页信息重组技术[J].计算机科学,2004,31(5):56-60. 被引量：3
5HTML Tidy. http://www.w3.org/MarkUp/#tidy.

二级参考文献32

1陶仁骥.一种有限自动机分开钥密体制和数字签名[J].计算机学报,1985,8(6):401-409.
2[2]Abiteboul S,Quass D,McHugh J,Widom J,Wiener J L. The Lorel query language for semistructured data. Int J Digit Libr,1997,1:68～88
3[3]Spertus E,Stein L A. Squeal: a structured query language for the Web, Computer Networks, Volume 33, Issues 1-6, June 2000. 95～103
4[4]Liu M,Ling T W. A Rule-based Query Language for HTML. In:Proc. of the Seventh Intl. Conf. on Database Systems for Advanced Applications (DASFAATM01). IEEE,2001
5[6]XML Path Language (XPath)2. 0. W3C Working Draft 02 May 2003. http://www. w3. org/TR/2003/WD-xpath20-20030502/
6[7]XQuery 1.0: An XML Query Language. W3C Working Draft 02 May 2003. http://www. w3. org/TR/2003/WD-xquery-20030502/
7[8]XQuery 1.0 and XPath 2. 0 Data Model. W3C Working Draft 02 May 2003. http://www. w3. org/TR/2003/WD-xpath-datamodel-20030502/
8[10]HTML Tidy.http://www.w3.org/MarkUp/#tidy
9陶仁骥，计算机学报，1985年，8卷，6期，401页
10管纪文，线性自动机，1984年

共引文献147

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(Z1):74-78.
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6朱征宇,王亮,赵银春,程代杰.基于扩展标记图的网页信息重组技术[J].计算机科学,2004,31(5):56-60. 被引量：3
7王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
8孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
9朱征宇,付关友,赵银春.矩阵模型表示下有限自动机等价判定方法[J].计算机工程与应用,2004,40(34):54-56. 被引量：5
10朱征宇,王术,赵银春.基于矩阵模型表示的有限自动机极小化方法[J].计算机工程与应用,2004,40(35):47-49. 被引量：15

同被引文献32

1张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J].现代图书情报技术,2004(6):1-5. 被引量：26
2刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
3李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
4刘剑兰,朱东华.信息抽取技术在情报监测中的应用[J].情报学报,2004,23(6):661-666. 被引量：6
5奚伟鹏,李昕,蒋凯,武港山.面向网上论坛的信息抽取技术[J].计算机工程,2005,31(4):66-68. 被引量：8
6郭瑞华,张玉莉.语义Web上DC元数据的描述及抽取技术[J].现代情报,2005,25(6):212-214. 被引量：6
7刘鲁红,刘力强,胡亚军.信息抽取技术在数字图书馆中的应用研究[J].情报理论与实践,2005,28(3):321-324. 被引量：12
8冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4
9贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
10Cohen W, Hurst M, Jensen L. A flexible learning system for wrapping tables and lists in HTML documents [ C ]//Proceedings of the Eleventh International World Wide Web Conference. 2002:232-241.

引证文献2

1黄永文,李广建.数字图书馆中的ETL应用研究综述[J].现代图书情报技术,2007(12):1-5. 被引量：6
2胡国晴,李建华.一种自动抽取Web信息方法的设计与实现[J].计算机与现代化,2009(1):38-40. 被引量：3

二级引证文献9

1石俊萍,李必云.基于用户自定义结构的电子档案管理系统设计与实现[J].计算机与现代化,2010(2):127-129. 被引量：7
2韩晓娟,许南山.化学和化工深层网信息挖掘技术的研究与应用[J].微计算机信息,2010,26(9):151-153.
3姚晓红.信息时代下数字图书馆对传统图书馆的影响[J].科协论坛（下半月）,2013(12):396-397.
4邓娇玲,胡威虎,华善辉.新农村工农业协同发展的问题与对策探究——以荆州市拍马村为例[J].科协论坛（下半月）,2013(12):397-398.
5颜春华.电子档案管理系统设计及其功能实现[J].中国电子商务,2014,0(21):59-59. 被引量：4
6王伟.信息时代下数字图书馆对传统图书馆的影响[J].民营科技,2015(11):112-112.
7刘欣欣.ETL在数字图书馆资源建设及用户资源管理中的应用[J].科技传播,2012,4(9):195-195. 被引量：1
8马凯,李晓君,郭永新.新媒体时代下数字图书馆对传统图书馆的影响分析[J].科技传播,2012,4(23):82-83. 被引量：7
9刘仕阳,王威威,化柏林.多源数据环境下公共文化服务机构年报的数据抽取研究[J].图书馆杂志,2020,39(12):52-60. 被引量：8

1柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
2朱征宇,朱庆生,王茜.基于扩展标记图的虚拟网页技术[J].计算机科学,2001,28(11):80-82. 被引量：2
3严彩梅,魏同明.中小型企业实时信息检索技术及其应用[J].电脑知识与技术（过刊）,2007(2):305-306.
4朱征宇,王亮,赵银春,程代杰.基于扩展标记图的网页信息重组技术[J].计算机科学,2004,31(5):56-60. 被引量：3
5周海荣.浅析媒体资产管理系统的构建和应用[J].视听界（广播电视技术）,2014,0(6):22-25.
6刘绍翰,王箭,黄志球.改进的向量质心模型在实时信息检索中的应用研究[J].计算机应用与软件,2011,28(10):62-64. 被引量：2
7王永良,陈新度,刘强,陈新.基于内容的墙纸Web检索系统的研究与实现[J].计算机应用研究,2006,23(6):167-169. 被引量：2
8王彤宇,李兴福.应用于学生知识拓展的智能Web检索系统[J].济南职业学院学报,2005(2):57-61.
9张健,徐茂兴.连通域标记并行算法在多核处理器上的设计和实现[J].计算机系统应用,2010,19(4):140-143. 被引量：4
10雷静,周家驹.海洋天然产物信息Web检索系统[J].计算机与应用化学,2001,18(5):549-552. 被引量：2

计算机工程

2005年第8期

浏览历史

内容加载中请稍等...

基于扩展标记图的Web信息抽取器被引量：2

参考文献5

二级参考文献32

共引文献147

同被引文献32

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于扩展标记图的Web信息抽取器 被引量：2

参考文献5

二级参考文献32

共引文献147

同被引文献32

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于扩展标记图的Web信息抽取器被引量：2