期刊文献+

基于扩展标记图的Web信息抽取器 被引量:2

Web Information Extractor Based on Extended Tag Graph
在线阅读 下载PDF
导出
摘要 介绍了一种新的Web信息抽取器,该抽取器基于扩展标记图模型,实现了数据和模式的分离,应用于Web检索系统中,能够有效地支持标记级实时信息检索、抽取和重组。还介绍了其在Web信息检索系统PowerSearcher中的实际应用。 A new Web information extractor is discussed. It is based on extend tag graph (ETC), and has the ability to separate the data from the pattern data. This extractor is used in Web information retrieval, with supporting effective real-time information retrieval, extract and reform in tag level inside the Web page. Besides the design of the extractor, it also discusses its practice in experimental system.
作者 王亮 朱征宇
出处 《计算机工程》 EI CAS CSCD 北大核心 2005年第8期159-161,191,共4页 Computer Engineering
基金 重庆大学骨干教师资助计划项目(2003A33)
关键词 Web信息抽取器 扩展标记图 半结构数据 WEB检索 Web information extractor Extend tag graph Semi-structured data Web retrieval
  • 相关文献

参考文献5

二级参考文献32

  • 1陶仁骥.一种有限自动机分开钥密体制和数字签名[J].计算机学报,1985,8(6):401-409.
  • 2[2]Abiteboul S,Quass D,McHugh J,Widom J,Wiener J L. The Lorel query language for semistructured data. Int J Digit Libr,1997,1:68~88
  • 3[3]Spertus E,Stein L A. Squeal: a structured query language for the Web, Computer Networks, Volume 33, Issues 1-6, June 2000. 95~103
  • 4[4]Liu M,Ling T W. A Rule-based Query Language for HTML. In:Proc. of the Seventh Intl. Conf. on Database Systems for Advanced Applications (DASFAATM01). IEEE,2001
  • 5[6]XML Path Language (XPath)2. 0. W3C Working Draft 02 May 2003. http://www. w3. org/TR/2003/WD-xpath20-20030502/
  • 6[7]XQuery 1.0: An XML Query Language. W3C Working Draft 02 May 2003. http://www. w3. org/TR/2003/WD-xquery-20030502/
  • 7[8]XQuery 1.0 and XPath 2. 0 Data Model. W3C Working Draft 02 May 2003. http://www. w3. org/TR/2003/WD-xpath-datamodel-20030502/
  • 8[10]HTML Tidy.http://www.w3.org/MarkUp/#tidy
  • 9陶仁骥,计算机学报,1985年,8卷,6期,401页
  • 10管纪文,线性自动机,1984年

共引文献147

同被引文献32

引证文献2

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部