基于Web资源的信息抽取技术被引量：9

The Technology of Information Extraction for Web Resource

下载PDF

导出

摘要 Web资源含有大量的有用信息 ,但由于它们欠结构化 ,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来 ,转化成结构化信息 ,供其它信息集成系统所利用 ,成为该领域的研究热点。本文介绍了一个简单的 Web信息抽取模型 ,对于基于该模型的 wrapper归纳技术进行了探讨 ,并描述了一个 There is plenty of useful information in web resource.It can't be used by the traditional database query system because it is not well-structured.Recently considerable attention has been received on how to extract it from web resource and transfer it to structured information that can be used by other information integration systems.This paper presents a simple web information extraction model,discussed the technology of wrapper induction based on the model and describes automatic generation prototype system of wrapper.

作者郭志红

机构地区上海交通大学情报研究所

出处《情报科学》 CSSCI 北大核心 2002年第12期1282-1284,共3页 Information Science

关键词 WEB资源信息抽取 wrapper归纳技术自动生成原型系统 Information extraction Wrapper induction Automatic generation prototype system

分类号 G250.73 [文化科学—图书馆学] G354 [文化科学—情报学]

引文网络
相关文献

参考文献3

1[1]Nicholas Kushmerick. Wrapper induction: Efficiency and expressiveness. Artifical Intelligence 118 (2000): 15～68
2[2]Ling Liu, Calton Pu, Wei Han. An XML-enabled data extraction toolkit for web sources. Information Systems 26 (2001): 563～583
3[3]Armaud Sahuguet, Fabien Azavant. Building intelligent Web applications using lightweight wrappers. Data & knowledge Engineering 36 (2001): 283～286

同被引文献58

1张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J].现代图书情报技术,2004(6):1-5. 被引量：26
2刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
3崔继馨,孔维平.Web信息抽取技术的研究[J].信息技术教育,2004(10):109-110. 被引量：1
4郑娅峰,鱼滨.基于Web的异构信息源集成中间件[J].计算机应用,2005,25(1):81-84. 被引量：10
5李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
6刘剑兰,朱东华.信息抽取技术在情报监测中的应用[J].情报学报,2004,23(6):661-666. 被引量：6
7张清军,朱才连,侯林山.信息抽取技术在LBS中的应用[J].四川大学学报（工程科学版）,2005,37(1):116-120. 被引量：1
8包剑,冀常鹏,李义杰.基于矢量空间模型的文本自动分类系统研究[J].计算机系统应用,2005,14(3):47-49. 被引量：6
9奚伟鹏,李昕,蒋凯,武港山.面向网上论坛的信息抽取技术[J].计算机工程,2005,31(4):66-68. 被引量：8
10陈冰云.标准化跨库检索系统的设想[J].科技情报开发与经济,2005,15(6):231-232. 被引量：16

引证文献9

1李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
2聂哲,顾明.基于XML的政府公文信息抽取中间件的设计与实现[J].计算机工程与设计,2007,28(5):1158-1160.
3李伟,黄颖.基于HtmlParser的网页信息提取[J].兵工自动化,2007,26(7):41-41. 被引量：4
4林鸿飞,杨志豪,赵晶.中文文本的信息自动抽取和相似检索机制[J].小型微型计算机系统,2007,28(11):2074-2079. 被引量：3
5黄颖,黄治平.HtmIParser提取网页信息的设计与实现[J].江西理工大学学报,2007,28(6):26-28. 被引量：6
6黄永文,李广建.数字图书馆中的ETL应用研究综述[J].现代图书情报技术,2007(12):1-5. 被引量：6
7桂林斌.基于HtmlParser抽取动态异构Web信息的研究与实现[J].计算机与数字工程,2009,37(7):161-164. 被引量：4
8彭祥礼,朱小军,查志勇.Web信息抽取和展现系统的设计与实现[J].电力信息化,2012,10(2):23-26. 被引量：1
9史诚.基于HTMLParser视频信息抽取系统的设计与实现[J].科技传播,2011,3(22):207-208.

二级引证文献30

1滕国库,张一弓.基于ARM嵌入式芯片TCP/IP协议的数据采集设计[J].辽宁石油化工大学学报,2007,27(4):51-55. 被引量：5
2胡瑜,王立志.基于HTML结构特征的网页信息提取[J].辽宁石油化工大学学报,2009,29(3):65-69. 被引量：5
3郎凤举.HTMLParser提取网页超链接研究[J].电脑编程技巧与维护,2010(2):74-75. 被引量：1
4段青玲,刘伃,胡梅,王芳.基于网络时间协议的时间同步实现方法[J].计算机应用,2010,30(A01):1-2. 被引量：2
5陈诗琴,李文江.基于.NET的农产品市场行情信息采集——以重庆农产品市场行情查询网为例[J].现代图书情报技术,2010(6):88-92.
6潘超,梁宏伟,李立召.基于DOM的网页信息抽取方法[J].硅谷,2010,3(20):172-172. 被引量：2
7徐研,张伟.基于BHO的淘宝网账户自动登录系统研究与实现[J].软件导刊,2011,10(4):123-125. 被引量：1
8李畅,王永良,冯晓洁,聂峰.作战文书关键信息抽取方法[J].兵工自动化,2011,30(5):26-29. 被引量：8
9许朝晖,陈荣国,谢炯.WMS的自定义地图服务聚合技术研究[J].测绘科学技术学报,2011,28(3):223-226. 被引量：11
10孙明柱,魏海平.基于结构树的网页正文内容抽取方法[J].科学技术与工程,2011,11(28):6990-6993. 被引量：2

1孙俊燕.浅谈企业档案管理与服务[J].山西档案,2007,0(S2):79-80. 被引量：2
2燕非.信息集成系统在科协工作中的应用[J].厂矿科协,1999(5):20-20.
3吴恒亮.基于本体和DOM树的Web信息抽取技术研究[J].情报科学,2010,28(7):1055-1059. 被引量：3
4李松萍,杨秋奇.浅谈信息集成系统中档案管理工作[J].铝镁通讯,2008(1):55-55.
5赵艳萍.电子信息技术与企业档案管理[J].兰台世界（上旬）,2006(04X):28-28. 被引量：2
6袁向红.信息集成系统下的企业档案工作[J].山西科技,2008(3):15-16. 被引量：4
7黄子健.澎湃数据新闻:传统媒体新探索[J].中国传媒科技,2014,0(23):19-20. 被引量：2
8苗杰,王志坚.西文灰色文献KWOC Index自动生成系统[J].江苏图书馆学报,1993(5):33-34.
9邹建兰.电子文件管理的引进促进企业档案管理[J].机电兵船档案,2007,23(4):68-68. 被引量：2
10郭家义,宋玲.数字图书馆整合实践与思考[J].图书馆杂志,2004,23(6):44-49. 被引量：3

情报科学

2002年第12期

浏览历史

内容加载中请稍等...

基于Web资源的信息抽取技术被引量：9

参考文献3

同被引文献58

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于Web资源的信息抽取技术 被引量：9

参考文献3

同被引文献58

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于Web资源的信息抽取技术被引量：9