基于HtmlParser抽取动态异构Web信息的研究与实现被引量：4

Research and Implementation of the Dynamic Heterogeneous Web Information Extraction Based on HtmlParser

下载PDF

导出

摘要抽取动态异构Web信息以建立索引数据库供用户统一检索使用,是高校图书馆资源整合中的技术难点。通过对目标WEB站点表单提交方式和查询参数的研究和分析,使用Http模拟Post提交查询参数获得检索结果页面,基于开源项目HTMLParser包,以抽取CNKI文章检索结果入库为例,给出了算法及其实现的详细过程。 Extract dynamic heterogeneous web information to build index database for users＇ unified srarch using is a technical difficulty of integration of library resourses in colleges and universities. Through the research and analysis of target web site form＇s submission mode and query parameters, using http to submit query parameters by simulating post so as to obtain the page of research results. Based search results of an article entering into a database as an example, to give an algorithm and a detailed process of implementation.

作者桂林斌

机构地区云南能源职业技术学院计算机信息与工程系

出处《计算机与数字工程》 2009年第7期161-164,206,共5页 Computer & Digital Engineering

基金云南省教育厅2008年科学研究基金项目"图书馆资源整合研究与实现"(编号:08C0272)资助

关键词动态异构网页抽取 HTMLPARSER dynamic heterogeneous, web extraction, htmlparser

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1李昌清,李艳霞,李胜利,王剑.基于动态异构的Web信息集成网页分析方法[J].计算机应用研究,2007,24(12):204-206. 被引量：7
2王权,施韶亭.基于PHP的统一检索系统的设计与实现[J].兰州理工大学学报,2008,34(1):91-94. 被引量：10
3HTMLParser网站[EB/OL].http://htmlparser.sourceforge.net/.
4朱炜,王超,李俊,潘金贵.Web超链分析算法研究[J].计算机科学,2003,30(9):89-93. 被引量：20
5洪辉,刘子敬,李石君,欧伟杰.智能WEB信息提取系统的研究和设计[J].微计算机信息,2005,21(11X):71-74. 被引量：8
6郭志红.基于Web资源的信息抽取技术[J].情报科学,2002,20(12):1282-1284. 被引量：9
7陈冰云.标准化跨库检索系统的设想[J].科技情报开发与经济,2005,15(6):231-232. 被引量：16
8许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15

二级参考文献65

1陈欣.NET环境下跨库检索系统的设计与检索代理的实现[J].现代图书情报技术,2004(11):27-31. 被引量：4
2原福永,杨桂芝,程玉良.基于Agent的个性化信息服务系统的开发与设计[J].计算机工程与应用,2004,40(33):109-111. 被引量：9
3陶春,张亮,施伯乐.基于本体的XML数据集成的查询处理[J].计算机研究与发展,2005,42(3):468-477. 被引量：15
4宋武伟.异构Web数据库集成检索系统的网页分析技术[J].情报杂志,2006,25(3):102-104. 被引量：4
5李跃进,赵晶,林鸿飞.基于Internet的军事演习信息抽取系统[J].计算机工程与应用,2006,42(14):214-218. 被引量：6
6郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
7曹方,施韶亭.基于Web过程模拟的异构数字文献统一检索系统设计与实现[J].情报学报,2006,25(5):575-579. 被引量：11
8[1]Nicholas Kushmerick. Wrapper induction: Efficiency and expressiveness. Artifical Intelligence 118 (2000): 15～68
9[2]Ling Liu, Calton Pu, Wei Han. An XML-enabled data extraction toolkit for web sources. Information Systems 26 (2001): 563～583
10[3]Armaud Sahuguet, Fabien Azavant. Building intelligent Web applications using lightweight wrappers. Data & knowledge Engineering 36 (2001): 283～286

共引文献65

1杨沅钊,吴薇,喻晓莉,杨国才.搜索引擎排名改进算法分析[J].农业网络信息,2005(2):41-43. 被引量：2
2单爱民.一种统一开放的互联网信息搜索排序公式的研究[J].现代计算机,2005,11(3):15-18.
3耿桦,李媛,朱炜,潘金贵.Web搜索中的数据挖掘技术研究[J].计算机科学,2005,32(4):37-41. 被引量：4
4彭林峰.信息化与建设和谐社会[J].职业,2005(10):52-53. 被引量：2
5莫楠,谢梦洲.浅论中医药信息资源特点和数据库建设[J].湖南中医学院学报,2005,25(6):52-53. 被引量：10
6吴安清,张颖江,涂军.主题搜索ROBOT综合爬行策略的研究[J].武汉理工大学学报,2006,28(2):74-76. 被引量：6
7李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
8林其东.数字图书馆跨库检索平台的设计和实现[J].图书馆学刊,2006,28(5):124-126. 被引量：4
9龙波,邓健爽,陈琼.基于网页布局及关键词组的垂直搜索技术[J].现代计算机,2006,12(9):46-49. 被引量：3
10韩志扬,孟晓景.Web2．0 RIA基础类研究[J].福建电脑,2006,22(10):34-35.

同被引文献29

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
4段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12
5HTML Parser for .NET C#, VB. NET[ EB/OL]. [ 2010 - 04 - 25 ]. http ://www. netomatix. com/Products/DocumentManagement/HT- MLParserNet. aspx.
6Olsen A, Allison D, Speer J. Visual Basic. NET类设计手册[M].袁勤勇,吴静译.北京:清华大学,2002:35-179.
7Wong Waichiu, Fu Ada Waichee. Incremental document clustering for webpage classification. Chinese University of Hong Kong, 2000.
8中国互联网络信息中心.中国互联网络发展状况统计报告.
9The Apache Software Foundation. Apache HttpComponents[OL].http://hc.apache.org/,2012.
10SOURCE.NET. HTML Parser[OL].http://htmlparser.sourceforge.net/,2006.

引证文献4

1陈诗琴,李文江.基于.NET的农产品市场行情信息采集——以重庆农产品市场行情查询网为例[J].现代图书情报技术,2010(6):88-92.
2孙明柱,魏海平.基于结构树的网页正文内容抽取方法[J].科学技术与工程,2011,11(28):6990-6993. 被引量：2
3杨同江,吴伟明,谷勇浩.基于中间件技术的移动OA模型设计和实现[J].软件,2012,33(10):9-12. 被引量：2
4张弘弦,田玉玲.Web垂直搜索引擎实现过程的研究[J].现代电子技术,2016,39(8):55-59. 被引量：4

二级引证文献8

1周光明.部委机关办公自动化系统建设与应用浅析[J].软件,2013,34(10):33-35. 被引量：4
2郑用杰,叶少珍.环保地坪行业垂直搜索引擎设计与实现[J].工业控制计算机,2016,29(11):137-138.
3石锦涛.基于文字密度提取网页正文[J].福建电脑,2017,33(4):116-117.
4罗霞.海量互联网数据中英语翻译术语高效搜索系统设计[J].现代电子技术,2017,40(13):134-136. 被引量：6
5顾问,曹阳.基于jsoup的Web页面自适应转换系统的实现[J].电子技术与软件工程,2017(18):200-202. 被引量：4
6惠光伦.典型产品数据搜索引擎平台研究与设计[J].黄山学院学报,2019,21(3):16-19. 被引量：1
7张文艳,宋子强,孙荣,王正路.智慧校园背景下校内搜索引擎研究[J].现代电子技术,2022,45(20):75-80. 被引量：1
8董恒竞.一种企业移动应用平台架构设计[J].软件,2016,37(1):136-138. 被引量：8

1胡琳娜.用P2P流媒体技术实现IPTV[J].广播与电视技术,2006,33(8):82-85. 被引量：2
2张海燕,刘彦,陈晓明,赵一弘.一种面向动态异构多处理器的任务调度算法[J].湖南大学学报（自然科学版）,2016,43(8):151-156.
3陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
4朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
5李昌清,李艳霞,李胜利,王剑.基于动态异构的Web信息集成网页分析方法[J].计算机应用研究,2007,24(12):204-206. 被引量：7
6李子青.无处不在的人脸识别物联网人脸识别技术与应用[J].A&S（安全&自动化）,2011(10):64-64.
7徐志麟,陆朝俊.网格数据融合系统中的数据源管理[J].计算机工程,2008,34(22):63-65. 被引量：1
8段江霞,李红信,王龙奎.一种新型的Simth Fuzzy PID控制器在网络控制系统中的应用[J].甘肃科技,2013,29(11):12-15. 被引量：1
9佟继红 ,王继忠 .单片机锅炉自适应控制系统研究[J].北华大学学报（自然科学版）,2005,6(3):278-280. 被引量：3
10王燕.分布式动态异构网格中间件比较研究[J].计算机光盘软件与应用,2012,15(13):108-109. 被引量：1

计算机与数字工程

2009年第7期

浏览历史

内容加载中请稍等...

基于HtmlParser抽取动态异构Web信息的研究与实现被引量：4

参考文献8

二级参考文献65

共引文献65

同被引文献29

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于HtmlParser抽取动态异构Web信息的研究与实现 被引量：4

参考文献8

二级参考文献65

共引文献65

同被引文献29

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于HtmlParser抽取动态异构Web信息的研究与实现被引量：4