基于Heritrix的网络爬虫研究与应用被引量：4

Design and Implementation Based on Heritrix Spider

下载PDF

导出

摘要主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 This paper introduce the essential concepts of topic search engine and Web crawler, as well as the architecture of Heritrix, analyze the working process of Heritrix, and successfully grabbing the information of some books info by expan- ding Heritrix, which provides the information source for creating topic search engine oriented to books information.

作者刘高军夏景隆

机构地区北方工业大学

出处《软件导刊》 2013年第5期123-125,共3页 Software Guide

基金北京市教委科技发展计划项目(KM201310009001) 国家科技支撑项目(2012BAH04F03)

关键词网络爬虫主题搜索引擎 HERITRIX URL地址去重 BKDRHash算法 Web Crawler Topic Search Engine Heritrix URL Filtering BKDR Hash

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1秦海峰,许南山,山岚.基于P2P架构的搜索引擎技术探究[J].福建电脑,2008,24(7):133-133. 被引量：5
2李晓明;闫宏飞;王继明.搜索引擎:原理技术与系统[M]北京:科学出版社,2002.
3祝奕.垂直搜索引擎的构建与应用[J].信息与电脑（理论版）,2010(1):40-41. 被引量：6
4白坤,耿国华.基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J].计算机应用与软件,2009,26(1):212-215. 被引量：21
5李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：38
6李刚;宋伟.征服Ajax+Lucene构建搜索引擎[M]北京:人民邮电出版社,2006.
7白万民,苏希乐.Heritrix在垂直搜索引擎中的应用[J].计算机时代,2011(9):7-9. 被引量：7
8周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156

二级参考文献57

1李晓明,刘建国.搜索引擎技术及趋势[J].中国计算机用户,2000(9):27-28. 被引量：14
2史艳,李伟生.基于XML的搜索引擎技术的研究与设计[J].计算机工程与设计,2004,25(9):1488-1491. 被引量：10
3陈红英,杨宜民.基于多智能体的网络信息系统的原理与实现[J].微电子学与计算机,2005,22(3):57-59. 被引量：2
4吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：50
5曹二堂,刘玉林.基于语义理解的智能搜索引擎的研究[J].情报杂志,2005,24(6):58-59. 被引量：7
6王敏,杨炳儒.基于主题的个性化元搜索引擎的设计与实现[J].情报杂志,2005,24(7):57-58. 被引量：9
7黄建莲.中国搜索引擎服务市场的现状及发展[J].华北科技学院学报,2005,2(3):113-115. 被引量：8
8彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量：7
9杨坚争,李朝平.垂直搜索引擎及其应用[J].电子商务,2006,7(10):23-25. 被引量：14
10车东.在应用中加入全文检索功能-基于Java的全文索引引擎Lucene简介[EB/OL].Http:www.chedong.com/tech/lucene.html,2002.

共引文献219

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
5李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
6孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
7王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
8陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
9李兆春,谢庆生,徐立章.机械主题爬虫的设计与实现[J].现代机械,2007(6):68-70. 被引量：1
10杜光芹,张化祥,赵瑞东.主题Web挖掘研究[J].计算机技术与发展,2008,18(2):94-97. 被引量：3

同被引文献22

1郑如滨撒力谢婷.基于Heritrix与Lucene的垂直搜索引擎研究.电脑知识与技术,2008,4(2).
2Bin He, Mitesh pate.l, zhen zhang, et al. Accessing the deep web[J]. Communications of the ACM, 2007,50 (5) :94 - 101.
3Raghavan, S. , H. Garcia - Molina. Crawling the hidden web. 2000.
4Barbosa, L. , J. Freire,A. Silva. Organizing Hidden -Web Databases by Clustering Visible Web Docu- ments[C], in Data Engineering, 2007. ICDE 2007. IEEE 23rd International Conference on. 2007.
5张俊林.这就是搜索引擎:核心技术详解[M].北京市海淀区:电子工业出版社,2012.
6GOSPODNETIC O,Hatcher E.Lucene实战[M].人民邮电出版社,2011:c4-5.
7彭哲.基于Lucene/XML全文检索系统的跨库应用[J].图书情报工作,2008,52(6):110-112. 被引量：4
8白坤,耿国华.基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J].计算机应用与软件,2009,26(1):212-215. 被引量：21
9孔祥春,李义杰,郑凯明.垂直搜索引擎应用研究[J].计算机系统应用,2009,18(7):150-152. 被引量：3
10詹恒飞,杨岳湘,方宏.Nutch分布式网络爬虫研究与优化[J].计算机科学与探索,2011,5(1):68-74. 被引量：21

引证文献4

1罗成,程耀东,胡庆宝,李海波.DeepWeb可配置聚焦爬虫设计与实现[J].核电子学与探测技术,2014,34(3):353-358. 被引量：3
2黎柯,蔡永香,干佳林,王居远,杨鼎,胡森勇.行业动态信息采集系统关键问题解决方案[J].测绘科学,2016,41(3):161-166. 被引量：2
3张亚凤,郑山红.Heritrix主题爬虫设计[J].长春工业大学学报,2016,37(5):507-511.
4席文强.网络爬虫的Web Kit移植研究[J].科学与信息化,2020(29):27-27.

二级引证文献5

1邓炳光,郭慧兰,张治中.移动互联网用户行为分析系统中聚焦爬虫的设计与实现[J].重庆邮电大学学报（自然科学版）,2015,27(3):359-365. 被引量：4
2魏少鹏,夏小玲.基于Chrome扩展的爬虫系统设计与实现[J].软件导刊,2016,15(3):76-80. 被引量：5
3薛丽敏,吴琦,李骏.面向专用信息获取的用户定制主题网络爬虫技术研究[J].信息网络安全,2017(2):12-21. 被引量：18
4李辉,王鹤,张明理,拓振东.激光传感器实时采集信息的机器人运动轨迹优化[J].激光杂志,2017,38(8):172-175.
5高琰,余游,冯林.大数据情报分析平台在图书馆管理与服务中的应用[J].四川图书馆学报,2018(3):29-32. 被引量：7

1张林.基于Heritrix的视频垂直搜索引擎[J].计算机系统应用,2016,25(9):52-59. 被引量：3
2朱敏,罗省贤.基于Heritrix的面向特定主题的聚焦爬虫研究[J].计算机技术与发展,2012,22(2):65-68. 被引量：7
3孔玲君.网络印刷及其相关支持技术[J].数码印刷,2010(2):21-23. 被引量：3
4王媛媛,吕晓丹,胡琪,吴鸿川.基于HBase的RDF数据存储方案研究与设计[J].信息网络安全,2016(3):59-63. 被引量：5
5硬件小笨.电脑城京东网淘宝网年后淘货大对比[J].电脑爱好者,2010(6):22-22.
6京东商城价格报警器[J].电脑爱好者（普及版）,2011(A01):231-231.
7靳伟国,胡健,李也白.浅析电子商务新贵苏宁易购的发展与未来[J].微型机与应用,2011,30(17):1-3. 被引量：1
8苏磊.当当京东决胜网络,抢滩2011——浅析大战中“当当的攻略”[J].信息与电脑,2011(2):21-23.
9张亚旭.2015新常态融合理解竞争力[J].可编程控制器与工厂自动化（PLC FA）,2015(1):1-1.
10不贪便宜.错价不发货联想你赢得了什么？[J].计算机应用文摘,2008(7):93-93.

软件导刊

2013年第5期

浏览历史

内容加载中请稍等...

基于Heritrix的网络爬虫研究与应用被引量：4

参考文献8

二级参考文献57

共引文献219

同被引文献22

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Heritrix的网络爬虫研究与应用 被引量：4

参考文献8

二级参考文献57

共引文献219

同被引文献22

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Heritrix的网络爬虫研究与应用被引量：4