-
题名基于Larbin的网络爬虫体系结构的研究与改进
被引量:2
- 1
-
-
作者
李跃健
朱程荣
-
机构
同济大学计算机科学与技术系
-
出处
《计算机技术与发展》
2012年第7期147-150,170,共5页
-
基金
国家863高技术发展计划项目(2010AA122200)
上海市科委国际合作项目(10510712500)
-
文摘
Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,导致内存利用率的降低以及很多网页不能被抓取。通过研究布隆过滤器,将url的hash算法进行改进,把原本一对一的映射变成多对一的映射,减小了冲突概率,同时也将大大地提高Larbin在url内存方面的利用率。经过实验检验,使用布隆过滤器,同样8M内存,当达到10%的url占有率时,采用7个映射,可以使得冲突概率最小,达到0.82%,而没采用Bloom filter的冲突概率则达到了10%。
-
关键词
larbin
爬虫
哈希算法
url去重
布隆过滤器
-
Keywords
larbin
web crawler
hash
url distinguish
Bloom filter
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名larbin网络爬虫的体系结构
被引量:3
- 2
-
-
作者
孟时
王彦
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《电脑学习》
2010年第4期80-81,共2页
-
文摘
本文通过对larbin网络爬虫的研究后总结出了larbin网络爬虫的体系结构,然后结合该爬虫详细介绍了整个体系结构的工作过程,最后介绍了larbin网络爬虫的特点。
-
关键词
larbin
网络爬虫
体系结构
HASH
-
Keywords
larbin Web Crawler Architecture hash
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名网络蜘蛛Larbin的设计和优化
被引量:2
- 3
-
-
作者
王凡毓
-
机构
武汉理工大学信息学院
-
出处
《科技创业月刊》
2008年第2期145-147,共3页
-
文摘
爬虫是搜索引擎的重要组成部分,它决定了搜索引擎的性能,而Larbin正是一种高效的网络爬虫。首先分析了Larbin的设计结构,再由对其核心的算法Bloom Filter进行了研究,并对其提出了改进。最后是关于Larbin优化的实现。
-
关键词
larbin
BLOOM
Filter算法
优化
-
Keywords
larbin, bloom filter, optimization
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名Larbin分析与Windows平台下移植
被引量:2
- 4
-
-
作者
敖东阳
刘好杰
-
机构
第二炮兵工程学院
不详
-
出处
《电脑学习》
2009年第4期23-24,共2页
-
文摘
首先分析了Larbin结构和关键技术,然后利用windows下的VC编译器,实现Larbin向windows系统平台下的移植。
-
关键词
larbin
网络蜘蛛
VC编译器
移植
-
Keywords
larbin Web spider VC Compiler Transplantation
-
分类号
TP311.54
[自动化与计算机技术—计算机软件与理论]
-
-
题名Larbin体系结构的研究与优化
- 5
-
-
作者
王璇
霍义霞
慈云飞
史国振
李莉
-
机构
北京电子科技学院信息安全系
西安电子科技大学计算机学院
-
出处
《网络与信息安全学报》
2016年第8期74-80,共7页
-
基金
国家重点研发计划基金资助项目(No.2016YFB0800304)
北京市自然科学基金资助项目(No.4152048)
+1 种基金
江苏省自然科学基金资助项目(No.BK20150787)
北京电子科技学院2016年春蕾计划基金资助项目(No.2016CL04)~~
-
文摘
网络爬虫是搜索引擎的重要组成部分,其性能直接影响搜索引擎的准确性和及时性。Larbin是一个高效、简单、功能比较完善的开源爬虫框架,基于此,介绍了几种典型的开源爬虫框架,并对其进行多维度比较;对Larbin体系结构进行详细的介绍;然后指出Larbin在程序结构和流程方面存在的不足,提出对应的优化方案;测试结果表明,改进后的方案在速度和性能方面都有所提高。
-
关键词
搜索引擎
网络爬虫
larbin
开源
优化
-
Keywords
search engine
Web crawler
larbin
open source
optimization
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-