期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于Larbin的网络爬虫体系结构的研究与改进 被引量:2
1
作者 李跃健 朱程荣 《计算机技术与发展》 2012年第7期147-150,170,共5页
Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,... Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,导致内存利用率的降低以及很多网页不能被抓取。通过研究布隆过滤器,将url的hash算法进行改进,把原本一对一的映射变成多对一的映射,减小了冲突概率,同时也将大大地提高Larbin在url内存方面的利用率。经过实验检验,使用布隆过滤器,同样8M内存,当达到10%的url占有率时,采用7个映射,可以使得冲突概率最小,达到0.82%,而没采用Bloom filter的冲突概率则达到了10%。 展开更多
关键词 larbin 爬虫 哈希算法 url去重 布隆过滤器
在线阅读 下载PDF
larbin网络爬虫的体系结构 被引量:3
2
作者 孟时 王彦 《电脑学习》 2010年第4期80-81,共2页
本文通过对larbin网络爬虫的研究后总结出了larbin网络爬虫的体系结构,然后结合该爬虫详细介绍了整个体系结构的工作过程,最后介绍了larbin网络爬虫的特点。
关键词 larbin 网络爬虫 体系结构 HASH
在线阅读 下载PDF
网络蜘蛛Larbin的设计和优化 被引量:2
3
作者 王凡毓 《科技创业月刊》 2008年第2期145-147,共3页
爬虫是搜索引擎的重要组成部分,它决定了搜索引擎的性能,而Larbin正是一种高效的网络爬虫。首先分析了Larbin的设计结构,再由对其核心的算法Bloom Filter进行了研究,并对其提出了改进。最后是关于Larbin优化的实现。
关键词 larbin BLOOM Filter算法 优化
在线阅读 下载PDF
Larbin分析与Windows平台下移植 被引量:2
4
作者 敖东阳 刘好杰 《电脑学习》 2009年第4期23-24,共2页
首先分析了Larbin结构和关键技术,然后利用windows下的VC编译器,实现Larbin向windows系统平台下的移植。
关键词 larbin 网络蜘蛛 VC编译器 移植
在线阅读 下载PDF
Larbin体系结构的研究与优化
5
作者 王璇 霍义霞 +2 位作者 慈云飞 史国振 李莉 《网络与信息安全学报》 2016年第8期74-80,共7页
网络爬虫是搜索引擎的重要组成部分,其性能直接影响搜索引擎的准确性和及时性。Larbin是一个高效、简单、功能比较完善的开源爬虫框架,基于此,介绍了几种典型的开源爬虫框架,并对其进行多维度比较;对Larbin体系结构进行详细的介绍;然后... 网络爬虫是搜索引擎的重要组成部分,其性能直接影响搜索引擎的准确性和及时性。Larbin是一个高效、简单、功能比较完善的开源爬虫框架,基于此,介绍了几种典型的开源爬虫框架,并对其进行多维度比较;对Larbin体系结构进行详细的介绍;然后指出Larbin在程序结构和流程方面存在的不足,提出对应的优化方案;测试结果表明,改进后的方案在速度和性能方面都有所提高。 展开更多
关键词 搜索引擎 网络爬虫 larbin 开源 优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部