期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Scrapy的分布式爬虫系统的设计与实现 被引量:18
1
作者 李代祎 谢丽艳 +1 位作者 钱慎一 吴怀广 《湖北民族学院学报(自然科学版)》 CAS 2017年第3期317-322,共6页
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不... 随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定. 展开更多
关键词 Scrapy 分布式 scrapy-reids 网络爬虫 Mongo DB 数据存储
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部