期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
基于Python的影片数据爬取与分析系统研究
1
作者 张亚涛 张琪 《信息与电脑》 2025年第1期173-175,共3页
随着生活节奏的日趋紧张,越来越多的人选择电影等娱乐方式来排压消遣。文章主要通过Python语言爬取豆瓣电影平台的相关数据,进行数据的清洗与存储,并对影院上映的电影数据进行深入分析,来了解公众对各类影片的消费意愿与喜爱程度。该系... 随着生活节奏的日趋紧张,越来越多的人选择电影等娱乐方式来排压消遣。文章主要通过Python语言爬取豆瓣电影平台的相关数据,进行数据的清洗与存储,并对影院上映的电影数据进行深入分析,来了解公众对各类影片的消费意愿与喜爱程度。该系统通过Scrapy爬虫框架来进行数据爬取,结合Django框架进行后端开发,前端界面则使用Vue技术框架进行构建。数据交互采用异步交互处理方式,以确保高效的数据处理,并使用MySQL数据库进行数据存储。系统能够将爬取的数据在前端界面展示,允许用户进行在线浏览与互动,同时提供后台数据管理功能,并结合Echart组件,以实现数据的可视化分析与展示。 展开更多
关键词 电影平台 数据清洗 Scrapy爬虫框架 Django框架
在线阅读 下载PDF
基于PyTorch框架的不定长验证码抗干扰识别系统设计
2
作者 常荣 《微型电脑应用》 2025年第1期299-303,共5页
为了降低干扰信息对验证码识别效果的影响,提高不定长验证码的识别准确率,设计基于PyTorch框架的不定长验证码抗干扰识别系统。系统由采集模块、处理模块、识别模块三部分组成。采集模块利用网络爬虫获取验证码图像,并在图像处理模块中... 为了降低干扰信息对验证码识别效果的影响,提高不定长验证码的识别准确率,设计基于PyTorch框架的不定长验证码抗干扰识别系统。系统由采集模块、处理模块、识别模块三部分组成。采集模块利用网络爬虫获取验证码图像,并在图像处理模块中完成灰度化处理。调用全局阈值法对处理后的图像实施二值化操作,区分图像背景与字符。将采用滑动窗口法在去除噪声后的验证码图像中输入基于PyTorch框架的验证码识别模块,利用改进的ResNet-18网络提取图像特征后,通过长短期记忆网络模型获取字符序列特征,利用时序分类算法完成标签的对齐,实现对不定长验证码的抗干扰识别。实验结果表明,所设计系统可以有效实现对验证码图像的灰度化及去噪处理,并完成含不同程度干扰信息的不定长验证码的准确识别。 展开更多
关键词 PyTorch框架 验证码 抗干扰识别 网络爬虫 LSTM网络
在线阅读 下载PDF
基于Selenium框架的省内重要网站资产爬取研究
3
作者 张绳武 《长江信息通信》 2024年第7期113-115,共3页
文章主要介绍了利用Selenium框架对省内重要网站进行资产爬取的实验研究。首先介绍了实现自动化爬取的Selenium框架的基本原理以及国内外的研究现状,然后对研究目的、方法等进行了阐述。接着,详细介绍了爬取过程和结果,包括爬取的网站... 文章主要介绍了利用Selenium框架对省内重要网站进行资产爬取的实验研究。首先介绍了实现自动化爬取的Selenium框架的基本原理以及国内外的研究现状,然后对研究目的、方法等进行了阐述。接着,详细介绍了爬取过程和结果,包括爬取的网站数量、爬取的资产类型和数量、爬取的资产价值等。最后,对实验结果进行了分析和举例,并对如何进一步利用相关结果提出了建议。 展开更多
关键词 Selenium框架 网页爬虫 资产探测
在线阅读 下载PDF
基于SVM的动态网页爬取方法研究
4
作者 刘君良 栾永明 +1 位作者 赵建楠 任川 《信息与电脑》 2024年第4期185-187,共3页
文章提出一种基于支持向量机(Support Vector Machine,SVM)的动态网页识别方法,并结合Scrapy开源网络爬虫框架构建了动态网页的网络爬虫,实现了对动态网页的高效识别和内容抓取。以httpbin.org为测试网站,使用SVM模型对静态和动态网页... 文章提出一种基于支持向量机(Support Vector Machine,SVM)的动态网页识别方法,并结合Scrapy开源网络爬虫框架构建了动态网页的网络爬虫,实现了对动态网页的高效识别和内容抓取。以httpbin.org为测试网站,使用SVM模型对静态和动态网页进行分类,随后利用Scrapy框架动态调整抓取策略,验证了该方法的可行性和有效性。 展开更多
关键词 支持向量机(SVM) 动态网页识别 Scrapy框架 网络爬虫
在线阅读 下载PDF
基于MapReduce的视频爬虫系统研究 被引量:7
5
作者 孔涛 曹丙章 邱荷花 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第5期129-132,共4页
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce... 针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统. 展开更多
关键词 视频 爬虫 分布式 Hadoop框架 MapReduce计算模型 HADOOP分布式文件系统
原文传递
基于Scrapy的网络爬虫系统框架设计与实现 被引量:10
6
作者 王磊 刘晓丹 《微型电脑应用》 2019年第4期48-50,共3页
研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实... 研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实现,综合MongoDB及Redis,完成了系统数据库方案的设计,从而提高用户获取信息的速度和质量。 展开更多
关键词 Scrapy 网络爬虫 系统框架设计 数据库设计
在线阅读 下载PDF
基于Scrapy爬虫框架下电商数据分析 被引量:4
7
作者 黄雨辰 童彤 《安阳师范学院学报》 2021年第5期132-136,共5页
电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上... 电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上采集顾客、商品、品牌三方面数据进行整合处理,并将处理结果可视化,展现给电商企业,为电商企业快速了解消费者的消费特点,制定科学化的营销战略提供了数据参考。 展开更多
关键词 Scrapy爬虫框架 电商数据 可视化
在线阅读 下载PDF
一种基于WebMagic和Mahout的信息搜集与推荐系统 被引量:7
8
作者 武婷婷 《软件导刊》 2016年第10期1-3,共3页
提出一种基于Java爬虫框架WebMagic和Mahout推荐引擎的信息搜集与推荐系统。首先利用WebMagic框架从多个信息源获取需要的数据,然后使用Jieba分词工具和余弦定理进行文本相似度判定,从而对数据进行处理,最后使用Mahout推荐引擎为用户推... 提出一种基于Java爬虫框架WebMagic和Mahout推荐引擎的信息搜集与推荐系统。首先利用WebMagic框架从多个信息源获取需要的数据,然后使用Jieba分词工具和余弦定理进行文本相似度判定,从而对数据进行处理,最后使用Mahout推荐引擎为用户推荐可能感兴趣的信息。 展开更多
关键词 爬虫框架 余弦定理 推荐引擎 WebMagic Mahout
在线阅读 下载PDF
基于大数据技术的房价数据采集及可视化分析应用 被引量:3
9
作者 石慧 陈培辉 《计算机时代》 2021年第8期71-75,共5页
在"房住不炒"定位下,住房选购成了广大市民比较关心的问题。把大数据分析技术引入到房价分析,利用Scrapy爬虫框架对广州房价线上数据的爬取,经清洗和可视化,把影响房价的要素以可视化的形式予以呈现。与传统方法相比,大数据... 在"房住不炒"定位下,住房选购成了广大市民比较关心的问题。把大数据分析技术引入到房价分析,利用Scrapy爬虫框架对广州房价线上数据的爬取,经清洗和可视化,把影响房价的要素以可视化的形式予以呈现。与传统方法相比,大数据分析技术在数据采集及可视化分析应用方面优势明显。 展开更多
关键词 大数据分析 可视化 爬虫框架 房价数据
在线阅读 下载PDF
基于Selenium框架的定向网络数据获取的设计与实现 被引量:3
10
作者 何苗 张蕴 《工业控制计算机》 2020年第6期45-47,共3页
随着大数据和人工智能时代的到来,数据已经成为每一个行业的重要生产因素以及企业命脉,而获得数据并对数据进行分析已成为大数据时代最重要的部分。提出了一种基于Selenium框架的定向网络爬虫设计方法。通过Python操作自动化测试框架模... 随着大数据和人工智能时代的到来,数据已经成为每一个行业的重要生产因素以及企业命脉,而获得数据并对数据进行分析已成为大数据时代最重要的部分。提出了一种基于Selenium框架的定向网络爬虫设计方法。通过Python操作自动化测试框架模拟人工浏览网页的方式,绕过一些动态网页中通过复杂JavaScript编辑的复杂反爬虫加密算法而获取指定页面信息,完成数据正常获取,提高爬行效率。利用该爬虫对豆瓣网页电影评论页面数据分类爬取,具有针对性强、操作简单且数据准确等优点。 展开更多
关键词 Selenium框架 网络爬虫 大数据 自动化测试 可视化
在线阅读 下载PDF
基于Python的城市天气数据爬虫程序分析 被引量:11
11
作者 于学斗 柏晓钰 《办公自动化》 2022年第7期10-13,9,共5页
目前,我国正在加大环境保护的力度。如何充分利用互联网上的已有的海量数据为低碳环保事业做出贡献,是我们不可推缺的责任。为快速爬取网络上的信息,网络爬虫应运而生。通过使用网络爬虫技术,能在短时内提取有价值的信息数据。得到有价... 目前,我国正在加大环境保护的力度。如何充分利用互联网上的已有的海量数据为低碳环保事业做出贡献,是我们不可推缺的责任。为快速爬取网络上的信息,网络爬虫应运而生。通过使用网络爬虫技术,能在短时内提取有价值的信息数据。得到有价值的数据后,根据数据的形式进行整理,运用HTML、CSS、JavaScript、Flask框架、Echarts、WordCloud等技术对数据进行可视化展现。将数据进行完整地分析,有利于更好地利用数据解决实际问题。本文将对基于Python的聚焦式网络爬虫设计与实现以及分析天气数据并可视化地展现作出简介。 展开更多
关键词 Python爬虫 网页设计 Flask框架 信息可视化
在线阅读 下载PDF
网络爬虫实时控制器的设计与实现 被引量:1
12
作者 李健 张克亮 《现代计算机》 2021年第5期91-96,共6页
针对个性化数据采集,提出一个轻量级网络爬虫框架,该框架包括控制器、下载器、解析器、线程池和代理池等组件。在此框架下,设计一个具有实时处理能力的爬虫控制器,能够自动保存和恢复任务场景。详细介绍爬虫控制器的工作原理和C#实现,... 针对个性化数据采集,提出一个轻量级网络爬虫框架,该框架包括控制器、下载器、解析器、线程池和代理池等组件。在此框架下,设计一个具有实时处理能力的爬虫控制器,能够自动保存和恢复任务场景。详细介绍爬虫控制器的工作原理和C#实现,并将其应用于站内文章采集。实验结果表明:所提出的爬虫框架是高效易用的,控制器的实时处理能力在实际爬虫开发中非常重要。 展开更多
关键词 网络爬虫 爬虫框架 实时控制器 C#
在线阅读 下载PDF
基于Struts和Hibernate框架的比价网设计与实现
13
作者 李向阳 李铮 《龙岩学院学报》 2007年第6期17-19,共3页
介绍了主要应用Struts和Hibernate两种框架技术实现的一个图书比价网系统。对实现比价功能的网络爬虫算法进行了详细阐述,并分析了两种框架技术在该B/S系统中组合应用的要点,为相关领域人员提供借鉴经验。
关键词 比价网 网络爬虫 STRUTS框架 HIBERNATE框架
在线阅读 下载PDF
主动获取式的分布式网络爬虫集群方法研究 被引量:14
14
作者 董禹龙 杨连贺 马欣 《计算机科学》 CSCD 北大核心 2018年第B06期428-432,共5页
针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在... 针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在此基础上,结合动态双向优先级任务分配算法,设计了一种具有负载平衡、任务分级分配、节点异常敏捷识别、节点安全退出等特性的分布式网络爬虫模型。实际测试表明,该主动获取式的分布式网络爬虫方法可有效地利用通用平台建立大型分布式爬虫集群。 展开更多
关键词 主动获取 分布式爬虫 负载平衡 爬虫框架 多进程 动态优先级
在线阅读 下载PDF
基于泛型思想的电力工业互联网爬虫框架研究 被引量:2
15
作者 毕玉冰 王文庆 +3 位作者 刘超飞 崔逸群 董夏昕 金晶 《热力发电》 CAS 北大核心 2020年第11期20-27,共8页
目前在互联网场景中使用爬虫框架已成为高效获取数据的一种重要方式,但由于现有爬虫框架针对互联网具体用户、具体场景和用途进行设计,直接用于电力工业互联网存在不适用、不安全等问题。为此,本文提出基于泛型思想的电力工业互联网爬... 目前在互联网场景中使用爬虫框架已成为高效获取数据的一种重要方式,但由于现有爬虫框架针对互联网具体用户、具体场景和用途进行设计,直接用于电力工业互联网存在不适用、不安全等问题。为此,本文提出基于泛型思想的电力工业互联网爬虫框架,结合电力工业互联网的实际需求,从用户、场景、模块设计、使用等各方面进行泛型设计,使该框架不仅具备现有爬虫框架的能力,还能满足电力工业互联网数据爬取的需求。在某集团电力工业互联网生产环境进行验证试验表明,该框架能满足电力工业互联网的不同用户、不同场景的使用和安全要求,也具备现有爬虫框架的特性,泛型设计达到预期效果。 展开更多
关键词 电力工业互联网 数据获取 爬虫框架 泛型思想 泛型设计 PYTHON 网络安全
在线阅读 下载PDF
基于Web框架的博客管理系统设计与实现 被引量:1
16
作者 刘磊 《计算机时代》 2017年第5期20-23,共4页
设计并实现了一个基于B/S架构的个人博客管理系统,包括游客浏览博客、用户发表博客及使用爬虫抓取网络新闻等功能。系统前端使用当前流行的响应式布局框架Bootstrap开发,页面能匹配不同分辨率;后端使用Hibernate、Spring、Struts三大经... 设计并实现了一个基于B/S架构的个人博客管理系统,包括游客浏览博客、用户发表博客及使用爬虫抓取网络新闻等功能。系统前端使用当前流行的响应式布局框架Bootstrap开发,页面能匹配不同分辨率;后端使用Hibernate、Spring、Struts三大经典组合框架开发,系统扩展性强。本文论述了本系统的功能设计、流程设计、数据模型设计、效果实现等软件开发关键阶段的开发过程。 展开更多
关键词 WEB框架 SSH框架 Bootstrap框架 个人博客 网络爬虫
在线阅读 下载PDF
基于Hadoop的广域网分布式主题爬虫系统框架 被引量:5
17
作者 王淑芬 高军礼 +1 位作者 邹普 宋海涛 《计算机工程与科学》 CSCD 北大核心 2015年第4期670-675,共6页
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息... 广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。 展开更多
关键词 分布式爬虫 HADOOP 爬虫框架 模板匹配 主题爬虫
在线阅读 下载PDF
基于WebMagic框架的面向招聘网站的爬虫技术研究 被引量:1
18
作者 朱二莉 《信息与电脑》 2019年第19期141-142,145,共3页
笔者首先分析了网络招聘的现状,介绍了爬虫技术的分类,进而提出了基于Java爬虫框架WebMagic的爬虫方案,然后分析了爬取流程,具体阐述了对大型招聘网站上发布的职位信息进行抓取及存储的过程,最后简单说明了对岗位信息数据进行清洗、分... 笔者首先分析了网络招聘的现状,介绍了爬虫技术的分类,进而提出了基于Java爬虫框架WebMagic的爬虫方案,然后分析了爬取流程,具体阐述了对大型招聘网站上发布的职位信息进行抓取及存储的过程,最后简单说明了对岗位信息数据进行清洗、分析、展现的过程。 展开更多
关键词 网络爬虫 前程无忧51Job WebMagic框架 爬取岗位信息
在线阅读 下载PDF
基于Scrapy框架的爬虫和反爬虫研究 被引量:27
19
作者 韩贝 马明栋 王得玉 《计算机技术与发展》 2019年第2期139-142,共4页
伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。... 伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。网络爬虫又称为网络蜘蛛或网络机器人,可以按照使用人定制的规则,短时间内在万维网上搜集大量特定信息。网络爬虫在爬取信息的同时,也带了一些问题,如大量信息被非正常获取,是一种损失,同时,大量爬虫对网站维护也是一个巨大的负担。如何在维护网民正常访问的前提下,有效阻止这些爬虫就显得十分重要。因此,文中主要研究Python语言开发的开源爬虫框架Scrapy所开发的爬虫,对目前网站常用的一些反爬虫手段进行分析,基于Scrapy框架以及具体网站,举例说明爬虫如何应对网站这些反爬措施。 展开更多
关键词 网站 网络爬虫 反爬虫 PYTHON Scrapy框架
在线阅读 下载PDF
基于Scrapy的网络爬虫的设计与实现 被引量:22
20
作者 杜鹏辉 仇继扬 +2 位作者 彭书涛 柴沣伟 刘意先 《电子设计工程》 2019年第22期120-123,132,共5页
随着信息技术的发展,网络数据成为了一种重要资产,如何快速有效的提取和分析数据是目前的一个研究热点。针对网络中的海量数据采用Scrapy框架设计网络爬虫对数据进行提取,首先分介绍了如何在Python下安装调用Scrapy框架并建立相应爬虫项... 随着信息技术的发展,网络数据成为了一种重要资产,如何快速有效的提取和分析数据是目前的一个研究热点。针对网络中的海量数据采用Scrapy框架设计网络爬虫对数据进行提取,首先分介绍了如何在Python下安装调用Scrapy框架并建立相应爬虫项目,然后对目标网站的页面源码的结构进行分析,从标签中定位需要获取的数据,并依此设计出了相应的表达式将相应的数据提取到统一的数据结构中,最后将数据保存到文件,实现存储的持久化。该设计方法能为各类基于Web的网络数据分析项目提供相应的数据采集和分析支持。 展开更多
关键词 大数据 网络爬虫 PYTHON Scrapy框架
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部