期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
融合ChatGPT的智能化Selenium网络爬虫设计与实现 被引量:1
1
作者 刘逸凯 吴瑰 《现代信息科技》 2024年第14期69-75,共7页
针对现代信息社会海量数据的提取难度,开发一种集成ChatGPT的自动化网络爬虫系统。将信息呈现给用户,降低了使用门槛,结合系统的设计和实施,展示其在实际运用中的效果,实验结果证明,利用Selenium技术自动执行爬取操作,降低数据提取难度... 针对现代信息社会海量数据的提取难度,开发一种集成ChatGPT的自动化网络爬虫系统。将信息呈现给用户,降低了使用门槛,结合系统的设计和实施,展示其在实际运用中的效果,实验结果证明,利用Selenium技术自动执行爬取操作,降低数据提取难度,提升数据信息抓取的准确性。功能测试结果显示,该系统有效提高了数据的使用率,为普通用户从网络中提取信息提供了新的途径。用户的信息挖掘和知识获取需求,促进自动化网络爬虫技术的发展和应用。 展开更多
关键词 ChatGPT selenium 网络爬虫 自动化
在线阅读 下载PDF
基于Selenium框架的省内重要网站资产爬取研究
2
作者 张绳武 《长江信息通信》 2024年第7期113-115,共3页
文章主要介绍了利用Selenium框架对省内重要网站进行资产爬取的实验研究。首先介绍了实现自动化爬取的Selenium框架的基本原理以及国内外的研究现状,然后对研究目的、方法等进行了阐述。接着,详细介绍了爬取过程和结果,包括爬取的网站... 文章主要介绍了利用Selenium框架对省内重要网站进行资产爬取的实验研究。首先介绍了实现自动化爬取的Selenium框架的基本原理以及国内外的研究现状,然后对研究目的、方法等进行了阐述。接着,详细介绍了爬取过程和结果,包括爬取的网站数量、爬取的资产类型和数量、爬取的资产价值等。最后,对实验结果进行了分析和举例,并对如何进一步利用相关结果提出了建议。 展开更多
关键词 selenium框架 网页爬虫 资产探测
在线阅读 下载PDF
基于Python的AI岗位招聘数据分析与可视化研究 被引量:1
3
作者 曾静 廖书真 陈奕新 《现代信息科技》 2025年第13期90-94,共5页
随着人工智能(AI)技术的蓬勃发展,AI岗位的招聘市场愈发活跃。文章借助Selenium爬虫技术,从BOSS招聘网站采集了AI岗位的招聘数据,通过PyEcharts可视化库对采集的数据进行深度分析与可视化呈现,清晰展现了该网站上AI相关岗位在地域分布... 随着人工智能(AI)技术的蓬勃发展,AI岗位的招聘市场愈发活跃。文章借助Selenium爬虫技术,从BOSS招聘网站采集了AI岗位的招聘数据,通过PyEcharts可视化库对采集的数据进行深度分析与可视化呈现,清晰展现了该网站上AI相关岗位在地域分布、薪资水平、技能要求、经验要求等方面的特点和趋势。为AI求职者、高校教育机构及企业招聘部门提供精准且实用的参考。 展开更多
关键词 selenium爬虫 BOSS招聘网站 AI岗位 招聘数据 PyEcharts可视化
在线阅读 下载PDF
基于Selenium框架的定向网络数据获取的设计与实现 被引量:3
4
作者 何苗 张蕴 《工业控制计算机》 2020年第6期45-47,共3页
随着大数据和人工智能时代的到来,数据已经成为每一个行业的重要生产因素以及企业命脉,而获得数据并对数据进行分析已成为大数据时代最重要的部分。提出了一种基于Selenium框架的定向网络爬虫设计方法。通过Python操作自动化测试框架模... 随着大数据和人工智能时代的到来,数据已经成为每一个行业的重要生产因素以及企业命脉,而获得数据并对数据进行分析已成为大数据时代最重要的部分。提出了一种基于Selenium框架的定向网络爬虫设计方法。通过Python操作自动化测试框架模拟人工浏览网页的方式,绕过一些动态网页中通过复杂JavaScript编辑的复杂反爬虫加密算法而获取指定页面信息,完成数据正常获取,提高爬行效率。利用该爬虫对豆瓣网页电影评论页面数据分类爬取,具有针对性强、操作简单且数据准确等优点。 展开更多
关键词 selenium框架 网络爬虫 大数据 自动化测试 可视化
在线阅读 下载PDF
基于Selenium+Python+Tableau的BOSS直聘数据的爬取与分析——以“软件”专业为例 被引量:2
5
作者 李泽文 陈晓柱 《广州城市职业学院学报》 2023年第2期87-91,共5页
大数据背景下,从数据采集、数据预处理、数据可视化三维度出发,深入挖掘BOSS直聘网站的大规模招聘信息。首先阐明大数据爬取和分析的关键技术;再结合Selenium框架与Python语言进行爬虫算法设计与招聘数据的爬取与存储;进而利用Tableau工... 大数据背景下,从数据采集、数据预处理、数据可视化三维度出发,深入挖掘BOSS直聘网站的大规模招聘信息。首先阐明大数据爬取和分析的关键技术;再结合Selenium框架与Python语言进行爬虫算法设计与招聘数据的爬取与存储;进而利用Tableau工具,从岗位、薪资、经验及学历四个方面进行了用人单位对软件人才需求的数据可视化分析,以期为高职软件专业学生培养和就业提供参考和借鉴。 展开更多
关键词 网络爬虫 数据可视化 selenium Python TABLEAU
在线阅读 下载PDF
基于Selenium的淘宝商品评论爬虫算法 被引量:4
6
作者 李晓宇 徐勇 +2 位作者 汪倩 武雅利 马琴琴 《信息与电脑》 2020年第12期62-64,共3页
随着互联网的发展,网络上每时每刻都在产生着大量的信息,这些信息具有很高的研究价值。笔者以淘宝为例,基于Python中的Selenium库,实现了对商品评论、追评、商品信息、评论时间、用户名等信息的快速爬取,并将爬取的数据存入Excel表格中。
关键词 selenium 爬虫 淘宝 商品评论
在线阅读 下载PDF
基于Selenium和遗传算法的配送路径优化研究——以HFZ便民直销店为例 被引量:1
7
作者 王西状 陈玉兰 《物流科技》 2022年第9期32-35,42,共5页
生鲜农产品小批量、保质期短等特性和拥堵的城市交通对配送效率提出更高的要求。文章针对生鲜农产品配送路径优化问题,以HFZ便民直销店为例,首先利用Selenium工具进行网络爬虫,在百度地图里查找63个便利店和1个配送中心之间的最短路线,... 生鲜农产品小批量、保质期短等特性和拥堵的城市交通对配送效率提出更高的要求。文章针对生鲜农产品配送路径优化问题,以HFZ便民直销店为例,首先利用Selenium工具进行网络爬虫,在百度地图里查找63个便利店和1个配送中心之间的最短路线,然后设计考虑时间窗因素的生鲜农产品配送路径优化模型。最后通过对比分析,表明基于Selenium和遗传算法得出的结果具有显著优势。 展开更多
关键词 遗传算法 selenium 网络爬虫 路径优化
在线阅读 下载PDF
Python环境下利用Selenium与JavaScript逆向技术爬虫研究 被引量:10
8
作者 时春波 李卫东 +2 位作者 秦丹阳 张海啸 吴峥嵘 《河南科技》 2022年第10期20-23,共4页
针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据。本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle ... 针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据。本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle attack proxy)在本地指定设备端口开启本地代理,拦截并修改网页响应。同时,运用Web自动化工具Selenium来启动浏览器,设置使用代理服务器,连接到本地Mitmproxy代理,访问被修改的响应网页进行网页调试和解析,并对加密数据进行还原,解决网络爬虫中调试检测和数据加密难题,从而爬取数据。 展开更多
关键词 网络爬虫 JavaScript逆向技术 网络代理 selenium
在线阅读 下载PDF
基于Python和Selenium的智联招聘数据的爬取与分析 被引量:11
9
作者 张嘉威 关成斌 《软件》 2022年第8期170-175,共6页
随着国内近几年就业形势的愈发严峻,国内招聘市场的网络趋势化也较为明显,深度挖掘和充分利用数据背后隐藏的价值能够给人们未来的职业规划做出指导。本文以智联招聘网站为例,使用基于Python的爬虫技术以及Selenium框架,设计一种自动化... 随着国内近几年就业形势的愈发严峻,国内招聘市场的网络趋势化也较为明显,深度挖掘和充分利用数据背后隐藏的价值能够给人们未来的职业规划做出指导。本文以智联招聘网站为例,使用基于Python的爬虫技术以及Selenium框架,设计一种自动化采集数据的程序,并对采集的数据使用Pyecharts对公司概况、城市分布和薪资水平等关键信息进行可视化分析。最后,基于数据及分析结果,对大数据相关专业毕业生的职业规划提出建议。 展开更多
关键词 大数据 就业指导 PYTHON语言 网络爬虫 selenium框架 数据分析 Pyecharts
在线阅读 下载PDF
Selenium框架的反爬虫程序设计与实现 被引量:6
10
作者 许景贤 林锦程 程雨萌 《福建电脑》 2021年第1期26-29,共4页
随着爬虫技术的发展,越来越多的网站加入了反爬虫技术。本文应用Python语言和Selenium框架设计一个爬虫程序,并在文中加入了反爬虫机制。该程序成功爬取了淘宝商品名称和价格等信息,并对所爬取的信息进行存储。结果表明,本文的爬虫程序... 随着爬虫技术的发展,越来越多的网站加入了反爬虫技术。本文应用Python语言和Selenium框架设计一个爬虫程序,并在文中加入了反爬虫机制。该程序成功爬取了淘宝商品名称和价格等信息,并对所爬取的信息进行存储。结果表明,本文的爬虫程序可以绕过淘宝的反爬虫验证,且可以准确地获取所需的商品清单和得到商品的相关信息。 展开更多
关键词 反爬虫 淘宝商品 selenium 反爬虫程序
在线阅读 下载PDF
基于Selenium框架的电力系统数据爬取应用研究 被引量:1
11
作者 余凯 汤渊 +1 位作者 黎海震 夏伟轩 《现代信息科技》 2020年第5期26-28,31,共4页
为了从大量数据中快速,高效地提取出有用的数据以方便数据分析。利用Python语言中的Selenium库是目前广泛应用于爬虫设计的一种方法,以其代码精简,拾取方便且效率较高等特点,应用于绝大部分企业的数据挖掘平台中。通过应用Python和Selen... 为了从大量数据中快速,高效地提取出有用的数据以方便数据分析。利用Python语言中的Selenium库是目前广泛应用于爬虫设计的一种方法,以其代码精简,拾取方便且效率较高等特点,应用于绝大部分企业的数据挖掘平台中。通过应用Python和Selenium的方法实现了数据的提取,并通过使用异常捕抓、函数封装,统一调用实现了数据的导出和上传的自动化,结果表明使用Selenium爬虫会优于网页爬虫。 展开更多
关键词 selenium 异常处理 爬虫 电力系统
在线阅读 下载PDF
基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比 被引量:8
12
作者 李晨昊 《现代信息科技》 2021年第16期10-12,18,共4页
网络爬虫是一种按照一定的规则,自动地抓取网页信息的程序或者脚本,因此编写特定的网络爬虫可以用来对网页进行自动化处理,从而达到提升工作效率的目的。文章针对同一个任务清单系统,分别使用BeautifulSoup+requests和selenium两种不同... 网络爬虫是一种按照一定的规则,自动地抓取网页信息的程序或者脚本,因此编写特定的网络爬虫可以用来对网页进行自动化处理,从而达到提升工作效率的目的。文章针对同一个任务清单系统,分别使用BeautifulSoup+requests和selenium两种不同的爬虫方法实现了网页自动化处理功能。并且通过对两种方法的实现原理和运行结果进行分析,对两种爬虫方法进行对比。 展开更多
关键词 爬虫 网页自动化 BeautifulSoup+requests selenium
在线阅读 下载PDF
基于Selenium技术的大学生精神需求现状分析研究
13
作者 范起雁 周倩 《现代信息科技》 2021年第23期27-29,共3页
随着大数据时代的来临和大学生日常开展活动数量的骤增,如何应对新时代大学生精神需求变化的多样性,且合理高效地施行大学生思想政治教育改革措施是对思想教育工作的一个重大挑战。书籍阅读是满足大学生精神需求和提高大学生思想素质的... 随着大数据时代的来临和大学生日常开展活动数量的骤增,如何应对新时代大学生精神需求变化的多样性,且合理高效地施行大学生思想政治教育改革措施是对思想教育工作的一个重大挑战。书籍阅读是满足大学生精神需求和提高大学生思想素质的重要途径。文章利用Selenium爬虫技术,采集京东图书销售榜数据,对大学生的精神需求状况做分析,通过实验数据表明,大学生所存在的娱乐化,浅显化等问题。 展开更多
关键词 大学生 精神需求 爬虫 selenium
在线阅读 下载PDF
基于Tor的暗网数据爬虫设计与实现 被引量:10
14
作者 汤艳君 安俊霖 《信息安全研究》 2019年第9期798-804,共7页
随着匿名通信技术的发展,越来越多的用户开始采用匿名通信手段来保护个人隐私.Tor作为匿名通信系统中最为流行的应用,它能够非常有效地预防流量嗅探、窃听等行为.“暗网”在保护用户个人隐私不被窃取的同时也被很多不法分子所利用,这给... 随着匿名通信技术的发展,越来越多的用户开始采用匿名通信手段来保护个人隐私.Tor作为匿名通信系统中最为流行的应用,它能够非常有效地预防流量嗅探、窃听等行为.“暗网”在保护用户个人隐私不被窃取的同时也被很多不法分子所利用,这给公安部门的监管工作带来了巨大挑战.如何加强对暗网网站违法信息监管与打击是亟需解决的问题.因此,爬取暗网网站的数据是对暗网网站进行有效监管的重要基础.简要介绍目前最主流的暗网匿名通信系统Tor,分析其技术原理,设计了一套暗网数据爬虫程序,主要利用Selenium进入Tor网络,对暗网网页进行批量爬取并将数据固定保存至本地,有助于公安部门进一步监控和分析暗网中的相关内容,也为公安部门监管暗网提出一种可行的技术手段. 展开更多
关键词 暗网 TOR 洋葱路由系统 selenium 爬虫
在线阅读 下载PDF
基于自动化测试的定向网络爬虫的设计与实现 被引量:7
15
作者 朱丽英 吴锦晶 《微型电脑应用》 2019年第10期8-10,共3页
为了快速地获取精准的车辆品牌对应图片数据,提出了一种基于自动化测试的定向网络爬虫程序设计方法。通过自动化测试技术模拟人浏览网页的方式,自动采集指定网页的车辆品牌外观图片,按品牌、款系、年代分类别存储,引入了增量更新爬虫策... 为了快速地获取精准的车辆品牌对应图片数据,提出了一种基于自动化测试的定向网络爬虫程序设计方法。通过自动化测试技术模拟人浏览网页的方式,自动采集指定网页的车辆品牌外观图片,按品牌、款系、年代分类别存储,引入了增量更新爬虫策略,提高了爬行效率。利用该爬虫对汽车之家产品库进行车辆品牌图片爬取,取得了较好的效果。 展开更多
关键词 网络爬虫 自动化测试 selenium 车辆品牌
在线阅读 下载PDF
基于微博平台的用户评论数据采集
16
作者 黄红桃 江盈锋 《科技创新导报》 2021年第14期132-135,139,共5页
微博的热点事件会产生大量评论数据,这些数据是进行舆情分析和网络水军识别等数据挖掘的基础。论文分析对比常用的网络爬虫技术和框架,分别使用Selenium框架和Json数据接口两种方法,采集新浪微博热点事件下的用户评论数据。一般网络爬... 微博的热点事件会产生大量评论数据,这些数据是进行舆情分析和网络水军识别等数据挖掘的基础。论文分析对比常用的网络爬虫技术和框架,分别使用Selenium框架和Json数据接口两种方法,采集新浪微博热点事件下的用户评论数据。一般网络爬虫技术多使用广度搜索,这里采用深度搜索,能够更精确地获得某个热点事件下的用户评论数据。 展开更多
关键词 数据挖掘 微博 用户评论 网络爬虫 selenium JSON
在线阅读 下载PDF
基于DOM状态转换检测XSS漏洞 被引量:2
17
作者 王丹 刘立家 +2 位作者 林九川 赵文兵 杜晓林 《北京工业大学学报》 CAS CSCD 北大核心 2018年第9期1208-1216,共9页
为提升跨站脚本(cross site scripting,XSS)漏洞检测中对隐藏注入点的扫描覆盖率,有效判定是否存在XSS漏洞攻击,提出构建Web应用文档对象模型(document object model,DOM)状态转换图搜索XSS漏洞注入点的方法.该方法以DOM状态为节点,以... 为提升跨站脚本(cross site scripting,XSS)漏洞检测中对隐藏注入点的扫描覆盖率,有效判定是否存在XSS漏洞攻击,提出构建Web应用文档对象模型(document object model,DOM)状态转换图搜索XSS漏洞注入点的方法.该方法以DOM状态为节点,以浏览器事件为边对Web应用建模,结合页面分析和代理技术来识别漏洞注入点,提高XSS漏洞注入点判定准确率.首先分析页面中带参数的统一资源定位符(uniform resource locator,URL)和Form表单,并尝试触发页面元素的浏览器事件来检测其是否含有数据请求,以判定Web页面是否有疑似漏洞注入点;进一步利用探子向量进行测试,并根据探子向量的输出位置,对注入点进行分类并保存.之后,基于变异操作和过滤逃逸技术对XSS过滤逃避欺骗备忘单进行转换来设计攻击向量,对已发现的漏洞注入点进行测试,并设计多种方法对不同响应结果进行分析.最后,通过实验对比,验证了其有效性. 展开更多
关键词 跨站脚本(XSS)漏洞 文档对象模型(DOM) 状态转换图 爬虫 selenium
在线阅读 下载PDF
基于Scrapy爬虫框架的领域网站文件爬取 被引量:5
18
作者 邹维 李廷元 《现代信息科技》 2020年第21期6-9,共4页
为了提高航行通告文件下载效率、节省人工资源,文章通过Scrapy爬虫框架,结合自然语言处理中的信息,分类爬取各民航局发布的航行通告文本。首先基于网页数据交互模式将网站分类,结合Selenium自动化测试工具进行网页下载。然后使用朴素贝... 为了提高航行通告文件下载效率、节省人工资源,文章通过Scrapy爬虫框架,结合自然语言处理中的信息,分类爬取各民航局发布的航行通告文本。首先基于网页数据交互模式将网站分类,结合Selenium自动化测试工具进行网页下载。然后使用朴素贝叶斯算法将网站所有链接进行分类,区分为目标链接以及非目标链接,从而实现提取航行通告文本链接,此分类模型在领域类网站准确率为95.97%。 展开更多
关键词 Scrapy 爬虫 selenium 朴素贝叶斯
在线阅读 下载PDF
基于Python的三种网络爬虫技术研究 被引量:28
19
作者 杨健 陈伟 《软件工程》 2023年第2期24-27,19,共5页
针对网络爬虫技术选型较多,影响抓取效率和准确性的问题,对基于Python语言的Requests、Scrapy和Selenium三种主流爬虫技术进行分析。首先,安装配置开发环境,完成单线程和多线程爬虫软件开发;其次,爬取“站长之家”网站10页、100页、500... 针对网络爬虫技术选型较多,影响抓取效率和准确性的问题,对基于Python语言的Requests、Scrapy和Selenium三种主流爬虫技术进行分析。首先,安装配置开发环境,完成单线程和多线程爬虫软件开发;其次,爬取“站长之家”网站10页、100页、500页和1,000页简历数据,计算爬取时间;最后,通过爬取“中国裁判文书网”中的数据验证突破反爬虫机制的能力。实验结果表明,Requests爬虫使用一行代码就能实现数据爬取,开发定制灵活;Scrapy爬虫技术平均每页的抓取时间为0.02 s,并发性能突出;Selenium爬虫技术破解网站反爬虫机制能力强。因此,开发网络爬虫技术要综合考虑业务需求和技术特点,只有这样,才能达到最佳的数据抓取效果。 展开更多
关键词 网络爬虫 Requests技术 Scrapy技术 selenium技术
在线阅读 下载PDF
网页数据采集算法及在住户调查中的应用 被引量:7
20
作者 沈承放 莫达隆 黄文韬 《统计与决策》 CSSCI 北大核心 2021年第7期52-56,共5页
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行... 目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。 展开更多
关键词 网页数据采集算法 住户调查 网络爬虫 多线程 精准扶贫 PYTHON selenium
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部