期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于站点爬虫的WSN网络污点数据补全方法
1
作者 孙俊琳 《通化师范学院学报》 2025年第2期39-46,共8页
为了优化局部污点数据的全局修复效果,提出基于站点爬虫的WSN网络污点数据补全方法.分析WSN网络污点数据的全局Moran's I统计量,并建立站点爬虫的污点数据模型,计算其在污点数据节点区域的爬行频率.同时建立污点数据的转发阶段爬虫... 为了优化局部污点数据的全局修复效果,提出基于站点爬虫的WSN网络污点数据补全方法.分析WSN网络污点数据的全局Moran's I统计量,并建立站点爬虫的污点数据模型,计算其在污点数据节点区域的爬行频率.同时建立污点数据的转发阶段爬虫网络,计算其输出关系;根据爬虫网络分布跟踪污点数据,实现对污点数据的爬虫补全修复.对比实验结果表明所提方法整体分布值域范围最高,稳定性良好,验证了所提方法具有较高的污点数据的补全能力,可靠度高. 展开更多
关键词 站点爬虫 WSN网络 污点数据 数据补全
在线阅读 下载PDF
基于Python爬虫的招聘信息可视化分析
2
作者 张乐 王自一 谢毅 《电脑与信息技术》 2025年第3期84-88,共5页
随着网络招聘的发展,广大毕业生面对众多的招聘网站,出现了招聘信息数量繁杂、无法快速筛选所需信息和选择正确信息等问题。针对这些问题,基于Python爬虫技术获取招聘相关数据,经数据处理后对招聘信息数据进行可视化分析,使用Matplotlib... 随着网络招聘的发展,广大毕业生面对众多的招聘网站,出现了招聘信息数量繁杂、无法快速筛选所需信息和选择正确信息等问题。针对这些问题,基于Python爬虫技术获取招聘相关数据,经数据处理后对招聘信息数据进行可视化分析,使用Matplotlib和Wordcloud等库绘制岗位数量对比直方图、岗位来源饼图、平均薪资直方图和岗位能力要求词云图,并做以分析。结果表明,计算机、工商管理、土木工程可作为就业首选,民营和国营企业对人才需求量大,计算机专业平均薪资最高且岗位对专业能力要求高等。该研究有助于毕业生求职者快速筛选出自己心仪的职位,从而为广大毕业生提供参考。 展开更多
关键词 PYTHON 网络爬虫 数据可视化
在线阅读 下载PDF
基于LSTM-DA神经网络的农产品价格指数短期预测模型 被引量:17
3
作者 贾宁 郑纯军 《计算机科学》 CSCD 北大核心 2019年第S11期62-65,71,共5页
农产品价格一直是维持社会经济生活安定的重点关注领域,由于农产品预测价格与影响因素之间存在非线性关系,递归神经网络虽然适用于时间序列的预测,但是针对长时间的跨度,其预测效果有限。基于此,根据农产品价格特点,设计了一种LSTM-DA(L... 农产品价格一直是维持社会经济生活安定的重点关注领域,由于农产品预测价格与影响因素之间存在非线性关系,递归神经网络虽然适用于时间序列的预测,但是针对长时间的跨度,其预测效果有限。基于此,根据农产品价格特点,设计了一种LSTM-DA(Long Short-Term Memory-Double Attention,双重注意力机制与长短期记忆网络融合)神经网络模型。它将卷积注意力网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)和注意力机制相结合,针对不同成分的影响因子通过卷积注意力网络进行特征提取,调节其对应的权重并馈送至长短期记忆网络模型中以呈现时间序列的影响,在此基础上,将结果再次送入注意力机制进行权重调节,最终将得到的结果用于农产品价格指数的短期预测。实验前,采用多线程机制从多个农业信息平台中爬取海量的价格、天气等相关数据,在对其进行解析和清洗的基础上,将其存入分布式文件系统(Hadoop Distributed File System,HDFS)中;实验时,采用长短期记忆网络作为基线。实验结果表明,与传统的单一模型相比,此模型不仅可以提升预测精度,而且预测的农产品价格指数可以准确地描述未来一周内蔬菜类产品的整体趋势。 展开更多
关键词 卷积注意力网络 长短期记忆网络 注意力机制 网络数据爬取 价格预测
在线阅读 下载PDF
基于多策略的微博位置数据获取方法研究 被引量:4
4
作者 杨飞 江南 +2 位作者 李响 张晶 戴兵 《测绘科学技术学报》 CSCD 北大核心 2016年第2期201-207,共7页
随着Web2.0时代发展的成熟,在以微博为代表的新社交网络平台上产生了大量含有空间位置信息和时间标识的数据,即位置数据(location data)。位置数据是大数据的一个重要组成部分,现已作为一种战略性资源被广泛应用于社会生活的多个领域,... 随着Web2.0时代发展的成熟,在以微博为代表的新社交网络平台上产生了大量含有空间位置信息和时间标识的数据,即位置数据(location data)。位置数据是大数据的一个重要组成部分,现已作为一种战略性资源被广泛应用于社会生活的多个领域,而位置数据的获取是位置数据挖掘和应用的基础。深刻分析了基于API、基于网络爬虫和基于网络数据流3种目前常用的微博数据获取方法的特点,在此基础上提出了一种基于多策略的微博位置数据获取方法,详细阐述了该方法的基本原理、基本流程和主要特点。最后通过获取新浪微博的位置数据进行实验验证,结果证实,该方法可以实现全面、高效地获取微博位置数据。 展开更多
关键词 多策略 微博 位置数据 API 网络爬虫 网络数据流 新浪微博
在线阅读 下载PDF
基于网络爬虫的网页大数据抓取方法仿真 被引量:19
5
作者 谢蓉蓉 徐慧 +1 位作者 郑帅位 马刚 《计算机仿真》 北大核心 2021年第6期439-443,共5页
为了提高网页大数据抓取效率,解决传统抓取方法误差大的问题,提出了基于网络爬虫的网页大数据抓取方法。首先分析网络爬虫运行的基本流程,按流程提取大数据关键特征,然后根据特征提取结果提出基于网络爬虫的数据抓取策略。经计算得到数... 为了提高网页大数据抓取效率,解决传统抓取方法误差大的问题,提出了基于网络爬虫的网页大数据抓取方法。首先分析网络爬虫运行的基本流程,按流程提取大数据关键特征,然后根据特征提取结果提出基于网络爬虫的数据抓取策略。经计算得到数据关键特征,从而选择广度优先策略抓取数据信息,并利用相重新构建相空间的方式得到爬虫维度,引入关联维数值完成网页大数据抓取,对数据关键特征完成抓取任务。通过仿真结果表明,所提方法对网页大数据的抓取率更好、耗时更短,与其它方法相比具有较高的鲁棒性。 展开更多
关键词 大数据抓取 网络爬虫 特征 相空间 关联维
在线阅读 下载PDF
基于大数据的网络数据采集研究与实践 被引量:2
6
作者 霍英 李小帆 +1 位作者 丘志敏 李彦廷 《软件工程》 2023年第4期28-32,共5页
在微博大数据环境下,文章以舆情数据采集、用户行为分析为应用背景,提出了一种爬虫数据采集系统的设计与实现方案。该方案主要采用的是聚焦爬虫和增量式爬虫相结合,同时基于内容评价的爬行策略,对用户给定的关键词进行搜索,并在其发生... 在微博大数据环境下,文章以舆情数据采集、用户行为分析为应用背景,提出了一种爬虫数据采集系统的设计与实现方案。该方案主要采用的是聚焦爬虫和增量式爬虫相结合,同时基于内容评价的爬行策略,对用户给定的关键词进行搜索,并在其发生变化时对相关内容进行更新,从而实现数据采集的及时性和有效性。通过实际数据采集效果来看,本方案单机日数据采集量约为88万条,实际应用中用户可根据需求自定义爬取数据的速度,也可通过增加分布式爬虫数量提升爬取数据量与速度。 展开更多
关键词 大数据 数据采集 网络爬虫
在线阅读 下载PDF
基于Python的多线程聚焦网络爬虫设计与实现 被引量:3
7
作者 王美芝 支学超 刘财辉 《赣南师范大学学报》 2019年第6期35-38,共4页
在大数据时代下,人们要想从大量数据中找到自己需要的信息变得越来越困难,因此使用网络爬虫处理网络中大量的信息成为了必不可少的方法.本文利用Python语言设计并实现了一种多线程聚焦网络爬虫.首先,通过聚焦爬虫,获取目标网站数据,然... 在大数据时代下,人们要想从大量数据中找到自己需要的信息变得越来越困难,因此使用网络爬虫处理网络中大量的信息成为了必不可少的方法.本文利用Python语言设计并实现了一种多线程聚焦网络爬虫.首先,通过聚焦爬虫,获取目标网站数据,然后建立相应索引数据库.在爬取数据库的基础上,用户可以通过输入关键字,从多个网络地址URL中获取大量用户所需要的数据. 展开更多
关键词 PYTHON 网络爬虫 网络地址URL 多线程
在线阅读 下载PDF
基于新浪微博大数据的新疆伽师6.4级地震舆情分析及可视化研究 被引量:13
8
作者 李亚芳 王新刚 梁庆云 《内陆地震》 2020年第1期103-110,共8页
基于新浪微博大数据,运用网络爬虫技术,获取新疆伽师6.4级地震后48小时新浪微博相关的博文和评论;通过对数据的去噪、去重、分词、索引等处理,得到结构化的分级、分类数据;在此基础上,产出震后微博舆情声量走势图、震后微博舆情情感值... 基于新浪微博大数据,运用网络爬虫技术,获取新疆伽师6.4级地震后48小时新浪微博相关的博文和评论;通过对数据的去噪、去重、分词、索引等处理,得到结构化的分级、分类数据;在此基础上,产出震后微博舆情声量走势图、震后微博舆情情感值极性分布图、震后微博舆情热词词频统计表、博文和评论词云图以及博文和评论内容分类统计图,实现微博舆情数据的可视化。 展开更多
关键词 伽师6.4级地震 新浪微博 网络舆情 网络爬虫技术 数据可视化
在线阅读 下载PDF
基于机器学习算法的校园网学生上网行为评估方法研究 被引量:1
9
作者 李骞 王硕 隋继学 《科技创新与应用》 2021年第33期1-5,11,共6页
随着互联网的迅速发展,大学生上网时间和频率呈指数上升趋势。在大数据环境背景下,作为教育工作者和学生管理者,如何通过上网数据了解大学生真实的学习生活情况,培养学生良好的网络习惯是高等教育质量提升的新机遇和挑战。文章提出了一... 随着互联网的迅速发展,大学生上网时间和频率呈指数上升趋势。在大数据环境背景下,作为教育工作者和学生管理者,如何通过上网数据了解大学生真实的学习生活情况,培养学生良好的网络习惯是高等教育质量提升的新机遇和挑战。文章提出了一种在线获取学生网络流量及上网日志的模型,利用随机森林(Random Forest,RF)和梯度增强决策树(Gradient Boosting Decision Tree,GBDT)两种机器学习方法进行数据分析,实现对学生上网行为的准确评估。并且为指导学生养成良好的网络习惯提出相应的建议和对策,以求提高高等教育的质量。 展开更多
关键词 机器学习 网络数据分析 网络爬虫 梯度提升决策树 随机森林 学生上网行为
在线阅读 下载PDF
社区网络爬虫的设计与实现 被引量:10
10
作者 郭涛 黄铭钧 《智能计算机与应用》 2012年第4期65-67,共3页
社区互联网是以用户创造内容为主的新型互联网,具有很高的统计价值,由于权限和数据更新频繁等限制,传统的网络爬虫很难获取这一部分数据,设计并实现了一种可以自动登录并可以根据更新频率快慢智能抓取数据的爬虫,不同于以往爬虫以页面... 社区互联网是以用户创造内容为主的新型互联网,具有很高的统计价值,由于权限和数据更新频繁等限制,传统的网络爬虫很难获取这一部分数据,设计并实现了一种可以自动登录并可以根据更新频率快慢智能抓取数据的爬虫,不同于以往爬虫以页面为粒度,该爬虫以人为最小粒度,并以人与人之间的关系为抓取依据,在获取这类数据上有很好的性能。 展开更多
关键词 社区互联网 智能爬虫 数据挖掘
在线阅读 下载PDF
Python语言在网络爬虫与数据挖掘中的应用 被引量:3
11
作者 陆海鸿 《信息与电脑》 2023年第15期183-186,共4页
网络爬虫和数据挖掘是当今信息时代中重要的技术工具,在各行各业发挥着重要的作用。本论文将重点讨论Python语言在网络爬虫与数据挖掘应用中的优势和实践经验。首先,介绍Python语言的特点和优势,及其在网络爬虫和数据挖掘领域的应用广... 网络爬虫和数据挖掘是当今信息时代中重要的技术工具,在各行各业发挥着重要的作用。本论文将重点讨论Python语言在网络爬虫与数据挖掘应用中的优势和实践经验。首先,介绍Python语言的特点和优势,及其在网络爬虫和数据挖掘领域的应用广泛性。其次,详细探讨了Python语言在网络爬虫过程中的关键技术和常用工具,包括统一资源定位符(Uniform Resource Locator,URL)请求、数据解析、页面抓取和信息提取等方面。再次,重点展示了Python语言在数据挖掘领域的强大功能,包括数据预处理、特征选择、模型建立和结果评估等。最后,通过案例分析,验证了Python语言在网络爬虫与数据挖掘应用中的实际效果和效率提升。 展开更多
关键词 PYTHON语言 网络爬虫 数据挖掘 数据预处理 特征选择 模型建立
在线阅读 下载PDF
论网络爬虫行为的刑法应对 被引量:6
12
作者 陈小彪 储虎 《河南警察学院学报》 2020年第5期83-92,共10页
伴随着网络爬虫技术在各领域大规模运用,新的法律风险由此诞生。通过现有案例的分析,发现规制网络爬虫行为尚存在法律体系不完善、基本立场不明确、行为界定不精准等困境。在刑事领域规制网络爬虫行为,应当深明构建网络社会公序良俗与... 伴随着网络爬虫技术在各领域大规模运用,新的法律风险由此诞生。通过现有案例的分析,发现规制网络爬虫行为尚存在法律体系不完善、基本立场不明确、行为界定不精准等困境。在刑事领域规制网络爬虫行为,应当深明构建网络社会公序良俗与创制法律规则同样重要,树立协同共治理念,坚持刑法谦抑性与比例原则,提倡数据安全法益。对网络爬虫技术原理及其运用进行分解,可以分为数据抓取行为、数据储存行为、信息提取行为、信息使用行为与信息删除行为,借助此分类以探讨各行为的法律性质其刑法适用。 展开更多
关键词 网络爬虫 数据安全 个人信息 网络安全
原文传递
网络数据测量调研
13
作者 李立耀 孙鲁敬 游莹 《福建师大福清分校学报》 2015年第2期11-15,共5页
对网络数据测量的研究现状与进展进行了阐述,首先介绍了网络数据测量的研究背景,进而从网络数据测量的主要技术方面对当前研究工作进行了细致的分类归纳和分析,指出了当前网络数据测量各种技术,并对未来需要深入的研究方向进行了展望。
关键词 网络数据测量 爬虫 采样 点击流模型
在线阅读 下载PDF
面向多数据源的网络爬虫实现技术及应用 被引量:49
14
作者 曾健荣 张仰森 +2 位作者 郑佳 黄改娟 陈若愚 《计算机科学》 CSCD 北大核心 2019年第5期304-309,共6页
基于大数据技术的社会计算方法是目前学术界研究的热点,如何从网络上快速获取相应的数据资源是相关研究的关键。网络爬虫技术是目前进行网络数据采集的主要手段,针对现有爬虫技术不便于采集多源数据的问题,提出了一种面向多数据源的网... 基于大数据技术的社会计算方法是目前学术界研究的热点,如何从网络上快速获取相应的数据资源是相关研究的关键。网络爬虫技术是目前进行网络数据采集的主要手段,针对现有爬虫技术不便于采集多源数据的问题,提出了一种面向多数据源的网络爬虫数据采集技术,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等6类媒体平台的数据采集爬虫的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,并提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。 展开更多
关键词 数据采集 网络爬虫 多数据源 数据展示 信息处理
在线阅读 下载PDF
基于URL定位信息的BBS数据挖掘方法研究 被引量:2
15
作者 赵哲 马晓珺 《科技通报》 北大核心 2014年第4期206-208,共3页
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法... 利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。 展开更多
关键词 网络爬虫算法 URL定位信息 BBS信息检索 数据挖掘
在线阅读 下载PDF
基于网络媒体和数据挖掘的大学生思想动态评估 被引量:5
16
作者 任琳 《微型电脑应用》 2020年第9期136-138,共3页
为了掌握学生思想动态,针对性的提供思想政治教育策略,提出了一种基于网络媒体和数据挖掘的大学生思想动态评估方法。利用网络爬虫抓取官方微博内容和评论内容,提取和分析关键词;其次,通过词云展示和K-means聚类分析及时掌握大学生的思... 为了掌握学生思想动态,针对性的提供思想政治教育策略,提出了一种基于网络媒体和数据挖掘的大学生思想动态评估方法。利用网络爬虫抓取官方微博内容和评论内容,提取和分析关键词;其次,通过词云展示和K-means聚类分析及时掌握大学生的思想动态。研究结果表明,通过词云展示和聚类分析可以有效获取一段时间内大学生所关注的热点话题,为大学生思想政治教育提供有针对性的方法和策略,帮助大学生树立正确的价值取向和思想观念具有重要的指导意义。 展开更多
关键词 网络媒体 数据挖掘 聚类分析 思想政治教育 网络爬虫
在线阅读 下载PDF
基于互联网的城市时空数据调查技术方法研究 被引量:1
17
作者 周小伟 何小波 +2 位作者 何宗 任梗睿 彭婧 《地理空间信息》 2017年第12期31-34,47,共5页
分析互联网时空数据的类型和来源,研究互联网时空数据的获取和挖掘方法。以重庆市空气质量的时空变化研究为例进行案例分析,探讨在时空数据获取和挖掘中的应用。
关键词 时空数据 数据挖掘 网络爬虫 地理编码
在线阅读 下载PDF
分布式网络爬虫设计研究 被引量:2
18
作者 孟军 覃海奎 +1 位作者 刘洁 甘宇健 《现代计算机》 2017年第16期62-65,共4页
随着大数据相关技术的不断发展,数据的重要性越来越大,如何低成本第获取大量数据是一个值得研究的问题。通过网络爬虫采集数据是一个方便且成本较低的网络数据获取手段,而为了获取更多的数据,单机运行网络爬虫显然是不够的。因此,研究... 随着大数据相关技术的不断发展,数据的重要性越来越大,如何低成本第获取大量数据是一个值得研究的问题。通过网络爬虫采集数据是一个方便且成本较低的网络数据获取手段,而为了获取更多的数据,单机运行网络爬虫显然是不够的。因此,研究分布式网络爬虫软件,提出一个可行且成本较低的实现方案。 展开更多
关键词 网络爬虫 大数据 分布式
在线阅读 下载PDF
基于关联规则挖掘的社区网络数据爬虫算法 被引量:6
19
作者 穆俊 《微电子学与计算机》 CSCD 北大核心 2018年第8期105-108,共4页
为了提高社区网络的联合推荐性能,需要进行网络数据爬虫设计,提出一种基于关联规则挖掘的社区网络数据爬虫算法.构建社区网络的信息传递模型,挖掘社区网络用户行为信息特征量,根据数据的属性特征进行关联规则合并,采用模糊指向性聚类方... 为了提高社区网络的联合推荐性能,需要进行网络数据爬虫设计,提出一种基于关联规则挖掘的社区网络数据爬虫算法.构建社区网络的信息传递模型,挖掘社区网络用户行为信息特征量,根据数据的属性特征进行关联规则合并,采用模糊指向性聚类方法进行社区网络的用户行为属性特征聚类处理,对聚类输出的特征量采用自相关特模板匹配方法实现信息融合,实现社交网络数据的关联规则挖掘,结合数据聚类分布属性进行网络信息爬虫,实现社区属性混合推荐.仿真结果表明,采用该算法进行社区网络数据爬虫处理的准确度较高,个性化匹配程度较好,对社区网络联合推荐结果的置信度水平较高,提高了社区发现能力. 展开更多
关键词 关联规则挖掘 社区网络 数据爬虫 推荐
在线阅读 下载PDF
高校网络舆情监控系统的实现 被引量:2
20
作者 刘志兵 《长沙大学学报》 2014年第5期56-58,共3页
立足于对高校网络这一校内主要舆论平台的监控的实际需要,结合中文信息处理领域中网络爬虫、网页除噪、特征提取、文本分类等技术,给出了一种高校网络舆情监控系统的实现方案,并通过实验验证了系统的有效性.
关键词 网络舆情 数据挖掘 网络爬虫 聚类分析
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部