期刊文献+
共找到395篇文章
< 1 2 20 >
每页显示 20 50 100
基于R语言的上市公司企业社会责任数据采集系统设计
1
作者 张益明 《山西电子技术》 2025年第1期70-72,共3页
数字经济时代下,高效的数据采集非常关键。不同于大部分基于Python的自动数据采集的是,着重介绍R语言环境下上市公司企业社会责任数据采集系统的设计,并测试了多线程技术下的采集效率。所介绍设计方案可以为其他财经数据的抓取提供有效... 数字经济时代下,高效的数据采集非常关键。不同于大部分基于Python的自动数据采集的是,着重介绍R语言环境下上市公司企业社会责任数据采集系统的设计,并测试了多线程技术下的采集效率。所介绍设计方案可以为其他财经数据的抓取提供有效的技术支持。 展开更多
关键词 数据采集 R 网页解析 爬虫 数据挖掘
在线阅读 下载PDF
大数据背景下企业财务管理的机遇与挑战 被引量:2
2
作者 刘晓慧 《山西财经大学学报》 北大核心 2025年第S1期175-177,共3页
在大数据技术的支持下,企业利用大数据技术能够深入挖掘财务数据,掌握企业的经营状况,促进企业整体发展沿着正确的轨迹前进。基于对企业利用大数据技术的机遇与挑战的分析,提出利用网络爬虫技术进行财务信息分析、合理利用关键词匹配算... 在大数据技术的支持下,企业利用大数据技术能够深入挖掘财务数据,掌握企业的经营状况,促进企业整体发展沿着正确的轨迹前进。基于对企业利用大数据技术的机遇与挑战的分析,提出利用网络爬虫技术进行财务信息分析、合理利用关键词匹配算法、运用实质性程序中的大数据技术、优化企业信息数据存储等大数据技术在企业财务管理工作中的应用策略。 展开更多
关键词 企业财务管理 网络爬虫技术 数据存储
原文传递
微型爬虫数据中台的设计与实现 被引量:1
3
作者 孙维睿 王鹤涛 +1 位作者 陈锋 谭孟元 《福建电脑》 2025年第1期79-84,共6页
为了给各类软件工具的开发提供所需的业务数据,本文提出了一种微型数据中台的设计方案。采用爬虫、多线程、网络通信等技术搭建多线程协作框架和功能模块的开发。实际应用的效果表明,该系统能够高效、便捷地为各类工具的开发提供数据服... 为了给各类软件工具的开发提供所需的业务数据,本文提出了一种微型数据中台的设计方案。采用爬虫、多线程、网络通信等技术搭建多线程协作框架和功能模块的开发。实际应用的效果表明,该系统能够高效、便捷地为各类工具的开发提供数据服务,也为微型数据中台的设计与实现提供了一种可行的解决方案。 展开更多
关键词 爬虫 数据中台 接口 多线程
在线阅读 下载PDF
数据可供性的再隐蔽:平台社会视角下平台未授权数据开放特征与权力边界 被引量:2
4
作者 方园 孙铭菲 《新闻界》 北大核心 2025年第2期72-83,96,共13页
平台授权单向性与第三方行动者日益增长的数据需求之间的矛盾,推动了未授权的数据采集方式兴起。作为更隐蔽的数据流动方式,未授权的数据采集与平台数据开放权力之间的运作关系尚未得到足够的关注。从平台社会中的数据基础设施和可供性... 平台授权单向性与第三方行动者日益增长的数据需求之间的矛盾,推动了未授权的数据采集方式兴起。作为更隐蔽的数据流动方式,未授权的数据采集与平台数据开放权力之间的运作关系尚未得到足够的关注。从平台社会中的数据基础设施和可供性理论脉络出发,本研究旨在考察未授权情境下行动者与平台方的技术互动,揭示其背后所隐含的平台数据开放特征,并由此审视平台权力边界。通过走查法与半结构化访谈发现,未授权的数据采集对平台与用户“双重隐蔽”。行动者挑战平台既定框架并进行技术实践的再创造,这种未授权数据的可获取性成为数据可供性“再隐蔽”的表现形式。平台对技术手段的权衡与使用促成了“分层可供”的数据开放特征,形成技术性的权力边界,并将其与行动者在技术层面上的对抗关系转化为社会性的合作关系,以巩固自身权力。 展开更多
关键词 平台社会 数据开放 可供性理论 平台权力 网络爬虫
原文传递
企业数据抓取反不正当竞争法规制进路探析
5
作者 陈凤娇 《市场周刊》 2025年第3期136-139,共4页
数字经济时代,数据成为各企业的核心竞争要素。数据抓取的不正当竞争纠纷频发,引起理论与实务界广泛关注。我国数据抓取行为司法裁判主要依据竞争法第二条展开,存在认定标准与裁判规则不统一的问题。通过对数据抓取不正当竞争行为认定... 数字经济时代,数据成为各企业的核心竞争要素。数据抓取的不正当竞争纠纷频发,引起理论与实务界广泛关注。我国数据抓取行为司法裁判主要依据竞争法第二条展开,存在认定标准与裁判规则不统一的问题。通过对数据抓取不正当竞争行为认定标准的厘定与不同情形下裁判规则的区别适用,实现互联网企业经营者与社会公共利益的多元利益平衡,在数据保护与流通之间实现帕累托最优。 展开更多
关键词 数据抓取 不正当竞争 爬虫协议
在线阅读 下载PDF
基于Python的青海西宁房价分析与可视化
6
作者 李生霞 冯桂莲 《科技创新与生产力》 2025年第5期38-42,共5页
文章通过爬虫技术收集了近3年青海省西宁市的房价数据,并进行了可视化分析,这不仅让数据更直观,便于分析,还提升了决策的效率和准确性,促进了信息的共享和交流。通过这种方式,复杂数据被转化为易于理解的图表,大大节省了分析时间,并使... 文章通过爬虫技术收集了近3年青海省西宁市的房价数据,并进行了可视化分析,这不仅让数据更直观,便于分析,还提升了决策的效率和准确性,促进了信息的共享和交流。通过这种方式,复杂数据被转化为易于理解的图表,大大节省了分析时间,并使关键信息的识别更加迅速。此外,可视化分析还帮助工作人员及时发现数据中的异常或趋势变化,从而及时应对,具有很大的实际应用价值。 展开更多
关键词 PYTHON 爬虫技术 数据分析 数据可视化
在线阅读 下载PDF
物联网海量不均衡数据组内方差SNM清洗算法
7
作者 伍阳 陈科基 《现代电子技术》 北大核心 2025年第3期124-128,共5页
由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不... 由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不平衡数据字段过滤处理,设计可伸缩滑动窗口方式改进SNM算法,计算不均衡数据组内方差,将其作为清洗不均衡数据的约束,通过对比物联网海量不均衡数据组内方差阈值,实现物联网海量不均衡数据清洗。实验结果表明:该方法具备较强的物联网海量不均衡数据清洗能力,且清洗后的物联网海量不平衡数据的文本相似度较低,应用性较强。 展开更多
关键词 物联网 不均衡数据 组内方差 SNM清洗算法 滑动窗口 网络爬虫 数据字段 约束条件
在线阅读 下载PDF
基于站点爬虫的WSN网络污点数据补全方法
8
作者 孙俊琳 《通化师范学院学报》 2025年第2期39-46,共8页
为了优化局部污点数据的全局修复效果,提出基于站点爬虫的WSN网络污点数据补全方法.分析WSN网络污点数据的全局Moran's I统计量,并建立站点爬虫的污点数据模型,计算其在污点数据节点区域的爬行频率.同时建立污点数据的转发阶段爬虫... 为了优化局部污点数据的全局修复效果,提出基于站点爬虫的WSN网络污点数据补全方法.分析WSN网络污点数据的全局Moran's I统计量,并建立站点爬虫的污点数据模型,计算其在污点数据节点区域的爬行频率.同时建立污点数据的转发阶段爬虫网络,计算其输出关系;根据爬虫网络分布跟踪污点数据,实现对污点数据的爬虫补全修复.对比实验结果表明所提方法整体分布值域范围最高,稳定性良好,验证了所提方法具有较高的污点数据的补全能力,可靠度高. 展开更多
关键词 站点爬虫 WSN网络 污点数据 数据补全
在线阅读 下载PDF
Python环境下的JavaScript逆向技术分析
9
作者 魏霞 《微型电脑应用》 2025年第9期267-269,277,共4页
在数据下载和网络爬虫领域,经常会遇到各种问题,如难以理解网页代码、无法破解数据加密方式等。为了解决这些问题,运用JavaScript逆向技术,结合某售房网站的实例,使用排错法和断点调试技术对数据加密问题进行深入分析,得到可用数据。结... 在数据下载和网络爬虫领域,经常会遇到各种问题,如难以理解网页代码、无法破解数据加密方式等。为了解决这些问题,运用JavaScript逆向技术,结合某售房网站的实例,使用排错法和断点调试技术对数据加密问题进行深入分析,得到可用数据。结果表明,运用JavaScript逆向技术后爬虫效果(获取数据)得到明显提升,模拟参数解密方式也取得了成功。 展开更多
关键词 网络爬虫 JavaScript逆向技术 PYTHON 数据加密
在线阅读 下载PDF
基于方差聚类的电力敏感数据自动识别方法
10
作者 李峰 撒依娜·波旦白 +1 位作者 杨东平 张涛 《计算机仿真》 2025年第7期136-140,共5页
由于电力数据具有复杂多变、实时性高等特点,不同接口间的数据可能存在显著的差异性和不一致性,这使得计算方差并准确解释其背后的电力数据特性变得尤为困难。针对该问题,提出基于方差聚类的电力敏感数据自动识别方法。构建电力数据中... 由于电力数据具有复杂多变、实时性高等特点,不同接口间的数据可能存在显著的差异性和不一致性,这使得计算方差并准确解释其背后的电力数据特性变得尤为困难。针对该问题,提出基于方差聚类的电力敏感数据自动识别方法。构建电力数据中台网格化数据共享架构,将该架构中多服务接口传输的电力数据作为识别对象,使用网络爬虫方法划分用于自动抓取电力数据的爬虫网络相空间格局。考虑到接口差异与任务需求多样性,由余弦向量法筛选爬虫匹配最优接口,获取数据爬取结果。通过方差聚类法,计算自动抓取电力数据和敏感数据中心之间的方差距离函数,将数据自动划分为不同敏感数据类别,实现电力敏感数据自动识别。实验结果表明,该方法能够有效降低敏感数据识别偏差,类间离散度较高,说明不同类别电力敏感数据在特征上具有较高的区分度,有利于提升电力敏感数据识别效果。 展开更多
关键词 方差聚类 电力敏感数据 自动识别 网络爬虫 数据抓取 数据中台
在线阅读 下载PDF
基于Python爬虫的招聘信息可视化分析
11
作者 张乐 王自一 谢毅 《电脑与信息技术》 2025年第3期84-88,共5页
随着网络招聘的发展,广大毕业生面对众多的招聘网站,出现了招聘信息数量繁杂、无法快速筛选所需信息和选择正确信息等问题。针对这些问题,基于Python爬虫技术获取招聘相关数据,经数据处理后对招聘信息数据进行可视化分析,使用Matplotlib... 随着网络招聘的发展,广大毕业生面对众多的招聘网站,出现了招聘信息数量繁杂、无法快速筛选所需信息和选择正确信息等问题。针对这些问题,基于Python爬虫技术获取招聘相关数据,经数据处理后对招聘信息数据进行可视化分析,使用Matplotlib和Wordcloud等库绘制岗位数量对比直方图、岗位来源饼图、平均薪资直方图和岗位能力要求词云图,并做以分析。结果表明,计算机、工商管理、土木工程可作为就业首选,民营和国营企业对人才需求量大,计算机专业平均薪资最高且岗位对专业能力要求高等。该研究有助于毕业生求职者快速筛选出自己心仪的职位,从而为广大毕业生提供参考。 展开更多
关键词 PYTHON 网络爬虫 数据可视化
在线阅读 下载PDF
基于网页结构的限定域的康养数据智能采集技术研究与实现
12
作者 代亮亮 杨熙 +1 位作者 鄢超 徐蛟 《价值工程》 2025年第8期154-156,共3页
随着人口老龄化的加剧,康养产业对数据的需求日益增长。康养数据的智能采集对于提升康养服务质量、优化资源配置以及实现个性化健康管理具有重要意义。本文从网页结构分析出发,结合网络爬虫技术,设计一种基于网页结构的限定域的康养数... 随着人口老龄化的加剧,康养产业对数据的需求日益增长。康养数据的智能采集对于提升康养服务质量、优化资源配置以及实现个性化健康管理具有重要意义。本文从网页结构分析出发,结合网络爬虫技术,设计一种基于网页结构的限定域的康养数据智能采集方法,只需设置采集内容的前后标识符及相关参数,即可自动开展采集工作。该方法大大降低了对数据采集工作的技术要求,节约了数据的采集时间、成本,为康养产业的数字化转型提供了技术支持。 展开更多
关键词 数据采集 网络爬虫 PYTHON 智能采集
在线阅读 下载PDF
基于Python的影片数据爬取与分析系统研究
13
作者 张亚涛 张琪 《信息与电脑》 2025年第1期173-175,共3页
随着生活节奏的日趋紧张,越来越多的人选择电影等娱乐方式来排压消遣。文章主要通过Python语言爬取豆瓣电影平台的相关数据,进行数据的清洗与存储,并对影院上映的电影数据进行深入分析,来了解公众对各类影片的消费意愿与喜爱程度。该系... 随着生活节奏的日趋紧张,越来越多的人选择电影等娱乐方式来排压消遣。文章主要通过Python语言爬取豆瓣电影平台的相关数据,进行数据的清洗与存储,并对影院上映的电影数据进行深入分析,来了解公众对各类影片的消费意愿与喜爱程度。该系统通过Scrapy爬虫框架来进行数据爬取,结合Django框架进行后端开发,前端界面则使用Vue技术框架进行构建。数据交互采用异步交互处理方式,以确保高效的数据处理,并使用MySQL数据库进行数据存储。系统能够将爬取的数据在前端界面展示,允许用户进行在线浏览与互动,同时提供后台数据管理功能,并结合Echart组件,以实现数据的可视化分析与展示。 展开更多
关键词 电影平台 数据清洗 Scrapy爬虫框架 Django框架
在线阅读 下载PDF
恶意网络爬虫行为的违法性判断与罪名适用——以S市H区法院周某某盗窃案为切入点
14
作者 朱晗 《辽宁公安司法管理干部学院学报》 2025年第1期45-52,共8页
大数据时代,网络爬虫作为数据的搜索引擎应运而生,在促进数据流通和提高社会化效益的同时,引发了若干法律风险。在开源社区内抓取网络平台数据的网络爬虫案例较为典型并日趋泛化,导致恶意网络爬虫技术在司法实践中普遍存在的罪与非罪、... 大数据时代,网络爬虫作为数据的搜索引擎应运而生,在促进数据流通和提高社会化效益的同时,引发了若干法律风险。在开源社区内抓取网络平台数据的网络爬虫案例较为典型并日趋泛化,导致恶意网络爬虫技术在司法实践中普遍存在的罪与非罪、此罪与彼罪争议局面。网络爬虫的违法性判断与数据被授权使用的开放程度和访问权限有关,抓取公开数据无需承担任何责任;突破“合同授权”,抓取“限制重新使用”的数据一般情况下仅承担民事责任;采用强行突破或其他手段破坏“技术屏障”,抓取“限制访问、获取”的数据则需承担刑事不法评价。网络爬虫行为构成计算机类犯罪的核心问题,在于其恶意爬取行为侵犯数据安全法益,其主观目的在于获取数据而非其他财产性利益等传统法益;客观方面侵犯了数据的机密性和可用性,损害了数据安全和人们对数据化大规模应用生活的信赖。 展开更多
关键词 网络爬虫 数据安全 非法获取计算机信息系统数据罪 数据安全法益
在线阅读 下载PDF
基于协同过滤算法的电影推荐系统设计与实现
15
作者 邢艳芳 《信息技术》 2025年第5期9-14,共6页
电影作为海量信息的一个重要载体,存在信息过载问题,因此将推荐算法应用于电影推荐具有重大意义。文中主要研究基于协同过滤算法的电影推荐系统,该系统主要由三部分组成,包括前台的电影界面展示、系统的推荐算法以及后台数据集;首先,该... 电影作为海量信息的一个重要载体,存在信息过载问题,因此将推荐算法应用于电影推荐具有重大意义。文中主要研究基于协同过滤算法的电影推荐系统,该系统主要由三部分组成,包括前台的电影界面展示、系统的推荐算法以及后台数据集;首先,该系统通过网络爬虫爬取与电影相关的数据;其次,通过协同过滤算法过滤出用户感兴趣的电影;最后,通过图形用户界面进行数据交互,针对数据集中的用户推荐数据集中的相关电影,系统最终的运行结果与预期呈现的结果基本一致。 展开更多
关键词 推荐系统 协同过滤算法 爬虫 图形用户界面 电影数据
在线阅读 下载PDF
基于Python的AI岗位招聘数据分析与可视化研究 被引量:1
16
作者 曾静 廖书真 陈奕新 《现代信息科技》 2025年第13期90-94,共5页
随着人工智能(AI)技术的蓬勃发展,AI岗位的招聘市场愈发活跃。文章借助Selenium爬虫技术,从BOSS招聘网站采集了AI岗位的招聘数据,通过PyEcharts可视化库对采集的数据进行深度分析与可视化呈现,清晰展现了该网站上AI相关岗位在地域分布... 随着人工智能(AI)技术的蓬勃发展,AI岗位的招聘市场愈发活跃。文章借助Selenium爬虫技术,从BOSS招聘网站采集了AI岗位的招聘数据,通过PyEcharts可视化库对采集的数据进行深度分析与可视化呈现,清晰展现了该网站上AI相关岗位在地域分布、薪资水平、技能要求、经验要求等方面的特点和趋势。为AI求职者、高校教育机构及企业招聘部门提供精准且实用的参考。 展开更多
关键词 Selenium爬虫 BOSS招聘网站 AI岗位 招聘数据 PyEcharts可视化
在线阅读 下载PDF
基于聚焦网络爬虫技术的人才招聘数据采集与分析
17
作者 蒋泽艳 《软件》 2025年第4期4-6,共3页
本文以聚焦网络爬虫技术为重点组织分析,分析了其技术特点以及原理,研究了其在人才招聘数据采集与分析工作中的应用。技术层面包括采集框架建设、数据来源拓展以及采集逻辑的选取等,同时,关注工作流程的稳定性和可靠性,采用物联网工作... 本文以聚焦网络爬虫技术为重点组织分析,分析了其技术特点以及原理,研究了其在人才招聘数据采集与分析工作中的应用。技术层面包括采集框架建设、数据来源拓展以及采集逻辑的选取等,同时,关注工作流程的稳定性和可靠性,采用物联网工作系统、区块链工作模式,降低爬虫技术在单一节点的工作压力,保证数据分析后的汇总、交互效率,以进一步提升人才招聘数据采集与分析水平,发挥聚焦网络爬虫技术优势。 展开更多
关键词 聚焦网络爬虫技术 人才招聘 数据采集 数据分析
在线阅读 下载PDF
基于Python语言的网络舆情大数据传播特征挖掘研究
18
作者 胡贵恒 张震 陈翠红 《陇东学院学报》 2025年第2期21-26,共6页
为解决网络舆情大数据传播特征挖掘存在读入延迟等问题,提出基于Python语言的网络舆情大数据传播特征挖掘研究。通过Python语言设计基于scrapy开源结构的改进爬虫算法,爬取网络中的舆情大数据;构建舆情大数据文本空间向量模型,提取数据... 为解决网络舆情大数据传播特征挖掘存在读入延迟等问题,提出基于Python语言的网络舆情大数据传播特征挖掘研究。通过Python语言设计基于scrapy开源结构的改进爬虫算法,爬取网络中的舆情大数据;构建舆情大数据文本空间向量模型,提取数据内的文本特征;采用时间序列模型消除文本特征延时性,通过基于特征词向量的短文本聚类算法,计算短文本之间语义关联性,依据该关联性并通过层次聚类算法挖掘网络舆情大数据传播特征。经实验验证,该方法具有较低的读入延迟,能够挖掘得到舆情大数据的网络关注度、发帖数量以及转发时间频率等传播特征。 展开更多
关键词 PYTHON语言 网络舆情 大数据 传播特征挖掘 scrapy开源结构 网络爬虫
在线阅读 下载PDF
OSSData:面向开源社区的分布式数据采集框架 被引量:2
19
作者 林维 陈曦 王松 《计算技术与自动化》 2019年第1期102-107,113,共7页
近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发。因此,开源软件社区积累了大量的软件应用和开发数据。这些丰富的数据逐步引起了研究人员的关注,已经有相... 近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发。因此,开源软件社区积累了大量的软件应用和开发数据。这些丰富的数据逐步引起了研究人员的关注,已经有相关工作对开源软件的群体开发模式和质量保证机制等展开了一系列研究。为了更好地支持此类研究工作的有效开展,面向开源社区提出了一个用户可定制的数据采集框架,该框架具有较高的灵活性和鲁棒性,能够根据用户的实际需求进行深度定制,并保持稳定持续的工作状态,从而提高数据采集的效率和质量。 展开更多
关键词 开源社区 数据采集 网络爬虫 分布式框架
在线阅读 下载PDF
输电线路覆冰态势感知信息序列调度方法
20
作者 陈辉 张建 +1 位作者 邓刚 陈谊祝 《微型电脑应用》 2025年第4期207-211,共5页
为了准确调度输电线路覆冰态势感知信息序列,研究输电线路覆冰态势感知信息序列调度方法。利用监控分机采集输电线路的温湿度、风速、风向、雨量、覆冰厚度信息。结合网络爬虫和关联大数据技术,从国网六大预警中心数据库中提取所需区域... 为了准确调度输电线路覆冰态势感知信息序列,研究输电线路覆冰态势感知信息序列调度方法。利用监控分机采集输电线路的温湿度、风速、风向、雨量、覆冰厚度信息。结合网络爬虫和关联大数据技术,从国网六大预警中心数据库中提取所需区域输电线路的信息序列。通过基于径向基函数(RBF)神经网络的覆冰态势感知模型完成输电线路覆冰态势感知,经实验验证,所提方法调度提取的输电线路的覆冰态势感知信息序列无误,具有一定的可行性和实用价值。因此,所提方法可以为输电线路的安全运行和运维管理提供一定的技术支持和保障。 展开更多
关键词 网络爬虫 关联大数据 输电线路 覆冰态势 感知信息序列 信息调度
在线阅读 下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部