期刊文献+
共找到125篇文章
< 1 2 7 >
每页显示 20 50 100
To Whom Do Data Belong?——Data Ownership and Protection in the Context of Web-Crawlers
1
作者 Ding Xiaodong Ryan(翻译) 《Contemporary Social Sciences》 2020年第6期134-155,共22页
Platform data has already become an important asset for web-based companies,but this sort of data frequently includes large amounts of personal information.Platform data can be seen as belonging to an individual,belon... Platform data has already become an important asset for web-based companies,but this sort of data frequently includes large amounts of personal information.Platform data can be seen as belonging to an individual,belonging to a platform,belonging to some combinations of the two,or can be seen as a form of Internet-based public data.Analysis of legal clauses and doctrines as well as analysis based in legitimacy and consequentialism both fail to completely delineate data ownership.One potential reason for this is that there are many types of platform data,and that each type is highly dependent on circumstances.The determination of rights in regard to platform data should be done in a way which revolves around a contextual regulatory framework,one in which the rules of reason is applied on a case-by-case basis and in which gradual changes are done in a bottom-up manner,and not one which seeks to establish a universal set of data regulations.In actual judgments,factors such as the nature of the platform and the nature of the data crawling behavior should be comprehensively considered while ensuring a balance of data circulation and data protection. 展开更多
关键词 data ownership data protection web-crawling unfair competition
在线阅读 下载PDF
网络爬取侵害企业数据权益的三阶法律判断
2
作者 赵自轩 《河北法学》 北大核心 2026年第1期76-100,共25页
网络爬取个人信息是互联网中常见的数据获取方式,当前司法实践中采取的竞争法救济路径将企业数据权益视为排他性权利,忽略了个人信息的公共价值和被爬取者的数据提供义务,严重损害了爬取者的合法权益。网络爬取是一个动态的数据利用过程... 网络爬取个人信息是互联网中常见的数据获取方式,当前司法实践中采取的竞争法救济路径将企业数据权益视为排他性权利,忽略了个人信息的公共价值和被爬取者的数据提供义务,严重损害了爬取者的合法权益。网络爬取是一个动态的数据利用过程,应结合不同阶段的法律规定和利用方式进行侵权判断。在数据获取阶段,以非法方式获取个人信息数据构成侵权,但在法定情形下,爬取者通过自助行为获取数据的除外;在数据利用阶段,违反法律规定和有效的授权许可协议的利用,对公开个人信息推断数据的替代性利用构成侵权;在数据处分阶段,转让、披露非法获取的数据,违反法律规定或有效的授权许可协议转让、披露数据构成侵权,但转让、披露公共数据和加工过的公开个人信息原始数据不构成侵权。 展开更多
关键词 网络爬取 个人信息数据 可携带权 授权许可协议 替代性利用
原文传递
基于网络文本数据的重庆市金刚碑历史文化街区游客感知研究 被引量:2
3
作者 李欣 黄弘礼 肖洪未 《重庆建筑》 2025年第9期11-15,共5页
游客感知是历史文化街区旅游开发评价的重要因素。通过分析游客感知的实时数据,可以动态监测和反馈街区保护开发的效果,为街区的可持续发展提供指导。以重庆市金刚碑历史文化街区为研究对象,利用网络爬虫技术获取并整理了2016—2024年... 游客感知是历史文化街区旅游开发评价的重要因素。通过分析游客感知的实时数据,可以动态监测和反馈街区保护开发的效果,为街区的可持续发展提供指导。以重庆市金刚碑历史文化街区为研究对象,利用网络爬虫技术获取并整理了2016—2024年的网络文本数据,运用ROST CM6软件对文本进行词频特征分析、语义网络分析和情感分析,研究游客对金刚碑的旅游形象感知,为金刚碑的保护提供引导。研究表明,游客对金刚碑的情感态度整体上趋于良好,积极感知远大于消极感知;然而,部分游客对旅游体验与氛围、交通、街区配套设施等方面持消极态度。最后,根据以上分析结果,结合街区的发展现状和现实问题,从形象感知、体验感知、功能感知三个方面提出了建议,为金刚碑的保护与管理决策制定提供依据。 展开更多
关键词 网络文本 历史文化街区 游客感知 爬虫技术 金刚碑
在线阅读 下载PDF
高校舆情管理平台的算法研究
4
作者 谢济江 孙伟 翟剑锟 《科学与信息化》 2025年第8期90-92,96,共4页
在高校舆情管理平台基础上,增加了舆情算法库和可视化技术。采用两个通用库jieba、spacy实现舆情算法库的基本操作。实现采集舆情信息的文本分词、情感分析和实体识别任务,采用多种机器学习算法(SVM,K-means)进行舆情处理和分析。通过... 在高校舆情管理平台基础上,增加了舆情算法库和可视化技术。采用两个通用库jieba、spacy实现舆情算法库的基本操作。实现采集舆情信息的文本分词、情感分析和实体识别任务,采用多种机器学习算法(SVM,K-means)进行舆情处理和分析。通过可视化技术生成词云和热点话题排行榜,实时监测舆情动态,自动识别敏感事件并预警,为高校管理者提供全面的舆情研判和决策支持。研究表明,舆情算法库显著提升了平台舆情管理的适配性和准确性。 展开更多
关键词 舆情平台 爬虫技术 机器学习 文本分词 词云
在线阅读 下载PDF
网络爬取的数据风险及其法律规制研究
5
作者 曾卓然 梁喜乐 蔡春兰 《争议解决》 2025年第8期227-234,共8页
数据是竞争与创新的引擎,也是数字技术和数字经济的支撑。作为数据利用的一种重要手段,在缺乏科学合理的规制时,网络爬取在个人隐私、消费者权益以及企业利益等方面潜藏着诸多法律风险。当前,我国网络爬取相关立法呈现出明显的碎片化和... 数据是竞争与创新的引擎,也是数字技术和数字经济的支撑。作为数据利用的一种重要手段,在缺乏科学合理的规制时,网络爬取在个人隐私、消费者权益以及企业利益等方面潜藏着诸多法律风险。当前,我国网络爬取相关立法呈现出明显的碎片化和滞后性问题,缺乏规制网络爬取行为的具有可操作性的专门性条款。通过借鉴域外相关经验,我国应以分级分类为基础明确网络爬取行为的边界规则,以责任主体为核心构建全链条约束机制,进而完善网络爬取数据风险的法律规制路径。 展开更多
关键词 网络爬取 数据风险 法律规制
在线阅读 下载PDF
基于网络爬虫的招聘数据采集与分析方法实现
6
作者 刘佳 胡钰芊 《移动信息》 2025年第8期472-474,477,共4页
在招聘市场快速变化的时代,精准分析岗位需求与人才特征已成为企业招聘优化与求职者职业规划的重要任务。在当前招聘数据分析中,数据采集效率低、处理质量不高、分析维度单一等问题亟待解决。文中通过引入网络爬虫技术实现海量数据自动... 在招聘市场快速变化的时代,精准分析岗位需求与人才特征已成为企业招聘优化与求职者职业规划的重要任务。在当前招聘数据分析中,数据采集效率低、处理质量不高、分析维度单一等问题亟待解决。文中通过引入网络爬虫技术实现海量数据自动化采集,并结合数据清洗、可视化分析等方法,从薪资分布、城市集中度、经验与学历要求等多维度对招聘市场进行深入挖掘,揭示岗位需求规律与企业偏好特征,以满足企业招聘决策及求职者职业选择的实际需求。 展开更多
关键词 网络爬虫 数据采集 可视化分析
在线阅读 下载PDF
基于Python爬虫技术的职业技能培训需求分析
7
作者 叶帅宏 李广 《信息与电脑》 2025年第9期230-232,共3页
近年来,我国印发的政策文件中提到职业技能培训的频率越来越高,可以看出国家越来越重视职业技能培训。职业院校作为服务于地方经济社会建设的角色,承担着开展面向行业企业职工培训的重任。然而,如何准确把握当前社会对职业技能培训的实... 近年来,我国印发的政策文件中提到职业技能培训的频率越来越高,可以看出国家越来越重视职业技能培训。职业院校作为服务于地方经济社会建设的角色,承担着开展面向行业企业职工培训的重任。然而,如何准确把握当前社会对职业技能培训的实际需求,为行业企业职工提供精准服务,是当前面临的一大挑战。文章运用Python爬虫技术和GUI编程技术,以国开终身教育平台网站为例,对网站上的职业技能培训数据进行了抓取和分析,旨在揭示当前职业技能培训的需求趋势和热点,为职业技能培训领域的发展提供有益的数据支持和参考。 展开更多
关键词 Python爬虫 职业技能 培训需求分析
在线阅读 下载PDF
使用.NET框架进行网络爬虫开发
8
作者 杨建辉 孙江 周晓妮 《中国高新科技》 2025年第16期78-79,93,共3页
在大数据分析与人工智能蓬勃发展的今天,各行业对数据的需求急剧增长。传统的数据获取途径,如从数据服务网站及供应商处购买、从专业文献和资料中查询等,存在成本高、数据量不足或完整性欠佳等问题,难以满足专业数据需求。而人工从互联... 在大数据分析与人工智能蓬勃发展的今天,各行业对数据的需求急剧增长。传统的数据获取途径,如从数据服务网站及供应商处购买、从专业文献和资料中查询等,存在成本高、数据量不足或完整性欠佳等问题,难以满足专业数据需求。而人工从互联网搜寻数据则效率低下,需耗费大量人力和时间成本。鉴于此,文章详细阐述了基于.NET框架,运用HttpClient和异步技术抓取网页,借助HtmlAgilityPack解析网页获取数据,并使用Mongodb存储数据的方法,实现了对互联网信息的高效自动抓取与持久化存储,为大数据分析和人工智能技术的研究提供了充足的数据源。 展开更多
关键词 网络爬虫 自动抓取
在线阅读 下载PDF
基于方差聚类的电力敏感数据自动识别方法
9
作者 李峰 撒依娜·波旦白 +1 位作者 杨东平 张涛 《计算机仿真》 2025年第7期136-140,共5页
由于电力数据具有复杂多变、实时性高等特点,不同接口间的数据可能存在显著的差异性和不一致性,这使得计算方差并准确解释其背后的电力数据特性变得尤为困难。针对该问题,提出基于方差聚类的电力敏感数据自动识别方法。构建电力数据中... 由于电力数据具有复杂多变、实时性高等特点,不同接口间的数据可能存在显著的差异性和不一致性,这使得计算方差并准确解释其背后的电力数据特性变得尤为困难。针对该问题,提出基于方差聚类的电力敏感数据自动识别方法。构建电力数据中台网格化数据共享架构,将该架构中多服务接口传输的电力数据作为识别对象,使用网络爬虫方法划分用于自动抓取电力数据的爬虫网络相空间格局。考虑到接口差异与任务需求多样性,由余弦向量法筛选爬虫匹配最优接口,获取数据爬取结果。通过方差聚类法,计算自动抓取电力数据和敏感数据中心之间的方差距离函数,将数据自动划分为不同敏感数据类别,实现电力敏感数据自动识别。实验结果表明,该方法能够有效降低敏感数据识别偏差,类间离散度较高,说明不同类别电力敏感数据在特征上具有较高的区分度,有利于提升电力敏感数据识别效果。 展开更多
关键词 方差聚类 电力敏感数据 自动识别 网络爬虫 数据抓取 数据中台
在线阅读 下载PDF
Web信息采集研究进展 被引量:25
10
作者 李盛韬 余智华 +1 位作者 程学旗 白硕 《计算机科学》 CSCD 北大核心 2003年第2期151-157,171,共8页
As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents a... As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents and following links from page to page. This article detailedly explains the principles and difficulties on the Web crawler,comprehensively argues several hot directions of Web crawler,and at last views the new direction of Web crawler. 展开更多
关键词 WEB 信息采集 信息发布 INTERNET INTRANET 计算机网络
在线阅读 下载PDF
分布式Web Crawler的研究:结构、算法和策略 被引量:23
11
作者 叶允明 于水 +2 位作者 马范援 宋晖 张岭 《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. 展开更多
关键词 WEB爬虫 爬行策略 分布式系统 计算机网络 网页
在线阅读 下载PDF
主题爬行中的隧道穿越技术 被引量:11
12
作者 彭涛 孟宇 +2 位作者 左万利 王英 胡亮 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期628-637,共10页
由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web... 由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的. 展开更多
关键词 主题爬行 灰色隧道穿越 黑色隧道穿越 网页分块 TARGET LENGTH
在线阅读 下载PDF
一个个性化的Web信息采集模型 被引量:17
13
作者 吴丽辉 王斌 张刚 《计算机工程》 EI CAS CSCD 北大核心 2005年第22期86-88,共3页
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息... 介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。 展开更多
关键词 个性化 个性化的Web信息采集 搜索引擎
在线阅读 下载PDF
Web信息采集中的哈希函数比较 被引量:8
14
作者 吴丽辉 白硕 +1 位作者 张刚 张凯 《小型微型计算机系统》 CSCD 北大核心 2006年第4期673-676,共4页
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突... 在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷. 展开更多
关键词 WEB信息采集 哈希函数 URL
在线阅读 下载PDF
利用构建语义词典的查询自动分类方法 被引量:3
15
作者 岳峰 孙亮 +2 位作者 王宽全 王永吉 左旺孟 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2008年第7期1094-1098,共5页
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该... 为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题. 展开更多
关键词 搜索引擎 查询分类 语义词典 基于主题的Web信息采集
在线阅读 下载PDF
网页变化与增量搜集技术 被引量:22
16
作者 孟涛 王继民 闫宏飞 《软件学报》 EI CSCD 北大核心 2006年第5期1051-1067,共17页
互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至... 互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义. 展开更多
关键词 网页变化 增量搜集 调度策略 研究进展
在线阅读 下载PDF
Nutch分布式网络爬虫研究与优化 被引量:21
17
作者 詹恒飞 杨岳湘 方宏 《计算机科学与探索》 CSCD 2011年第1期68-74,共7页
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nu... Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。 展开更多
关键词 Nutch搜索引擎 网络爬虫 弹性抓取机制
在线阅读 下载PDF
广域网分布式Web爬虫 被引量:25
18
作者 许笑 张伟哲 +1 位作者 张宏莉 方滨兴 《软件学报》 EI CSCD 北大核心 2010年第5期1067-1082,共16页
分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到... 分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结. 展开更多
关键词 搜索引擎 广域网分布式爬虫 Web划分 AGENT协同 Agent部署
在线阅读 下载PDF
文本大数据的智慧城市研究与分析 被引量:5
19
作者 饶加旺 王勇 马荣华 《测绘科学》 CSCD 北大核心 2020年第7期170-180,共11页
针对快速了解智慧城市当前研究的现状问题,该文基于网络爬虫手段,快速获取中国知网2009年1月—2019年3月收录的以智慧城市为关键词的各类研究文献,构建了智慧城市文本大数据与自动分词模型,基于文本挖掘技术深入分析了智慧城市的研究热... 针对快速了解智慧城市当前研究的现状问题,该文基于网络爬虫手段,快速获取中国知网2009年1月—2019年3月收录的以智慧城市为关键词的各类研究文献,构建了智慧城市文本大数据与自动分词模型,基于文本挖掘技术深入分析了智慧城市的研究热点、现状、研究主题,指出了当前智慧城市建设中的问题。结果表明:当前处于智慧城市建设与快速发展阶段,研究热点归纳为研究方法、技术手段、应用领域3个层面,研究主题主要集中在技术与应用方面;此外当前智慧城市存在着"信息孤岛""数据孤岛"问题突出、个性化设计与共享不足、缺乏运行维护长效机制、与新型智慧城市的要求还有差距等不足,研究结果可为智慧城市建设提供参考。 展开更多
关键词 智慧城市 文本挖掘 网络爬虫 文本大数据 研究现状
原文传递
一种新的主题网络爬虫爬行策略 被引量:15
20
作者 宋海洋 刘晓然 钱海俊 《计算机应用与软件》 CSCD 2011年第11期264-267,293,共5页
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不... 为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。 展开更多
关键词 主题网络爬虫 爬行策略 二次爬行 相关度分析
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部