期刊文献+
共找到167篇文章
< 1 2 9 >
每页显示 20 50 100
一个P2P IPTV多协议爬行器——TVCrawler 被引量:5
1
作者 姜志宏 王晖 +1 位作者 樊鹏翼 袁雪美 《计算机应用》 CSCD 北大核心 2010年第3期715-718,728,共5页
P2PIPTV网络测量是研究P2PIPTV行为和特征的重要手段,不仅有利于设计出更符合真实网络环境的系统或协议,也是实现P2PIPTV监测、引导和控制等方面的重要依据和基础。爬行器是P2PIPTV网络的一种主动测量技术,也是目前P2PIPTV测量的主要方... P2PIPTV网络测量是研究P2PIPTV行为和特征的重要手段,不仅有利于设计出更符合真实网络环境的系统或协议,也是实现P2PIPTV监测、引导和控制等方面的重要依据和基础。爬行器是P2PIPTV网络的一种主动测量技术,也是目前P2PIPTV测量的主要方式之一。提出了一个P2PIPTV多协议爬行器——TVCrawler,能够对PPLive、PPStream和UUSee三个系统的直播频道进行测量。TVCrawler主要具有三个特点:1)采用基于反馈的引导节点集构造机制;2)采用主从结构,并行爬行获取拓扑数据;3)采用基于拓扑增长系数的自适应爬行时长控制。实验表明,TVCrawler的爬行测量速度达到20~100节点/秒和130~500边/秒。 展开更多
关键词 网络测量 对等网络 网络电视 爬行器 覆盖网络
在线阅读 下载PDF
智能专题化信息搜集Crawler 被引量:4
2
作者 钱榕 徐新华 +1 位作者 郑莹 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2006年第3期57-59,共3页
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑... 介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。 展开更多
关键词 专题化爬行 WEB挖掘 神经网络 加强学习
在线阅读 下载PDF
基于神经网络的增量式crawler重访频率研究 被引量:1
3
作者 周英飚 王军 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第12期32-33,45,共3页
crawler是搜索引擎必备的核心组件 ,以何种频率对变化的Web页面进行重访是增量式crawler要解决的主要问题 .结合人工神经网络建立页面变化模型 ,由模型确定增量式crawler重访时间 ,同时分析模型在实践中的应用 ,提出一种应用方案 ,具有... crawler是搜索引擎必备的核心组件 ,以何种频率对变化的Web页面进行重访是增量式crawler要解决的主要问题 .结合人工神经网络建立页面变化模型 ,由模型确定增量式crawler重访时间 ,同时分析模型在实践中的应用 ,提出一种应用方案 ,具有较好的自适应性 . 展开更多
关键词 搜索引擎 crawler 增量式crawler 神经网络
在线阅读 下载PDF
BP网络在Web Crawler中的应用
4
作者 张艳艳 《微计算机信息》 北大核心 2008年第27期95-96,119,共3页
本文介绍了Web Crawler和BP网络的基本原理,在此基础上,应用BP网络对网页变化的时间间隔进行建模,通过BP算法训练得到一个预测模型,预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化。实验证明,BP网络... 本文介绍了Web Crawler和BP网络的基本原理,在此基础上,应用BP网络对网页变化的时间间隔进行建模,通过BP算法训练得到一个预测模型,预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化。实验证明,BP网络能够有效预测网页变化的时间间隔,指导增量更新。 展开更多
关键词 Webcrawler BP网络 预测模型
在线阅读 下载PDF
基于站点爬虫的WSN网络污点数据补全方法
5
作者 孙俊琳 《通化师范学院学报》 2025年第2期39-46,共8页
为了优化局部污点数据的全局修复效果,提出基于站点爬虫的WSN网络污点数据补全方法.分析WSN网络污点数据的全局Moran's I统计量,并建立站点爬虫的污点数据模型,计算其在污点数据节点区域的爬行频率.同时建立污点数据的转发阶段爬虫... 为了优化局部污点数据的全局修复效果,提出基于站点爬虫的WSN网络污点数据补全方法.分析WSN网络污点数据的全局Moran's I统计量,并建立站点爬虫的污点数据模型,计算其在污点数据节点区域的爬行频率.同时建立污点数据的转发阶段爬虫网络,计算其输出关系;根据爬虫网络分布跟踪污点数据,实现对污点数据的爬虫补全修复.对比实验结果表明所提方法整体分布值域范围最高,稳定性良好,验证了所提方法具有较高的污点数据的补全能力,可靠度高. 展开更多
关键词 站点爬虫 WSN网络 污点数据 数据补全
在线阅读 下载PDF
基于Python爬虫的招聘信息可视化分析
6
作者 张乐 王自一 谢毅 《电脑与信息技术》 2025年第3期84-88,共5页
随着网络招聘的发展,广大毕业生面对众多的招聘网站,出现了招聘信息数量繁杂、无法快速筛选所需信息和选择正确信息等问题。针对这些问题,基于Python爬虫技术获取招聘相关数据,经数据处理后对招聘信息数据进行可视化分析,使用Matplotlib... 随着网络招聘的发展,广大毕业生面对众多的招聘网站,出现了招聘信息数量繁杂、无法快速筛选所需信息和选择正确信息等问题。针对这些问题,基于Python爬虫技术获取招聘相关数据,经数据处理后对招聘信息数据进行可视化分析,使用Matplotlib和Wordcloud等库绘制岗位数量对比直方图、岗位来源饼图、平均薪资直方图和岗位能力要求词云图,并做以分析。结果表明,计算机、工商管理、土木工程可作为就业首选,民营和国营企业对人才需求量大,计算机专业平均薪资最高且岗位对专业能力要求高等。该研究有助于毕业生求职者快速筛选出自己心仪的职位,从而为广大毕业生提供参考。 展开更多
关键词 PYTHON 网络爬虫 数据可视化
在线阅读 下载PDF
基于PyTorch框架的不定长验证码抗干扰识别系统设计
7
作者 常荣 《微型电脑应用》 2025年第1期299-303,共5页
为了降低干扰信息对验证码识别效果的影响,提高不定长验证码的识别准确率,设计基于PyTorch框架的不定长验证码抗干扰识别系统。系统由采集模块、处理模块、识别模块三部分组成。采集模块利用网络爬虫获取验证码图像,并在图像处理模块中... 为了降低干扰信息对验证码识别效果的影响,提高不定长验证码的识别准确率,设计基于PyTorch框架的不定长验证码抗干扰识别系统。系统由采集模块、处理模块、识别模块三部分组成。采集模块利用网络爬虫获取验证码图像,并在图像处理模块中完成灰度化处理。调用全局阈值法对处理后的图像实施二值化操作,区分图像背景与字符。将采用滑动窗口法在去除噪声后的验证码图像中输入基于PyTorch框架的验证码识别模块,利用改进的ResNet-18网络提取图像特征后,通过长短期记忆网络模型获取字符序列特征,利用时序分类算法完成标签的对齐,实现对不定长验证码的抗干扰识别。实验结果表明,所设计系统可以有效实现对验证码图像的灰度化及去噪处理,并完成含不同程度干扰信息的不定长验证码的准确识别。 展开更多
关键词 PyTorch框架 验证码 抗干扰识别 网络爬虫 LSTM网络
在线阅读 下载PDF
基于深度学习算法的5G智慧图书馆用户行为预测
8
作者 刘心怡 《长江信息通信》 2025年第9期113-115,共3页
针对5G智慧图书馆用户行为预测实践中存在预测精度较低,时间成本较高的问题,提出基于深度学习算法的5G智慧图书馆用户行为预测。利用网络爬虫技术获取5G智慧图书馆用户借阅行为、入馆行为以及座位使用行为数据信息;对缺失数据补充、重... 针对5G智慧图书馆用户行为预测实践中存在预测精度较低,时间成本较高的问题,提出基于深度学习算法的5G智慧图书馆用户行为预测。利用网络爬虫技术获取5G智慧图书馆用户借阅行为、入馆行为以及座位使用行为数据信息;对缺失数据补充、重复数据删除清洗处理,利用深度学习算法中的卷积神经网络对历史用户行为数据深入挖掘,预测分析用户行为,实现基于深度学习算法的5G智慧图书馆用户行为预测。经实验证明,设计算法预测误差为±0.1%,单位预测时间不超过300ms,可以实现对5G智慧图书馆用户行为精准、快速预测。 展开更多
关键词 深度学习算法 智慧图书馆 用户行为 网络爬虫技术 卷积神经网络
在线阅读 下载PDF
基于网络爬虫的网页大数据抓取方法仿真 被引量:19
9
作者 谢蓉蓉 徐慧 +1 位作者 郑帅位 马刚 《计算机仿真》 北大核心 2021年第6期439-443,共5页
为了提高网页大数据抓取效率,解决传统抓取方法误差大的问题,提出了基于网络爬虫的网页大数据抓取方法。首先分析网络爬虫运行的基本流程,按流程提取大数据关键特征,然后根据特征提取结果提出基于网络爬虫的数据抓取策略。经计算得到数... 为了提高网页大数据抓取效率,解决传统抓取方法误差大的问题,提出了基于网络爬虫的网页大数据抓取方法。首先分析网络爬虫运行的基本流程,按流程提取大数据关键特征,然后根据特征提取结果提出基于网络爬虫的数据抓取策略。经计算得到数据关键特征,从而选择广度优先策略抓取数据信息,并利用相重新构建相空间的方式得到爬虫维度,引入关联维数值完成网页大数据抓取,对数据关键特征完成抓取任务。通过仿真结果表明,所提方法对网页大数据的抓取率更好、耗时更短,与其它方法相比具有较高的鲁棒性。 展开更多
关键词 大数据抓取 网络爬虫 特征 相空间 关联维
在线阅读 下载PDF
一种主题知识自增长的聚焦网络爬虫 被引量:9
10
作者 李东晖 廖晓兰 +2 位作者 范辅桥 黄九鸣 陈雪刚 《计算机应用与软件》 CSCD 北大核心 2014年第5期29-33,88,共6页
聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中... 聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和URL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。 展开更多
关键词 聚焦网络爬虫 无监督学习 知识扩展 主题相关度
在线阅读 下载PDF
微博社会网络重要用户节点筛选及舆情引导 被引量:10
11
作者 谢天保 张晓雯 仵凯博 《计算机科学》 CSCD 北大核心 2014年第S1期400-405,共6页
首先通过研究网络爬虫以及新浪微博的开放平台,设计实现新浪微博专用爬虫,获取研究数据。其次,通过实验得到重要用户节点指标,提出贝叶斯-PageRank算法筛选重要用户节点,并实验验证重要用户节点的有效性。最后通过对重要用户节点的监测... 首先通过研究网络爬虫以及新浪微博的开放平台,设计实现新浪微博专用爬虫,获取研究数据。其次,通过实验得到重要用户节点指标,提出贝叶斯-PageRank算法筛选重要用户节点,并实验验证重要用户节点的有效性。最后通过对重要用户节点的监测实现网络舆情发现并给出相关舆情引导策略。 展开更多
关键词 微博社会网络 专用网络爬虫 重要用户节点筛选 舆情引导
在线阅读 下载PDF
基于爬行器的大规模P2P IPTV测量 被引量:7
12
作者 姜志宏 王晖 樊鹏翼 《软件学报》 EI CSCD 北大核心 2011年第6期1373-1388,共16页
为了解大规模P2P IPTV系统中的用户行为特征和拓扑结构特征等内在信息,开发和部署了一个多协议P2P IPTV爬行器TVCrawler,对3个主流的P2P IPTV系统--PPLive,PPStream和UUSee进行了大量的主动测量,并对P2P IPTV系统中的用户行为和网络拓... 为了解大规模P2P IPTV系统中的用户行为特征和拓扑结构特征等内在信息,开发和部署了一个多协议P2P IPTV爬行器TVCrawler,对3个主流的P2P IPTV系统--PPLive,PPStream和UUSee进行了大量的主动测量,并对P2P IPTV系统中的用户行为和网络拓扑特征进行了分析和比较.主要发现包括:1)P2P IPTV系统的频道在线人数中,有一半以上位于不可达的NAT或者防火墙后面;2)节点动态性的波动范围随频道人数的增加而增加,但是其取值范围具有幂律上限;3)节点会话长度符合广延指数分布;4)PPLive的入度分布属于具有指数截断的幂次分布,PPStream的入度表现为某种分段幂律函数,UUSee的入度接近威布尔分布;5)P2P IPTV系统都是异配网络;6)P2P IPTV系统都表现为小世界网络;7)PPLive网络具有聚类特征,而PPStream和UUSee则不存在明显聚类特征;8)3个系统都表现出类似于无标度网络的鲁棒性特征,而与其他两个系统比较时,PPLive具有更高的故障容错性和更明显的攻击脆弱性.这些测量研究和发现不仅有助于设计出更符合真实网络应用环境的系统或协议,也是实现对P2P IPTV进行监测、引导、控制等方面的重要依据和基础. 展开更多
关键词 对等网络 网络电视 爬行器 网络测量 用户行为 拓扑特征
在线阅读 下载PDF
基于LSTM-DA神经网络的农产品价格指数短期预测模型 被引量:18
13
作者 贾宁 郑纯军 《计算机科学》 CSCD 北大核心 2019年第S11期62-65,71,共5页
农产品价格一直是维持社会经济生活安定的重点关注领域,由于农产品预测价格与影响因素之间存在非线性关系,递归神经网络虽然适用于时间序列的预测,但是针对长时间的跨度,其预测效果有限。基于此,根据农产品价格特点,设计了一种LSTM-DA(L... 农产品价格一直是维持社会经济生活安定的重点关注领域,由于农产品预测价格与影响因素之间存在非线性关系,递归神经网络虽然适用于时间序列的预测,但是针对长时间的跨度,其预测效果有限。基于此,根据农产品价格特点,设计了一种LSTM-DA(Long Short-Term Memory-Double Attention,双重注意力机制与长短期记忆网络融合)神经网络模型。它将卷积注意力网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)和注意力机制相结合,针对不同成分的影响因子通过卷积注意力网络进行特征提取,调节其对应的权重并馈送至长短期记忆网络模型中以呈现时间序列的影响,在此基础上,将结果再次送入注意力机制进行权重调节,最终将得到的结果用于农产品价格指数的短期预测。实验前,采用多线程机制从多个农业信息平台中爬取海量的价格、天气等相关数据,在对其进行解析和清洗的基础上,将其存入分布式文件系统(Hadoop Distributed File System,HDFS)中;实验时,采用长短期记忆网络作为基线。实验结果表明,与传统的单一模型相比,此模型不仅可以提升预测精度,而且预测的农产品价格指数可以准确地描述未来一周内蔬菜类产品的整体趋势。 展开更多
关键词 卷积注意力网络 长短期记忆网络 注意力机制 网络数据爬取 价格预测
在线阅读 下载PDF
类Gnutella的对等网络的测量方法研究 被引量:1
14
作者 刘刚 方滨兴 +1 位作者 胡铭曾 张宏莉 《计算机应用研究》 CSCD 北大核心 2006年第6期230-232,共3页
详细阐述了用于测量Gnutella网络拓扑的爬行器的设计和实现,并实验性地测定了完成该网络拓扑快照的最佳快门延迟。
关键词 对等网络 GNUTELLA 爬行器 拓扑快照 快门延迟
在线阅读 下载PDF
基于多策略的微博位置数据获取方法研究 被引量:4
15
作者 杨飞 江南 +2 位作者 李响 张晶 戴兵 《测绘科学技术学报》 CSCD 北大核心 2016年第2期201-207,共7页
随着Web2.0时代发展的成熟,在以微博为代表的新社交网络平台上产生了大量含有空间位置信息和时间标识的数据,即位置数据(location data)。位置数据是大数据的一个重要组成部分,现已作为一种战略性资源被广泛应用于社会生活的多个领域,... 随着Web2.0时代发展的成熟,在以微博为代表的新社交网络平台上产生了大量含有空间位置信息和时间标识的数据,即位置数据(location data)。位置数据是大数据的一个重要组成部分,现已作为一种战略性资源被广泛应用于社会生活的多个领域,而位置数据的获取是位置数据挖掘和应用的基础。深刻分析了基于API、基于网络爬虫和基于网络数据流3种目前常用的微博数据获取方法的特点,在此基础上提出了一种基于多策略的微博位置数据获取方法,详细阐述了该方法的基本原理、基本流程和主要特点。最后通过获取新浪微博的位置数据进行实验验证,结果证实,该方法可以实现全面、高效地获取微博位置数据。 展开更多
关键词 多策略 微博 位置数据 API 网络爬虫 网络数据流 新浪微博
在线阅读 下载PDF
基于知识库和主题爬虫的南海舆情实时监测研究 被引量:10
16
作者 丁晟春 龚思兰 +1 位作者 周文杰 王曰芬 《情报杂志》 CSSCI 北大核心 2016年第5期32-37,共6页
[目的/意义]为满足对网络舆情的系统研究需求,需要将领域知识库作为重要支撑应用于相关研究中。[方法/过程]首先,研究针对南海问题构建多语种南海舆情监测基本本体,基于该本体实现主题爬虫对舆情信息的采集;接着,基于优化的行块分布正... [目的/意义]为满足对网络舆情的系统研究需求,需要将领域知识库作为重要支撑应用于相关研究中。[方法/过程]首先,研究针对南海问题构建多语种南海舆情监测基本本体,基于该本体实现主题爬虫对舆情信息的采集;接着,基于优化的行块分布正文提取算法实现对舆情信息的正文抽取,获取关键字和摘要;最后,利用HTML5对舆情信息分析结果进行可视化展示。[结果/结论]用户可根据具体需求利用构建的舆情监测系统对舆情信息实现系统的采集、处理和分析。 展开更多
关键词 领域知识库 主题爬虫 网络舆情监测 南海问题
在线阅读 下载PDF
一种Deep Web爬虫爬行策略 被引量:4
17
作者 刘徽 黄宽娜 余建桥 《计算机工程》 CAS CSCD 2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提... Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。 展开更多
关键词 DEEP WEB页面 反馈机制 爬行策略 聚焦爬虫 网络数据库 分类器
在线阅读 下载PDF
社交网络时代舆情预警的挑战、模式及趋势研究 被引量:11
18
作者 李彪 《编辑之友》 CSSCI 北大核心 2018年第11期46-50,61,共6页
文章从新闻传播格局的新变化分析社交网络时代舆情预警面临的挑战,总结了当前敏感词库预测、传播特征值预测、关键意见领袖预测、多元子数据库预测四种预测模式,并探讨了舆情预警面临的底层爬虫技术、预警指标的多寡以及准确度过低等一... 文章从新闻传播格局的新变化分析社交网络时代舆情预警面临的挑战,总结了当前敏感词库预测、传播特征值预测、关键意见领袖预测、多元子数据库预测四种预测模式,并探讨了舆情预警面临的底层爬虫技术、预警指标的多寡以及准确度过低等一系列问题,认为社交平台短文本的语义分析、文本内容分析与社会关系分析相融合、地理位置与社会关系关联耦合等是未来舆情预警的发展趋势。 展开更多
关键词 舆情预警 敏感词库 社会关系网 网络爬虫
在线阅读 下载PDF
基于URL定位信息的BBS数据挖掘方法研究 被引量:2
19
作者 赵哲 马晓珺 《科技通报》 北大核心 2014年第4期206-208,共3页
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法... 利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。 展开更多
关键词 网络爬虫算法 URL定位信息 BBS信息检索 数据挖掘
在线阅读 下载PDF
基于文本挖掘与神经网络的音乐风格分类建模方法 被引量:8
20
作者 张键锋 王劲 《电信科学》 北大核心 2015年第7期80-85,共6页
针对人工区分音乐风格会造成音乐风格关系不清以致混乱和某些歌曲难以人工划分其风格等问题,以歌曲的歌词数据为基础,分析歌曲所表达的情感,以划分其归属。运用机器学习算法的BP神经网络,建立一个音乐风格预测模型,对模型进行了合理的... 针对人工区分音乐风格会造成音乐风格关系不清以致混乱和某些歌曲难以人工划分其风格等问题,以歌曲的歌词数据为基础,分析歌曲所表达的情感,以划分其归属。运用机器学习算法的BP神经网络,建立一个音乐风格预测模型,对模型进行了合理的理论证明和推导。实验选用MATIAB作为建模工具.根据算法自身特点确定训练参数。随机从数据集中抽取10%的记录作为测试。该方法的结果显示,理论结果与数据模拟结果比较吻合.准确率达到80%。 展开更多
关键词 神经网络 文本挖掘 网络爬虫 音乐分类
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部