期刊文献+
共找到972篇文章
< 1 2 49 >
每页显示 20 50 100
分布式Web Crawler的研究:结构、算法和策略 被引量:23
1
作者 叶允明 于水 +2 位作者 马范援 宋晖 张岭 《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. 展开更多
关键词 web爬虫 爬行策略 分布式系统 计算机网络 网页
在线阅读 下载PDF
增量更新Crawler进行Web收集方法研究 被引量:2
2
作者 程菲 汪建海 罗键 《计算机工程与科学》 CSCD 2006年第12期28-30,98,共4页
本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行... 本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行演化更新,可以在减少网络流量的同时获得接近现有网络爬虫系统的效果。 展开更多
关键词 信息检索 网络爬虫 增量更新
在线阅读 下载PDF
聚焦式Web Crawler工具的设计与开发
3
作者 唐详 《情报杂志》 CSSCI 北大核心 2005年第4期58-60,共3页
进行了一种面向特定领域主题搜索的实践——聚焦式WebCrawler。分析了搜索引擎和聚类算法的一般工作原理,并指出其不足。在此基础上,综合两者的优点形成了聚焦式WebCrawler工具,介绍了该工具的主要技术及实现方式。
关键词 主题挖掘 搜索引擎 web crawler 自动分类 聚类算法
在线阅读 下载PDF
BP网络在Web Crawler中的应用
4
作者 张艳艳 《微计算机信息》 北大核心 2008年第27期95-96,119,共3页
本文介绍了Web Crawler和BP网络的基本原理,在此基础上,应用BP网络对网页变化的时间间隔进行建模,通过BP算法训练得到一个预测模型,预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化。实验证明,BP网络... 本文介绍了Web Crawler和BP网络的基本原理,在此基础上,应用BP网络对网页变化的时间间隔进行建模,通过BP算法训练得到一个预测模型,预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化。实验证明,BP网络能够有效预测网页变化的时间间隔,指导增量更新。 展开更多
关键词 webcrawler BP网络 预测模型
在线阅读 下载PDF
Design of a Web Crawler for Water Quality Monitoring Data and Data Visualization
5
作者 Ziwen Yu Jianjun Zhang +6 位作者 Wenwu Tan Ziyi Xiong Peilun Li Liangqing Meng Haijun Lin Guang Sun Peng Guo 《Journal on Big Data》 2022年第2期135-143,共9页
Many countries are paying more and more attention to the protection of water resources at present,and how to protect water resources has received extensive attention from society.Water quality monitoring is the key wo... Many countries are paying more and more attention to the protection of water resources at present,and how to protect water resources has received extensive attention from society.Water quality monitoring is the key work to water resources protection.How to efficiently collect and analyze water quality monitoring data is an important aspect of water resources protection.In this paper,python programming tools and regular expressions were used to design a web crawler for the acquisition of water quality monitoring data from Global Freshwater Quality Database(GEMStat)sites,and the multi-thread parallelism was added to improve the efficiency in the process of downloading and parsing.In order to analyze and process the crawled water quality data,Pandas and Pyecharts are used to visualize the water quality data to show the intrinsic correlation and spatiotemporal relationship of the data. 展开更多
关键词 Water quality monitoring data web crawler data visualization
在线阅读 下载PDF
基于主题的Web信息采集系统的设计与实现 被引量:23
6
作者 李盛韬 赵章界 余智华 《计算机工程》 CAS CSCD 北大核心 2003年第17期102-104,共3页
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词 信息采集 信息检索 信息处理 主题采集
在线阅读 下载PDF
面向Web的信息收集工具的设计与开发 被引量:14
7
作者 潘春华 常敏 武港山 《计算机应用研究》 CSCD 北大核心 2002年第6期144-147,共4页
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系... 随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。 展开更多
关键词 web 信息收集工具 设计 页面收集 信息处理 网络爬虫 万维网 INTERNET
在线阅读 下载PDF
一种通用Web信息采集系统的设计与实现 被引量:11
8
作者 吴丽辉 王斌 余智华 《计算机工程》 EI CAS CSCD 北大核心 2005年第3期123-124,194,共3页
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。
关键词 web信息 通用性 采集系统 服务器 信息发布 信息采集 设计 证明 实际 系统总体结构
在线阅读 下载PDF
分布式Web信息采集系统的研究与设计 被引量:10
9
作者 李盛韬 成绫 余智华 《计算机工程与应用》 CSCD 北大核心 2003年第16期162-166,182,共6页
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统... Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。 展开更多
关键词 信息采集 分布式 搜索引擎 信息处理 web
在线阅读 下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
10
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 web信息搜集
在线阅读 下载PDF
基于主题相关度的地理信息Web服务爬虫研究 被引量:12
11
作者 武昊 廖安平 +1 位作者 何超英 侯东阳 《地理与地理信息科学》 CSCD 北大核心 2012年第2期27-30,共4页
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算... 针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。 展开更多
关键词 地理信息web服务 服务检索 爬虫 主题相关度
在线阅读 下载PDF
Web恶意代码主动检测与分析系统的设计与实现 被引量:5
12
作者 倪平 陈正果 +1 位作者 欧阳雄弈 王冬 《计算机应用》 CSCD 北大核心 2011年第A02期106-108,共3页
在深入研究了客户端蜜罐的基础上,提出了动态与静态相结合的Web恶意代码检测方法,实现了Web恶意代码主动检测与分析系统(HoneyCat)。该系统主动对指定的网站进行检测,并对可疑的页面进行分析,通过动态跟踪检测IE进程对注册表和文件的操... 在深入研究了客户端蜜罐的基础上,提出了动态与静态相结合的Web恶意代码检测方法,实现了Web恶意代码主动检测与分析系统(HoneyCat)。该系统主动对指定的网站进行检测,并对可疑的页面进行分析,通过动态跟踪检测IE进程对注册表和文件的操作以及其网络行为,发现是否存在可疑行为,然后对有可疑行为的网页进行静态分析。静态分析利用漏洞特征库定位恶意代码的准确位置和所利用的漏洞。对于无法识别所利用漏洞的页面生成一个分析文件,为手工分析提供帮助,有助于对漏洞的研究,并有机会发掘未知漏洞。经过测试发现该系统运行稳定,准确率高,能有效地检测出页面中的恶意代码。 展开更多
关键词 web恶意代码 客户端蜜罐 网络爬虫 动态检测 静态分析
在线阅读 下载PDF
Deep Web数据源聚焦爬虫 被引量:11
13
作者 林超 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2008年第7期56-58,共3页
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考... Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。 展开更多
关键词 DEEP web数据源 聚焦爬虫 贝叶斯分类器
在线阅读 下载PDF
基于Web智能的网络广告监测器研究与设计 被引量:5
14
作者 陈治昂 张毅 李大学 《重庆邮电大学学报(自然科学版)》 北大核心 2009年第1期115-118,126,共5页
为了解决网络广告投放效果监测困难的问题,基于网络广告的搜索引擎和网络爬虫等Web智能技术,设计了一种独立的、第三方的网络广告监测器,描述了当前网络广告的发展现状、系统的结构模块设计、时序调度设计以及相应的系统实现方案和核心... 为了解决网络广告投放效果监测困难的问题,基于网络广告的搜索引擎和网络爬虫等Web智能技术,设计了一种独立的、第三方的网络广告监测器,描述了当前网络广告的发展现状、系统的结构模块设计、时序调度设计以及相应的系统实现方案和核心算法。通过实验评测表明,该系统能够取得较好的效果。 展开更多
关键词 网络广告 搜索引擎 网络爬虫 web智能 监测
在线阅读 下载PDF
Web论坛数据源增量爬虫的研究 被引量:5
15
作者 蔡欣宝 郭若飞 +1 位作者 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2010年第9期285-287,共3页
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
关键词 web论坛 增量爬虫 站点地图 泊松模型
在线阅读 下载PDF
Deep Web爬虫爬行策略研究 被引量:13
16
作者 郑冬冬 崔志明 《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供... 如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 展开更多
关键词 DEEP web DEEP web爬虫 查询选择 查询效能 适应性爬行算法
在线阅读 下载PDF
基于深层网络爬虫的Web地图服务发现方法 被引量:11
17
作者 侯东阳 武昊 +1 位作者 王军锋 王明山 《地理与地理信息科学》 CSCD 北大核心 2015年第5期10-13,19,共5页
传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,... 传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,并利用正则表达式对它们进行了形式化描述;然后,针对每条应用规则制定了相应的使用流程;最后以传统地图服务爬虫为基础,通过新增脚本解析引擎和应用规则构建了深层网络爬虫。实验表明,该方法可以同时发现位于表层网络和深层网络中的Web地图服务。 展开更多
关键词 web地图服务 服务发现 爬虫 深层网络
在线阅读 下载PDF
Deep Web数据采集查询构造方法研究 被引量:2
18
作者 林海伦 杨晓刚 +3 位作者 熊锦华 王元卓 贾岩涛 程学旗 《计算机科学与探索》 CSCD 北大核心 2015年第9期1025-1033,共9页
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到... 网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。 展开更多
关键词 DEEP web 查询接口 查询构造 网络爬虫
在线阅读 下载PDF
Web网页信息变化的时间局部性规律及其验证 被引量:8
19
作者 孟涛 闫宏飞 王继民 《情报学报》 CSSCI 北大核心 2005年第4期398-406,共9页
掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集.本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述... 掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集.本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述两项指标进行考察.从结论中,我们发现网页变化的若干规律,并发现其中可能存在时间局部性规律.因此,我们引入了堆栈距离模型,在针对Web网页的变化特性和具体实验方法对其修正之后,再次设计实验对网页变化的时间局部性规律进行考察.结果表明,网页的变化存在明显的时间局部性.最后,介绍了这种时间局部性规律在网页搜集中的实际应用. 展开更多
关键词 web网页 时间局部性 堆栈距离模型 变化次数 变化间隔 时间规律 局部性 信息 验证 应用系统
在线阅读 下载PDF
基于WEB挖掘的网络爬虫设计与实现 被引量:9
20
作者 肖毅 张林 聂笑一 《计算机系统应用》 2013年第9期60-63,共4页
从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬... 从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬取更多的各种页面数据. 展开更多
关键词 数据挖掘 web爬虫 挖掘技术
在线阅读 下载PDF
上一页 1 2 49 下一页 到第
使用帮助 返回顶部