期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
Deep Web爬虫爬行策略研究 被引量:13
1
作者 郑冬冬 崔志明 《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供... 如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 展开更多
关键词 DEEP web DEEP web爬虫 查询选择 查询效能 适应性爬行算法
在线阅读 下载PDF
基于Web爬虫的学习资源采集系统设计与实现 被引量:1
2
作者 刘长琦 《辽宁师专学报(自然科学版)》 2019年第4期32-37,共6页
为实现Web学习信息资源有效整合,提高查询效率,通过采用分布式Web爬虫技术实现后台自动采集任务,利用ECharts和JavaScript技术实现数据可视化展示,最终设计实现学习资源自动采集系统.经过功能测试和性能测试,系统能够满足实际工作需要,... 为实现Web学习信息资源有效整合,提高查询效率,通过采用分布式Web爬虫技术实现后台自动采集任务,利用ECharts和JavaScript技术实现数据可视化展示,最终设计实现学习资源自动采集系统.经过功能测试和性能测试,系统能够满足实际工作需要,具有稳定性和适应性,能够有效提升学习水平,具有较高应用价值. 展开更多
关键词 web爬虫 学习资源采集系统 ECharts
在线阅读 下载PDF
基于最优查询的多领域deep Web爬虫 被引量:3
3
作者 冯明远 林怀忠 《计算机应用研究》 CSCD 北大核心 2009年第9期3375-3377,共3页
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明... Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。 展开更多
关键词 DEEP web DEEP web爬虫 最优查询 页面聚类
在线阅读 下载PDF
一种Deep Web爬虫的设计与实现 被引量:5
4
作者 荣光 张化祥 《计算机与现代化》 2009年第3期31-34,共4页
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的SurfaceWeb页面,由于没有直接指向D... 随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的SurfaceWeb页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面。然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值。本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法。它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息。实验结果表明此方法是有效的。 展开更多
关键词 DEEP web web爬虫 表单
在线阅读 下载PDF
基于WEB挖掘的网络爬虫设计与实现 被引量:9
5
作者 肖毅 张林 聂笑一 《计算机系统应用》 2013年第9期60-63,共4页
从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬... 从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬取更多的各种页面数据. 展开更多
关键词 数据挖掘 web爬虫 挖掘技术
在线阅读 下载PDF
广域网分布式爬虫中的Agent协同与Web划分研究
6
作者 许笑 张伟哲 +1 位作者 张宏莉 方滨兴 《高技术通讯》 EI CAS CSCD 北大核心 2010年第3期239-245,共7页
针对广域网环境下分布式Web爬虫的Agent协同和Web划分两个核心问题进行深入研究,提出了基于顾问服务的分布式Web爬虫系统模型,给出了详细的系统设计方案及Agent协同算法框架,并通过推导证明了顾问服务参与Agent协同能够使分布式爬虫系... 针对广域网环境下分布式Web爬虫的Agent协同和Web划分两个核心问题进行深入研究,提出了基于顾问服务的分布式Web爬虫系统模型,给出了详细的系统设计方案及Agent协同算法框架,并通过推导证明了顾问服务参与Agent协同能够使分布式爬虫系统承受相对较小的网络负载。提出了分布式Web爬虫Web划分的概念,围绕Web划分单元选取及Web划分策略,对Web划分的分类和实现进行了详细的讨论,并通过实验对多种Web划分方法进行了对比和评价,验证了广域网系统相对于局域网系统的优势,并发现运营商互连因素对爬虫系统性能的影响大于地理位置因素的影响。 展开更多
关键词 分布式web爬虫 AGENT协同 web划分 顾问服务
在线阅读 下载PDF
基于机器学习的Web网络爬虫算法优化研究
7
作者 刘俊培 贾继洋 +2 位作者 班岚 迟欢 孙沛叶 《软件》 2024年第4期4-7,共4页
随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率... 随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率低下、容易被封禁等。因此,本文对现有的网络爬虫算法进行分析和总结,找出其中存在的问题和不足之处,提出一种基于机器学习的网络爬虫算法优化方法,使其更加智能和自适应,以期更好地满足实际应用的需求。 展开更多
关键词 机器学习 web网络爬虫算法 算法优化
在线阅读 下载PDF
分布式Web Crawler的研究:结构、算法和策略 被引量:23
8
作者 叶允明 于水 +2 位作者 马范援 宋晖 张岭 《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. 展开更多
关键词 web爬虫 爬行策略 分布式系统 计算机网络 网页
在线阅读 下载PDF
多语种Web新闻语料抓取的通用模型研究 被引量:1
9
作者 陈荟慧 舒云星 林丽 《洛阳理工学院学报(自然科学版)》 2013年第4期34-39,共6页
Web语料是外语语料库的重要组成部分,语料抓取系统要适用于不同语种、不同结构的网站。文中介绍了针对内容管理型新闻网站设计的语料抓取软件模型,模型根据新闻网站中标题页和内容页的模版特点,采用正则表达式和动态字符串方法定义信息... Web语料是外语语料库的重要组成部分,语料抓取系统要适用于不同语种、不同结构的网站。文中介绍了针对内容管理型新闻网站设计的语料抓取软件模型,模型根据新闻网站中标题页和内容页的模版特点,采用正则表达式和动态字符串方法定义信息抓取路径和信息块抓取规则,并通过对抓取路径的去噪和去重过滤,保证每次Web访问均能抓取有效数据。基于该模型的语料抓取工具NPCrawler在C#和SQL Server2005环境下实现,通过在不同结构的多个语种的网站中实际应用证明,Web新闻语料抓取结果命中率和准确率接近1 00%,且抓取效率较高。 展开更多
关键词 正则表达式 多语种 新闻语料 web爬虫
在线阅读 下载PDF
Hidden Web信息获取 被引量:3
10
作者 陈珂 陈小英 徐科 《计算机时代》 2007年第5期54-56,共3页
如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词。由于没有直接指向Hidden Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,研究表明,由Hidden Web站... 如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词。由于没有直接指向Hidden Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,研究表明,由Hidden Web站点提供的高质量的信息对许多用户来说非常有价值。文章通过研究针对特定类型的表单,建立一个有效的Hidden Web爬虫,以便获取Hidden Web后台数据库信息。 展开更多
关键词 Hidden web Hidden web爬虫 静态链接 搜索引擎 采样策略
在线阅读 下载PDF
面向Deep Web的Ajax查询接口技术研究
11
作者 郭若飞 蔡欣宝 +1 位作者 赵朋朋 崔志明 《苏州大学学报(工科版)》 CAS 2010年第3期1-4,共4页
Deep Web网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取Deep Web数据的关键步骤,针对采用Ajax技术的Deep Web查询接口,建立Ajax分析处理模型,解决传统爬虫无法完成表单提交的困难,从而获取到更多的Deep Web数据。... Deep Web网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取Deep Web数据的关键步骤,针对采用Ajax技术的Deep Web查询接口,建立Ajax分析处理模型,解决传统爬虫无法完成表单提交的困难,从而获取到更多的Deep Web数据。实验结果证实,该方法是有效的。 展开更多
关键词 爬虫 AJAX 查询接口 DEEP web爬虫
在线阅读 下载PDF
爬虫技术综述 被引量:8
12
作者 冯俐 《电脑知识与技术》 2017年第9X期213-214,共2页
文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增量爬虫等特殊分类的爬虫,着重介绍了主题爬虫的原理和相关策略,优势、应用和问题,最后提出主题爬虫未来的... 文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增量爬虫等特殊分类的爬虫,着重介绍了主题爬虫的原理和相关策略,优势、应用和问题,最后提出主题爬虫未来的研究方向。 展开更多
关键词 广域网分布式 web爬虫 主题爬虫 知识主体
在线阅读 下载PDF
云环境下Web漏洞检测平台关键技术的研究
13
作者 王祖俪 李翠 《信息技术与信息化》 2018年第2期106-110,共5页
针对目前Web安全检测系统的缺陷,结合云环境高效,高共享的特性,提出一个基于云环境的Web漏洞检测系统的设计方案。在方案中对有效URL地址的提取进行了改进,减少了重复提取的URL页面,同时也对动态页面的解析进行了处理,在任务的调配上提... 针对目前Web安全检测系统的缺陷,结合云环境高效,高共享的特性,提出一个基于云环境的Web漏洞检测系统的设计方案。在方案中对有效URL地址的提取进行了改进,减少了重复提取的URL页面,同时也对动态页面的解析进行了处理,在任务的调配上提出了基于资源聚类的多Qos调度分配策略,缩小了资源调配的初始集合,通过原型模拟系统验证该方案的可行性和有效性。 展开更多
关键词 云技术 web爬虫 任务调度 资源聚类 web漏洞
在线阅读 下载PDF
一种基于状态转换图的Ajax爬行算法 被引量:6
14
作者 郭浩 陆余良 刘金红 《计算机应用研究》 CSCD 北大核心 2009年第11期4266-4269,共4页
传统Web爬虫无法解决爬行Ajax应用所面临的JavaScript执行、状态识别与切换、重复状态检测等问题。为此,首先定义Ajax应用的状态转换图,并设计了一种基于状态转换图的Ajax爬行算法,通过该算法可以获取Ajax应用状态信息和后台DeepWeb资... 传统Web爬虫无法解决爬行Ajax应用所面临的JavaScript执行、状态识别与切换、重复状态检测等问题。为此,首先定义Ajax应用的状态转换图,并设计了一种基于状态转换图的Ajax爬行算法,通过该算法可以获取Ajax应用状态信息和后台DeepWeb资源。为了提高Ajax爬行的准确性、减少待爬行的状态数目,使用Ajax指纹识别、DOM结构过滤等方法改进上述算法。实验结果表明了算法的有效性和性能。 展开更多
关键词 Ajax爬虫 状态转换图 web爬虫 DEEP web
在线阅读 下载PDF
基于众包的社交网络数据采集模型设计与实现 被引量:14
15
作者 高梦超 胡庆宝 +3 位作者 程耀东 周旭 李海波 杜然 《计算机工程》 CAS CSCD 北大核心 2015年第4期36-40,共5页
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、... 社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。 展开更多
关键词 社交网络 众包模式 分布式计算 信息采集 web爬虫 HADOOP分布式文件系统
在线阅读 下载PDF
基于观点挖掘的产品可用性建模与评价 被引量:9
16
作者 易力 王丽亚 《计算机工程》 CAS CSCD 2012年第16期270-274,共5页
提出基于观点挖掘的产品可用性建模与评价方法。以Web上的产品评论为数据,利用观点挖掘的方法从非结构化评论中抽取结构化数据,选取与可用性相关的产品特征,使用因子分析法提取影响产品可用性的公共因子,建立产品可用性模型。对产品可... 提出基于观点挖掘的产品可用性建模与评价方法。以Web上的产品评论为数据,利用观点挖掘的方法从非结构化评论中抽取结构化数据,选取与可用性相关的产品特征,使用因子分析法提取影响产品可用性的公共因子,建立产品可用性模型。对产品可用性进行评价,结果表明,该方法可以有效地从用户角度发掘产品可用性中存在的缺陷,为产品设计提供依据。 展开更多
关键词 观点挖掘 因子分析 产品可用性 词语相似度 web爬虫 中文分词
在线阅读 下载PDF
基于ElasticSearch的个人敏感信息检测系统 被引量:7
17
作者 张雯 盛颖怡 +3 位作者 张晓晴 孟升祥 周蓓 沈健 《常熟理工学院学报》 2022年第5期33-36,共4页
个人敏感信息泄露是目前多发的网络安全事件之一,可能危及人身和财产安全,损害公民名誉和身体健康等.本文通过爬虫技术获取网页内容及附件,然后提取其正文并通过ElasticSearch实现全文索引和查询,实现了个人敏感信息的检测.以手机号码为... 个人敏感信息泄露是目前多发的网络安全事件之一,可能危及人身和财产安全,损害公民名誉和身体健康等.本文通过爬虫技术获取网页内容及附件,然后提取其正文并通过ElasticSearch实现全文索引和查询,实现了个人敏感信息的检测.以手机号码为例,采用不同分词器和查询方式对查询效率进行测试后得出结论:通过自定义分词器进行全文索引并使用正则表达式查询进行个人敏感信息检测具有最高的效率. 展开更多
关键词 web爬虫 ElasticSearch 个人敏感信息泄露
在线阅读 下载PDF
面向校园网的搜索引擎CAUCIIC
18
作者 薛帆 顾兆军 +1 位作者 王静 张俊 《中国民航大学学报》 CAS 2005年第z1期134-136,共3页
针对通用搜索引擎对校园网检索的索引率不高和更新周期长等不足及校园网信息检索的迫切需要,设计并实现了一个专门面向校园网,由下载和搜索两层结构组成的小型高效搜索引擎--中国民用航空学院校园信息检索系统CAUCIIC.该搜索引擎能较好... 针对通用搜索引擎对校园网检索的索引率不高和更新周期长等不足及校园网信息检索的迫切需要,设计并实现了一个专门面向校园网,由下载和搜索两层结构组成的小型高效搜索引擎--中国民用航空学院校园信息检索系统CAUCIIC.该搜索引擎能较好地弥补通用搜索引擎对于校园网在索引率和更新周期的不足,能较好地应用于校园网/LAN/Intranet等中小型网络. 展开更多
关键词 web爬虫 搜索引擎 校园网
在线阅读 下载PDF
万维网动态文档的爬取分析
19
作者 徐天浩 王子扬 +1 位作者 沈浩 孙美凤 《软件》 2023年第3期1-4,9,共5页
万维网(下文简写WWW)动态文档是浏览器访问万维网服务器时由应用程序临时生成的文档,是万维网资源中最有价值的部分。为了实现对动态文档中数据的爬取,研究动态文档的生成逻辑分析。在给出万维网原理和分析工具的基础上,提出对动态文档... 万维网(下文简写WWW)动态文档是浏览器访问万维网服务器时由应用程序临时生成的文档,是万维网资源中最有价值的部分。为了实现对动态文档中数据的爬取,研究动态文档的生成逻辑分析。在给出万维网原理和分析工具的基础上,提出对动态文档请求和动态文档源码进行分析的一般方法。实践证明,该方法可有效地指导动态文档爬虫程序的设计。 展开更多
关键词 web爬虫 动态文档 万维网
在线阅读 下载PDF
基于海量URL数据存取的快速文件系统设计分析
20
作者 卫锋 刘烜 苏庆华 《信息通信》 2012年第6期89-90,共2页
海量的URL快速文件系统建立的目标就是提供高速的处理机制,此时以高性能的web爬虫为基础的系统可以帮助实现这个目标。为了实现这个快速目标,URL往往将被保存在一个专业数据库中,但数据量的增加会给爬虫技术带来巨大的压力,关系数据库... 海量的URL快速文件系统建立的目标就是提供高速的处理机制,此时以高性能的web爬虫为基础的系统可以帮助实现这个目标。为了实现这个快速目标,URL往往将被保存在一个专业数据库中,但数据量的增加会给爬虫技术带来巨大的压力,关系数据库往往不能满足爬虫对海量URL的存储需求。本文所研究的是数据规模增加是如何打破web爬虫的技术瓶颈,从而使得系统获得更加优化的利用效果与速度的。 展开更多
关键词 海量URL web爬虫 爬行策略 系统构建 系统模块
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部