期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
44
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Deep Web爬虫爬行策略研究
被引量:
13
1
作者
郑冬冬
崔志明
《计算机工程与设计》
CSCD
北大核心
2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供...
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。
展开更多
关键词
deep
web
deep
web
爬虫
查询选择
查询效能
适应性爬行算法
在线阅读
下载PDF
职称材料
Deep Web数据源聚焦爬虫
被引量:
11
2
作者
林超
赵朋朋
崔志明
《计算机工程》
CAS
CSCD
北大核心
2008年第7期56-58,共3页
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考...
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。
展开更多
关键词
deep
web
数据源
聚焦爬虫
贝叶斯分类器
在线阅读
下载PDF
职称材料
主题Deep Web爬虫框架研究
被引量:
3
3
作者
黄聪会
张水平
胡洋
《计算机工程与设计》
CSCD
北大核心
2010年第5期929-931,935,共4页
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不...
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。实验结果表明了该框架采用的技术是可行的。
展开更多
关键词
深网
爬虫
搜索引擎
信息抽取
常用字
在线阅读
下载PDF
职称材料
Deep Web入口探测与分类方法研究
被引量:
2
4
作者
张亮
陆余良
刘金红
《计算机应用研究》
CSCD
北大核心
2009年第12期4697-4700,4703,共5页
传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计...
传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计算方法用于特征选取。在TEL-8 Query Interfaces数据集上,测试结果体现了双层分类模型的优越性和特征向量维归约的必要性。
展开更多
关键词
deep
web
网络爬虫
结构特征
维归约
双层分类模型
在线阅读
下载PDF
职称材料
一种Deep Web聚焦爬虫爬行策略
被引量:
2
5
作者
蔡欣宝
陈洪平
+1 位作者
赵朋朋
崔志明
《微电子学与计算机》
CSCD
北大核心
2009年第8期117-120,共4页
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性...
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性.同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息.实验证明该方法是有效的.
展开更多
关键词
结构化
deep
web
数据源
聚焦爬虫
决策树分类器
在线阅读
下载PDF
职称材料
Deep Web爬虫的一种增量式更新策略
被引量:
1
6
作者
卓林
杨舟
+2 位作者
岳亮
赵朋朋
崔志明
《苏州大学学报(工科版)》
CAS
2011年第4期6-10,共5页
为了在网络及计算机硬件等资源有限的前提下,最大限度地保证本地副本的"新鲜"程度,往往需要为Deep Web爬虫定制一个重爬机制。为了满足这种需求,提出了一种基于采样的增量式Deep Web更新方法,使用贪心策略分配爬虫资源,以最...
为了在网络及计算机硬件等资源有限的前提下,最大限度地保证本地副本的"新鲜"程度,往往需要为Deep Web爬虫定制一个重爬机制。为了满足这种需求,提出了一种基于采样的增量式Deep Web更新方法,使用贪心策略分配爬虫资源,以最大限地的提高资源利用率。经实验验证,该方法取得了比较优异的结果。
展开更多
关键词
deep
web
数据爬虫
增量更新
在线阅读
下载PDF
职称材料
Deep Web数据采集查询构造方法研究
被引量:
2
7
作者
林海伦
杨晓刚
+3 位作者
熊锦华
王元卓
贾岩涛
程学旗
《计算机科学与探索》
CSCD
北大核心
2015年第9期1025-1033,共9页
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到...
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。
展开更多
关键词
deep
web
查询接口
查询构造
网络爬虫
在线阅读
下载PDF
职称材料
基于主题的Deep Web聚焦爬虫研究与设计
被引量:
2
8
作者
姚双良
《西北师范大学学报(自然科学版)》
CAS
北大核心
2013年第2期40-43,48,共5页
研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链接解析模块和查询接口判别模块4大模块.实验结果表明,该爬虫的爬行策略取得了很好的效果,大大提高了效率...
研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链接解析模块和查询接口判别模块4大模块.实验结果表明,该爬虫的爬行策略取得了很好的效果,大大提高了效率,可以很好地适应特定主题的结构化Deep Web信息采集.
展开更多
关键词
deep
web
聚焦爬虫
主题
在线阅读
下载PDF
职称材料
一种Deep Web爬虫爬行策略
被引量:
4
9
作者
刘徽
黄宽娜
余建桥
《计算机工程》
CAS
CSCD
2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提...
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。
展开更多
关键词
deep
web
页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
在线阅读
下载PDF
职称材料
基于数据库分类的deep web爬行器研究
10
作者
郭少友
赵善义
+1 位作者
李建平
王斌
《情报科学》
CSSCI
北大核心
2011年第10期1575-1579,共5页
在现有相关研究的基础上,设计一种基于数据库分类的deep web爬行器。该爬行器首先从抓取的网页中识别出deep web数据库的入口表单,然后采用查询探测方法对数据库进行自动分类,并根据分类结果来选取一组合适的关键词作为查询词,自动填写...
在现有相关研究的基础上,设计一种基于数据库分类的deep web爬行器。该爬行器首先从抓取的网页中识别出deep web数据库的入口表单,然后采用查询探测方法对数据库进行自动分类,并根据分类结果来选取一组合适的关键词作为查询词,自动填写入口表单中的文本框并向数据库提出查询请求。实验结果表明,基于数据库分类的deep web爬行器的爬行效果要优于基于指定查询词的deep web爬行器的爬行效果。
展开更多
关键词
数据库分类
deep
web
爬行器
表单
查询探测
原文传递
基于本体的Deep Web数据源聚焦搜索系统研究
被引量:
1
11
作者
张素智
李丽娜
《微计算机信息》
2010年第6期27-29,共3页
Deep Web中包含内容丰富、主题专一的高质量信息,为了自动地采集和集成这些数据,数据源的发现是关键。本文设计了一种基于本体的DeepWeb数据源聚焦搜索系统,给出了核心搜索算法。并通过实验,表明该方法是可行有效的。
关键词
本体
deep
web
数据源
聚焦搜索
在线阅读
下载PDF
职称材料
DeepWeb可配置聚焦爬虫设计与实现
被引量:
3
12
作者
罗成
程耀东
+1 位作者
胡庆宝
李海波
《核电子学与探测技术》
CAS
CSCD
北大核心
2014年第3期353-358,共6页
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单...
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。
展开更多
关键词
聚焦爬虫
deep
web
大数据
在线阅读
下载PDF
职称材料
基于最优查询的多领域deep Web爬虫
被引量:
3
13
作者
冯明远
林怀忠
《计算机应用研究》
CSCD
北大核心
2009年第9期3375-3377,共3页
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明...
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。
展开更多
关键词
deep
web
deep
web
爬虫
最优查询
页面聚类
在线阅读
下载PDF
职称材料
一种Deep Web爬虫的设计与实现
被引量:
5
14
作者
荣光
张化祥
《计算机与现代化》
2009年第3期31-34,共4页
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的SurfaceWeb页面,由于没有直接指向D...
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的SurfaceWeb页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面。然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值。本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法。它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息。实验结果表明此方法是有效的。
展开更多
关键词
deep
web
web
爬虫
表单
在线阅读
下载PDF
职称材料
一种Deep Web聚焦爬虫
15
作者
黄昊晶
《电脑与电信》
2011年第3期30-31,37,共3页
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep ...
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率。
展开更多
关键词
聚焦爬虫
deep
web
PAGERANK
网站结构图剪枝
页面判断
在线阅读
下载PDF
职称材料
面向Deep Web的Ajax查询接口技术研究
16
作者
郭若飞
蔡欣宝
+1 位作者
赵朋朋
崔志明
《苏州大学学报(工科版)》
CAS
2010年第3期1-4,共4页
Deep Web网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取Deep Web数据的关键步骤,针对采用Ajax技术的Deep Web查询接口,建立Ajax分析处理模型,解决传统爬虫无法完成表单提交的困难,从而获取到更多的Deep Web数据。...
Deep Web网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取Deep Web数据的关键步骤,针对采用Ajax技术的Deep Web查询接口,建立Ajax分析处理模型,解决传统爬虫无法完成表单提交的困难,从而获取到更多的Deep Web数据。实验结果证实,该方法是有效的。
展开更多
关键词
爬虫
AJAX
查询接口
deep
web
爬虫
在线阅读
下载PDF
职称材料
支持Ajax的Deep Web爬虫研究与设计
被引量:
1
17
作者
周杨
《计算机系统应用》
2012年第2期167-171,共5页
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的...
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。
展开更多
关键词
deep
web
爬虫
AJAX
搜索引擎
在线阅读
下载PDF
职称材料
一种安全验证模式下Deep Web爬虫的研究
18
作者
徐和祥
张永忠
胡运发
《计算机应用与软件》
CSCD
2010年第5期9-11,26,共4页
Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep We...
Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。
展开更多
关键词
deep
web
安全模式
爬虫
信息抽取
在线阅读
下载PDF
职称材料
基于深层网络爬虫的Web地图服务发现方法
被引量:
11
19
作者
侯东阳
武昊
+1 位作者
王军锋
王明山
《地理与地理信息科学》
CSCD
北大核心
2015年第5期10-13,19,共5页
传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,...
传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,并利用正则表达式对它们进行了形式化描述;然后,针对每条应用规则制定了相应的使用流程;最后以传统地图服务爬虫为基础,通过新增脚本解析引擎和应用规则构建了深层网络爬虫。实验表明,该方法可以同时发现位于表层网络和深层网络中的Web地图服务。
展开更多
关键词
web
地图服务
服务发现
爬虫
深层网络
在线阅读
下载PDF
职称材料
深度Web资源探测系统的研究与实现
被引量:
7
20
作者
李涛
陈鹏
李哲
《微计算机信息》
北大核心
2007年第33期185-187,共3页
本文介绍了深度Web的资源重要性和传统爬虫工作的原理。为了能够更好的利用传统爬虫获取深度Web资源和解决传统爬虫在工作中的不足,提出了一种任务可定制化的爬虫框架,并基于可定制化的任务,实现探测网络深度资源的功能。
关键词
crawler
deep
SEARCH
deep
web
基于站点爬行
在线阅读
下载PDF
职称材料
题名
Deep Web爬虫爬行策略研究
被引量:
13
1
作者
郑冬冬
崔志明
机构
苏州大学智能信息处理及应用研究所
出处
《计算机工程与设计》
CSCD
北大核心
2006年第17期3154-3158,共5页
基金
教育部高校博士学科点科研基金项目(20040285016)
江苏省高技术研究基金项目(BG2005019)。
文摘
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。
关键词
deep
web
deep
web
爬虫
查询选择
查询效能
适应性爬行算法
Keywords
deep
web
deep web crawler
query selection
query efficiency
adaptive algorithm
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
Deep Web数据源聚焦爬虫
被引量:
11
2
作者
林超
赵朋朋
崔志明
机构
苏州大学智能信息处理及应用研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第7期56-58,共3页
基金
国家自然科学基金资助项目(60673092)
2005年度教育部科研基金资助重点项目(205059)
+1 种基金
教育部高校博士学科点科研基金资助项目(20040285016)
江苏省高技术研究计划基金资助项目(BG2005019)
文摘
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。
关键词
deep
web
数据源
聚焦爬虫
贝叶斯分类器
Keywords
deep
web
sourtes
focused
crawler
Bayes classifier
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
主题Deep Web爬虫框架研究
被引量:
3
3
作者
黄聪会
张水平
胡洋
机构
空军工程大学电讯工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第5期929-931,935,共4页
基金
陕西省自然科学基金项目(2007F43)
文摘
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。实验结果表明了该框架采用的技术是可行的。
关键词
深网
爬虫
搜索引擎
信息抽取
常用字
Keywords
deep
web
crawler
search engine
information extraction
commonly used Chinese characters
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
Deep Web入口探测与分类方法研究
被引量:
2
4
作者
张亮
陆余良
刘金红
机构
解放军电子工程学院网络系
出处
《计算机应用研究》
CSCD
北大核心
2009年第12期4697-4700,4703,共5页
文摘
传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计算方法用于特征选取。在TEL-8 Query Interfaces数据集上,测试结果体现了双层分类模型的优越性和特征向量维归约的必要性。
关键词
deep
web
网络爬虫
结构特征
维归约
双层分类模型
Keywords
deep
web
web
crawler
s
structure feature
dimensionality reduction
bilateral-layer classification model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种Deep Web聚焦爬虫爬行策略
被引量:
2
5
作者
蔡欣宝
陈洪平
赵朋朋
崔志明
机构
苏州大学智能信息处理及应用研究所
江苏省现代企业信息化应用支撑软件工程技术研发中心
出处
《微电子学与计算机》
CSCD
北大核心
2009年第8期117-120,共4页
基金
国家自然科学基金项目(60673092)
2008年江苏省重大科技支撑与自主创新项目(BE2008044)
江苏省现代企业信息化应用支撑软件工程技术研发中心开放基金项目(SX200904)
文摘
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性.同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息.实验证明该方法是有效的.
关键词
结构化
deep
web
数据源
聚焦爬虫
决策树分类器
Keywords
structural
deep
web
sources
focused
crawler
decision tree classifier
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
Deep Web爬虫的一种增量式更新策略
被引量:
1
6
作者
卓林
杨舟
岳亮
赵朋朋
崔志明
机构
苏州大学智能信息处理及应用研究所
江苏省现代企业信息化应用支撑软件工程技术研发中心
出处
《苏州大学学报(工科版)》
CAS
2011年第4期6-10,共5页
基金
国家自然科学基金资助项目(编号60970015)
2008年江苏省重大科技支撑与自主创新项目(编号BE2008044)
文摘
为了在网络及计算机硬件等资源有限的前提下,最大限度地保证本地副本的"新鲜"程度,往往需要为Deep Web爬虫定制一个重爬机制。为了满足这种需求,提出了一种基于采样的增量式Deep Web更新方法,使用贪心策略分配爬虫资源,以最大限地的提高资源利用率。经实验验证,该方法取得了比较优异的结果。
关键词
deep
web
数据爬虫
增量更新
Keywords
deep
web
crawler
incremental
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
Deep Web数据采集查询构造方法研究
被引量:
2
7
作者
林海伦
杨晓刚
熊锦华
王元卓
贾岩涛
程学旗
机构
中国科学院计算技术研究所网络数据科学与技术重点实验室
新华社技术局实验室
出处
《计算机科学与探索》
CSCD
北大核心
2015年第9期1025-1033,共9页
基金
国家自然科学基金Nos.61173008
61232010
+5 种基金
61303244
61402442
国家重点基础研究发展计划(973计划)Nos.2014CB340401
2013CB329602
北京市科技新星计划项目No.Z121101002512063
北京市自然科学基金No.4154086~~
文摘
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。
关键词
deep
web
查询接口
查询构造
网络爬虫
Keywords
deep
web
query interface
query construction
web
crawler
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于主题的Deep Web聚焦爬虫研究与设计
被引量:
2
8
作者
姚双良
机构
江苏科技大学教务处
出处
《西北师范大学学报(自然科学版)》
CAS
北大核心
2013年第2期40-43,48,共5页
基金
江苏省高校自然科学基金资助项目(10KJB520006)
文摘
研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链接解析模块和查询接口判别模块4大模块.实验结果表明,该爬虫的爬行策略取得了很好的效果,大大提高了效率,可以很好地适应特定主题的结构化Deep Web信息采集.
关键词
deep
web
聚焦爬虫
主题
Keywords
deep
web
focused
crawler
theme
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种Deep Web爬虫爬行策略
被引量:
4
9
作者
刘徽
黄宽娜
余建桥
机构
乐山师范学院数学与信息科学学院
西南大学计算机与信息科学学院
出处
《计算机工程》
CAS
CSCD
2012年第11期284-286,共3页
基金
四川省教育厅科研基金资助项目(10ZB023)
文摘
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。
关键词
deep
web
页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
Keywords
deep
web
page
feedback mechanism
crawling strategy
focused
crawler
network database
classifier
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于数据库分类的deep web爬行器研究
10
作者
郭少友
赵善义
李建平
王斌
机构
郑州大学信息管理系
郑州大学教育技术中心
郑州大学社科办
解放军信息工程大学信息工程学院
出处
《情报科学》
CSSCI
北大核心
2011年第10期1575-1579,共5页
基金
河南省重大科技攻关项目(102101210100)
文摘
在现有相关研究的基础上,设计一种基于数据库分类的deep web爬行器。该爬行器首先从抓取的网页中识别出deep web数据库的入口表单,然后采用查询探测方法对数据库进行自动分类,并根据分类结果来选取一组合适的关键词作为查询词,自动填写入口表单中的文本框并向数据库提出查询请求。实验结果表明,基于数据库分类的deep web爬行器的爬行效果要优于基于指定查询词的deep web爬行器的爬行效果。
关键词
数据库分类
deep
web
爬行器
表单
查询探测
Keywords
database classification
deep
web
crawler
form
query probing
分类号
G350 [文化科学—情报学]
原文传递
题名
基于本体的Deep Web数据源聚焦搜索系统研究
被引量:
1
11
作者
张素智
李丽娜
机构
郑州轻工业学院计算机与通信工程学院
出处
《微计算机信息》
2010年第6期27-29,共3页
文摘
Deep Web中包含内容丰富、主题专一的高质量信息,为了自动地采集和集成这些数据,数据源的发现是关键。本文设计了一种基于本体的DeepWeb数据源聚焦搜索系统,给出了核心搜索算法。并通过实验,表明该方法是可行有效的。
关键词
本体
deep
web
数据源
聚焦搜索
Keywords
ontology
deep
web
data sources
focused
crawler
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
DeepWeb可配置聚焦爬虫设计与实现
被引量:
3
12
作者
罗成
程耀东
胡庆宝
李海波
机构
中国科学院高能物理研究所
中国科学院大学
出处
《核电子学与探测技术》
CAS
CSCD
北大核心
2014年第3期353-358,共6页
文摘
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。
关键词
聚焦爬虫
deep
web
大数据
Keywords
focused
web
crawler
deep
web
Big Data
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于最优查询的多领域deep Web爬虫
被引量:
3
13
作者
冯明远
林怀忠
机构
浙江大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2009年第9期3375-3377,共3页
基金
浙江省科技计划基金资助项目(2007C23086)
文摘
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。
关键词
deep
web
deep
web
爬虫
最优查询
页面聚类
Keywords
deep
web
deep web crawler
most efficient queries
page cluster
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种Deep Web爬虫的设计与实现
被引量:
5
14
作者
荣光
张化祥
机构
山东师范大学信息科学与工程学院
出处
《计算机与现代化》
2009年第3期31-34,共4页
文摘
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的SurfaceWeb页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面。然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值。本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法。它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息。实验结果表明此方法是有效的。
关键词
deep
web
web
爬虫
表单
Keywords
deep
web
web
crawler
form
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种Deep Web聚焦爬虫
15
作者
黄昊晶
机构
广东水利电力职业技术学院
苏州大学智能信息处理及应用研究所
出处
《电脑与电信》
2011年第3期30-31,37,共3页
基金
广东水利电力职业技术学院中青年科研项目:"Deep Web数据源发现与聚焦爬虫研究"
项目编号:09002
文摘
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率。
关键词
聚焦爬虫
deep
web
PAGERANK
网站结构图剪枝
页面判断
Keywords
focused
crawler
deep
web
PageRank
site structure pruning
determine pages
分类号
TN241 [电子电信—物理电子学]
在线阅读
下载PDF
职称材料
题名
面向Deep Web的Ajax查询接口技术研究
16
作者
郭若飞
蔡欣宝
赵朋朋
崔志明
机构
苏州大学智能信息处理及应用研究所
江苏省现代企业信息化应用支撑软件工程技术研发中心
出处
《苏州大学学报(工科版)》
CAS
2010年第3期1-4,共4页
基金
国家自然科学基金资助项目(编号60970015)
2008年江苏省重大科技支撑与自主创新项目(编号BE2008044)
文摘
Deep Web网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取Deep Web数据的关键步骤,针对采用Ajax技术的Deep Web查询接口,建立Ajax分析处理模型,解决传统爬虫无法完成表单提交的困难,从而获取到更多的Deep Web数据。实验结果证实,该方法是有效的。
关键词
爬虫
AJAX
查询接口
deep
web
爬虫
Keywords
crawler
Ajax
query interface
deep web crawler
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
支持Ajax的Deep Web爬虫研究与设计
被引量:
1
17
作者
周杨
机构
军事经济学院基础部计算机教研室
出处
《计算机系统应用》
2012年第2期167-171,共5页
文摘
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。
关键词
deep
web
爬虫
AJAX
搜索引擎
Keywords
deep
web
crawler
Ajax
search engine
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种安全验证模式下Deep Web爬虫的研究
18
作者
徐和祥
张永忠
胡运发
机构
上海远程教育集团
复旦大学计算机与信息技术系
出处
《计算机应用与软件》
CSCD
2010年第5期9-11,26,共4页
基金
国家自然科学基金重大项目(60736016)
全国教育科学"十一五"规划教育部课题(FCB070468)
上海市教育委员会科研创新项目(09YZ462)
文摘
Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。
关键词
deep
web
安全模式
爬虫
信息抽取
Keywords
deep
web
Security mode
crawler
Information extraction
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于深层网络爬虫的Web地图服务发现方法
被引量:
11
19
作者
侯东阳
武昊
王军锋
王明山
机构
中国矿业大学环境与测绘学院
国家基础地理信息中心
中科九度(北京)空间信息技术有限责任公司
中国移动通信集团湖北有限公司襄阳分公司
出处
《地理与地理信息科学》
CSCD
北大核心
2015年第5期10-13,19,共5页
基金
国家自然科学基金项目(41301412)
文摘
传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,并利用正则表达式对它们进行了形式化描述;然后,针对每条应用规则制定了相应的使用流程;最后以传统地图服务爬虫为基础,通过新增脚本解析引擎和应用规则构建了深层网络爬虫。实验表明,该方法可以同时发现位于表层网络和深层网络中的Web地图服务。
关键词
web
地图服务
服务发现
爬虫
深层网络
Keywords
web
Map Service
service discovery
crawler
deep
web
分类号
P208 [天文地球—地图制图学与地理信息工程]
在线阅读
下载PDF
职称材料
题名
深度Web资源探测系统的研究与实现
被引量:
7
20
作者
李涛
陈鹏
李哲
机构
北京航空航天大学计算机学院
出处
《微计算机信息》
北大核心
2007年第33期185-187,共3页
基金
国家科技基础条件平台科技部(2003DKA5G015)
文摘
本文介绍了深度Web的资源重要性和传统爬虫工作的原理。为了能够更好的利用传统爬虫获取深度Web资源和解决传统爬虫在工作中的不足,提出了一种任务可定制化的爬虫框架,并基于可定制化的任务,实现探测网络深度资源的功能。
关键词
crawler
deep
SEARCH
deep
web
基于站点爬行
Keywords
crawler
deep
Search
deep
web
site based crawl
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Deep Web爬虫爬行策略研究
郑冬冬
崔志明
《计算机工程与设计》
CSCD
北大核心
2006
13
在线阅读
下载PDF
职称材料
2
Deep Web数据源聚焦爬虫
林超
赵朋朋
崔志明
《计算机工程》
CAS
CSCD
北大核心
2008
11
在线阅读
下载PDF
职称材料
3
主题Deep Web爬虫框架研究
黄聪会
张水平
胡洋
《计算机工程与设计》
CSCD
北大核心
2010
3
在线阅读
下载PDF
职称材料
4
Deep Web入口探测与分类方法研究
张亮
陆余良
刘金红
《计算机应用研究》
CSCD
北大核心
2009
2
在线阅读
下载PDF
职称材料
5
一种Deep Web聚焦爬虫爬行策略
蔡欣宝
陈洪平
赵朋朋
崔志明
《微电子学与计算机》
CSCD
北大核心
2009
2
在线阅读
下载PDF
职称材料
6
Deep Web爬虫的一种增量式更新策略
卓林
杨舟
岳亮
赵朋朋
崔志明
《苏州大学学报(工科版)》
CAS
2011
1
在线阅读
下载PDF
职称材料
7
Deep Web数据采集查询构造方法研究
林海伦
杨晓刚
熊锦华
王元卓
贾岩涛
程学旗
《计算机科学与探索》
CSCD
北大核心
2015
2
在线阅读
下载PDF
职称材料
8
基于主题的Deep Web聚焦爬虫研究与设计
姚双良
《西北师范大学学报(自然科学版)》
CAS
北大核心
2013
2
在线阅读
下载PDF
职称材料
9
一种Deep Web爬虫爬行策略
刘徽
黄宽娜
余建桥
《计算机工程》
CAS
CSCD
2012
4
在线阅读
下载PDF
职称材料
10
基于数据库分类的deep web爬行器研究
郭少友
赵善义
李建平
王斌
《情报科学》
CSSCI
北大核心
2011
0
原文传递
11
基于本体的Deep Web数据源聚焦搜索系统研究
张素智
李丽娜
《微计算机信息》
2010
1
在线阅读
下载PDF
职称材料
12
DeepWeb可配置聚焦爬虫设计与实现
罗成
程耀东
胡庆宝
李海波
《核电子学与探测技术》
CAS
CSCD
北大核心
2014
3
在线阅读
下载PDF
职称材料
13
基于最优查询的多领域deep Web爬虫
冯明远
林怀忠
《计算机应用研究》
CSCD
北大核心
2009
3
在线阅读
下载PDF
职称材料
14
一种Deep Web爬虫的设计与实现
荣光
张化祥
《计算机与现代化》
2009
5
在线阅读
下载PDF
职称材料
15
一种Deep Web聚焦爬虫
黄昊晶
《电脑与电信》
2011
0
在线阅读
下载PDF
职称材料
16
面向Deep Web的Ajax查询接口技术研究
郭若飞
蔡欣宝
赵朋朋
崔志明
《苏州大学学报(工科版)》
CAS
2010
0
在线阅读
下载PDF
职称材料
17
支持Ajax的Deep Web爬虫研究与设计
周杨
《计算机系统应用》
2012
1
在线阅读
下载PDF
职称材料
18
一种安全验证模式下Deep Web爬虫的研究
徐和祥
张永忠
胡运发
《计算机应用与软件》
CSCD
2010
0
在线阅读
下载PDF
职称材料
19
基于深层网络爬虫的Web地图服务发现方法
侯东阳
武昊
王军锋
王明山
《地理与地理信息科学》
CSCD
北大核心
2015
11
在线阅读
下载PDF
职称材料
20
深度Web资源探测系统的研究与实现
李涛
陈鹏
李哲
《微计算机信息》
北大核心
2007
7
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部