期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种深层网的数据采集方法
被引量:
1
1
作者
陈新
都云程
肖诗斌
《北京信息科技大学学报(自然科学版)》
2018年第5期60-64,共5页
为了解决网络信息采集过程中复杂的脚本解析和异步数据交互等一系列问题,提出了基于浏览器内核的网络信息采集方法;构建了以浏览器内核为核心的网络爬虫系统;在采集性能和采集可行性两个方面对系统进行了测试。以浏览器内核作为数据采...
为了解决网络信息采集过程中复杂的脚本解析和异步数据交互等一系列问题,提出了基于浏览器内核的网络信息采集方法;构建了以浏览器内核为核心的网络爬虫系统;在采集性能和采集可行性两个方面对系统进行了测试。以浏览器内核作为数据采集系统的网页解析引擎,来执行网页中的各种客户端脚本以及完成复杂的数据交互,从而完整地将隐藏在深层网中的URL等有用数据提取出来。随着网络应用的发展,未来的网页结构会越来越复杂化,因此传统网络爬虫的采集难度会逐步增加,而基于浏览器内核的网络爬虫则可以很好地适应这些变化。
展开更多
关键词
浏览器内核
脚本解析
网络爬虫
深层网
在线阅读
下载PDF
职称材料
题名
一种深层网的数据采集方法
被引量:
1
1
作者
陈新
都云程
肖诗斌
机构
北京信息科技大学计算机学院
北京拓尔思信息技术股份有限公司
出处
《北京信息科技大学学报(自然科学版)》
2018年第5期60-64,共5页
基金
863计划课题"面向基础教育的知识能力智能测评与类人答题验证系统"(2015AA015409)
文摘
为了解决网络信息采集过程中复杂的脚本解析和异步数据交互等一系列问题,提出了基于浏览器内核的网络信息采集方法;构建了以浏览器内核为核心的网络爬虫系统;在采集性能和采集可行性两个方面对系统进行了测试。以浏览器内核作为数据采集系统的网页解析引擎,来执行网页中的各种客户端脚本以及完成复杂的数据交互,从而完整地将隐藏在深层网中的URL等有用数据提取出来。随着网络应用的发展,未来的网页结构会越来越复杂化,因此传统网络爬虫的采集难度会逐步增加,而基于浏览器内核的网络爬虫则可以很好地适应这些变化。
关键词
浏览器内核
脚本解析
网络爬虫
深层网
Keywords
brower kernel
script parsing
web crawler
deep web
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种深层网的数据采集方法
陈新
都云程
肖诗斌
《北京信息科技大学学报(自然科学版)》
2018
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部