期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种深层网的数据采集方法 被引量:1
1
作者 陈新 都云程 肖诗斌 《北京信息科技大学学报(自然科学版)》 2018年第5期60-64,共5页
为了解决网络信息采集过程中复杂的脚本解析和异步数据交互等一系列问题,提出了基于浏览器内核的网络信息采集方法;构建了以浏览器内核为核心的网络爬虫系统;在采集性能和采集可行性两个方面对系统进行了测试。以浏览器内核作为数据采... 为了解决网络信息采集过程中复杂的脚本解析和异步数据交互等一系列问题,提出了基于浏览器内核的网络信息采集方法;构建了以浏览器内核为核心的网络爬虫系统;在采集性能和采集可行性两个方面对系统进行了测试。以浏览器内核作为数据采集系统的网页解析引擎,来执行网页中的各种客户端脚本以及完成复杂的数据交互,从而完整地将隐藏在深层网中的URL等有用数据提取出来。随着网络应用的发展,未来的网页结构会越来越复杂化,因此传统网络爬虫的采集难度会逐步增加,而基于浏览器内核的网络爬虫则可以很好地适应这些变化。 展开更多
关键词 浏览器内核 脚本解析 网络爬虫 深层网
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部