JavaScript引擎在动态网页采集技术中的应用被引量：37

Extracting Dynamic URLs Using JavaScript Engine

下载PDF

导出

摘要怎样提取网页中由JavaScript脚本动态生成的URL,一直是网页采集器设计的一个难题,文中给出了一个基于JavaScript引擎的通用的解决办法和模块实现以及测试结果。 How to extract URLs that are dynamically created by JavaScript code in web pages? This paper presents a general solution exploiting a JavaScript engine named SpiderMonkey. This paper also describes its module implementation and gives some experimental results.

作者王映于满泉李盛韬王斌余智华

机构地区中国科学院计算技术研究所软件研究室

出处《计算机应用》 CSCD 北大核心 2004年第2期33-36,共4页 journal of Computer Applications

基金国家973规划资助项目(G1998030413) 中科院计算所领域前沿青年基金资助项目(20016280-8)

关键词网页采集 JavaScfipt引擎 URL提取 SpiderMonkey web retrieval JavaScript engine URL extraction SpiderMonkey

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1[1]Eich B. JavaScript C Engine Embedder's Guide[EB/OL]. Http://www.mozilla.org/js/spidermonkey/apidoc/jsguide.html, mozilla.org, march 16, 2000.
2[2]ECMA. ECMA-Script Language Specification Edition 3[EB/OL]. Http://www.mozilla.org/js/language/E262 3.pdf, European Computer manufacturer Association, march 24, 2000.
3[3]Netscape. JavaScript C Engine API Reference[EB/OL]. http://developer.netscape.com/docs/manuals/javascriptapi/index.htm, Netscape Communications Corp., December 17, 1998.
4[4]Netscape. JavaScript 1.5 References[EB/OL]. http://devedge.netscape.com/library/manuals/2000/javascript/1.5/guide/, Netscape Communications Corp., September 28, 2000.

同被引文献207

1苏杭,严建援.一种新的Web链接提取模型[J].清华大学学报（自然科学版）,2006,46(z1):975-982. 被引量：4
2郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
3岳芳,王艳玲,常志勇.基于SOA的烟草应用系统集成研究[J].决策与信息（财经观察）,2008(7):36-37. 被引量：5
4游文杰.JavaScript函数与事件应用[J].计算机应用,2001,21(z1):119-120. 被引量：8
5辛玉玲.搜索引擎相关技术研究概述[J].舰船电子工程,2008,28(10):37-39. 被引量：2
6郑静晨,樊毫军,侯世科.从中国国际救援队国外地震救援实战论灾害医疗救援模式[J].中国急救复苏与灾害医学杂志,2006(1):23-25. 被引量：75
7叶新东.在动态网页中的Cookie技术[J].广西教育学院学报,2004(5):44-46. 被引量：1
8傅灵丽,代俊秋,刘金河.Web应用系统的自动化测试解决方案[J].河北工业大学学报,2010,39(4):23-26. 被引量：4
9孙庚,冯艳红,于红,史鹏辉.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].软件导刊,2010,9(5):47-49. 被引量：5
10李中跃,郭萍.WebKit中JsCore的扩展方法[J].辽宁省交通高等专科学校学报,2009,11(5):16-18. 被引量：2

引证文献37

1陈健瑜.网页动态页面采集关键技术研究[J].硅谷,2009,2(12):68-68. 被引量：1
2王莎.基于Internet的EDI[J].中国科技信息,2006(6):227-227. 被引量：2
3李政,孟德光,董艳英,鲁艳丽,姚素玲.网络课程通用术语查询系统设计[J].河北科技师范学院学报,2006,20(3):44-47.
4金晓鸥,钟宝燕,李翔.基于Rhino的JavaScript动态页面解析研究与实现[J].计算机技术与发展,2008,18(2):1-4. 被引量：18
5曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：40
6曾伟辉,李淼.基于JavaScript切片的AJAX框架网络爬虫技术研究[J].计算机系统应用,2009,18(7):169-171. 被引量：10
7胡燕,嵇启春,赵佳,王瑞.开放式实验室管理信息系统设计[J].现代计算机,2009,15(8):141-142. 被引量：1
8范轩苗,郑宁,范渊.一种基于Ajax的爬虫模型的设计与实现[J].计算机应用与软件,2010,27(1):96-99. 被引量：3
9陈源恩,陈志伟,曾文华.脚本语言在核磁共振谱仪软件系统中的应用[J].福建电脑,2010,26(1):3-4. 被引量：1
10万久士,李翔,林祥.基于JSSh的动态网页获取研究与实现[J].信息安全与通信保密,2010,7(4):93-95. 被引量：4

二级引证文献131

1王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
2冯林,李然,孙焘.一种基于AJAX的电子地图平滑移动算法的实现[J].现代电子技术,2008,31(4):131-133. 被引量：2
3方宏,吕太之.求职网站职位列表页链接信息的自动提取[J].现代图书情报技术,2009(7):93-96. 被引量：3
4方宏,吕太之.动态网页信息提取技术在求职搜索中的应用[J].计算机工程,2009,35(24):265-267. 被引量：2
5陈丽君.深层网查询表单标签识别技术研究[J].电脑开发与应用,2010,23(2):66-68. 被引量：1
6黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
7万久士,李翔,林祥.基于JSSh的动态网页获取研究与实现[J].信息安全与通信保密,2010,7(4):93-95. 被引量：4
8夏天.Ajax站点数据采集研究综述[J].现代图书情报技术,2010(3):52-57. 被引量：10
9刘春梅,邓浩江,孙鹏,胡琳琳.基于嵌入式终端的视频点播业务控制方法[J].微计算机信息,2010,26(17):32-34. 被引量：1
10范纯龙,袁滨,余周华,徐蕾.基于陷阱技术的网络爬虫检测[J].计算机应用,2010,30(7):1782-1784. 被引量：4

1胡燕,嵇启春,赵佳,王瑞.开放式实验室管理信息系统设计[J].现代计算机,2009,15(8):141-142. 被引量：1
2岳萍.新型DCS脚本系统的研究与设计[J].科技视界,2015(4):92-92.
3谭芳茗,李荣宽.一种新型组态软件脚本引擎模块的设计[J].可编程控制器与工厂自动化（PLC FA）,2010(1):56-58. 被引量：1
4胡启韬,袁志平,周忠海.网络资源采集软件的设计及实现[J].电脑编程技巧与维护,2010(8):25-26.
5蒲东兵,杨立明,周彦军,车文隆,马志强.基于嵌入式浏览器的JavaScript解析器设计[J].信息技术,2010,34(4):20-23. 被引量：3
6岳萍,燕敏.DCS组态软件中脚本模块的设计实现[J].微计算机信息,2010,26(10):231-232. 被引量：2
7郭川,李晓峰,马多贺,徐震.一种网页挂马攻击中的重定向混淆检测方法[J].网络新媒体技术,2014,3(3):21-27.
8杨渊林.新技术水平下Web数据自动采集与维护技术研究综述[J].消费电子,2014(14):208-208.
9数据结构与算法[J].电脑编程技巧与维护,2014(16):164-164.
10曾传璜,李思强,张小红.基于AdaCostBoost算法的网络钓鱼检测[J].计算机系统应用,2015,24(9):129-133. 被引量：4

计算机应用

2004年第2期

浏览历史

内容加载中请稍等...

JavaScript引擎在动态网页采集技术中的应用被引量：37

参考文献4

同被引文献207

引证文献37

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

JavaScript引擎在动态网页采集技术中的应用 被引量：37

参考文献4

同被引文献207

引证文献37

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

JavaScript引擎在动态网页采集技术中的应用被引量：37