期刊文献+

基于Python的Web数据采集技术 被引量:34

Research on Python-based Web Scraping Technology
在线阅读 下载PDF
导出
摘要 针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以分为:HTTP交互和数据解析两个模块。 In this paper web scraping technologies are discussed.The advantages of Web data collection technology for high speed and accuracy conversion of unstructured data into structured data are pointed out.The principles of the web scraping at HTTP level are introduced with emphasis on the technical solutions to Python-based web scraping.Web scraping system consists of two modules:HTTP interaction module and data analysis module.
出处 《电子科技》 2012年第11期118-120,共3页 Electronic Science and Technology
关键词 Web数据抓取 屏幕抓取 HTTP协议 PYTHON 正则表达式 XPATH Web scraping screen scraping HTTP Python regex XPath
  • 相关文献

参考文献5

二级参考文献9

共引文献2

同被引文献190

引证文献34

二级引证文献218

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部