期刊文献+

基于Python的动态网页评价爬虫算法 被引量:20

Crawler Algorithms of Dynamic Web Reviews Based on Python
在线阅读 下载PDF
导出
摘要 在大数据获取中面临着如何采集动态评论网页的问题,这篇论文使用静态网页信息构造动态链接,提出了基于Python的动态网页评论爬虫算法。在此基础上实现了评论收集程序。最后将它与通用爬虫算法进行比较,证实了该算法具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的新闻、文学、管理等学科的研究者提供了快速获取评论信息的方法。 An issues in big data is:how to get a dynamic comment page? This paper uses information of static pages structure dynamic link and designs a crawler algorithm for dynamic web.On this basis,this paper implements a comment collector.Finally,this paper compares it with the general crawler algorithm.It is proved that this algorithm has the advantages of strong pertinence,fast data acquisition,easy to be embedded,simple and so on.It provides fast access to large data sources for researchers who are not proficient in programming.
出处 《软件工程》 2016年第2期43-46,共4页 Software Engineering
基金 国家自然科学基金资助项目(71571139)"大数据情景的outlier分析与异类知识管理模式研究"
关键词 PYTHON语言 静态地址 动态链接 动态网页评论 爬虫算法 python language static address dynamic link dynamic web reviews reptile algorithm
  • 相关文献

参考文献7

二级参考文献33

  • 1宋世斌,李存华.SQL Server中存储过程技术的研究与应用[J].电脑知识与技术(过刊),2007(2):327-329. 被引量:1
  • 2梁德胜,杨晓燕,陈春娥.基于SQL Server的扩展存储过程[J].现代电子技术,2004,27(21):22-23. 被引量:6
  • 3王和勇,郑杰,姚正安,李磊.基于聚类和改进距离的LLE方法在数据降维中的应用[J].计算机研究与发展,2006,43(8):1485-1490. 被引量:31
  • 4HILLAR G C.C#并行编程高级教程[M].北京:清华大学出版社,2012.
  • 5Wang Bo,Wang Hou-feng.Bootstrapping bothproduct properties and opinion words from chinesereviews with cross-training. IEEE/WIC/ACMInternational Conference on Web Intelligence . 2007
  • 6Fang Mei-yu,Zheng Xiao-lin,Chen De-ren.A rep-utation evaluation approach based on fuzzy relation. International Journal of Computational Intelli-gence Systems . 2011
  • 7Miller R C,Bharat K.SPHINX:a framework forcreating personal,site-specific Web crawlers. Computer Networks . 1998
  • 8Arun Manicka Raja M,Winster S G,SwamynathanS.Review analyzer:analyzing consumer product re-views from review collections. 2012Internation-al Conference on Recent Advances in Computing andSoftware Systems (RACSS) . 2012
  • 9[美]LeighEdwards,[美]RichardBarker,EMCC软件公司著,周良忠.Series 应用程序开发[M]人民邮电出版社,2005.
  • 10Guandong Xu,Yanchun Zhang,Lin Li.Web Content Mining[J].Web Information Systems Engineering and Internet Teehnologies,2011,6(2):65-69.

共引文献28

同被引文献139

引证文献20

二级引证文献103

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部