基于Python的动态网页评价爬虫算法被引量：20

Crawler Algorithms of Dynamic Web Reviews Based on Python

下载PDF

导出

摘要在大数据获取中面临着如何采集动态评论网页的问题,这篇论文使用静态网页信息构造动态链接,提出了基于Python的动态网页评论爬虫算法。在此基础上实现了评论收集程序。最后将它与通用爬虫算法进行比较,证实了该算法具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的新闻、文学、管理等学科的研究者提供了快速获取评论信息的方法。 An issues in big data is：how to get a dynamic comment page？ This paper uses information of static pages structure dynamic link and designs a crawler algorithm for dynamic web.On this basis,this paper implements a comment collector.Finally,this paper compares it with the general crawler algorithm.It is proved that this algorithm has the advantages of strong pertinence,fast data acquisition,easy to be embedded,simple and so on.It provides fast access to large data sources for researchers who are not proficient in programming.

作者夏火松李保国

机构地区武汉纺织大学管理学院

出处《软件工程》 2016年第2期43-46,共4页 Software Engineering

基金国家自然科学基金资助项目(71571139)"大数据情景的outlier分析与异类知识管理模式研究"

关键词 PYTHON语言静态地址动态链接动态网页评论爬虫算法 python language static address dynamic link dynamic web reviews reptile algorithm

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1彭磊,李先国.大数据量Excel数据导入系统的设计与实现[J].现代电子技术,2014,37(14):57-59. 被引量：6
2吴宏洲.分词技术的研究与应用——一种抽取新词的简便方法[J].软件工程师,2015(12):64-68. 被引量：3
3方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
4陈国良,郭修豪.基于商品评论信息的特征挖掘[J].福建电脑,2015,31(5):106-107. 被引量：3
5刘典型,刘完芳,钟钢.基于概念聚类的Web数据挖掘搜索引擎的设计与实现[J].软件工程师,2015(5):18-20. 被引量：1
6陈潇.SQL Server2008数据库存储过程的应用[J].软件工程师,2015(6):18-19. 被引量：10
7刘正春.基于Carbide.C++的Symbian OS软件开发[J].电脑与电信,2009(1):47-49. 被引量：2

二级参考文献33

1宋世斌,李存华.SQL Server中存储过程技术的研究与应用[J].电脑知识与技术（过刊）,2007(2):327-329. 被引量：1
2梁德胜,杨晓燕,陈春娥.基于SQL Server的扩展存储过程[J].现代电子技术,2004,27(21):22-23. 被引量：6
3王和勇,郑杰,姚正安,李磊.基于聚类和改进距离的LLE方法在数据降维中的应用[J].计算机研究与发展,2006,43(8):1485-1490. 被引量：31
4HILLAR G C.C#并行编程高级教程[M].北京:清华大学出版社,2012.
5Wang Bo,Wang Hou-feng.Bootstrapping bothproduct properties and opinion words from chinesereviews with cross-training. IEEE/WIC/ACMInternational Conference on Web Intelligence . 2007
6Fang Mei-yu,Zheng Xiao-lin,Chen De-ren.A rep-utation evaluation approach based on fuzzy relation. International Journal of Computational Intelli-gence Systems . 2011
7Miller R C,Bharat K.SPHINX:a framework forcreating personal,site-specific Web crawlers. Computer Networks . 1998
8Arun Manicka Raja M,Winster S G,SwamynathanS.Review analyzer:analyzing consumer product re-views from review collections. 2012Internation-al Conference on Recent Advances in Computing andSoftware Systems (RACSS) . 2012
9[美]LeighEdwards,[美]RichardBarker,EMCC软件公司著,周良忠.Series 应用程序开发[M]人民邮电出版社,2005.
10Guandong Xu,Yanchun Zhang,Lin Li.Web Content Mining[J].Web Information Systems Engineering and Internet Teehnologies,2011,6(2):65-69.

共引文献28

1杨桂红,陈继文,王冬梅,韩文东,车金峰.基于塞班S60V5操作平台的光伏离网发电系统计算软件[J].山东科学,2012,25(1):96-98.
2高永兵,王亮,胡文江.淘宝商品评价属性分类研究[J].微型机与应用,2014,33(11):8-11. 被引量：1
3许镭,许华.基于开放API实现获取订单信息的方法[J].电子商务,2014,15(10):63-64.
4荣艳冬.Java项目中Excel数据导入应用研究[J].电脑编程技巧与维护,2015(9):64-65. 被引量：2
5卢长宝,庄晓燕.餐饮业服务质量在线评论的聚焦维度:基于网络爬虫技术的实证研究[J].天津商业大学学报,2016,36(4):14-22. 被引量：8
6杜环环,栾静.基于存储过程的简易教学系统设计与实现[J].中国教育信息化,2016,22(23):86-89.
7战和,金中原,杨日杰.海洋声速剖面数据库的快速存取技术研究[J].兵器装备工程学报,2016,37(12):13-17. 被引量：1
8谢新涛.基于sql的篮球运动员体能测试数据库管理系统设计[J].自动化与仪器仪表,2016(12):127-128. 被引量：3
9龙金昌.Excel 2010数据导入数据库的设计实现[J].数字技术与应用,2016,34(8):173-173.
10齐娇娇.基于B/S的运动员体能测试数据库管理系统设计[J].自动化与仪器仪表,2017(6):204-205.

同被引文献139

1赵保卿,李娜.基于层次分析法的内部审计外包内容决策研究[J].审计与经济研究,2013,28(1):37-45. 被引量：63
2张浩斌.基于开放式云平台的开源在线评测系统设计与实现[J].计算机科学,2012,39(S3):339-343. 被引量：34
3JohnBattelle.亚马逊：搜索服务的革命[J].网络传播,2004(7):56-57. 被引量：1
4周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
5官礼和.Internet网络新闻文本自动摘要的研究[J].计算机工程与设计,2007,28(14):3518-3520. 被引量：9
6吴学义,黄永平,郭娜,徐昊.基于AJAX的B/S架构及应用[J].吉林大学学报（信息科学版）,2007,25(3):314-318. 被引量：23
7张启宇,朱玲,张雅萍.中文分词算法研究综述[J].情报探索,2008(11):53-56. 被引量：35
8王冉阳.基于Django和Python的Web开发[J].电脑编程技巧与维护,2009(2):56-58. 被引量：40
9刘班.基于Django快速开发Web应用[J].电脑知识与技术,2009,5(3):1616-1618. 被引量：25
10杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37

引证文献20

1雍龙泉,贾伟,张建科.基于爬虫技术与智能算法的网络舆情监测[J].智能计算机与应用,2021,11(4):35-38. 被引量：3
2李乔宇,尚明华,王富军,刘淑云.基于Scrapy的农业网络数据爬取[J].山东农业科学,2018,50(1):142-147. 被引量：12
3夏玉芹,单雪微.基于Python的简单文本情感分析[J].阴山学刊（自然科学版）,2018,32(4):58-62. 被引量：17
4叶宇翔.抽取自媒体新闻热词的技术实现[J].电脑知识与技术,2018,14(6Z):14-16. 被引量：1
5胡春玲,吕刚.互联网资源的虚拟OJ系统的研究[J].合肥学院学报（综合版）,2017,34(5):80-83. 被引量：1
6孙雨皓,夏斌,谢宏.基于Django框架的商品排名监控系统设计[J].现代计算机（中旬刊）,2018(7):85-90.
7高宠,赵丹丹,白哓宇,张金金,毕瑞,徐俊婷.豆瓣影评网络数据爬虫设计与实现[J].中国高新科技,2018(15):88-90. 被引量：1
8王家辉,过弋,文欣秀,万锋.面向智慧商圈的多源数据采集与综合评价系统[J].计算机工程,2019,45(1):284-291. 被引量：6
9王金峰,李世良,王明,罗星宇,张雪玉.基于Python的关于Flickr图片网站的爬虫[J].中小企业管理与科技,2019,3(2):182-183. 被引量：4
10殷丽凤,张浩然.基于Python网上招聘信息的爬取和分析[J].电子设计工程,2019,27(20):22-26. 被引量：13

二级引证文献103

1张昉.碰瓷营销在社交媒体平台收割“免费流量”的策略运用——以周杰伦打榜事件为例[J].新闻传播,2020(24):28-29.
2高生华,何济武,胡素臻,赵雪.面向遗留系统的数据采集方法[J].网络安全与数据治理,2023,42(S02):156-160. 被引量：1
3梁兆东,朱土凤,安旭东,李崇洁,廖冬梅,周琦杰.基于信息化技术实现2次地震事件评论数据的挖掘分析[J].华北地震科学,2020,38(S02):144-151.
4韩帅康,江涛,张顺.大数据评论采集分析系统的设计与实现[J].电脑知识与技术,2020,0(4):35-37. 被引量：1
5武振国.小麦品种资源知识库系统构建[J].通讯世界,2018,25(6):237-238.
6徐郑琴.基于Scrapy的番茄病虫害数据收集[J].电脑知识与技术,2019,15(1X):24-25.
7姜东民,张永正,陈雅静.基于网络爬虫的房产价格信息获取及分析——以青岛地区为例[J].信息技术与信息化,2018(8):108-111. 被引量：3
8谢钟扬.基于Python的电商导购APP设计与实现[J].数字技术与应用,2019,37(2):143-144. 被引量：1
9蒋煜楷,罗干,陈文婷,吴镇州.数据挖掘技术在电影推荐中的应用研究[J].电脑知识与技术,2019,15(6X):254-256. 被引量：1
10曾政多.基于Naive Bayes的P2P平台评论研究[J].现代计算机,2019,25(20):10-13. 被引量：1

1熊乐.Google集群系统技术综述[J].中国科技信息,2009(9):126-127. 被引量：3
2朱毅华,张超群,曾通,吴龙凤,徐玛丽,王东波,李晓晖.基于子树相似度计算的网页评论提取算法研究[J].现代图书情报技术,2013(11):52-59. 被引量：5
3瑜文.安全软件增值“嵌入开发”[J].软件世界,2006(22):91-91.
4图片竞猜[J].现代舰船,2015,0(17):84-84.
5LIU Gui-mei.An adaptive improvement on PageRank algorithm[J].Applied Mathematics(A Journal of Chinese Universities),2013,28(1):17-26. 被引量：3
6沙泓州,周舟,刘庆云,秦鹏.轻量级的自学习网页分类方法[J].通信学报,2014,35(9):32-39. 被引量：2
7陈海岳,何永前.C程序自动测试方法[J].科技视界,2012(6):21-24.
8何永前,陈建勋,李建璜,林新荣.C程序的动态测试[J].舰船电子工程,2009,29(8):158-161. 被引量：1
9陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016,29(9):97-99. 被引量：24
10王爽,熊德兰,赵会洋.基于论坛主题的网页褒贬倾向性识别[J].计算机技术与发展,2009,19(9):111-114.

软件工程

2016年第2期

浏览历史

内容加载中请稍等...

基于Python的动态网页评价爬虫算法被引量：20

参考文献7

二级参考文献33

共引文献28

同被引文献139

引证文献20

二级引证文献103

相关作者

相关机构

相关主题

浏览历史

基于Python的动态网页评价爬虫算法 被引量：20

参考文献7

二级参考文献33

共引文献28

同被引文献139

引证文献20

二级引证文献103

相关作者

相关机构

相关主题

浏览历史

基于Python的动态网页评价爬虫算法被引量：20