基于Selenium的淘宝商品评论爬虫算法被引量：4

Crawler Algorithm of Taobao Commodity Comment Based on Selenium

下载PDF

导出

摘要随着互联网的发展,网络上每时每刻都在产生着大量的信息,这些信息具有很高的研究价值。笔者以淘宝为例,基于Python中的Selenium库,实现了对商品评论、追评、商品信息、评论时间、用户名等信息的快速爬取,并将爬取的数据存入Excel表格中。 With the development of the Internet,a lot of information is produced on the network every moment,which has high research value.Taking Taobao as an example,based on selenium Library in Python,the author realizes the quick crawling of product comments,follow-up reviews,commodity information,comment time,user name and other information,and stores the crawled data into excel tables.

作者李晓宇徐勇汪倩武雅利马琴琴 Li Xiaoyu;Xu Yong;Wang Qian;Wu Yali;Ma Qinqin(School of Management Science and Engineering,Anhui University of Finance and Economics,Bengbu Anhui 233030,China)

机构地区安徽财经大学管理科学与工程学院

出处《信息与电脑》 2020年第12期62-64,共3页 Information & Computer

基金 2015年度国家社科基金规划项目(项目编号:15BTQ043) 2018年度安徽省自然科学基金(项目编号:1808085MF194) 2019年度安徽省高校科学研究项目(项目编号:KJ2019A0663) 2018年度安徽财经大学研究生科研创新基金(项目编号:ACYC2018226) 2019年度安徽财经大学研究生科研创新基金(项目编号:ACYC2019218)。

关键词 SELENIUM 爬虫淘宝商品评论 Selenium crawler taobao commodity comments

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1金燕.国内外UGC质量研究现状与展望[J].情报理论与实践,2016,39(3):15-19. 被引量：24
2方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
3花君林.基于Selenium的Python网络爬虫的实现[J].电脑编程技巧与维护,2017(15):30-31. 被引量：17
4赵宇翔,范哲,朱庆华.用户生成内容(UGC)概念解析及研究进展[J].中国图书馆学报,2012,38(5):68-81. 被引量：325
5于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：105
6王洪伟,宋媛,杜战其,郑丽娟,华瑾,张艺伟.基于在线评论情感分析的快递服务质量评价[J].北京工业大学学报,2017,43(3):402-412. 被引量：28
7冯鑫,王晨,刘苑,杨娅,安海岗.基于评论情感倾向和神经网络的客户流失预测研究[J].中国电子科学研究院学报,2018,13(3):340-345. 被引量：9

二级参考文献84

1毛波,尤雯雯.虚拟社区成员分类模型[J].清华大学学报（自然科学版）,2006,46(z1):1069-1073. 被引量：82
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张桂宾.相对程度副词与绝对程度副词[J].华东师范大学学报（哲学社会科学版）,1997,29(2):92-96. 被引量：85
4周爱武,汪贤惠,刘慧婷.基于HowNet词汇相关性的文本聚类[J].微电子学与计算机,2015,32(4):90-93. 被引量：4
5黄秀清,梁雄健.电信企业ARPU值分析[J].北京邮电大学学报（社会科学版）,2005,7(2):34-38. 被引量：7
6朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：329
7夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
8吴贤纶.辨析“因特网将颠覆电视说”(下)[J].有线电视技术,2007,14(5):5-13. 被引量：2
9Wang Bo,Wang Hou-feng.Bootstrapping bothproduct properties and opinion words from chinesereviews with cross-training. IEEE/WIC/ACMInternational Conference on Web Intelligence . 2007
10Fang Mei-yu,Zheng Xiao-lin,Chen De-ren.A rep-utation evaluation approach based on fuzzy relation. International Journal of Computational Intelli-gence Systems . 2011