科研论文爬取与多维度分析系统的设计与实现被引量：1

Design and Implementation of Scientific Papers Crawling and Multidimensional Analysis System

下载PDF

导出

摘要信息时代的到来,知网(CNKI)成为国内最大的论文数据库,如何高效地获取论文信息,挖掘论文价值,成为了一个亟待解决的问题。目前,论文检索工具多为通用爬虫,只能采集到部分少量的信息,且包含着不符合用户要求的信息,因此实现一个集聚焦论文信息采集和实时论文数据分析的系统变得极为重要。该系统针对如何高效获取论文信息,挖掘论文价值等问题,使用Python Django框架和Celery框架将网站和爬虫结合,实现了爬虫的自动化。系统分为论文爬取模块和多维度分析模块。其中,论文爬取模块使用Selenium,模拟用户点击,并使用Beutifulsoup4和Requests解析网页内容,最后将获取到的论文信息存储到MySQL数据库中。多维度分析模块使用High Charts进行数据展示,主要对与关键词相关的论文发表趋势,高产作者、机构等信息进行分析。通过该系统,科研学者可以方便快捷地获取到研究领域的各种论文信息,为以后的深入研究提供数据支撑。 With the advent of the information age,CNKI has become the largest paper database in China. How to efficiently obtain paper information and excavate paper value has become an urgent problem to be solved. At present,the paper retrieval tools are mostly general crawlers,which can only collect a small amount of information and contain information that does not meet the user’s requirements. Therefore,it is of great importance to implement a focused paper information collection and real-time paper data analysis system. For this purpose,Python Django framework and Celery framework are used to combine the website with the crawler and realize the automation of the crawler. The system is divided into a paper crawling module and a multidimensional analysis module. Among them,the paper crawling module uses Selenium to simulate user clicks,and parses web content with Beutifulsoup4 and Requests,and finally stores them in MySQL database. The multidimensional analysis module uses High Charts to display,which mainly analyze the trend of papers,high-yielding authors,institutions and other information about keywords. Through this system,researchers can quickly and easily obtain various information in the field of research,and provide data support for future research.

作者王树梅尚衍亮 WANG Shu-mei;SHANG Yan-liang(School of Computer Science and Technology,Jiangsu Normal University,Xuzhou 222111,China)

机构地区江苏师范大学计算机科学与技术学院

出处《计算机技术与发展》 2020年第5期165-169,共5页 Computer Technology and Development

基金国家自然科学基金(61673196)。

关键词论文爬取多维度分析数据挖掘信息采集爬虫自动化 paper crawling multidimensional analysis data mining information collection crawler automation

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1肖旻,陈行.基于Python语言编程特点及应用之探讨[J].电脑知识与技术,2014,0(12):8177-8178. 被引量：41
2李智超,孟春春,栗永华,车路平,仇旭升,孙英杰,谭磊,廖瑛,宋翠萍,姚刚,王金泉,丁铲.基于中国知网数据的鸡传染性支气管炎病毒混合感染分析[J].中国动物传染病学报,2018,26(5):73-76. 被引量：12
3胡忠望,刘卫东.Cookie应用与个人信息安全研究[J].计算机应用与软件,2007,24(3):50-53. 被引量：38
4胡冬妮,王武军,王青.基于知网数据的情感识别国内研究情况综述[J].网络新媒体技术,2018,7(6):1-9. 被引量：4
5周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：97
6魏倩男,贺正楚,陈一鸣.基于网络爬虫的京东电商平台数据分析[J].经济数学,2018,35(1):77-85. 被引量：10
7潘惠梅,刘咏梅.2017年我国地理教学热点回顾——基于中国知网数据的共词可视化分析[J].地理教学,2018(12):13-16. 被引量：7
8游涛,金开银.基于知网数据的学校科研能力综合评价[J].武汉工程职业技术学院学报,2017,29(1):44-47. 被引量：2
9兰旭辉,熊家军,邓刚.基于MySQL的应用程序设计[J].计算机工程与设计,2004,25(3):442-443. 被引量：86
10邹建鑫,李红灵.基于网站访问行为的匿名爬虫检测[J].计算机技术与发展,2017,27(12):103-107. 被引量：3

二级参考文献105

1汤玉梅,李晴.我国地理教学模式研究20年回顾与反思[J].重庆师范大学学报（自然科学版）,2006,23(4):85-88. 被引量：11
2尤永君,张国中,刘月焕,王友,梁武,刘兴彩,沈元.2010—2012年中国部分地区鸡传染性支气管炎流行病学调查[J].畜牧兽医学报,2015,46(2):264-272. 被引量：14
3余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量：1
4郭伟刚,鞠时光.电子商务网站中Web Robot的检测技术[J].计算机工程,2005,31(23):219-221. 被引量：1
5沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
6国辛纯,郭继昌,窦修全.基于HMM的语音信号情感识别研究[J].电子测量技术,2006,29(5):69-70. 被引量：10
7蒋宗礼,赵钦,肖华,王蕊.高性能并行爬行器[J].计算机工程与设计,2006,27(24):4762-4766. 被引量：7
8张三峰,吴国新.一种面向动态异构网络的容错非对称DHT方法[J].计算机研究与发展,2007,44(6):905-913. 被引量：1
9萨师煊.数据库系统概论[M].北京:高等教育出版社,1995..
10中国互联网络发展状况统计报告[EB/OL].http://tech.qq.com/a/20080724/000277.htm.2008-9-27.

共引文献290

1杜宝江,华平平.地下堆垛式立体车库内部自动布局技术研究[J].中国水运（下半月）,2020(3):123-124.
2张登,苏家华.基于C++与Python的检测业务报价系统建设[J].质量与认证,2021(S01):130-133.
3王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
4孙雅荣,芮建勋,陈能.基于OLE海量空间数据管理系统的设计[J].上海地质,2006(3):40-42. 被引量：2
5朱国民,贾民平.基于MySQL和VC++的远程状态监测与故障诊断数据库的研发[J].机械制造与自动化,2006,35(5):127-129. 被引量：5
6魏晓,胡金初.基于Linux系统的分布式网络管理系统[J].计算机技术与发展,2007,17(6):60-63. 被引量：3
7蒋敏,孔军,单家芳.LHCD实验装置数据管理系统的探讨[J].计算机工程与设计,2007,28(20):5045-5047. 被引量：1
8姜从玉,胡永善,张新谊,吴毅,朱玉连,孙莉敏,范文可.脑血管病三级康复治疗数据库系统应用介绍[J].中国康复医学杂志,2008,23(3):273-275. 被引量：4
9孙丽娥,杨威.基于Cookie技术的信息安全研究[J].中国教育信息化（高教职教）,2008(3):50-52. 被引量：2
10梅娅.共享上网检测技术原理分析[J].现代计算机,2008,14(4):91-92. 被引量：1

同被引文献5

1杜芬,王彬,薛洁,龙雨涵,刘辉,熊新.分组加权t-SNE的手写数字奇异类样本聚类方法研究[J].小型微型计算机系统,2018,39(12):2729-2734. 被引量：1
2曹祺.基于t-SNE算法的双一流大学基金立项关键词降维的可视化建模研究[J].农业图书情报学报,2020,32(2):47-57. 被引量：1
3谢小红,陆建波,李文韬,刘春霞,黄华梅.基于迁移学习的服装图像分类模型研究[J].计算机应用与软件,2020,37(9):88-93. 被引量：21
4黄孝伦,王东.以Selenium+Chrome为核心的数据采集系统设计[J].计算机技术与发展,2020,30(9):216-220. 被引量：7
5易晗钰.浅析中国服装产业的发展现状与趋势[J].纺织报告,2020,39(11):45-48. 被引量：6

引证文献1

1陈广智,曾霖,刘伴晨,曾天佑,魏欣欣.基于Python的电商网站服装数据的爬取与分析[J].计算机技术与发展,2022,32(7):46-51. 被引量：8

二级引证文献8

1苏明焱.基于Python的招聘网站信息的爬取与数据分析[J].信息与电脑,2022,34(24):193-195. 被引量：6
2包宇,孙云海.基于数据挖掘的网络新闻分析与系统设计[J].电脑编程技巧与维护,2023(3):101-103. 被引量：1
3郑志建,俞发仁,魏晓微,赵泳,胡长生.基于Python的职位网站爬取设计与实现[J].计算机与网络,2024,50(1):24-27. 被引量：3
4王艳.基于Python的OpenStack运维分析与实践[J].计算机应用文摘,2024,40(15):30-32.
5李扬,赵中元.线上沙发类家具销售数据与用户满意度研究[J].家具,2024,45(5):56-60. 被引量：2
6邓慈云,张恬恬.大数据技术专业人才市场需求研究[J].福建电脑,2025,41(4):52-55.
7卜令朵.基于关系代数的高校门户网站数据传输异构数据聚合方法[J].自动化技术与应用,2025,44(3):79-83.
8张恒,安波,张晋芳.基于Python的大数据专业人才招聘数据的爬取与分析[J].太原城市职业技术学院学报,2025(10):76-78.

1余冬林.基于UCINET的民族认同研究综述[J].老区建设,2019(8):92-96.
2程煜华,刘立营,李耿,张秀梅,杨洪军,李文姗,李振坤.基于内容分析法的典型中药大品种科技成果分析[J].中国现代中药,2019,21(8):987-994. 被引量：3
3赵蕴华,李维波,苑朋彬.全球碳排放遥感监测相关论文的文献分析[J].中国科技资源导刊,2019,51(3):96-101. 被引量：4
4张阵阵,杨柳,方旭东.军事医学领域国际研究态势分析[J].军事医学,2017,41(8):642-646. 被引量：3
5李晶晶.我国乡土建筑研究的现状及趋势——基于CNKI论文数据库的计量可视化分析[J].住区,2020(1):104-108.
6宋奇.绿色环保的《360清理大师》[J].计算机与网络,2020,46(1):34-34.
7赵润梓,胡超.基于Web渗透的自动化文件上传漏洞检测工具实现[J].网络安全技术与应用,2020,0(3):26-28. 被引量：1
8朱庆宏.基于设计心理学的微信朋友圈爆款H5设计浅探[J].无锡南洋职业技术学院论丛,2019(1H):62-65. 被引量：2
9李常安.基层医院院内感染监测系统设计及应用[J].临床检验杂志（电子版）,2020,9(3):387-388.
10贺欣,王新亭,陈飞云.基于Android系统的制丝生产实时监视APP的开发[J].工程技术研究（百科）,2019,1(4):186-187.

计算机技术与发展

2020年第5期

浏览历史

内容加载中请稍等...

科研论文爬取与多维度分析系统的设计与实现被引量：1

参考文献10

二级参考文献105

共引文献290

同被引文献5

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

科研论文爬取与多维度分析系统的设计与实现 被引量：1

参考文献10

二级参考文献105

共引文献290

同被引文献5

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

科研论文爬取与多维度分析系统的设计与实现被引量：1