科技论文中学术信息的提取方法综述被引量：6

A Method Review on Academic Information Extracting from Scientific Papers

下载PDF

导出

摘要为更好地利用和挖掘学术论文文本,识别并提取学术论文中的学术信息已成为一种非常迫切的现实需求,在文本挖掘、信息检索、主题监测、信息计量学等领域都有广阔的应用前景。学术信息可以分为题录信息、章节信息、引文信息、引用信息和其他信息。本文综述了在PDF和HTML/XML两种不同格式的学术论文全文中,提取各类学术信息的主要方法,并指出这些方法主要面向的格式文本以及可用来提取的信息种类。最后,本文列出了提取学术信息的常用工具。 In order to make better use of rich information in academic papers, it is a very urgent and realistic requirement to identify and extract academic information within. The academic information extracting has a broad application prospect in text mining, information retrieval, theme monitoring, information metrology and many other fields. There are five kinds of academic information, such as title information, section information, citation information, reference information and other information. This paper reviews the methods of academic information extracting from the full text of academic papers. Different methods could be used to extract different kinds of academic information from different types of full texts, PDF or HTML/XML. Finally, the paper also lists the current tools for extracting academic information.

作者胡志刚田文灿孙太安侯海燕

机构地区大连理工大学科学学与科技管理研究所大连理工大学WISE实验室

出处《数字图书馆论坛》 CSSCI 2017年第10期39-47,共9页 Digital Library Forum

基金国家自然科学基金项目"开放获取背景下的全文引文分析方法与应用研究"(编号:71503031)资助

关键词学术信息论文全文本信息提取机器学习 Academic Information Full Text Information Extraction Machine Learning

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献5

1赵蓉英,曾宪琴,陈必坤.全文本引文分析——引文分析的新发展[J].图书情报工作,2014,58(9):129-135. 被引量：62
2胡志刚,侯海燕,林歌歌.从书信沙龙到开放获取——刍议学术论文形态的演化[J].数字图书馆论坛,2016(10):32-37. 被引量：6
3张立.数字出版相关概念的比较分析[J].中国出版,2006(12):11-14. 被引量：80
4白杰,杨爱臣.XML结构化数字出版的特点与流程[J].出版广角,2015(5):28-31. 被引量：19
5胡志刚,陈超美,刘则渊,侯海燕.基于XML全文数据引文分析系统的设计与实现[J].现代图书情报技术,2012(11):72-77. 被引量：14

二级参考文献63

1张明宝,马静.基于UIMA的企业非结构信息资源管理系统研究[J].计算机系统应用,2008,17(10):15-19. 被引量：2
2李春旺.网络环境下学术信息的开放存取[J].中国图书馆学报,2005,31(1):33-37. 被引量：96
3张群.文本挖掘技术及其在专利信息分析中的应用[J].现代情报,2006,26(3):209-210. 被引量：9
4张立.数字出版相关概念的比较分析[J].中国出版,2006(12):11-14. 被引量：80
5Kaplan N. The norms of citation behavior: Prolegomena to the footnote [J]. American Documentation, 1965, 16 (3) : 179-184.
6Liu Mengxiong. Progress in documentation the complexities of citation practice: A review of citation studies [J]. Journal of Documentation, 1993, 49(4): 370-408.
7Case D O, Higgins G M.How can we investigate citation behavior? A study of reasons for citing literature in communication [J]. Journal of the American Society for Information Science, 2000, 51(7):635-645.
8Chubin D. Is citation analysis a legitimate evaluation tool [J]. Scientometrics,1980, 2(1) : 91-92.
9Bornmann L, Daniel H. What do citation counts measure? A review of studies on citing behavior [J]. Journal of Documentation, 2008, 64(1):45-80.
10MacRoberts M H, MacRoberts B R. Problems of citation analysis: A critical review [J]. Journal of the American Society for Information Science, 1989, 40(5): 342-349.

共引文献169

1万安伦,黄婧雯.论数字人文与数字出版[J].印刷文化（中英文）,2020(1):123-130. 被引量：10
2马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98. 被引量：10
3杨思洛,陈志灵.全文计量视角下知识交流体系研究的模式探析[J].知识管理论坛,2024(4):380-393. 被引量：2
4黄延红,侯修洲.科技期刊全流程数字出版平台的构建[J].中国科技期刊研究,2020,0(1):51-55. 被引量：55
5李娟.媒体融合背景下科技期刊需要具备的编辑能力探析[J].传播与版权,2020(12):53-56. 被引量：6
6王娟.中国图书数字出版贸易现状及展望[J].东南传播,2013(7):58-59. 被引量：2
7周海英.我国网络出版产业竞争驱动力分析[J].出版发行研究,2008(3):50-56. 被引量：2
8葛存山,张志林,黄孝章.数字出版的概念和运作模式分析[J].北京印刷学院学报,2008,16(5):1-4. 被引量：9
9孔玲君.按需出版及其关键技术探析[J].出版与印刷,2009(4):16-18. 被引量：4
10金更达,王同裕.数字出版及其产业认识与思考[J].中国出版,2010(9):42-45. 被引量：9

同被引文献99

1胡剑,刘业政,杨善林.商业智能的核心技术及体系结构研究[J].合肥工业大学学报（自然科学版）,2004,27(8):882-885. 被引量：3
2文龙.XML与非结构化数据管理[J].电脑知识与技术（过刊）,2009,0(6):1306-1308. 被引量：13
3徐绚,王德生.应用商业智能系统推进企业管理信息化[J].情报杂志,2004,23(8):79-80. 被引量：3
4陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154. 被引量：885
5钟辉新,胡勇.应用商业智能技术实现DSS[J].情报杂志,2005,24(7):86-88. 被引量：2
6夏国恩,金炜东,张葛祥.商务智能在中国的现状和发展研究[J].科技进步与对策,2006,23(1):173-176. 被引量：25
7於志勇,杨志义,於志文,李长德.XML数据存储方式的性能评价研究[J].计算机工程与应用,2006,42(17):171-173. 被引量：7
8郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8
9周秀会.知识元搜索引擎:CNKI知识搜索平台[J].现代情报,2007,27(5):220-222. 被引量：18
10于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信息抽取[J].华南理工大学学报（自然科学版）,2007,35(9):90-94. 被引量：12

引证文献6

1王佳敏,李信,刘齐进.全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2018,8(4):119-125. 被引量：17
2邢玉艳,刘耀,刘茹.基于schema的信息安全标准资源解析研究[J].情报工程,2019,5(5):108-118. 被引量：3
3薛欢欢,赵瑞雪,寇远涛,鲜国建.农业中文期刊论文信息自动识别与抽取模型构建及实现[J].情报工程,2019,5(6):46-56.
4胡志刚,王欣,李海波.从商业智能到科研智能:智能化时代的科学学与科技管理[J].科学学与科学技术管理,2021,42(1):3-20. 被引量：20
5胡志刚,章成志.悄然兴起的全文计量分析[J].图书馆论坛,2021,41(3):1-11. 被引量：15
6黄雨馨,常志军,钱力,曲云鹏,郭丹,李文文,吴垚葶,王浩霖.科技期刊论文插图识别与向量库构建方法研究[J].图书情报工作,2025,69(13):32-42. 被引量：1

二级引证文献53

1杨思洛,陈志灵.全文计量视角下知识交流体系研究的模式探析[J].知识管理论坛,2024(4):380-393. 被引量：2
2张兰,罗威,周倩,华娟,杨锐,刘鹏年.智能科研助手技术研究与进展[J].情报学进展,2022(1):242-264. 被引量：2
3刘智锋,李信,程齐凯,陆伟.学术文本关键词语义功能数据集构建与分析——以Journal of Informetrics为例[J].图书馆论坛,2019,39(7):64-74. 被引量：11
4彭秋茹,阎素兰,黄水清.基于全文本分析的引文指标研究——以F1000推荐论文为例[J].信息资源管理学报,2019,9(4):82-88. 被引量：12
5徐浩,朱学芳,章成志,江川.面向学术文献全文本的方法论知识抽取系统分析与设计[J].数据分析与知识发现,2019,3(10):29-36. 被引量：5
6章成志(报告),胡志刚(报告),徐硕(报告),汪雪锋(报告),师庆辉(报告),王巍(报告),钱佳佳(综述整理),罗卓然(综述整理).全文本计量分析理论与技术的新进展与新探索——2019全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2020,10(1):111-117. 被引量：13
7任全娥.我国文献计量学研究40年——基于知识图谱的回顾与展望[J].信息与管理研究,2020,5(4):16-31. 被引量：34
8高勇,李国强,李鹏飞.基于XMLSchema技术的跨网数据安全交换处理机制与研究[J].信息通信,2020(12):181-183. 被引量：4
9杜克群,江华娟,李敏敏,成颜芬,何瑶.基于文献计量学的桃红四物汤临床应用研究现状分析[J].中药与临床,2020,11(6):87-91. 被引量：6
10张春博,丁堃,王贤文,刘则渊.全文引文分析视角下的造假论文学术影响研究[J].科学学研究,2021,39(4):577-586. 被引量：10

1郭昕.大数据在智慧城市规划中的应用[J].中国高新科技,2017(17):9-11. 被引量：7
2王玲宁,禹卫华.全文本视野下政务新媒体的内容生产和传播特征——以“上海发布”为例[J].新闻界,2017(9):27-31. 被引量：12
3正确理解和规范著录参考文献的“页码[J].医药导报,2017,36(A01):51-51.
4.zip未来的狂想[J].艺术当代,2017,0(7):13-13.
5王嘎利.开放获取运动下的法学教育变革[J].长春理工大学学报（高教版）,2012(1):123-124.
6唐雅璇,李丽娟,吴芬琳.大数据时代的数据挖掘技术与应用[J].电子技术与软件工程,2017(21):159-159. 被引量：7
7阮天林.常用工具、量具和钳工基础(二)[J].摩托车,2012,0(9X):64-67.
8亨利·斯莫尔,武夷山.亨利·斯莫尔论加菲尔德的毕生成就（连载一）[J].大学科普,2017,11(3):91-92.
9步一,王冰璐,徐扬.结合时间信息的作者耦合分析方法[J].情报杂志,2017,36(10):148-151. 被引量：3
10本刊编辑部.关于我刊文后参考文献引用和著录规则的说明[J].眼科新进展,2017,37(10):930-930.

数字图书馆论坛

2017年第10期

浏览历史

内容加载中请稍等...

科技论文中学术信息的提取方法综述被引量：6

参考文献5

二级参考文献63

共引文献169

同被引文献99

引证文献6

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

科技论文中学术信息的提取方法综述 被引量：6

参考文献5

二级参考文献63

共引文献169

同被引文献99

引证文献6

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

科技论文中学术信息的提取方法综述被引量：6