论文元数据信息的自动抽取被引量：38

Automatic Metadata Extraction for Scientific Documents

下载PDF

导出

摘要为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。 In order to query structured information of Web documents,it's vital to extract title,author,abstract and

作者李朝光张铭邓志鸿杨冬青唐世渭

机构地区北京大学视觉与听觉处理国家重点实验室北京大学计算机科学与技术系北京大学计算机科学与技术系

出处《计算机工程与应用》 CSCD 北大核心 2002年第21期189-191,235,共4页 Computer Engineering and Applications

基金国家重点基础研究发展规划"973项目"(编号:G1999032705) 北京大学"创建世界一流大学计划"学科建设项目"985项目

关键词论文元数据信息自由抽取科技文献检索系统信息抽取正则表达式规则 WEB metadata from these documents.This paper introduces a metadata extractor based on regular expression rules,which is used in the knowledge navigation system at Peking University Digital Library.By taking full advantage of the nature structure o

分类号 G354.4 [文化科学—情报学] TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47

二级参考文献1

1Ham mar J，SIGMOD Record，1997年，26卷，2期，18页

共引文献46

1明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(Z1):1-6.
2胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
3GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(Z1):82-85.
4李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
5李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
6刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
7程渤,浮花玲,杨国纬.基于工作流及集成中间件技术的电力信息一体化设计及实现[J].电力系统自动化,2004,28(19):80-83. 被引量：15
8许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
9张阔,徐鹏,李涓子,王克宏.基于优化层次聚类的文档逻辑结构抽取[J].清华大学学报（自然科学版）,2005,45(4):471-474. 被引量：2
10谢维成,吕先竞,宋玉忠.基于HTML或MXL描述的Web页信息抽取技术研究[J].情报科学,2005,23(9):1398-1402. 被引量：2

同被引文献275

1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
2郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(Z1):84-87.
4李莉,木拉提.哈米提.医学影像数据分类方法研究综述[J].中国医学物理学杂志,2011,28(6):3007-3011. 被引量：9
5周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
6张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J].现代图书情报技术,2004(6):1-5. 被引量：26
7狄涤,周竞扬,潘金贵.基于规则的HTML文档元数据提取[J].计算机工程,2004,30(9):85-86. 被引量：7
8陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
9刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
10彭认灿,肖京国,李改肖.航海通告制作辅助计算软件的设计与实现[J].海洋测绘,2004,24(6):49-51. 被引量：5

引证文献38

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
3严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
4郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
5郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8
6李小斌.一种从HTML页面到RDF文档的转化方法[J].电脑与信息技术,2006,14(4):24-26. 被引量：1
7黄永文,李广建.数字图书馆中的ETL应用研究综述[J].现代图书情报技术,2007(12):1-5. 被引量：6
8曾苏,马建霞,张秀秀.元数据自动抽取研究新进展[J].现代图书情报技术,2008(4):7-11. 被引量：10
9张诚,郝东白,龙海,黄皓.基于正则表达式的WebMail监控与审计[J].计算机工程与设计,2008,29(13):3277-3279. 被引量：3
10钱建立,吴广茂,蒋路.基于特征相似度的科技论文元数据提取算法研究[J].微电子学与计算机,2008,25(8):129-132. 被引量：9

二级引证文献151

1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
2岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(Z2):344-349.
3张继红,陈小全.海量交通安全数据的元数据管理研究[J].计算机研究与发展,2011,48(S1):74-77. 被引量：3
4宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
5楼玉萍,王丽侠.基于本体的智能答疑系统的模型研究[J].浙江工业大学学报,2005,33(1):71-73. 被引量：8
6刘颖,詹萌.Ontology在数字图书馆领域中的应用与研究综述[J].图书馆杂志,2005,24(6):53-58. 被引量：5
7翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
8翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
9严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
10彭莉,韩景生.玩具行业应对TBT风险预警系统的研究[J].玩具世界,2006(11):55-59.

1李威杰,华保健,李曦.支持正则表达式的密文检索方案的研究[J].计算机应用与软件,2017,34(3):306-311. 被引量：3
2程绍敏,易正亨.科技文献检索系统在评价大气科技成果中的作用与选择[J].四川图书馆学报,1999(3):45-48.
3蔡良伟,程璐,李军,李霞.基于遗传算法的正则表达式规则分组优化[J].深圳大学学报（理工版）,2015,32(3):281-289. 被引量：5
4王小刀.水,藏在泥土里[J].当代工人,2014,0(15):14-16.
5周少丽,赵新法.管窥核心期刊与三大科技文献检索系统[J].陕西能源职业技术学院学报,2009,4(2):79-80. 被引量：3
6宫阳阳,刘勤让,杨镇西,邵翔宇,邢池强,焦慧娟,彭志彬.基于多维有限自动机的DFA改进算法[J].通信学报,2015,36(5):174-186. 被引量：5
7李兵哲.正则表达式在Word中的应用[J].现代计算机,2014,20(14):35-38. 被引量：1
8蔡青,康蠡.档案文献编纂学逻辑起点研究[J].云南档案,2012(6):38-40.
9陈宏林.移动存储“得寸进尺”[J].微电脑世界,2000(28):14-14.
10林尧泽.概述国外科技文献检索系统的发展——兼谈我国科技文献检索系统的建立[J].情报学报,1983,2(2):171-177. 被引量：1

计算机工程与应用

2002年第21期

浏览历史

内容加载中请稍等...

论文元数据信息的自动抽取被引量：38

参考文献1

二级参考文献1

共引文献46

同被引文献275

引证文献38

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

论文元数据信息的自动抽取 被引量：38

参考文献1

二级参考文献1

共引文献46

同被引文献275

引证文献38

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

论文元数据信息的自动抽取被引量：38