摘要
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。
In order to query structured information of Web documents,it's vital to extract title,author,abstract and
出处
《计算机工程与应用》
CSCD
北大核心
2002年第21期189-191,235,共4页
Computer Engineering and Applications
基金
国家重点基础研究发展规划"973项目"(编号:G1999032705)
北京大学"创建世界一流大学计划"学科建设项目"985项目
关键词
论文
元数据信息
自由抽取
科技文献检索系统
信息抽取
正则表达式规则
WEB
metadata from these documents.This paper introduces a metadata extractor based on regular expression rules,which is used in the knowledge navigation system at Peking University Digital Library.By taking full advantage of the nature structure o