期刊文献+

基于正则表达式批量提取CNKI文献元数据技术探究 被引量:3

Exploration on Automatic Extraction Metadata of CNKI Papers Based on Regular Expression
原文传递
导出
摘要 介绍一种仅仅依靠中国知网文献磁盘文件提取元数据的方法。根据已下载的CNKI文献提取元数据,构建个人文献信息数据库,进而能建立个人文献信息管理系统。虽然CNKI文献库没有提供外界的数据库访问接口,但是文献的元数据都以web页面的方式展现。通过分析与文献绑定的属性页面的结构,利用正则表达式提取文献元数据,可以将其批量导入到数据库中。 A method of extracting CNKI papers' metadata just relying on files stored on hard disk is introduced. According to downloaded CNKI papers, the method can extract metadata, build personal literature database, and then create personal paper information management system. Although CNKI Archive does not provide database access interface to the outside world, the metadata of paper is shown on web pages. By analyzing the structure of binding properties web page of literature and using regular expression to extract metadata, the metadata can be batch imported into the database.
出处 《图书情报工作》 CSSCI 北大核心 2010年第19期111-114,共4页 Library and Information Service
基金 资源与环境信息系统国家重点实验室自主研究课题"地球科学数据质量评价研究"(项目编号:O88RA106SA) 中国科学院地理科学与资源研究所创新三期领域前沿项目(地球信息方法论体系)课题"地学数据空间化误差评价方法及案例研究"(项目编号:O66U0309SZ)研究成果之一
关键词 CNKI 元数据 正则表达式 批量提取 CNKI metadata regular expression batch extraction
  • 相关文献

参考文献5

二级参考文献23

  • 1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量:57
  • 2全立新.谈异构数据库之间的代码移植技术——SQLJ[J].计算机应用与软件,2004,21(9):41-43. 被引量:24
  • 3张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量:6
  • 4[4]Theodore W Hong,Keith L Clark.Towards a universal web wrapper[A].Proceddings of the 17th International Florida Intelligence Research Symposium Conference[C].Florida:AAAI Press,2004.
  • 5[6]Linger F,Mc Queen C,Wilton P.C++字符串和正则表达式参考手册[M].北京:清华大学出版社,2003.
  • 6[7]Archer T,Whitechapel A.C++技术揭秘[M].北京:机械工业出版社,2003.
  • 7[8]Visual C + + 2005 Express Edition[EB/OL].http://msdn.microsoft.com/vstudio/express/visualcsharp,2005.11.
  • 8Lee T,ACM Conference on Information and Knowlege Management,1998年
  • 9Hammer J,Proc Workshop on Management of Semistructured Data,1997年
  • 10Theodore W. Hong, Keith L. Clark. Towards a Universal Web Wrapper.In :Proceddings of the 17th International Florida Intelligence Research Symposium Conference. Florida, USA : AAAI Press ,2004. Available at .

共引文献196

同被引文献18

  • 1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报(自然科学版),2007,35(12):13-15. 被引量:7
  • 2Liger F,Queen C M,Wilton P.C#字符串和正则表达式参考手册[M].刘乐亭,译.北京:清华大学出版社,2003.
  • 3Gross P L K, Gross E. College libraries and chemical education [ J]. Science, 1927,66( 1713 ) : 385 - 389.
  • 4Garfield E. Citation analysis as a tool in journal evaluation [ J ]. Science, 1972 , 178 (4060) :471 - 479.
  • 5Garfield E, Sher I H. New factors in the evaluation of scientific literature through citation indexing [ J]. JASIST, 1963,14 (3) : 195 -201.
  • 6Ma Nan, Guan Jiancheng, Zhao Yi. Bring PageRank to the citation analysis [ J ]. Information Processing and Management, 2008,44 (2) :800 -810.
  • 7Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bringing order to the Web [ M]. Stanford, California: Stanford InfoLab, 1998 : 1 - 17.
  • 8Liu Xiaozhong, Zhang Jinsong, Guo Chun. Full-text citation analysis: A new method to enhance scholarly network[EB/OL]. [ 2012 - 11 - 01 ]. http ://discern. uits. iu. edu : 8790/publication/ Full% 20text% 20citation. pdf.
  • 9Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation [ J ]. The Journal of Machine Learning Research, 2003 (3): 993 - 1022.
  • 10Ramage D, Hall D, Nallapati R,et al. Labeled LDA : A supervised topic model for credit attribution in multi - labeled corpora [ C ]// Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics ,2009:248 - 256.

引证文献3

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部