文本数字化图像OCR识别的准确度测度实验与提高被引量：11

Text Digital Image OCR Accuracy Measurement Experiment and Improvement

下载PDF

导出

摘要基于英国国家图书馆的Reshelp和Burney两个古旧英文报纸数字化项目,作者对文本型数字图像的OCR识别的准确度进行测试实验,结果显示整体准确度不高,且从高到低依次为字符、单词、重要单词、大写字母开头的重要单词。然后,将OCR识别周期划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和文本识别等四个阶段,分析每个阶段影响准确度的因素,探讨提高准确度的具体措施。 The following two aspects are discussed in this paper：（ 1 ） based on Reshelp and Burney historic English newspaper digitization projects in British Library, the author does an experiment on OCR accuracy measurement, and the result shows that the overall accuracies are not very good, and the sequence from high to low is characters, words, significant words and words start with capital letter; （2） based on the four stages of OCR period which are digital scanning object obtainment, digital image production, digital image process and text recognition, the author analyses the accuracy influencing factors and discusses the measures for improving the accuracy.

作者臧国全

机构地区郑州大学信息管理系

出处《图书情报知识》 CSSCI 北大核心 2010年第3期62-67,共6页 Documentation,Information & Knowledge

基金河南省高校科技创新人才支持计划(2008-551)资助

关键词 OCR识别准确度测试信息资源数字化 OCR recognition Accuracy measurement Information resource digitization

分类号 G250 [文化科学—图书馆学]

引文网络
相关文献

参考文献5

1Schantz, Herbert F. The History of OCR, Optical Character Recognition. Recognition Technologies, 1982 ( 02 ) : 78-81.
2British Library. 19th Century British Library Newspapers Database. [ 2009-06-10 ]. http: //www. bl. uk/reshelp/findhelprestype/news/newspdigproj/database/index. html.
3JISC. the Burney Collection. [ 2009-07- 11]. www. jisc-collections.ac. uk/burney.
4Eric. Free Diff Tool: SourceGear DiffMerge. [2009-06-29]. http : //www. ericsink. com/entries/DiffMerge. html.
5Michael Gilleland. Levenshtein Distance. [2009-07-01 ]. http: // www. merriampark. com/Id.htm.

同被引文献37

1沙建辉.无处不在的OCR[J].中国计算机用户,2004(23):58-58. 被引量：4
2靖培栋,宋雯斐.全文检索单元词索引技术研究[J].情报理论与实践,2006,29(1):118-121. 被引量：4
3王晋生.我国技术标准免费检索系统的比较分析[J].情报科学,2006,24(5):736-740. 被引量：7
4查奕.文献数字影像的制作与使用第三讲质量控制[J].数字与缩微影像,2006(2):25-26. 被引量：2
5汪益民,梅林,张义超.基于OCR技术的书写文字识别系统设计[J].甘肃科技,2007,23(8):17-19. 被引量：11
6范玉顺.工作流管理技术基础[M].北京:清华大学出版社,2001.
7OCR [EB/OL]. http://baike, baidu, com/view/17761, htm 2013-8-5/2013-8-6.
8Schantz,Herbert F.The History of OCR, Optical Character Recognition[J].Recog nition Technologies, 1982,(2):78-81.
9Schantz,Herbert F. The History of OCR,Optical Character Recognition[J].Recognition Technologies,1982,(02):78-81.
10Cornell University Library. Document Types[OL].http://www.library.c ornell.edu/preservati on/tutorial/co nversion/conversion-01.html,2011.

引证文献11

1郭军.文本型数字图像OCR识别准确度研究之数字扫描对象的获取阶段[J].中国化工贸易,2012,4(1):202-203.
2郭军.文本型数字图像OCR识别准确度影响因素分析之数字图像的生产阶段[J].中国化工贸易,2012,4(5):47-48.
3李冠艺.OCR技术在电子商务信息采集中的应用研究[J].电脑与电信,2013(8):56-58. 被引量：2
4季静,朱彦欣,周志强,陈姝.浅析商业智能套件在质量技术监督行业的应用[J].质量技术监督研究,2014(2):47-50.
5郭军.信息资源数字化OCR识别生命周期探析[J].数字技术与应用,2014,32(8):217-218.
6刘菖.标准全文检索系统及关键技术研究[J].标准科学,2017(1):19-23. 被引量：1
7郭军.基于OCR软件性能的文本型数字图像OCR识别准确度提高策略研究[J].网络安全技术与应用,2017(5):147-149. 被引量：1
8郭军.基于数字扫描仪性能的文本型数字图像OCR识别准确度提高策略研究[J].网络安全技术与应用,2017(9):118-120. 被引量：3
9徐方卉,王子颉,周宏茗,周小丽,刘木清.模拟雾环境下目标识别的影响研究[J].照明工程学报,2017,28(6):123-131. 被引量：3
10倪亚晖.浅析基于模式识别技术的标准文献元数据智能提取系统主要技术[J].轻工标准与质量,2019,0(2):119-120.

二级引证文献9

1于红,冯艳红,李晗,戚浩然,刘海映,苏延明,庞建宝.渔业标准体系化服务与决策系统研究[J].大连海洋大学学报,2019,34(2):260-266. 被引量：8
2刘宁波,李刚,张华强.基于OCR技术的发票自动识别校验系统设计[J].电脑知识与技术,2019,15(4Z):6-7. 被引量：6
3姜嘉佳.OCR技术在报刊加工中的应用分析[J].科技传播,2019,11(10):159-160. 被引量：4
4崔刚刚,徐安恬,周小丽.模拟雾环境下目标图像清晰度研究[J].照明工程学报,2020,31(3):31-37. 被引量：1
5尹俊,高有利,刘贤松,盛刚.一种面向5G网络的人工智能平台[J].邮电设计技术,2020(10):10-14. 被引量：3
6崔刚刚,徐方卉,周小丽.模拟雾环境下图像特征与主观评价的关系[J].照明工程学报,2021,32(3):152-158. 被引量：2
7张松,赵德顺,汪宇楠.基于图像处理技术的弯管数据提取方法[J].机械制造,2022,60(2):34-35. 被引量：1
8李欣雨,李晓雷,詹银霞,杨斌.基于视觉信息熵的高速公路雾区诱导研究综述[J].公路,2024,69(8):295-306. 被引量：2
9李艳杰.基于课题的OCR技术在手写纸质教案数字化存储中的应用[J].现代信息科技,2019,0(18):54-55.

1郭军.信息资源数字化OCR识别生命周期探析[J].数字技术与应用,2014,32(8):217-218.
2李晓明,李晶,刘小秋,江东.中小型档案馆(室)档案数字化加工的实践与思考[J].黑龙江档案,2012(5):30-31. 被引量：2
3科技期刊按出版周期划分为？[J].中华医学写作杂志,2003,10(17):1596-1596.
4英国国家图书馆百万册古籍将数字化[J].图书馆建设,2011(7):56-56.
5彭建.外国人镜头下的武昌辛亥革命[J].收藏,2011(11):128-138.
6英国国家图书馆[J].图书馆建设,2016(2).
7英国国家图书馆开始搜集游戏名作[J].图书馆建设,2010(12):82-82.
8程鹏,蒋伟明.中国国家图书馆与英国国家图书馆之比较[J].北京图书馆馆刊,1997,6(1):12-17. 被引量：7
9杨雪娜.何时用大写字母?[J].小学教学设计（英语）,2009(10):47-47.
10郭萍.CAJViewer在学术文献使用中的功能与技巧[J].淮阴师范学院学报（自然科学版）,2011,10(4):357-360.

图书情报知识

2010年第3期

浏览历史

内容加载中请稍等...

文本数字化图像OCR识别的准确度测度实验与提高被引量：11

参考文献5

同被引文献37

引证文献11

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

文本数字化图像OCR识别的准确度测度实验与提高 被引量：11

参考文献5

同被引文献37

引证文献11

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

文本数字化图像OCR识别的准确度测度实验与提高被引量：11