小波的文本图像区分及其在文献信息数字化中的应用被引量：1

Applying image classification using wavelets to digitization of document information

下载PDF

导出

摘要目前,OCR技术对文本图像区域自动区分的效果还不够精确,进而影响了OCR技术在文献信息数字化过程中的工作效率.针对这一局限,提出了一种基于小波的文本图像区分方法.方法首先对扫描区域进行小波分解,然后使用分解系数构建分解能量,最后依据分解能量大小对文本图像进行自动区分.结果表明,该方法对文本图像的区分效果较好,减少了在使用OCR技术进行文献信息数字化时的人为干预,有利于提高文献信息数字化过程的自动化水平.最后通过实验仿真验证了该方法的有效性. The accuracy of optical character recognition （OCR） technology in distinguishing between text areas and image areas has remained relatively low. Unfortunately this reduces the efficiency of OCR in digitization of document information. After analyzing the main steps of OCR applied to a digital library, the authors evolved an image classification algorithm based on wavelets. Decomposing the scanning area with wavelet transform was the first step in the algorithm. The energy value of the area could then be derived from wavelet coefficients. The task of distinguishing between text and images was accomplished by analyzing their energy values. The algorithm proved fast and automatic, characteristics increasing the efficiency of the digitization of document information. It was clear that the simulation verified the new algorithm＇s feasibility.

作者陈杰孙忠贵周书锋

机构地区聊城大学图书馆聊城大学数学科学学院

出处《智能系统学报》 2010年第2期185-188,共4页 CAAI Transactions on Intelligent Systems

基金聊城大学青年教师科研基金资助项目(X0810029)

关键词数字化文献 OCR 小波文本图像 digitalizing document OCR wavelet text image

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1孙洪睿.高校数据信息平台的研究与设计[J].应用科技,2009,36(7):41-46. 被引量：4
2孙萍,苏东出.基于OCR的电子图书目录自动生成算法的实现[J].现代情报,2004,24(9):151-152. 被引量：2
3梁红.高校数字图书馆信息资源建设探析[J].图书馆工作与研究,2005(4):55-57. 被引量：29
4OCR软件使用经验谈[J].电子出版,2002(6):10-10. 被引量：1
5张成昱,赵仪,邹荣,曾婷.中文电子图书系统开发和应用研究[J].大学图书馆学报,2002,20(4):19-23. 被引量：2
6苏东出.一种改进的黑白二值化方法——谈文献扫描图像的数字化处理[J].情报杂志,2003,22(5):69-70. 被引量：4
7MALLATS 杨力华戴道清黄文良译.信号处理的小波导引[M].北京:机械工业出版社,2002.124-132.
8SCHETTINI R,BRAMBILLA C,CIOCCAA G,VALSASNA A,De PONTI M.A hierarchical classification strategy for digital documents[J].Pattern Recognition,2002(35):1759-1769.
9The University of Manchester.Face image library[EB/OL].[2005-9-1].http://images.ee.umist.ac.uk/danny/face.tar.gz.
10GONZALEZ R C,WOODS R E,EDDINS S L.Digital image processing using Matlab[M].Beijng:Publishing House of Electronics Industry,2004:181-186.

二级参考文献30

1李春霞,高大启,王新华.基于J2EE平台面向服务的体系结构研究与应用[J].计算机系统应用,2006,15(6):68-71. 被引量：11
2韩清,王善利,刘彩妹.基于单点登录的校园信息门户的实现[J].中国教育信息化（高教职教）,2007(04S):24-26. 被引量：7
3陶祥亚,胡建华.高校信息资源建设中“孤岛现象”的研究[J].中国教育信息化（高教职教）,2007(05S):49-51. 被引量：11
4张成昱赵仪等.“电子图书系统”开发报告[M].,2000..
5（美）Colin Haynes 张帆等（译）.电子出版技术－－无纸出版指南[M].北京:电子工业出版社,1996..
6向世明.Visual C++数字图像与图形处理[M].北京：电子工业出版社,..
7林星.软件质量之路-面向组建的大规模软件架构[EB/OL].[2007-05-18].http://se.csai.cn/media/200705181238241920.htm.
8MACINTA T W.Fast MD5 implementation in Java (TM)[EB/OL].[2009-04-07].http://www.twmacinta.com/myjava/fast_md5.php.
9高芹许绥文.中国数字图书馆的资源建设[DB／OL].www.nlc.gov.cn.,.
10张丽虹.数字图书馆及其相关问题和技术研究[J].图书馆杂志,1997,16(1):32-34. 被引量：51

共引文献75

1聂祥飞.基于小波变换的图像分割技术研究[J].中国有线电视,2004(13):10-12.
2熊智新,胡上序,路文初.基于小波变换的重叠色谱峰检测方法研究[J].浙江大学学报（工学版）,2004,38(8):1072-1077. 被引量：9
3李鹏,杨洪耕,孔飘红.MDL判据在电能质量扰动信号数据压缩中的应用[J].电网技术,2004,28(18):48-52. 被引量：6
4熊智新,路文初浙江大学分析测试中心,2胡上序.小波变换和RBF网络用于模式法分解重叠色谱峰[J].浙江大学学报（工学版）,2005,39(4):516-521. 被引量：8
5高国华,张永忠.小波奇异性分析在齿轮早期故障检测中的应用[J].煤炭科学技术,2005,33(4):5-7. 被引量：1
6唐炬,许中荣,孙才新,谢颜斌,周倩.应用复小波变换抑制GIS局部放电信号中白噪声干扰的研究[J].中国电机工程学报,2005,25(16):30-34. 被引量：44
7何峰江,陶果,罗厚义.应用小波分析估计核磁共振测井信噪比[J].核电子学与探测技术,2005,25(5):471-474. 被引量：5
8蔡代纯.新建地方院校图书馆建设特色数字馆藏及对其进行整合的思考[J].科技文献信息管理,2005,19(4):14-16. 被引量：1
9何勇灵,卫尧.两相流条件下的喷油系统中压力波时频特性的研究[J].热科学与技术,2005,4(4):346-351.
10汪西原.基于贝叶斯估计的复小波域图像去噪[J].陕西师范大学学报（自然科学版）,2005,33(4):62-65. 被引量：1

同被引文献8

1孔祥辉,张介驰,马庆芳,韩增华,张丕奇,杨志兴.蕈菌核糖核酸酶蛋白和肽的研究进展[J].菌物研究,2008,6(2):119-124. 被引量：3
2孙华,张航.汉字识别方法综述[J].计算机工程,2010,36(20):194-197. 被引量：28
3姚雪红.文献数字化的实践与探索[J].情报科学,2011,29(12):1838-1840. 被引量：7
4寇清华,郑巧红.文献数字化技术的特点及其发展趋势分析[J].微计算机信息,2012,28(5):109-110. 被引量：1
5邱立松,黄继风.文本图像信息的提取与识别[J].计算机与数字工程,2013,41(12):1981-1984. 被引量：3
6姚一建.中国大型真菌红色名录评估[J].生物多样性,2020,28(1):1-3. 被引量：20
7王科,刘冬梅,蔡蕾,吴海军,李熠,魏铁铮,王永会,吴红梅,卫晓丹,李斌斌,李俊生,姚一建.中国大型真菌红色名录评估方法和程序[J].生物多样性,2020,28(1):11-19. 被引量：12
8李熠,唐志尧,闫昱晶,王科,蔡磊,贺金生,古松,姚一建.物种分布模型在大型真菌红色名录评估及保护中的应用:以冬虫夏草为例[J].生物多样性,2020,28(1):99-106. 被引量：8

引证文献1

1王科,赵明君,苏锦河,杨柳,邓红,王永会,吴海军,李熠,吴红梅,卫晓丹,魏铁铮,蔡磊,姚一建.中国菌物名录数据库在大型真菌红色名录编制中的作用[J].生物多样性,2020,28(1):74-98. 被引量：13

二级引证文献13

1王科,杨祝良,赵长林,袁海生,赵鹏,戴玉成,张修国,图力古尔,韩燕峰,范鑫磊,蒋淑华,姚一建,蔡磊.中国菌物汉语学名拟定和使用现状及2021年中国新物种的拉丁——汉语学名名录[J].菌物研究,2023,21(1):42-64. 被引量：4
2姚一建.中国大型真菌红色名录评估[J].生物多样性,2020,28(1):1-3. 被引量：20
3姚一建,魏江春,庄文颖,蔡蕾,刘冬梅,李俊生,魏铁铮,李熠,王科,吴海军.中国大型真菌红色名录评估研究进展[J].生物多样性,2020,28(1):4-10. 被引量：20
4王科,刘冬梅,蔡蕾,吴海军,李熠,魏铁铮,王永会,吴红梅,卫晓丹,李斌斌,李俊生,姚一建.中国大型真菌红色名录评估方法和程序[J].生物多样性,2020,28(1):11-19. 被引量：12
5李熠,刘冬梅,王科,吴海军,蔡蕾,蔡磊,李俊生,姚一建.中国大型真菌红色名录评估中存在的问题及今后的对策[J].生物多样性,2020,28(1):66-73. 被引量：7
6Li-Shen Qian,Jia-Hui Chen,Tao Deng,Hang Sun.Plant diversity in Yunnan:Current status and future directions[J].Plant Diversity,2020,42(4):281-291. 被引量：14
7普布多吉,芦晓苇,央金拉姆,王科.西藏口蘑科物种资源概述(Ⅰ)--口蘑类[J].西藏科技,2021(9):14-18. 被引量：3
8江建平,杜诚,刘冰,王科,蔡磊,李强,黄晓磊.中国生物物种编目进展与展望[J].生物多样性,2022,30(10):102-116. 被引量：18
9李亚男,闫湉溦,李博.中国蜈蚣衣科地衣多样性及区系研究[J].西北植物学报,2023,43(3):512-522. 被引量：5
10冯清圩,卿香草,张锐杰,林志强,贺新生.中国核纤孔菌属、纤孔菌属物种多样性研究进展[J].食用菌,2023,45(4):14-21. 被引量：1

1宋震.高校图书馆计算机网络安全研究[J].软件,2014,35(4):113-115. 被引量：8
2王宁.模板处理在数字化文献中的应用[J].图书情报论坛,2000(4):19-21.
3毕晓君,赵文.基于高阶累积量的文本图像去噪算法[J].应用科技,2007,34(10):1-4. 被引量：1
4徐彬荣.文献信息数字化是实现资源共享的关键[J].现代图书情报技术,2003(S2):86-87.
5杨晓农.我国文献信息数字化技术的发展[J].中国信息导报,2004(5):32-33. 被引量：9
6林红.浅谈网络环境下高职院校图书馆的服务与管理[J].电子世界,2014(11):172-172. 被引量：2
7郑才松,季铎,蔡东风.基于系统融合的专家同名区分方法[J].沈阳航空航天大学学报,2014,31(2):74-78. 被引量：2
8李媛媛,唐庆辉,颜勇.扫描技巧[J].数码印刷,2003(1):36-37.
9田甜,乐嘉锦.基于肤色及AdaBoost算法的改进的人脸检测方法[J].计算机应用与软件,2009,26(12):79-81. 被引量：7
10陈朝阳.重要文献信息数模转换工作方案的研究[J].数字与缩微影像,2015(3):9-14. 被引量：1

智能系统学报

2010年第2期

浏览历史

内容加载中请稍等...

小波的文本图像区分及其在文献信息数字化中的应用被引量：1

参考文献11

二级参考文献30

共引文献75

同被引文献8

引证文献1

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

小波的文本图像区分及其在文献信息数字化中的应用 被引量：1

参考文献11

二级参考文献30

共引文献75

同被引文献8

引证文献1

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

小波的文本图像区分及其在文献信息数字化中的应用被引量：1