农村房地一体档案是对农村宅基地、集体建设用地使用权及房屋所有权进行确权登记的重要依据,将签章后的纸质档案转为电子档案进行存储对不动产权证书办理具有重要意义。由于目前缺乏能识别档案内容并进行分类归档的工具,设计并实现了基...农村房地一体档案是对农村宅基地、集体建设用地使用权及房屋所有权进行确权登记的重要依据,将签章后的纸质档案转为电子档案进行存储对不动产权证书办理具有重要意义。由于目前缺乏能识别档案内容并进行分类归档的工具,设计并实现了基于Tesseract-OCR的农村房地一体归档系统。使用光学字符识别(Optical Character Recognition,OCR)对档案扫描图像进行识别,训练校正字库,提取图像中的文字信息,实现档案资料的分类存储。运用四川省某县的部分房地一体档案进行系统测验,应用结果表明,系统的识别归档准确率为96.5%,能满足房地一体档案归档需求,降低了人工识别归档的繁琐性,极大提高了归档的工作效率,提升了档案分类的准确度。展开更多
光学字符识别(optical character recognition,OCR),简单来说,主要是利用光学技术和计算机技术将目前所使用的印刷体字符通过检测每个像素的亮、暗模式转换成一个黑白图像的文件,然后再使用识别的手段将这个黑白图像的文件转换成计算机...光学字符识别(optical character recognition,OCR),简单来说,主要是利用光学技术和计算机技术将目前所使用的印刷体字符通过检测每个像素的亮、暗模式转换成一个黑白图像的文件,然后再使用识别的手段将这个黑白图像的文件转换成计算机可以识别的文字。该文主要分为四个模块:文字信息提取、字符识别、系统实现、实验结果与分析。文字信息提取模块包括图像预处理、文字信息区域的截取和修正、字符分割,对输入的图片进行处理,以降低随机噪声,确保文字信息区域包含完整的文字信息,提高识别的准确性。使用Tesseract的OCR引擎对处理后的文字信息区域部分进行识别,提取出图片中的文字信息。微软基础类库(Microsoft foundation classes,MFC),是微软公司实现的一个C++类库,主要封装了一部分的API函数,灵活性大。最后,在VS2015环境下使用微软基础类库实现了一个文字识别系统,并对样本图片库进行系统的测试。测试结果表明,该系统具有更高的识别率。展开更多
针对Tesseract文字识别框架对输入图像的像素要求,以及图像采集过程中可能出现的歪斜、黑边等情况,基于文字识别流程,对预处理阶段的二值化、缩放、边框处理与倾斜矫正进行研究与C++代码的实现。对文字识别OCR(optical character recogn...针对Tesseract文字识别框架对输入图像的像素要求,以及图像采集过程中可能出现的歪斜、黑边等情况,基于文字识别流程,对预处理阶段的二值化、缩放、边框处理与倾斜矫正进行研究与C++代码的实现。对文字识别OCR(optical character recognition,光学字符识别)的流程进行了概述,重点研究图像缩放与二值化过程,利用双线性插值算法逐像素、逐行分别对横纵坐标进行线性插值,完成图像缩放;利用最大类间方差法、聚类的思想,遍历灰度值,获取最佳二值化阈值,实现图像的二值化。参考OpenCV库函数,提出图像边框与偏移的处理思路。在VS2015环境下基于Tesseract框架,对整个流程进行实现,介绍了Tesseract框架的接口与功能、输入与输出参数。图像的预处理对文字识别必不可少,有利于Tesseract之后的识别工作。展开更多
验证码(CAPTCHA)是"Completely Automated Public Turing test to tell Computers and Humans Apart"(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。目前已成为互联网上绝大部分...验证码(CAPTCHA)是"Completely Automated Public Turing test to tell Computers and Humans Apart"(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。目前已成为互联网上绝大部分网站为保证网站数据安全,防止恶意入侵、恶意灌水,而采用的通行安全机制。采用Tesseract引擎探究图像验证码识别技术的使用,以Python语言为例,详细说明Tesseract在图像验证码识别中使用技巧。展开更多
文摘农村房地一体档案是对农村宅基地、集体建设用地使用权及房屋所有权进行确权登记的重要依据,将签章后的纸质档案转为电子档案进行存储对不动产权证书办理具有重要意义。由于目前缺乏能识别档案内容并进行分类归档的工具,设计并实现了基于Tesseract-OCR的农村房地一体归档系统。使用光学字符识别(Optical Character Recognition,OCR)对档案扫描图像进行识别,训练校正字库,提取图像中的文字信息,实现档案资料的分类存储。运用四川省某县的部分房地一体档案进行系统测验,应用结果表明,系统的识别归档准确率为96.5%,能满足房地一体档案归档需求,降低了人工识别归档的繁琐性,极大提高了归档的工作效率,提升了档案分类的准确度。
文摘光学字符识别(optical character recognition,OCR),简单来说,主要是利用光学技术和计算机技术将目前所使用的印刷体字符通过检测每个像素的亮、暗模式转换成一个黑白图像的文件,然后再使用识别的手段将这个黑白图像的文件转换成计算机可以识别的文字。该文主要分为四个模块:文字信息提取、字符识别、系统实现、实验结果与分析。文字信息提取模块包括图像预处理、文字信息区域的截取和修正、字符分割,对输入的图片进行处理,以降低随机噪声,确保文字信息区域包含完整的文字信息,提高识别的准确性。使用Tesseract的OCR引擎对处理后的文字信息区域部分进行识别,提取出图片中的文字信息。微软基础类库(Microsoft foundation classes,MFC),是微软公司实现的一个C++类库,主要封装了一部分的API函数,灵活性大。最后,在VS2015环境下使用微软基础类库实现了一个文字识别系统,并对样本图片库进行系统的测试。测试结果表明,该系统具有更高的识别率。
文摘针对Tesseract文字识别框架对输入图像的像素要求,以及图像采集过程中可能出现的歪斜、黑边等情况,基于文字识别流程,对预处理阶段的二值化、缩放、边框处理与倾斜矫正进行研究与C++代码的实现。对文字识别OCR(optical character recognition,光学字符识别)的流程进行了概述,重点研究图像缩放与二值化过程,利用双线性插值算法逐像素、逐行分别对横纵坐标进行线性插值,完成图像缩放;利用最大类间方差法、聚类的思想,遍历灰度值,获取最佳二值化阈值,实现图像的二值化。参考OpenCV库函数,提出图像边框与偏移的处理思路。在VS2015环境下基于Tesseract框架,对整个流程进行实现,介绍了Tesseract框架的接口与功能、输入与输出参数。图像的预处理对文字识别必不可少,有利于Tesseract之后的识别工作。
文摘验证码(CAPTCHA)是"Completely Automated Public Turing test to tell Computers and Humans Apart"(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。目前已成为互联网上绝大部分网站为保证网站数据安全,防止恶意入侵、恶意灌水,而采用的通行安全机制。采用Tesseract引擎探究图像验证码识别技术的使用,以Python语言为例,详细说明Tesseract在图像验证码识别中使用技巧。