随着电商及快递行业发展,物流分拣逐渐向智能化、无人化方向发展,如何稳定高效地定位快递盒并识别快递单号文字显得尤为重要。基于此,文章提出了一种基于YOLOv8和OCR(optical character recognition)的快递盒识别算法,首先采集200张各...随着电商及快递行业发展,物流分拣逐渐向智能化、无人化方向发展,如何稳定高效地定位快递盒并识别快递单号文字显得尤为重要。基于此,文章提出了一种基于YOLOv8和OCR(optical character recognition)的快递盒识别算法,首先采集200张各种快递盒图片并标定建立数据集,为使最终识别模型适应不同光照条件,通过对色温和亮度对基础数据图片集进行扩充,然后用YOLOv8进行训练得到最优模型,并验证不同色温和亮度条件下检测精度都大于95%。此基础上采用PaddleOCR完成文字提取和分类,提取所需要的目标快递盒信息,并在中国计算机设计大赛人工智能挑战赛智慧物流专项赛比赛平台LEO智能移动抓取机器人上部署了以上算法,通过实际竞赛验证了本文算法的有效性。展开更多
随着深度学习技术的发展,光学字符识别(optical character recognition,OCR)技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道...随着深度学习技术的发展,光学字符识别(optical character recognition,OCR)技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道,提高了模型在复杂场景下的理解与生成能力,而多任务统一大模型则通过构建通用架构,简化了模型设计,提升了多个OCR任务的处理效率。本文回顾了OCR和多模态学习领域的最新技术进展,重点介绍了OCR大模型在多模态学习和多任务统一模型中的应用与前沿进展。此外,本文还分析了OCR增强的多模态大模型、文档理解多模态大模型和针对特定OCR任务的多模态大模型的现状与挑战,探讨了OCR大模型面临的技术瓶颈和未来发展方向,包括提升分辨率处理能力、改进视觉标记压缩、增强结构化图形符号和复杂版面结构的感知与理解等,展望了其在文档数字化、程序自动化测试和智能教育等方面的广泛应用潜力。展开更多
图像矫正作为OCR(Optical Character Recognition,光学字符识别)系统中的一项关键预处理技术,其重要性不容忽视。在对高考招生计划书等表格类型的图片进行OCR的流程中,输入的表格类型图片常常因为拍摄角度、光线变化或者纸张的不平整而...图像矫正作为OCR(Optical Character Recognition,光学字符识别)系统中的一项关键预处理技术,其重要性不容忽视。在对高考招生计划书等表格类型的图片进行OCR的流程中,输入的表格类型图片常常因为拍摄角度、光线变化或者纸张的不平整而产生扭曲或偏斜,严重影响识别的准确率。为提升表格类型图片内容识别的准确性,提出一种基于投影图的OCR表格图像矫正算法,基于投影图对表格图片的4个顶点进行定位,为后续的图像倾斜矫正提供参考,结合图像处理技术,矫正这些扭曲和偏斜,为字符识别提供更加准确的图像基础,从而提高整个OCR系统的识别准确性和效率。展开更多
文摘随着电商及快递行业发展,物流分拣逐渐向智能化、无人化方向发展,如何稳定高效地定位快递盒并识别快递单号文字显得尤为重要。基于此,文章提出了一种基于YOLOv8和OCR(optical character recognition)的快递盒识别算法,首先采集200张各种快递盒图片并标定建立数据集,为使最终识别模型适应不同光照条件,通过对色温和亮度对基础数据图片集进行扩充,然后用YOLOv8进行训练得到最优模型,并验证不同色温和亮度条件下检测精度都大于95%。此基础上采用PaddleOCR完成文字提取和分类,提取所需要的目标快递盒信息,并在中国计算机设计大赛人工智能挑战赛智慧物流专项赛比赛平台LEO智能移动抓取机器人上部署了以上算法,通过实际竞赛验证了本文算法的有效性。
文摘随着深度学习技术的发展,光学字符识别(optical character recognition,OCR)技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道,提高了模型在复杂场景下的理解与生成能力,而多任务统一大模型则通过构建通用架构,简化了模型设计,提升了多个OCR任务的处理效率。本文回顾了OCR和多模态学习领域的最新技术进展,重点介绍了OCR大模型在多模态学习和多任务统一模型中的应用与前沿进展。此外,本文还分析了OCR增强的多模态大模型、文档理解多模态大模型和针对特定OCR任务的多模态大模型的现状与挑战,探讨了OCR大模型面临的技术瓶颈和未来发展方向,包括提升分辨率处理能力、改进视觉标记压缩、增强结构化图形符号和复杂版面结构的感知与理解等,展望了其在文档数字化、程序自动化测试和智能教育等方面的广泛应用潜力。
文摘图像矫正作为OCR(Optical Character Recognition,光学字符识别)系统中的一项关键预处理技术,其重要性不容忽视。在对高考招生计划书等表格类型的图片进行OCR的流程中,输入的表格类型图片常常因为拍摄角度、光线变化或者纸张的不平整而产生扭曲或偏斜,严重影响识别的准确率。为提升表格类型图片内容识别的准确性,提出一种基于投影图的OCR表格图像矫正算法,基于投影图对表格图片的4个顶点进行定位,为后续的图像倾斜矫正提供参考,结合图像处理技术,矫正这些扭曲和偏斜,为字符识别提供更加准确的图像基础,从而提高整个OCR系统的识别准确性和效率。