随着电商及快递行业发展,物流分拣逐渐向智能化、无人化方向发展,如何稳定高效地定位快递盒并识别快递单号文字显得尤为重要。基于此,文章提出了一种基于YOLOv8和OCR(optical character recognition)的快递盒识别算法,首先采集200张各...随着电商及快递行业发展,物流分拣逐渐向智能化、无人化方向发展,如何稳定高效地定位快递盒并识别快递单号文字显得尤为重要。基于此,文章提出了一种基于YOLOv8和OCR(optical character recognition)的快递盒识别算法,首先采集200张各种快递盒图片并标定建立数据集,为使最终识别模型适应不同光照条件,通过对色温和亮度对基础数据图片集进行扩充,然后用YOLOv8进行训练得到最优模型,并验证不同色温和亮度条件下检测精度都大于95%。此基础上采用PaddleOCR完成文字提取和分类,提取所需要的目标快递盒信息,并在中国计算机设计大赛人工智能挑战赛智慧物流专项赛比赛平台LEO智能移动抓取机器人上部署了以上算法,通过实际竞赛验证了本文算法的有效性。展开更多
随着深度学习技术的发展,光学字符识别(optical character recognition,OCR)技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道...随着深度学习技术的发展,光学字符识别(optical character recognition,OCR)技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道,提高了模型在复杂场景下的理解与生成能力,而多任务统一大模型则通过构建通用架构,简化了模型设计,提升了多个OCR任务的处理效率。本文回顾了OCR和多模态学习领域的最新技术进展,重点介绍了OCR大模型在多模态学习和多任务统一模型中的应用与前沿进展。此外,本文还分析了OCR增强的多模态大模型、文档理解多模态大模型和针对特定OCR任务的多模态大模型的现状与挑战,探讨了OCR大模型面临的技术瓶颈和未来发展方向,包括提升分辨率处理能力、改进视觉标记压缩、增强结构化图形符号和复杂版面结构的感知与理解等,展望了其在文档数字化、程序自动化测试和智能教育等方面的广泛应用潜力。展开更多
文摘随着电商及快递行业发展,物流分拣逐渐向智能化、无人化方向发展,如何稳定高效地定位快递盒并识别快递单号文字显得尤为重要。基于此,文章提出了一种基于YOLOv8和OCR(optical character recognition)的快递盒识别算法,首先采集200张各种快递盒图片并标定建立数据集,为使最终识别模型适应不同光照条件,通过对色温和亮度对基础数据图片集进行扩充,然后用YOLOv8进行训练得到最优模型,并验证不同色温和亮度条件下检测精度都大于95%。此基础上采用PaddleOCR完成文字提取和分类,提取所需要的目标快递盒信息,并在中国计算机设计大赛人工智能挑战赛智慧物流专项赛比赛平台LEO智能移动抓取机器人上部署了以上算法,通过实际竞赛验证了本文算法的有效性。
文摘随着深度学习技术的发展,光学字符识别(optical character recognition,OCR)技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道,提高了模型在复杂场景下的理解与生成能力,而多任务统一大模型则通过构建通用架构,简化了模型设计,提升了多个OCR任务的处理效率。本文回顾了OCR和多模态学习领域的最新技术进展,重点介绍了OCR大模型在多模态学习和多任务统一模型中的应用与前沿进展。此外,本文还分析了OCR增强的多模态大模型、文档理解多模态大模型和针对特定OCR任务的多模态大模型的现状与挑战,探讨了OCR大模型面临的技术瓶颈和未来发展方向,包括提升分辨率处理能力、改进视觉标记压缩、增强结构化图形符号和复杂版面结构的感知与理解等,展望了其在文档数字化、程序自动化测试和智能教育等方面的广泛应用潜力。