针对鱼眼相机的传统标定过程烦琐并且不适用于日常场景图像的问题,提出了一种新的基于卷积神经网络的方法,可同时标定鱼眼镜头的内参并进行图像畸变校正。该方法通过预测不同畸变参数下像素点的位移量,从而提高鱼眼相机标定和图像畸变...针对鱼眼相机的传统标定过程烦琐并且不适用于日常场景图像的问题,提出了一种新的基于卷积神经网络的方法,可同时标定鱼眼镜头的内参并进行图像畸变校正。该方法通过预测不同畸变参数下像素点的位移量,从而提高鱼眼相机标定和图像畸变校正的精度;为了进一步提高模型精度和泛化性,在编码部分引入坐标注意力模块,增强对图像位置信息的关注度;最后为了增强图像的细节特征,在跨越连接部分设计了跨尺度融合模块。针对数据集稀缺的问题,还生成了一个新的大规模数据集,标有相应的畸变参数和畸变校正后的图像。实验结果表明:与其他鱼眼相机标定方法相比,重投影误差为0.312 pixel,标定的精度较高;与图像畸变处理方法相比,峰值信噪比(peak signal to noise ratio,PSNR)为38.055 dB,结构相似度(structural similarity,SSIM)为0.874,图像畸变校正的质量较好。展开更多
针对复杂环境下含标签货物实时记录困难的问题,提出一种面向视觉物联网(visual Internet of Things,VIoT)的文本检测方法。在视觉物联网中设计并引入基于全局上下文注意力和坐标注意力的文本检测网络(text detection network based on g...针对复杂环境下含标签货物实时记录困难的问题,提出一种面向视觉物联网(visual Internet of Things,VIoT)的文本检测方法。在视觉物联网中设计并引入基于全局上下文注意力和坐标注意力的文本检测网络(text detection network based on global context attention and coordinate attention,GCANet),首先提出一种改进型坐标注意力模块,通过水平和垂直2个并行的一维池化操作,避免了因二维全局池化造成的位置信息丢失;然后引入全局上下文注意力模块,避免在复杂的背景对文本检测的影响,并防止密集或较远间隔的文本被错误地检测。该系统中提出的GCANet在公共数据集ICDAR2015、MSRA-TD500和Total-Text上的综合指标F值分别达到87.4%、86.9%和86.3%。在工业标签数据集Label-Text上平均准确率、平均召回率和平均F值分别达到93.4%、90.9%和92.1%。此外,GCANet在矿井下的标签数据集Mine-Text上准确率、召回率和F值分别达到94.4%、84.9%和89.9%。实验结果表明,本文提出的面向视觉物联网的文本检测方法效果优异。展开更多
文摘针对鱼眼相机的传统标定过程烦琐并且不适用于日常场景图像的问题,提出了一种新的基于卷积神经网络的方法,可同时标定鱼眼镜头的内参并进行图像畸变校正。该方法通过预测不同畸变参数下像素点的位移量,从而提高鱼眼相机标定和图像畸变校正的精度;为了进一步提高模型精度和泛化性,在编码部分引入坐标注意力模块,增强对图像位置信息的关注度;最后为了增强图像的细节特征,在跨越连接部分设计了跨尺度融合模块。针对数据集稀缺的问题,还生成了一个新的大规模数据集,标有相应的畸变参数和畸变校正后的图像。实验结果表明:与其他鱼眼相机标定方法相比,重投影误差为0.312 pixel,标定的精度较高;与图像畸变处理方法相比,峰值信噪比(peak signal to noise ratio,PSNR)为38.055 dB,结构相似度(structural similarity,SSIM)为0.874,图像畸变校正的质量较好。
文摘针对复杂环境下含标签货物实时记录困难的问题,提出一种面向视觉物联网(visual Internet of Things,VIoT)的文本检测方法。在视觉物联网中设计并引入基于全局上下文注意力和坐标注意力的文本检测网络(text detection network based on global context attention and coordinate attention,GCANet),首先提出一种改进型坐标注意力模块,通过水平和垂直2个并行的一维池化操作,避免了因二维全局池化造成的位置信息丢失;然后引入全局上下文注意力模块,避免在复杂的背景对文本检测的影响,并防止密集或较远间隔的文本被错误地检测。该系统中提出的GCANet在公共数据集ICDAR2015、MSRA-TD500和Total-Text上的综合指标F值分别达到87.4%、86.9%和86.3%。在工业标签数据集Label-Text上平均准确率、平均召回率和平均F值分别达到93.4%、90.9%和92.1%。此外,GCANet在矿井下的标签数据集Mine-Text上准确率、召回率和F值分别达到94.4%、84.9%和89.9%。实验结果表明,本文提出的面向视觉物联网的文本检测方法效果优异。