目的工业缺陷检测是现代工业质量控制中至关重要的一环,针对工业多模态缺陷检测场景下,捕捉不同形状大小、在RGB图像上感知度低的缺陷,以及减少单模态原始特征空间内存在的噪声对多模态信息交互的干扰的挑战,提出了一种基于归一化流的...目的工业缺陷检测是现代工业质量控制中至关重要的一环,针对工业多模态缺陷检测场景下,捕捉不同形状大小、在RGB图像上感知度低的缺陷,以及减少单模态原始特征空间内存在的噪声对多模态信息交互的干扰的挑战,提出了一种基于归一化流的多模态多尺度缺陷检测方法。方法首先,使用Vision Transformer和Point Transformer对RGB图像和3D点云两个模态的信息提取第1、3、11块的特征构建特征金字塔,保留低层次特征的空间信息助力缺陷定位任务,并提高模型对不同形状大小缺陷的鲁棒性;其次,为了简化多模态交互,使用过点特征对齐算法将3D点云特征对齐至RGB图像所在平面,通过构建对比学习矩阵的方式实现无监督多模态特征融合,促进不同模态之间信息的交互;此外,通过设计代理任务的方式将信息瓶颈机制扩展至无监督,并在尽可能保留原始信息的同时,减少噪声干扰得到更充分有力的多模态表示;最后,使用多尺度归一化流结构捕捉不同尺度的特征信息,实现不同尺度特征之间的交互。结果本文方法在MVTec-3D AD数据集上进行性能评估,实验结果显示Detection AUCROC(area under the curve of the receiveroperating characteristic)指标达到93.3%,SegmentationAUPRO(area under the precision-recall overlap)指标达到96.1%,Segmentation AUCROC指标达到98.8%,优于大多数现有的多模态缺陷检测方法。结论本文方法对于不同形状大小、在RGB图像上感知度低的缺陷有较好的检测效果,不但减少了原始特征空间内噪声对多模态表示的影响,并且对不同形状大小的缺陷具有一定的泛化能力,较好地满足了现代工业对于缺陷检测的要求。展开更多
多目标跟踪(multi-object tracking,MOT)结合同时定位与建图(simultaneous localization and mapping,SLAM)能够充分运用场景中动静态信息,可提升定位精度和鲁棒性而受到关注。本文提出了一种基于场景流不确定性模型的3D目标跟踪SLAM算...多目标跟踪(multi-object tracking,MOT)结合同时定位与建图(simultaneous localization and mapping,SLAM)能够充分运用场景中动静态信息,可提升定位精度和鲁棒性而受到关注。本文提出了一种基于场景流不确定性模型的3D目标跟踪SLAM算法,以双目或RGB-D图像作为输入,结合实例掩膜和IMU信息,精确检测动态特征并联合估计自身和物体的位姿变换。针对动、静态和临时静态特征无法准确识别的问题,结合实例信息和场景流不确定性建模剔除误差干扰,实现精准的动态特征检测;针对运动物体特征点稀少和跟踪困难的问题,结合KLT光流和实例信息进行鲁棒的多层级数据关联;通过构建因子图并引入车辆运动学约束,实现了自身和运动物体位姿以及地图点坐标的紧耦合优化。最后,在公开数据集上进行对比实验。结果表明,所提算法能够准确跟踪自身和运动物体的位姿变换。展开更多
现有大多数视觉同步定位与地图构建(Simultaneous Localization and Mapping, SLAM)方法大部分基于静态环境假设,导致其在动态环境中的定位精度显著下降。为解决这一问题,本文提出一种结合目标检测和光流方法的对象级动态SLAM方法。该...现有大多数视觉同步定位与地图构建(Simultaneous Localization and Mapping, SLAM)方法大部分基于静态环境假设,导致其在动态环境中的定位精度显著下降。为解决这一问题,本文提出一种结合目标检测和光流方法的对象级动态SLAM方法。该方法使用目标检测获取对象信息,结合光流和对象重投影技术来识别对象的动静属性,并剔除动态对象上的特征点。随后,寻找检测对象和地图中对象的最佳匹配关系。然后,在关键帧中优化静态对象,同时提出一种动态二次曲面优化策略,用于在对象地图中优化动态二次曲面模型,并追踪动态对象的运动轨迹。最后,重建稠密静态背景。在Bonn和TUM数据集上的实验表明,本文方法的绝对位姿精度提升约44.3%,相对位姿精度提升约19.0%。实验结果表明,本文方法在动态场景中能够实现更精确、更稳健的定位。为进一步验证系统的在线性能,本文还在真实动态场景中对该系统进行了测试,并达到了预期的结果。展开更多
视觉同步定位与建图技术常用于室内智能机器人的导航,但是其位姿是以静态环境为前提进行估计的。为了提升视觉即时定位与建图(Simultaneous Localization And Mapping,SLAM)在动态场景中的定位与建图的鲁棒性和实时性,在原ORB-SLAM2基...视觉同步定位与建图技术常用于室内智能机器人的导航,但是其位姿是以静态环境为前提进行估计的。为了提升视觉即时定位与建图(Simultaneous Localization And Mapping,SLAM)在动态场景中的定位与建图的鲁棒性和实时性,在原ORB-SLAM2基础上新增动态区域检测线程和语义点云线程。动态区域检测线程由实例分割网络和光流估计网络组成,实例分割赋予动态场景语义信息的同时生成先验性动态物体的掩膜。为了解决实例分割网络的欠分割问题,采用轻量级光流估计网络辅助检测动态区域,生成准确性更高的动态区域掩膜。将生成的动态区域掩膜传入到跟踪线程中进行实时剔除动态区域特征点,然后使用地图中剩余的静态特征点进行相机的位姿估计并建立语义点云地图。在公开TUM数据集上的实验结果表明,改进后的SLAM系统在保证实时性的前提下,提升了其在动态场景中的定位与建图的鲁棒性。展开更多
We propose a dynamic simultaneous localization and mapping technology for unsupervised motion removal(UMR-SLAM),which is a deep learning-based dynamic RGBD SLAM.It is the first time that a scheme combining scene flow ...We propose a dynamic simultaneous localization and mapping technology for unsupervised motion removal(UMR-SLAM),which is a deep learning-based dynamic RGBD SLAM.It is the first time that a scheme combining scene flow and deep learning SLAM is proposed to improve the accuracy of SLAM in dynamic scenes,in response to the situation where dynamic objects cause pose changes.The entire process does not require explicit object segmentation as supervisory information.We also propose a loop detection scheme that combines optical flow and feature similarity in the backend optimization section of the SLAM system to improve the accuracy of loop detection.UMR-SLAM is rewritten based on the DROID-SLAM code architecture.Through experiments on different datasets,it has been proven that our scheme has higher pose accuracy in dynamic scenarios compared with the current advanced SLAM algorithm.展开更多
对于场景流估计来说,提取到丰富的全局相关性对于获取精确的特征匹配非常重要。本文提出了一种基于全局相关性的多尺度3D点云场景流估计网络(multi-scale 3D point cloud scene flow based on globalcorrelation,MGCSF),该网络引入了通...对于场景流估计来说,提取到丰富的全局相关性对于获取精确的特征匹配非常重要。本文提出了一种基于全局相关性的多尺度3D点云场景流估计网络(multi-scale 3D point cloud scene flow based on globalcorrelation,MGCSF),该网络引入了通道亲和性注意力(channel affinity attention,CAA)模块和逐点注意力模块(point-wise attention module,PAM),通过融合不同层次点云的特征信息以捕获全局性的运动趋势和变化,在一定程度上减少了点云特征信息丢失,从而可以更好地计算点云场景流。在关键数据集FlyingThings3D和KITTI上的实验性能均取得了一定的提升。与基线相比,在FlyingThings3D数据集上,三维端点误差(3D end-point-error,EPE3D)降低了13%,三维的严格准确率(3D accuracy strict,ACC3DS)提升了11%,三维的宽松准确率(3Daccuracyrelax,ACC3DR)提升了4.7%,三维异常值(3DOutliers,Outliers3D)降低了10.8%;在KITTI数据集上,全部点上的EPE3D(full EPE3D,EPE3Dfull)降低了10.7%,ACC3DS提升了2.1%,ACC3DR提升了1.7%,Outliers3D降低了5.5%。展开更多
目的移动智能体在执行同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)的复杂任务时,动态物体的干扰会导致特征点间的关联减弱,系统定位精度下降,为此提出一种面向室内动态场景下基于YOLOv5和几何约束的视觉SLAM算法...目的移动智能体在执行同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)的复杂任务时,动态物体的干扰会导致特征点间的关联减弱,系统定位精度下降,为此提出一种面向室内动态场景下基于YOLOv5和几何约束的视觉SLAM算法。方法首先,以YOLOv5s为基础,将原有的CSPDarknet主干网络替换成轻量级的MobileNetV3网络,可以减少参数、加快运行速度,同时与ORB-SLAM2系统相结合,在提取ORB特征点的同时获取语义信息,并剔除先验的动态特征点。然后,结合光流法和对极几何约束对可能残存的动态特征点进一步剔除。最后,仅用静态特征点对相机位姿进行估计。结果在TUM数据集上的实验结果表明,与ORB-SLAM2相比,在高动态序列下的ATE和RPE都减少了90%以上,与DS-SLAM、Dyna-SLAM同类型系统相比,在保证定位精度和鲁棒性的同时,跟踪线程中处理一帧图像平均只需28.26 ms。结论该算法能够有效降低动态物体对实时SLAM过程造成的干扰,为实现更加智能化、自动化的包装流程提供了可能。展开更多
文摘目的工业缺陷检测是现代工业质量控制中至关重要的一环,针对工业多模态缺陷检测场景下,捕捉不同形状大小、在RGB图像上感知度低的缺陷,以及减少单模态原始特征空间内存在的噪声对多模态信息交互的干扰的挑战,提出了一种基于归一化流的多模态多尺度缺陷检测方法。方法首先,使用Vision Transformer和Point Transformer对RGB图像和3D点云两个模态的信息提取第1、3、11块的特征构建特征金字塔,保留低层次特征的空间信息助力缺陷定位任务,并提高模型对不同形状大小缺陷的鲁棒性;其次,为了简化多模态交互,使用过点特征对齐算法将3D点云特征对齐至RGB图像所在平面,通过构建对比学习矩阵的方式实现无监督多模态特征融合,促进不同模态之间信息的交互;此外,通过设计代理任务的方式将信息瓶颈机制扩展至无监督,并在尽可能保留原始信息的同时,减少噪声干扰得到更充分有力的多模态表示;最后,使用多尺度归一化流结构捕捉不同尺度的特征信息,实现不同尺度特征之间的交互。结果本文方法在MVTec-3D AD数据集上进行性能评估,实验结果显示Detection AUCROC(area under the curve of the receiveroperating characteristic)指标达到93.3%,SegmentationAUPRO(area under the precision-recall overlap)指标达到96.1%,Segmentation AUCROC指标达到98.8%,优于大多数现有的多模态缺陷检测方法。结论本文方法对于不同形状大小、在RGB图像上感知度低的缺陷有较好的检测效果,不但减少了原始特征空间内噪声对多模态表示的影响,并且对不同形状大小的缺陷具有一定的泛化能力,较好地满足了现代工业对于缺陷检测的要求。
文摘多目标跟踪(multi-object tracking,MOT)结合同时定位与建图(simultaneous localization and mapping,SLAM)能够充分运用场景中动静态信息,可提升定位精度和鲁棒性而受到关注。本文提出了一种基于场景流不确定性模型的3D目标跟踪SLAM算法,以双目或RGB-D图像作为输入,结合实例掩膜和IMU信息,精确检测动态特征并联合估计自身和物体的位姿变换。针对动、静态和临时静态特征无法准确识别的问题,结合实例信息和场景流不确定性建模剔除误差干扰,实现精准的动态特征检测;针对运动物体特征点稀少和跟踪困难的问题,结合KLT光流和实例信息进行鲁棒的多层级数据关联;通过构建因子图并引入车辆运动学约束,实现了自身和运动物体位姿以及地图点坐标的紧耦合优化。最后,在公开数据集上进行对比实验。结果表明,所提算法能够准确跟踪自身和运动物体的位姿变换。
文摘现有大多数视觉同步定位与地图构建(Simultaneous Localization and Mapping, SLAM)方法大部分基于静态环境假设,导致其在动态环境中的定位精度显著下降。为解决这一问题,本文提出一种结合目标检测和光流方法的对象级动态SLAM方法。该方法使用目标检测获取对象信息,结合光流和对象重投影技术来识别对象的动静属性,并剔除动态对象上的特征点。随后,寻找检测对象和地图中对象的最佳匹配关系。然后,在关键帧中优化静态对象,同时提出一种动态二次曲面优化策略,用于在对象地图中优化动态二次曲面模型,并追踪动态对象的运动轨迹。最后,重建稠密静态背景。在Bonn和TUM数据集上的实验表明,本文方法的绝对位姿精度提升约44.3%,相对位姿精度提升约19.0%。实验结果表明,本文方法在动态场景中能够实现更精确、更稳健的定位。为进一步验证系统的在线性能,本文还在真实动态场景中对该系统进行了测试,并达到了预期的结果。
文摘视觉同步定位与建图技术常用于室内智能机器人的导航,但是其位姿是以静态环境为前提进行估计的。为了提升视觉即时定位与建图(Simultaneous Localization And Mapping,SLAM)在动态场景中的定位与建图的鲁棒性和实时性,在原ORB-SLAM2基础上新增动态区域检测线程和语义点云线程。动态区域检测线程由实例分割网络和光流估计网络组成,实例分割赋予动态场景语义信息的同时生成先验性动态物体的掩膜。为了解决实例分割网络的欠分割问题,采用轻量级光流估计网络辅助检测动态区域,生成准确性更高的动态区域掩膜。将生成的动态区域掩膜传入到跟踪线程中进行实时剔除动态区域特征点,然后使用地图中剩余的静态特征点进行相机的位姿估计并建立语义点云地图。在公开TUM数据集上的实验结果表明,改进后的SLAM系统在保证实时性的前提下,提升了其在动态场景中的定位与建图的鲁棒性。
文摘We propose a dynamic simultaneous localization and mapping technology for unsupervised motion removal(UMR-SLAM),which is a deep learning-based dynamic RGBD SLAM.It is the first time that a scheme combining scene flow and deep learning SLAM is proposed to improve the accuracy of SLAM in dynamic scenes,in response to the situation where dynamic objects cause pose changes.The entire process does not require explicit object segmentation as supervisory information.We also propose a loop detection scheme that combines optical flow and feature similarity in the backend optimization section of the SLAM system to improve the accuracy of loop detection.UMR-SLAM is rewritten based on the DROID-SLAM code architecture.Through experiments on different datasets,it has been proven that our scheme has higher pose accuracy in dynamic scenarios compared with the current advanced SLAM algorithm.
文摘对于场景流估计来说,提取到丰富的全局相关性对于获取精确的特征匹配非常重要。本文提出了一种基于全局相关性的多尺度3D点云场景流估计网络(multi-scale 3D point cloud scene flow based on globalcorrelation,MGCSF),该网络引入了通道亲和性注意力(channel affinity attention,CAA)模块和逐点注意力模块(point-wise attention module,PAM),通过融合不同层次点云的特征信息以捕获全局性的运动趋势和变化,在一定程度上减少了点云特征信息丢失,从而可以更好地计算点云场景流。在关键数据集FlyingThings3D和KITTI上的实验性能均取得了一定的提升。与基线相比,在FlyingThings3D数据集上,三维端点误差(3D end-point-error,EPE3D)降低了13%,三维的严格准确率(3D accuracy strict,ACC3DS)提升了11%,三维的宽松准确率(3Daccuracyrelax,ACC3DR)提升了4.7%,三维异常值(3DOutliers,Outliers3D)降低了10.8%;在KITTI数据集上,全部点上的EPE3D(full EPE3D,EPE3Dfull)降低了10.7%,ACC3DS提升了2.1%,ACC3DR提升了1.7%,Outliers3D降低了5.5%。
文摘目的移动智能体在执行同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)的复杂任务时,动态物体的干扰会导致特征点间的关联减弱,系统定位精度下降,为此提出一种面向室内动态场景下基于YOLOv5和几何约束的视觉SLAM算法。方法首先,以YOLOv5s为基础,将原有的CSPDarknet主干网络替换成轻量级的MobileNetV3网络,可以减少参数、加快运行速度,同时与ORB-SLAM2系统相结合,在提取ORB特征点的同时获取语义信息,并剔除先验的动态特征点。然后,结合光流法和对极几何约束对可能残存的动态特征点进一步剔除。最后,仅用静态特征点对相机位姿进行估计。结果在TUM数据集上的实验结果表明,与ORB-SLAM2相比,在高动态序列下的ATE和RPE都减少了90%以上,与DS-SLAM、Dyna-SLAM同类型系统相比,在保证定位精度和鲁棒性的同时,跟踪线程中处理一帧图像平均只需28.26 ms。结论该算法能够有效降低动态物体对实时SLAM过程造成的干扰,为实现更加智能化、自动化的包装流程提供了可能。