针对现有的三维视觉定位方法依赖昂贵传感器设备、系统成本高且在复杂多目标定位中准确度和鲁棒性不足的问题,提出一种基于单目图像的多目标三维视觉定位方法。该方法结合自然语言描述,在单个RGB图像中实现对多个三维目标的识别。为此,...针对现有的三维视觉定位方法依赖昂贵传感器设备、系统成本高且在复杂多目标定位中准确度和鲁棒性不足的问题,提出一种基于单目图像的多目标三维视觉定位方法。该方法结合自然语言描述,在单个RGB图像中实现对多个三维目标的识别。为此,构建一个多目标视觉定位数据集Mmo3DRefer,并设计跨模态匹配网络TextVizNet。TextVizNet通过预训练的单目检测器生成目标的三维边界框,并借助信息融合模块与信息对齐模块实现视觉与语言信息的深度整合,进而实现文本指导下的多目标三维检测。与CORE-3DVG(Contextual Objects and RElations for 3D Visual Grounding)、3DVG-Transformer和Multi3DRefer(Multiple 3D object Referencing dataset and task)等5种方法对比的实验结果表明,与次优方法Multi3DRefer相比,TextVizNet在Mmo3DRefer数据集上的F1-score、精确度和召回率分别提升了8.92%、8.39%和9.57%,显著提升了复杂场景下基于文本的多目标定位精度,为自动驾驶和智能机器人等实际应用提供了有效支持。展开更多
本文提出了一种结合Voronoi图和深度强化学习的机器人路径规划方法.在全局规划方面,通过Voronoi图构建“安全区域”,利用A*算法和关键路径点提取算法优化路径点,为局部规划提供目标.局部规划采用融合阶段关键点与均衡回放策略的RainbowD...本文提出了一种结合Voronoi图和深度强化学习的机器人路径规划方法.在全局规划方面,通过Voronoi图构建“安全区域”,利用A*算法和关键路径点提取算法优化路径点,为局部规划提供目标.局部规划采用融合阶段关键点与均衡回放策略的RainbowDQN(stage-key&weight-balanced replay Rainbow deep Q-network,SW-RDQN)算法,通过3项关键设计提升复杂动态环境下的导航适应性:首先,采用多阶段路径分割策略对全局路径进行划分与剪枝,提取并保留关键路径点信息;其次,结合轨迹落点预测与环境势场设计奖励函数,引导智能体学习更安全有效的避障行为;最后,采用基于奖励与TD误差动态加权的优先经验回放,通过偏移与对数归一化提升关键经验采样概率,从而提高训练效率.状态输入融合了卷积和多层感知机提取信息,取若干场景帧送入长短期记忆网络模型,最后由稠密层做出决策,提升了机器人对动态环境的感知和响应能力.该方法有效提升了机器人在动态环境中的路径规划精度与鲁棒性.展开更多
同步定位与建图(simultaneous localization and mapping, SLAM)技术是移动机器人研究及应用的关键问题,旨在解决机器人在复杂环境中实现自主定位与地图构建等功能。对SLAM的系统组成、关键技术及应用进行了简要介绍;重点围绕特征点法...同步定位与建图(simultaneous localization and mapping, SLAM)技术是移动机器人研究及应用的关键问题,旨在解决机器人在复杂环境中实现自主定位与地图构建等功能。对SLAM的系统组成、关键技术及应用进行了简要介绍;重点围绕特征点法、滤波法、图优化法、多传感器融合和动态场景5个方面,综述了SLAM系统的关键技术、国内外研究现状及标志性应用进展;并结合代表性系统,比较分析了不同方法之间的优缺点,详细阐述了多传感器融合SLAM系统,同时对复杂场景下的SLAM技术进行了展望。展开更多
目的工业缺陷检测是现代工业质量控制中至关重要的一环,针对工业多模态缺陷检测场景下,捕捉不同形状大小、在RGB图像上感知度低的缺陷,以及减少单模态原始特征空间内存在的噪声对多模态信息交互的干扰的挑战,提出了一种基于归一化流的...目的工业缺陷检测是现代工业质量控制中至关重要的一环,针对工业多模态缺陷检测场景下,捕捉不同形状大小、在RGB图像上感知度低的缺陷,以及减少单模态原始特征空间内存在的噪声对多模态信息交互的干扰的挑战,提出了一种基于归一化流的多模态多尺度缺陷检测方法。方法首先,使用Vision Transformer和Point Transformer对RGB图像和3D点云两个模态的信息提取第1、3、11块的特征构建特征金字塔,保留低层次特征的空间信息助力缺陷定位任务,并提高模型对不同形状大小缺陷的鲁棒性;其次,为了简化多模态交互,使用过点特征对齐算法将3D点云特征对齐至RGB图像所在平面,通过构建对比学习矩阵的方式实现无监督多模态特征融合,促进不同模态之间信息的交互;此外,通过设计代理任务的方式将信息瓶颈机制扩展至无监督,并在尽可能保留原始信息的同时,减少噪声干扰得到更充分有力的多模态表示;最后,使用多尺度归一化流结构捕捉不同尺度的特征信息,实现不同尺度特征之间的交互。结果本文方法在MVTec-3D AD数据集上进行性能评估,实验结果显示Detection AUCROC(area under the curve of the receiveroperating characteristic)指标达到93.3%,SegmentationAUPRO(area under the precision-recall overlap)指标达到96.1%,Segmentation AUCROC指标达到98.8%,优于大多数现有的多模态缺陷检测方法。结论本文方法对于不同形状大小、在RGB图像上感知度低的缺陷有较好的检测效果,不但减少了原始特征空间内噪声对多模态表示的影响,并且对不同形状大小的缺陷具有一定的泛化能力,较好地满足了现代工业对于缺陷检测的要求。展开更多
文摘针对现有的三维视觉定位方法依赖昂贵传感器设备、系统成本高且在复杂多目标定位中准确度和鲁棒性不足的问题,提出一种基于单目图像的多目标三维视觉定位方法。该方法结合自然语言描述,在单个RGB图像中实现对多个三维目标的识别。为此,构建一个多目标视觉定位数据集Mmo3DRefer,并设计跨模态匹配网络TextVizNet。TextVizNet通过预训练的单目检测器生成目标的三维边界框,并借助信息融合模块与信息对齐模块实现视觉与语言信息的深度整合,进而实现文本指导下的多目标三维检测。与CORE-3DVG(Contextual Objects and RElations for 3D Visual Grounding)、3DVG-Transformer和Multi3DRefer(Multiple 3D object Referencing dataset and task)等5种方法对比的实验结果表明,与次优方法Multi3DRefer相比,TextVizNet在Mmo3DRefer数据集上的F1-score、精确度和召回率分别提升了8.92%、8.39%和9.57%,显著提升了复杂场景下基于文本的多目标定位精度,为自动驾驶和智能机器人等实际应用提供了有效支持。
文摘本文提出了一种结合Voronoi图和深度强化学习的机器人路径规划方法.在全局规划方面,通过Voronoi图构建“安全区域”,利用A*算法和关键路径点提取算法优化路径点,为局部规划提供目标.局部规划采用融合阶段关键点与均衡回放策略的RainbowDQN(stage-key&weight-balanced replay Rainbow deep Q-network,SW-RDQN)算法,通过3项关键设计提升复杂动态环境下的导航适应性:首先,采用多阶段路径分割策略对全局路径进行划分与剪枝,提取并保留关键路径点信息;其次,结合轨迹落点预测与环境势场设计奖励函数,引导智能体学习更安全有效的避障行为;最后,采用基于奖励与TD误差动态加权的优先经验回放,通过偏移与对数归一化提升关键经验采样概率,从而提高训练效率.状态输入融合了卷积和多层感知机提取信息,取若干场景帧送入长短期记忆网络模型,最后由稠密层做出决策,提升了机器人对动态环境的感知和响应能力.该方法有效提升了机器人在动态环境中的路径规划精度与鲁棒性.
文摘同步定位与建图(simultaneous localization and mapping, SLAM)技术是移动机器人研究及应用的关键问题,旨在解决机器人在复杂环境中实现自主定位与地图构建等功能。对SLAM的系统组成、关键技术及应用进行了简要介绍;重点围绕特征点法、滤波法、图优化法、多传感器融合和动态场景5个方面,综述了SLAM系统的关键技术、国内外研究现状及标志性应用进展;并结合代表性系统,比较分析了不同方法之间的优缺点,详细阐述了多传感器融合SLAM系统,同时对复杂场景下的SLAM技术进行了展望。
文摘目的工业缺陷检测是现代工业质量控制中至关重要的一环,针对工业多模态缺陷检测场景下,捕捉不同形状大小、在RGB图像上感知度低的缺陷,以及减少单模态原始特征空间内存在的噪声对多模态信息交互的干扰的挑战,提出了一种基于归一化流的多模态多尺度缺陷检测方法。方法首先,使用Vision Transformer和Point Transformer对RGB图像和3D点云两个模态的信息提取第1、3、11块的特征构建特征金字塔,保留低层次特征的空间信息助力缺陷定位任务,并提高模型对不同形状大小缺陷的鲁棒性;其次,为了简化多模态交互,使用过点特征对齐算法将3D点云特征对齐至RGB图像所在平面,通过构建对比学习矩阵的方式实现无监督多模态特征融合,促进不同模态之间信息的交互;此外,通过设计代理任务的方式将信息瓶颈机制扩展至无监督,并在尽可能保留原始信息的同时,减少噪声干扰得到更充分有力的多模态表示;最后,使用多尺度归一化流结构捕捉不同尺度的特征信息,实现不同尺度特征之间的交互。结果本文方法在MVTec-3D AD数据集上进行性能评估,实验结果显示Detection AUCROC(area under the curve of the receiveroperating characteristic)指标达到93.3%,SegmentationAUPRO(area under the precision-recall overlap)指标达到96.1%,Segmentation AUCROC指标达到98.8%,优于大多数现有的多模态缺陷检测方法。结论本文方法对于不同形状大小、在RGB图像上感知度低的缺陷有较好的检测效果,不但减少了原始特征空间内噪声对多模态表示的影响,并且对不同形状大小的缺陷具有一定的泛化能力,较好地满足了现代工业对于缺陷检测的要求。