For some important object recognition applications such as intelligent robots and unmanned driving, images are collected on a consecutive basis and associated among themselves, besides, the scenes have steady prior fe...For some important object recognition applications such as intelligent robots and unmanned driving, images are collected on a consecutive basis and associated among themselves, besides, the scenes have steady prior features. Yet existing technologies do not take full advantage of this information. In order to take object recognition further than existing algorithms in the above application, an object recognition method that fuses temporal sequence with scene priori information is proposed. This method first employs YOLOv3 as the basic algorithm to recognize objects in single-frame images, then the DeepSort algorithm to establish association among potential objects recognized in images of different moments, and finally the confidence fusion method and temporal boundary processing method designed herein to fuse, at the decision level, temporal sequence information with scene priori information. Experiments using public datasets and self-built industrial scene datasets show that due to the expansion of information sources, the quality of single-frame images has less impact on the recognition results, whereby the object recognition is greatly improved. It is presented herein as a widely applicable framework for the fusion of information under multiple classes. All the object recognition algorithms that output object class, location information and recognition confidence at the same time can be integrated into this information fusion framework to improve performance.展开更多
自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但...自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但现有方法大多局限于二维空间,未能充分利用三维空间的位姿信息,因此无法像人类一样自然地进行三维感知;而传统三维目标跟踪任务又依赖于昂贵的传感器,并且数据采集和处理存在局限性,这使得三维目标跟踪变得更加复杂.针对上述挑战,本文提出了单目视角下自然语言描述驱动的三维目标跟踪(Natural Language-driven Object Tracking in 3D,NLOT3D)新任务,并构建了对应的数据集NLOT3D-SPD.此外,本文还设计了一个端到端的NLOT3D-TR(Natural Language-driven Object Tracking in 3D based on Transformer)模型,该模型融合了视觉与文本的跨模态特征,在NLOT3D-SPD数据集上取得了优异的实验结果.本文为NLOT3D任务提供了全面的基准测试,并进行了对比实验与消融研究,为三维目标跟踪领域的进一步发展提供了支持.展开更多
针对基于关系边界框提取的谓词特征粒度相对较粗的问题,提出区域敏感的场景图生成(region-sensitive scene graph generation,RS-SGG)方法。谓词特征提取模块将关系边界框分为4个区域,基于自注意力机制抑制关系边界框中与关系分类无关...针对基于关系边界框提取的谓词特征粒度相对较粗的问题,提出区域敏感的场景图生成(region-sensitive scene graph generation,RS-SGG)方法。谓词特征提取模块将关系边界框分为4个区域,基于自注意力机制抑制关系边界框中与关系分类无关的背景区域。关系特征解码器在进行关系预测时不仅考虑了物体对的视觉特征和语义特征,也考虑了物体对的位置特征。在视觉基因组(visual genome,VG)数据集上分别计算了RS-SGG方法针对场景图生成、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行了比较。实验结果表明,RS-SGG的图约束召回率和无图约束召回率均优于主流方法。此外,可视化实验结果也进一步证明了所提出方法的有效性。展开更多
尽管基于深度学习的目标检测在交通场景的应用已经取得了一定的进展,但复杂交通场景多目标精度与速度的博弈仍然是个挑战。大多数提升精度的方法都是参数密集型的,大大增加了模型的参数量。针对这一难题,提出了基于YOLOv8的稀疏参数模型...尽管基于深度学习的目标检测在交通场景的应用已经取得了一定的进展,但复杂交通场景多目标精度与速度的博弈仍然是个挑战。大多数提升精度的方法都是参数密集型的,大大增加了模型的参数量。针对这一难题,提出了基于YOLOv8的稀疏参数模型,实现在降低参数量的同时提升模型的召回率和检测精度。首先使用简单注意力机制(Simple Attention Mechanism,SimAM)以建立更强劲的骨干网络提取特征;其次提出轻量化的内容感知特征重组模块(Lightweight Content-Aware ReAssembly of Features,L-CARAFE)代替上采样操作,在一个更大的感受野上聚合上下文信息;最后通过稀疏参数的多解耦头,在降低参数量的同时提升模型的检测精度。由于交通场景的复杂性,不仅通过KITTI数据集验证模型的有效性,还通过COCO数据集验证模型的泛化性。该模型在公开的数据集上均能大幅提升召回率和平均精度(mean Average Precision,mAP),其中,nano在KITTI数据集上以2.95的参数量使召回率和mAP分别提高了3.1%和0.9%,小模型在COCO数据集上的mAP@0.5达到60.6%。展开更多
道路场景目标检测是智慧交通领域的重要组成部分,直接关系到众多智慧交通应用性技术的实施.然而,现有道路场景目标检测域泛化技术普遍存在域不变特征提取不充分、检测精度不高和泛化能力弱的问题.针对此问题,提出复杂天气条件下道路场...道路场景目标检测是智慧交通领域的重要组成部分,直接关系到众多智慧交通应用性技术的实施.然而,现有道路场景目标检测域泛化技术普遍存在域不变特征提取不充分、检测精度不高和泛化能力弱的问题.针对此问题,提出复杂天气条件下道路场景目标检测的域泛化方法.设计了道路场景域不变特征生成模型,分别提取源域图像的域内不变特征和域间不变特征,并生成更具多样性的复杂天气条件下的道路场景域不变特征,以提高目标检测模型的泛化能力;在此基础上,设计了道路场景目标检测域泛化模型,引入自蒸馏机制,使目标检测模型提取的特征拥有丰富的域不变特征,以进一步增强泛化能力,从而提高目标检测模型的检测精度.实验结果表明,所提出的目标检测域泛化模型性能与对比模型相比有明显提升,能显著提高目标检测模型的泛化能力和检测精度,其中F1-score较基线目标检测模型提升0.042~0.051,均值平均精度(mean average precision,mAP)提升3.0%~5.9%,证明了所提出的目标检测域泛化方法的有效性和优越性.展开更多
传统同时定位与地图构建(simultaneous localization and mapping,SLAM)在弱纹理场景中的鲁棒性差,在动态场景中受动态物体干扰。针对这些问题,提出了动态视觉SLAM。首先,在视觉前端使用几何对应网络2(geometric correspondence network...传统同时定位与地图构建(simultaneous localization and mapping,SLAM)在弱纹理场景中的鲁棒性差,在动态场景中受动态物体干扰。针对这些问题,提出了动态视觉SLAM。首先,在视觉前端使用几何对应网络2(geometric correspondence network version 2,GCNv2)提取特征点并生成二值描述子,提高SLAM在弱纹理场景中的鲁棒性;然后,引入目标检测网络对动态物体进行检测,获取当前帧的语义信息,结合多视图几何剔除动态物体,去除动态物体对SLAM的干扰。实验结果表明:在弱纹理场景中,所提方法可以持续提取足够数量的高质量特征点;在存在动态物体干扰的场景中,所提方法的绝对位姿误差和相对位姿误差较小;在静态场景中,所提方法的性能仍然较优。展开更多
文摘For some important object recognition applications such as intelligent robots and unmanned driving, images are collected on a consecutive basis and associated among themselves, besides, the scenes have steady prior features. Yet existing technologies do not take full advantage of this information. In order to take object recognition further than existing algorithms in the above application, an object recognition method that fuses temporal sequence with scene priori information is proposed. This method first employs YOLOv3 as the basic algorithm to recognize objects in single-frame images, then the DeepSort algorithm to establish association among potential objects recognized in images of different moments, and finally the confidence fusion method and temporal boundary processing method designed herein to fuse, at the decision level, temporal sequence information with scene priori information. Experiments using public datasets and self-built industrial scene datasets show that due to the expansion of information sources, the quality of single-frame images has less impact on the recognition results, whereby the object recognition is greatly improved. It is presented herein as a widely applicable framework for the fusion of information under multiple classes. All the object recognition algorithms that output object class, location information and recognition confidence at the same time can be integrated into this information fusion framework to improve performance.
文摘自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但现有方法大多局限于二维空间,未能充分利用三维空间的位姿信息,因此无法像人类一样自然地进行三维感知;而传统三维目标跟踪任务又依赖于昂贵的传感器,并且数据采集和处理存在局限性,这使得三维目标跟踪变得更加复杂.针对上述挑战,本文提出了单目视角下自然语言描述驱动的三维目标跟踪(Natural Language-driven Object Tracking in 3D,NLOT3D)新任务,并构建了对应的数据集NLOT3D-SPD.此外,本文还设计了一个端到端的NLOT3D-TR(Natural Language-driven Object Tracking in 3D based on Transformer)模型,该模型融合了视觉与文本的跨模态特征,在NLOT3D-SPD数据集上取得了优异的实验结果.本文为NLOT3D任务提供了全面的基准测试,并进行了对比实验与消融研究,为三维目标跟踪领域的进一步发展提供了支持.
文摘针对基于关系边界框提取的谓词特征粒度相对较粗的问题,提出区域敏感的场景图生成(region-sensitive scene graph generation,RS-SGG)方法。谓词特征提取模块将关系边界框分为4个区域,基于自注意力机制抑制关系边界框中与关系分类无关的背景区域。关系特征解码器在进行关系预测时不仅考虑了物体对的视觉特征和语义特征,也考虑了物体对的位置特征。在视觉基因组(visual genome,VG)数据集上分别计算了RS-SGG方法针对场景图生成、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行了比较。实验结果表明,RS-SGG的图约束召回率和无图约束召回率均优于主流方法。此外,可视化实验结果也进一步证明了所提出方法的有效性。
文摘尽管基于深度学习的目标检测在交通场景的应用已经取得了一定的进展,但复杂交通场景多目标精度与速度的博弈仍然是个挑战。大多数提升精度的方法都是参数密集型的,大大增加了模型的参数量。针对这一难题,提出了基于YOLOv8的稀疏参数模型,实现在降低参数量的同时提升模型的召回率和检测精度。首先使用简单注意力机制(Simple Attention Mechanism,SimAM)以建立更强劲的骨干网络提取特征;其次提出轻量化的内容感知特征重组模块(Lightweight Content-Aware ReAssembly of Features,L-CARAFE)代替上采样操作,在一个更大的感受野上聚合上下文信息;最后通过稀疏参数的多解耦头,在降低参数量的同时提升模型的检测精度。由于交通场景的复杂性,不仅通过KITTI数据集验证模型的有效性,还通过COCO数据集验证模型的泛化性。该模型在公开的数据集上均能大幅提升召回率和平均精度(mean Average Precision,mAP),其中,nano在KITTI数据集上以2.95的参数量使召回率和mAP分别提高了3.1%和0.9%,小模型在COCO数据集上的mAP@0.5达到60.6%。
文摘道路场景目标检测是智慧交通领域的重要组成部分,直接关系到众多智慧交通应用性技术的实施.然而,现有道路场景目标检测域泛化技术普遍存在域不变特征提取不充分、检测精度不高和泛化能力弱的问题.针对此问题,提出复杂天气条件下道路场景目标检测的域泛化方法.设计了道路场景域不变特征生成模型,分别提取源域图像的域内不变特征和域间不变特征,并生成更具多样性的复杂天气条件下的道路场景域不变特征,以提高目标检测模型的泛化能力;在此基础上,设计了道路场景目标检测域泛化模型,引入自蒸馏机制,使目标检测模型提取的特征拥有丰富的域不变特征,以进一步增强泛化能力,从而提高目标检测模型的检测精度.实验结果表明,所提出的目标检测域泛化模型性能与对比模型相比有明显提升,能显著提高目标检测模型的泛化能力和检测精度,其中F1-score较基线目标检测模型提升0.042~0.051,均值平均精度(mean average precision,mAP)提升3.0%~5.9%,证明了所提出的目标检测域泛化方法的有效性和优越性.
文摘传统同时定位与地图构建(simultaneous localization and mapping,SLAM)在弱纹理场景中的鲁棒性差,在动态场景中受动态物体干扰。针对这些问题,提出了动态视觉SLAM。首先,在视觉前端使用几何对应网络2(geometric correspondence network version 2,GCNv2)提取特征点并生成二值描述子,提高SLAM在弱纹理场景中的鲁棒性;然后,引入目标检测网络对动态物体进行检测,获取当前帧的语义信息,结合多视图几何剔除动态物体,去除动态物体对SLAM的干扰。实验结果表明:在弱纹理场景中,所提方法可以持续提取足够数量的高质量特征点;在存在动态物体干扰的场景中,所提方法的绝对位姿误差和相对位姿误差较小;在静态场景中,所提方法的性能仍然较优。