现有行人重识别技术主要关注水平视角下的图像。在例如无人超市这类特定场景下,摄像头以俯视角度拍摄,仅能获得有限的行人信息。针对此问题,将多模态视觉Transformer应用于俯视图行人重识别任务,利用俯视数据集中额外的深度模态来提高...现有行人重识别技术主要关注水平视角下的图像。在例如无人超市这类特定场景下,摄像头以俯视角度拍摄,仅能获得有限的行人信息。针对此问题,将多模态视觉Transformer应用于俯视图行人重识别任务,利用俯视数据集中额外的深度模态来提高俯视图的检索精度。具体而言,提出一种基于RGB(red,green,blue)与深度多模态视觉Transformer的特征提取方法,利用双流网络提取数据集的深度信息,自集成多个自注意力层的特征输出,以此作为最终的图像特征,并对损失函数进行改进,从而提高了模型的检索效果。通过在俯视图数据集TVPR(top-view person re-identification)和TVPR2上开展实验,结果表明:所提方法能有效提升检索效果,且超过了几种先进的俯视图行人重识别方法。展开更多
文摘现有行人重识别技术主要关注水平视角下的图像。在例如无人超市这类特定场景下,摄像头以俯视角度拍摄,仅能获得有限的行人信息。针对此问题,将多模态视觉Transformer应用于俯视图行人重识别任务,利用俯视数据集中额外的深度模态来提高俯视图的检索精度。具体而言,提出一种基于RGB(red,green,blue)与深度多模态视觉Transformer的特征提取方法,利用双流网络提取数据集的深度信息,自集成多个自注意力层的特征输出,以此作为最终的图像特征,并对损失函数进行改进,从而提高了模型的检索效果。通过在俯视图数据集TVPR(top-view person re-identification)和TVPR2上开展实验,结果表明:所提方法能有效提升检索效果,且超过了几种先进的俯视图行人重识别方法。