基于三重嵌入扩展和特征聚合的跨模态行人重识别

Cross-Modal Person Re-identification Based on Triple Embedding Extension and Feature Aggregation

导出

摘要跨模态行人重识别任务存在的主要问题是可见光和红外图像之间模态差异过大,导致识别准确率低.作者提出一种基于三重嵌入扩展和特征聚合的方法,首先,对可见光图像使用通道数据增强生成第三模态图像作为输入;其次,通过三重嵌入扩展模块对可见光、红外、第三模态图像扩充以生成更多的嵌入,扩大嵌入空间,从而进一步缩小模态差异;最后,使用跨模态特征聚合模块对不同阶段的特征进行聚合,在丰富嵌入的前提下突出图像中的重要共享特征,减少无关特征对模型的影响.实验结果表明,该方法在SYSU-MM01数据集的全搜索模式下Rank-1和mAP指标分别为75.10%和71.11%;在RegDB数据集的可见光到红外模式下Rank-1和mAP指标分别为92.06%和84.44%;在低照度LLCM数据集可见光到红外模式下Rank-1和mAP分别为63.77%和66.38%,优于目前同类方法. The main problem in cross-modal pedestrian re-identification is the excessive modal difference between visible and infrared images,which leads to low recognition accuracy.To address this issue,a method based on triple embedding extension and feature aggregation is proposed.First,the visible image is augmented with channel data to generate a third modal image as input.Second,the triple embedding extension module expands the visible,infrared,and third modal images to generate more embeddings,thereby enlarging the embedding space and further reducing modal differences.Finally,the cross-modal feature aggregation module aggregates features at different stages,highlighting important shared features in the image while reducing the influence of irrelevant features on the model.Experimental results show that the Rank-1 and mAP metrics of this method are 75.10%and 71.11%in the full search mode of the SYSU-MM01 dataset,respectively;92.06%and 84.44%in the visible to infrared mode of the RegDB dataset;and 63.77%and 66.38%in the visible to infrared mode of the low illumination LLCM dataset,outperforming current state-of-the-art methods.

作者刘锁兰夏洋洋 LIU Suolan;XIA Yangyang(School of Computer Science and Artificial Intelligence,Changzhou University,Changzhou 213159,Jiangsu,China;Jiangsu Key Laboratory of Image and Video Understanding for Social Security,Nanjing University of Science and Technology,Nanjing 210094,China)

机构地区常州大学计算机与人工智能学院南京理工大学江苏省社会安全图像与视频理解重点实验室

出处《昆明理工大学学报(自然科学版)》北大核心 2025年第6期45-56,共12页 Journal of Kunming University of Science and Technology(Natural Science)

基金国家自然科学基金项目(61976028) 江苏省社会安全图像与视频理解重点实验室课题(J2021-2)。

关键词行人重识别跨模态多样化嵌入自注意力机制特征聚合 person re-identification cross-modal diverse embedding self-attention mechanism feature aggregation

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张臣,李云平,唐鑫,张亚飞,李华锋.基于深度学习的域泛化行人重识别综述[J].昆明理工大学学报（自然科学版）,2024,49(6):86-99. 被引量：1
2杨磊,谢明鸿,张亚飞,李凡,李华锋.基于混合对比学习的无监督行人重识别[J].昆明理工大学学报（自然科学版）,2023,48(6):39-53. 被引量：4

二级参考文献5

1张晓伟,吕明强,李慧.基于局部语义特征不变性的跨域行人重识别[J].北京航空航天大学学报,2020,46(9):1682-1690. 被引量：8
2李玲莉,谢明鸿,李凡,张亚飞,李华锋,谭婷婷.低秩先验引导的无监督域自适应行人重识别[J].重庆大学学报,2021,44(11):57-70. 被引量：5
3李慧,张晓伟,赵新鹏,路昕雨.基于多标签协同学习的跨域行人重识别[J].北京航空航天大学学报,2022,48(8):1534-1542. 被引量：3
4石林波,李华锋,张亚飞,谢明鸿.模态不变性特征学习和一致性细粒度信息挖掘的跨模态行人重识别[J].模式识别与人工智能,2022,35(12):1064-1077. 被引量：8
5杨磊,谢明鸿,张亚飞,李凡,李华锋.基于混合对比学习的无监督行人重识别[J].昆明理工大学学报（自然科学版）,2023,48(6):39-53. 被引量：4

共引文献3

1张臣,李云平,唐鑫,张亚飞,李华锋.基于深度学习的域泛化行人重识别综述[J].昆明理工大学学报（自然科学版）,2024,49(6):86-99. 被引量：1
2戴帅,徐计.基于最优引领森林的多粒度图对比学习[J].昆明理工大学学报(自然科学版),2025,50(1):96-105.
3王剑莹,康致武,李百成,张翊,聂瑞华,余宝贤,张涵.基于局部特征匹配和混合对比学习的无监督行人重识别[J].华南师范大学学报(自然科学版),2025,57(2):95-103.

1仙珠,杨妍.农村妇女参与乡村振兴的行动嵌入与内生发展动力研究——基于青绣产业的经验调查[J].青海民族大学学报(社会科学版),2025,51(3):57-65.
2杨真真,吴心怡.基于混合卷积增强和内容感知注意力的跨模态行人重识别[J].数据采集与处理,2025,40(6):1596-1607.
3李莹.城市群协同效应下中等收入群体消费升级路径研究——基于“三重嵌入”理论视角[J].中国商论,2025,34(22):83-86.
4王小玩,王程乙.公共领导力视角下贵州“村超”文旅经济发展机理研究[J].贵阳学院学报(社会科学版),2025,20(5):100-107.
5李媛,孔昊瑜.嵌入式赋能:区县融媒助力乡村产业振兴[J].经济与社会发展研究,2025(35):0056-0058.
6王仕勇,周雪晶.“在场的缺席”:对县级融媒体与乡村关系的考察[J].传媒观察,2025(10):5-16.
7石学梅,杨光赛,叶宁.锗基金属卤化物钙钛矿电光效应的第一性原理研究[J].人工晶体学报,2025,54(10):1764-1771.

昆明理工大学学报(自然科学版)

2025年第6期

浏览历史

内容加载中请稍等...

基于三重嵌入扩展和特征聚合的跨模态行人重识别

参考文献2

二级参考文献5

共引文献3

相关作者

相关机构

相关主题

浏览历史