多模态特征融合的RGB-T目标跟踪网络

RGB-T tracking network based on multi-modal feature fusion

下载PDF

导出

摘要近年来,RGB-T跟踪方法因可见光与热红外图像的互补特性而在视觉跟踪领域得到广泛应用。然而,现有方法在模态互补信息利用方面仍存在局限,特别是基于Transformer的算法缺乏模态间的直接交互,难以充分挖掘RGB和TIR模态的语义信息。针对这些问题,提出了一种多模态特征融合的RGB-T目标跟踪网络(Multi-Modal Feature Fusion Tracking Network for RGB-T,MMFFTN)。该网络首先在骨干网络提取初步特征后,引入通道特征融合模块(Channel Feature Fusion Module,CFFM),实现RGB和TIR通道特征的直接交互与融合。其次,针对RGB和TIR模态差异可能导致的融合效果不理想问题,设计了跨模态特征融合模块(Cross-Modal Feature Fusion Module,CMFM),通过自适应融合策略进一步融合RGB和TIR的全局特征,以提升跟踪的准确性。对本文提出的跟踪模型在GTOT,RGBT234和LasHeR三个数据集上进行了详细的实验评估。实验结果表明,与当前先进的基于Transformer的跟踪器ViPT相比,MMFFTN在成功率(Success Rate)和精确率(Precision Rate)上分别提升了3.0%和4.7%;与基于Transformer的跟踪器SDSTrack相比,成功率和精确率分别提升了2.4%和3.3%。 In recent years,RGB-T tracking methods have been widely used in visual tracking tasks due to the complementarity of visible image and thermal infrared images.However,the existing RGB-T moving target tracking methods have not yet made full use of the complementary information between the two modalities,which limits the performance of the tracker.The existing Transformer-based RGB-T tracking algorithms are still short of direct interaction between the two modalities,which limits the full use of the original semantic information of RGB and TIR modalities.To solve this problem,the paper proposed a Multi-modal Feature Fusion Tracking Network for RGB-T(MMFFTN).Firstly,after extracting the preliminary features from the backbone network,the Channel Feature Fusion Module(CFFM)was introduced to realize the direct interaction and fusion of RGB and TIR channel features.Secondly,in order to solve the problem of unsatisfactory fusion effect caused by the difference between RGB and TIR modality,a Cross-Modal Feature Fusion Module(CMFM)was designed and the global features of RGB and TIR were further fused through an adaptive fusion strategy to improve the tracking accuracy.The proposed tracking model was evaluated in detail on three datasets:GTOT,RGBT234 and LasHeR.Experimental results demonstrate that MMFFTN improves the success rate and precision rate by 3.0%and 4.7%,respectively compared with the current advanced Transformer-based tracker ViPT.Compared with the Transformer-based tracker SDSTrack,the success rate and accuracy are improved by 2.4%and 3.3%,respectively.

作者金静刘建琴翟凤文 JIN Jing;LIU Jianqin;ZHAI Fengwen(School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)

机构地区兰州交通大学电子与信息工程学院

出处《光学精密工程》北大核心 2025年第12期1940-1954,共15页 Optics and Precision Engineering

基金甘肃省高校教师创新基金项目(No.2025B-060) 宁夏自然科学基金资助项目(No.2023AAC03741) 甘肃省科技计划项目重点研发计划-工业类(No.23YFGA0047)。

关键词 RGB-T目标跟踪 TRANSFORMER 通道特征融合跨模态特征融合 RGB-T tracking transformer channel feature fusion cross-modal feature fusion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张天路,张强.基于深度学习的RGB-T目标跟踪技术综述[J].模式识别与人工智能,2023,36(4):327-353. 被引量：7
2王暐,付飞亚,雷灏,唐自力.基于注意力交互的可见光红外跟踪算法[J].光学精密工程,2024,32(3):435-444. 被引量：1
3刘万军,梁林林,曲海成.利用Transformer的多模态目标跟踪算法[J].计算机工程与应用,2024,60(11):84-94. 被引量：3

二级参考文献12

1卢湖川,李佩霞,王栋.目标跟踪算法综述[J].模式识别与人工智能,2018,31(1):61-76. 被引量：173
2丁正彤,徐磊,张研,李飘扬,李阳阳,罗斌,涂铮铮.RGB-T目标跟踪综述[J].南京信息工程大学学报（自然科学版）,2019,11(6):690-697. 被引量：4
3储珺,危振,缪君,王璐.基于遮挡检测和多块位置信息融合的分块目标跟踪算法[J].模式识别与人工智能,2020,33(1):59-65. 被引量：8
4申亚丽.基于特征融合的RGBT双模态孪生跟踪网络[J].红外与激光工程,2021,50(3):228-234. 被引量：7
5杜晨杰,杨宇翔,伍瀚,何志伟,高明煜.旋转自适应的多特征融合多模板学习视觉跟踪算法[J].模式识别与人工智能,2021,34(9):787-797. 被引量：5
6姚云翔,陈莹.注意力机制下双模态交互融合的目标跟踪网络[J].系统工程与电子技术,2022,44(2):410-419. 被引量：3
7潘梦竹,李千目,邱天.深度多模态表示学习的研究综述[J].计算机工程与应用,2023,59(2):48-64. 被引量：8
8Chunyan XU,Zhen CUI,Chaoqun WANG,Chuanwei ZHOU,Jian YANG.Learning cross-modal interaction for RGB-T tracking[J].Science China(Information Sciences),2023,66(1):316-317. 被引量：1
9左一帆,方玉明,马柯德.深度学习时代图像融合技术进展[J].中国图象图形学报,2023,28(1):102-117. 被引量：11
10邱德粉,江俊君,胡星宇,刘贤明,马佳义.高分辨率可见光图像引导红外图像超分辨率的Transformer网络[J].中国图象图形学报,2023,28(1):196-206. 被引量：7

共引文献8

1姜文涛,李宛宣,张晟翀.非线性时间一致性的相关滤波目标跟踪[J].计算机应用,2024,44(8):2558-2570.
2许廷发,李天昊,王颖,李佳男.光谱信息扩展的单目标跟踪技术研究进展[J].信号处理,2024,40(11):1925-1950. 被引量：1
3江山.基于稀疏学习的去余弦窗跟踪算法[J].乐山师范学院学报,2025,40(4):12-22.
4方鑫,陈柘,刘占文,李小鹏,宿雨心.面向不同挑战及同异质信息分离的RGBT跟踪[J].电子学报,2025,53(3):910-925.
5刘哲宇,魏赟.基于轻量孪生网络的无人机RGB-T目标跟踪算法[J].建模与仿真,2025,14(6):99-109.
6韩向东,钟傲,刘冲澳,孙延鑫,张向永,徐淋智.采用注意力与模板在线更新的可见光-红外目标跟踪网络[J].西安交通大学学报,2025,59(8):187-198.
7甘文霞,潘俊杰,耿晶,王慧妮,胡小弟.一种全天候道路场景下的红外和可见光图像融合方法[J].武汉大学学报(信息科学版),2025,50(7):1346-1358.
8王高永,周军峰,戴稳成.计算机视觉多模态融合识别技术[J].中国建筑,2025,8(22):51-54.

1周苏洁.无人机智能巡检在光伏面板诊断中的应用[J].河南科技,2025,52(10):41-45. 被引量：1
2陆召阳,张荣福,景李,魏辉光.基于多尺度空谱交互网络的多光谱目标检测[J].建模与仿真,2025,14(4):205-216.
3石春晖.脑机接口从走出实验室到走向市场还有多远?[J].中关村,2025(6):58-59.
4韩向东,钟傲,刘冲澳,孙延鑫,张向永,徐淋智.采用注意力与模板在线更新的可见光-红外目标跟踪网络[J].西安交通大学学报,2025,59(8):187-198.
5张佳,谢建华,杜亚坤,黄伟荣,刘迎春,岳勇.滚刀-轴流滚筒组合式膜杂混合物切碎分离装置设计与试验[J].农业机械学报,2025,56(6):409-421. 被引量：1
6刘成壮,翟素兰,刘海庆,王鲲鹏.基于多模态特征对齐的弱对齐RGBT显著目标检测[J].计算机科学,2025,52(7):142-150. 被引量：1
7林雄豪,魏元杰,贺豪.一种轻量高效的PCB微小缺陷检测算法[J].电视技术,2025,49(5):43-49.
8王辉.基于时空图神经网络的篮球裁判手势识别算法[J].邢台学院学报,2025,40(4):94-103.
9宋建平,杨辉.脑机接口在未来临床治疗中的发展与应用[J].中国微侵袭神经外科杂志,2025,29(5):257-260. 被引量：1
10韩晔,胡辰,许悦婷.国内外近十年外语教师专业身份认同与情绪的关系研究述评[J].外语教学,2025,46(4):49-55.

光学精密工程

2025年第12期

浏览历史

内容加载中请稍等...

多模态特征融合的RGB-T目标跟踪网络

参考文献3

二级参考文献12

共引文献8

相关作者

相关机构

相关主题

浏览历史