单纯使用Transformer进行目标跟踪的特征提取时,由于没有归纳偏差而无法自适应目标尺度和外观的变化。对此,借助CNN引入多尺度特性,提出了一种基于跨尺度融合特征与轨迹提示的目标跟踪方法(Cross Scale Fusion of Features and Trajecto...单纯使用Transformer进行目标跟踪的特征提取时,由于没有归纳偏差而无法自适应目标尺度和外观的变化。对此,借助CNN引入多尺度特性,提出了一种基于跨尺度融合特征与轨迹提示的目标跟踪方法(Cross Scale Fusion of Features and Trajectory Prompts Tracker,CSFTP-Tracker)。在构建目标跟踪网络输入时,将模板图像与搜索图像同时输入CNN与ViT网络融合的编码器中,设计了一种多级空间感知金字塔模块(Multi-Level Spatial Awareness Pyramid,MSAP)。首先,对多尺度CNN特征通过自注意力机制增强目标位置信息,然后将该多尺度特征与ViT中的F-embeddings特征相融合,输入ViT编码器。这种融合策略不仅增进了ViT内部补丁之间的信息交互,还使网络能够同时利用CNN的局部特性和Transformer的全局依赖能力。其次,将ViT提取的融合特征与轨迹提示特征输入解码器中,使用自回归学习目标位置。在GOT-10k数据集上的实验结果表明,相较于基线模型,所提出网络的平均重叠率(AO)提升了1.3%,成功率得分在阈值为0.5时(SR 0.5)也提高了1.4%。展开更多
文摘单纯使用Transformer进行目标跟踪的特征提取时,由于没有归纳偏差而无法自适应目标尺度和外观的变化。对此,借助CNN引入多尺度特性,提出了一种基于跨尺度融合特征与轨迹提示的目标跟踪方法(Cross Scale Fusion of Features and Trajectory Prompts Tracker,CSFTP-Tracker)。在构建目标跟踪网络输入时,将模板图像与搜索图像同时输入CNN与ViT网络融合的编码器中,设计了一种多级空间感知金字塔模块(Multi-Level Spatial Awareness Pyramid,MSAP)。首先,对多尺度CNN特征通过自注意力机制增强目标位置信息,然后将该多尺度特征与ViT中的F-embeddings特征相融合,输入ViT编码器。这种融合策略不仅增进了ViT内部补丁之间的信息交互,还使网络能够同时利用CNN的局部特性和Transformer的全局依赖能力。其次,将ViT提取的融合特征与轨迹提示特征输入解码器中,使用自回归学习目标位置。在GOT-10k数据集上的实验结果表明,相较于基线模型,所提出网络的平均重叠率(AO)提升了1.3%,成功率得分在阈值为0.5时(SR 0.5)也提高了1.4%。