基于注意力机制与局部交互的视觉惯性里程计

Visual-inertial Odometry Based on Attention Mechanism and Local Interaction

下载PDF

导出

摘要视觉惯性里程计(visual-inertial odometry,VIO)通过融合视觉和惯性数据来实现位姿估计.在复杂环境中,惯性数据受噪声干扰,长时间运动会导致累积误差,同时大多数VIO忽略了模态间局部信息交互,未充分利用不同模态的互补性,从而影响位姿估计精度.针对上述问题,本文提出了一种基于注意力机制与局部交互的视觉惯性里程计(attention and local interaction-based visual-inertial odometry,ALVIO)模型.首先,该模型分别提取到视觉特征和惯性特征.其次,保留惯性特征的历史时序信息,并通过基于离散余弦变换(discrete cosine transform,DCT)的通道注意力机制增强低频有效特征,抑制高频噪声.接着,设计了多模态局部交互与全局融合模块,利用改进的分散注意力机制与MLP-Mixer逐步实现模态间的局部交互与全局融合,根据不同模态的贡献调节局部特征权重,实现模态间互补,再在全局维度上整合特征,得到统一表征.最后,将融合的特征进行时间建模和位姿回归得到相对位姿.为了验证模型在复杂环境下的有效性,对公开数据集KITTI和EuRoC进行了低质量处理并实验,实验表明,ALVIO相较于直接特征拼接模型、多头注意力融合模型、软掩码融合模型,平移误差分别减少了49.92%、32.82%、37.74%,旋转误差分别减少了51.34%、25.96%、29.54%,且具有更高的效率和鲁棒性. Visual-inertial odometry(VIO)achieves pose estimation by fusing visual and inertial data.In complex environments,inertial data are prone to noise interference,and long-term motion leads to cumulative errors.Additionally,most VIO models overlook local information interaction between modalities and fail to fully utilize their complementary nature,thereby compromising pose estimation accuracy.To address these issues,this study proposes an attention and local interaction-based visual-inertial odometry(ALVIO)model.First,the model extracts visual features and inertial features.Then,the historical time-series information of the inertial features is preserved,and a channel attention mechanism based on discrete cosine transform(DCT)is applied to enhance low-frequency effective features and suppress high-frequency noise.Next,a multi-modal local interaction and global fusion module is designed,which gradually achieves local interaction and global fusion between modalities through improved split-attention mechanism and MLPMixer.This module adjusts the local feature weights based on the contributions of different modalities to realize intermodal complementarity and then integrates the features globally to obtain a unified representation.Finally,the fused features are used for temporal modeling and pose regression to obtain relative poses.To verify the effectiveness of the model in complex environments,this paper conducts experiments on processed low-quality versions of the public KITTI and EuRoC datasets.The results show that,compared to the direct feature concatenation model,the multi-head attention fusion model,and the soft mask fusion model,ALVIO reduces the translation error by 49.92%,32.82%,and 37.74%,respectively,and the rotation error by 51.34%,25.96%,and 29.54%,respectively,while also demonstrating higher efficiency and robustness.

作者王顺兰沈艳 WANG Shun-Lan;SHEN Yan(School of Computer Science,Chengdu University of Information Technology,Chengdu 610225,China)

机构地区成都信息工程大学计算机学院

出处《计算机系统应用》 2025年第8期125-138,共14页 Computer Systems & Applications

基金国家自然科学基金(62172061) 四川省揭榜挂帅项目(2023YFG0374)。

关键词视觉惯性里程计位姿估计通道注意力分散注意力 MLP-Mixer visual-inertial odometry(VIO) pose estimation channel attention split-attention MLP-Mixer

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陈妍妍,田大新,林椿眄,殷鸿博.端到端自动驾驶系统研究综述[J].中国图象图形学报,2024,29(11):3216-3237. 被引量：18
2孙弋,张雪丽.基于改进MSCKF算法的室内机器人定位方法[J].计算机系统应用,2020,29(2):238-243. 被引量：2
3王文森,黄凤荣,王旭,刘庆璘,羿博珩.基于深度学习的视觉惯性里程计技术综述[J].计算机科学与探索,2023,17(3):549-560. 被引量：5
4张震宇,杨小冈,卢瑞涛,王思宇,朱正杰.VFE-VO:视觉特征增强的光流法视觉里程计算法[J].激光与光电子学进展,2025,62(6):108-115. 被引量：4

二级参考文献11

1徐则中,庄燕滨.移动机器人定位方法对比研究[J].系统仿真学报,2009,21(7):1891-1896. 被引量：17
2侯永宏,刘艳,吕华龙,吴琦,赵健,陈艳芳.一种基于双目视觉的无人机自主导航系统[J].天津大学学报（自然科学与工程技术版）,2019,52(12):1262-1269. 被引量：22
3潘峰,鲍泓.强化学习的自动驾驶控制技术研究进展[J].中国图象图形学报,2021,26(1):28-35. 被引量：18
4余洪山,郭丰,郭林峰,王佳龙,付强.融合改进SuperPoint网络的鲁棒单目视觉惯性SLAM[J].仪器仪表学报,2021,42(1):116-126. 被引量：24
5卢俊鑫,方志军,陈婕妤,高永彬.点线特征结合的RGB-D视觉里程计[J].光学学报,2021,41(4):141-151. 被引量：10
6Jinyu LI,Bangbang YANG,Danpeng CHEN,Nan WANG,Guofeng ZHANG,Hujun BAO.Survey and evaluation of monocular visual-inertial SLAM algorithms for augmented reality[J].Virtual Reality & Intelligent Hardware,2019,1(4):386-410. 被引量：8
7任泽裕,王振超,柯尊旺,李哲,吾守尔·斯拉木.多模态数据融合综述[J].计算机工程与应用,2021,57(18):49-64. 被引量：107
8陈浩,杨恺伦,胡伟健,白剑,汪凯巍.基于全景环带成像的语义视觉里程计[J].光学学报,2021,41(22):142-152. 被引量：6
9蒋林,刘奇,雷斌,左建朋,赵慧.激光与视觉融合识别并构建语义地图改善定位性能[J].中国激光,2022,49(18):134-148. 被引量：20
10李熙莹,叶芝桧,韦世奎,陈泽,陈小彤,田永鸿,党建武,付树军,赵耀.基于图像的自动驾驶3D目标检测综述——基准、制约因素和误差分析[J].中国图象图形学报,2023,28(6):1709-1740. 被引量：16

共引文献25

1高琦,白金牛.基于多传感器融合的移动机器人定位算法研究[J].自动化与仪器仪表,2023(3):295-300. 被引量：4
2朱倩倩,张迪,赖际舟,王大元,吕品,袁诚,雍成优.基于测距信息辅助深度优化的低空飞行器单目视觉惯性里程计[J].导航定位与授时,2024,11(6):100-112. 被引量：2
3刘悦,李化义,张世杰,张超,赵祥天.面向视觉惯导的导航系统初始化技术综述[J].计算机工程与应用,2025,61(2):1-18. 被引量：3
4刘珺蕙.自动驾驶与智能道路节能应用中的实践案例探析[J].西安交通工程学院学术研究,2025,10(1):67-72.
5边靖伟,陈树星,李振鹏.面向自动驾驶的可解释人工智能技术研究[J].专用汽车,2025(6):5-9. 被引量：1
6程亮,罗洲,何赟泽,陈永灿.视觉和激光SLAM发展综述与展望[J].中国测试,2025,51(6):1-16. 被引量：4
7李升波,江昆,田野,陈晨,孙剑,杨殿阁.汽车智能驾驶技术发展与趋势展望[J].前瞻科技,2025,4(2):144-157. 被引量：5
8张乔,黄瑞,张裕,陈筱彦.基于深度学习的三维点云与IMU融合里程计[J].电子测量技术,2025,48(10):186-195.
9张瀚文,王艳阳.基于自监督学习的车辆相机-雷达里程计融合定位[J].激光与光电子学进展,2025,62(12):217-225.
10李院明,黎胜,胡旺.端到端深度学习视觉SLAM泛化[J].北斗与空间信息应用技术,2025(4):77-80. 被引量：1

1蔡素芬,许舜琴.基于双焦点理念的IBM结构化护理对精神障碍患者的护理效果研究[J].黑龙江医药,2025,38(4):990-992. 被引量：2
2于海龙,杨云云,王力.一种用于社区检测的局部全局融合标签传播算法[J].现代电子技术,2025,48(11):101-108.
3张浩晨,张竹林,史瑞岩,王文翰,雷镇诺.YOLO-CDC:优化改进YOLOv8的车辆目标检测算法[J].计算机工程与应用,2025,61(13):124-137. 被引量：6
4Indukuru Ramesh Reddy,Chang-Jong Kang,Sooran Kim,Bongjae Kim.Exploring the role of nonlocal Coulomb interactions in perovskite transition metal oxides[J].npj Computational Materials,2024(1):141-150.
5刘秋骅,徐晓苏.基于双目相机深度估计的相机-LiDAR端到端外参标定方法[J].仪器仪表学报,2025,46(5):214-225.
6朱洪波,王坦.信任分布式容积卡尔曼融合滤波的目标跟踪[J].华中科技大学学报(自然科学版),2025,53(5):31-37.
7武东辉,王金凤,仇森,刘国志.基于EWBiLSTM-ATT的数据手套手语识别[J].计算机工程,2025,51(8):107-119. 被引量：1
8马挺.加速人工智能技术赋能助力金融强国建设[J].宏观经济管理,2025(7):73-82. 被引量：4
9王秋富,毕道明,张倬,孙晓亮,于起峰.基于视惯融合的机舰相对位姿和甲板晃动测量[J].航空学报,2025,46(13):273-290.
10周英杰,郑刚,张旭.基于十字线激光的位姿测量系统研究[J].组合机床与自动化加工技术,2025(8):80-86.

计算机系统应用

2025年第8期

浏览历史

内容加载中请稍等...

基于注意力机制与局部交互的视觉惯性里程计

参考文献4

二级参考文献11

共引文献25

相关作者

相关机构

相关主题

浏览历史