自监督几何约束的单目视觉里程计

Self-supervised geometrically constrained monocular visual odometry

下载PDF

导出

摘要针对有监督学习的视觉里程计(VO)需要繁重的真实位姿标签标注过程、VO泛化能力不足导致定位轨迹漂移大的问题,提出一种基于编码器-解码器架构的自监督单目VO网络模型。通过编码器MPVi T对图像特征进行多层次多尺度嵌入,结合解码器U-Net对低维与高维特征的逐级融合,实现了对表征平移和旋转的六自由度位姿的“端到端”学习;作为与位姿相关的几何约束,位姿变换的传递性约束与可逆性约束被集成至损失函数,有利于在局部范围内抑制VO定位的轨迹漂移。在KITTI基准数据集及自采集室外导航视频序列上的实验表明:所提VO网络模型在KITTI的9个序列中表现最优,绝对轨迹误差较次优方法DPVO平均减小25.80%,且在现实场景中能够应对环境特征稀疏性、机器人高速运动及剧烈光照变化,具有更好的鲁棒性与泛化性能。 Addressing problems like the cumbersome process of labeling real poses required for supervised learning-based visual odometry(VO)and the significant trajectory drift in positioning caused by limited generalization ability of VO,an encoder-decoder architecture-based,self-supervised monocular VO network model is proposed.By leveraging the multi-level,multi-scale embedding of image features by the encoder‘MPViT’,as well as the progressive fusion of low-dimensional and high-dimensional features by the decoder‘U-Net’,this VO achieves‘end-to-end’learning of 6-degree-of-freedom poses that represent both translation and rotation.As geometric constraints related to the pose,the transitivity and reversibility constraints of pose transformation are integrated into the loss function.They contribute to dampen trajectory drift in local areas during VO positioning.Experiments on the KITTI benchmark dataset and self-recorded outdoor navigation video sequences show that the proposed VO network model performs optimally across 9 sequences of KITTI dataset.The absolute trajectory error is reduced by an average of 25.80%compared with the suboptimal method DPVO.And in real-world scenes,it is capable of addressing environmental feature sparsity,high-speed robot motion and severe illumination variations,exhibiting better robustness and generalization abilities.

作者夏琳琳张尊正刘岘林王凯阮恒 XIA Linlin;ZHANG Zunzheng;LIU Xianlin;WANG Kai;RUAN Heng(School of Automation Engineering,Northeast Electric Power University,Jilin 132012,China)

机构地区东北电力大学自动化工程学院

出处《中国惯性技术学报》北大核心 2025年第8期761-769,共9页 Journal of Chinese Inertial Technology

基金吉林省发改委产业技术研究与开发项目(2024C007-3)。

关键词视觉里程计位姿估计多通道视觉Transformer 自监督传递性与可逆性约束 visual odometry pose estimation multi-path vision Transformer self-supervised transitivity and reversibility constraints

分类号 TP212.9 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1高旺,何少鹏,王澄非,潘树国,徐锦乐,朱道华.顾及视觉地图点协方差的VIO/UWB融合室内定位算法[J].中国惯性技术学报,2025,33(3):239-248. 被引量：2
2夏琳琳,宋梓维,方亮,孙伍虹志.基于图优化的GNSS/双目视觉/惯性SLAM系统开发及应用[J].中国惯性技术学报,2024,32(5):475-483. 被引量：9
3程向红,刘路辉,唐兴邦.一种室内环境下点线特征综合的RGB-D VO算法[J].中国惯性技术学报,2024,32(6):579-585. 被引量：6
4程彬彬,于英,张磊,王自全,江志鹏.基于深度学习的自监督单目动态场景深度估计综述[J].遥感学报,2024,28(9):2170-2186. 被引量：3
5曲熠,陈莹.基于尺度线索增强的无监督单目深度估计[J].电子学报,2024,52(9):3217-3227. 被引量：5
6张冰冰,张建新,李培华.基于时空信息辅助监督的语言-视频对比学习模型[J].计算机学报,2024,47(8):1769-1785. 被引量：2
7李玉洁,马子航,王艺甫,王星河,谭本英.视觉Transformer(ViT)发展综述[J].计算机科学,2025,52(1):194-209. 被引量：15

二级参考文献26

1杨元喜,高为广.基于多传感器观测信息抗差估计的自适应融合导航[J].武汉大学学报（信息科学版）,2004,29(10):885-888. 被引量：28
2郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. 被引量：465
3张冰冰,李培华,孙秋乐.基于局部约束仿射子空间编码的时空特征聚合卷积网络模型[J].计算机学报,2020,43(9):1589-1603. 被引量：3
4康金忠,王桂周,何国金,王慧慧,尹然宇,江威,张兆明.遥感视频卫星运动车辆目标快速检测[J].遥感学报,2020,24(9):1099-1107. 被引量：9
5ZHAO ChaoQiang,SUN QiYu,ZHANG ChongZhen,TANG Yang,QIAN Feng.Monocular depth estimation based on deep learning:An overview[J].Science China(Technological Sciences),2020,63(9):1612-1627. 被引量：28
6夏琳琳,沈冉,迟德儒,崔家硕,蒙跃.一种基于光流-线特征的单目视觉-惯性SLAM算法[J].中国惯性技术学报,2020,28(5):568-575. 被引量：13
7李玉美,郭庆华,万波,秦宏楠,王德智,徐可心,宋师琳,孙千惠,赵晓霞,杨默含,吴晓永,魏邓杰,胡天宇,苏艳军.基于激光雷达的自然资源三维动态监测现状与展望[J].遥感学报,2021,25(1):381-402. 被引量：43
8刘睿珩,叶霞,岳增营.面向自然语言处理任务的预训练模型综述[J].计算机应用,2021,41(5):1236-1246. 被引量：32
9叶星余,何元烈,汝少楠.基于生成式对抗网络及自注意力机制的无监督单目深度估计和视觉里程计[J].机器人,2021,43(2):203-213. 被引量：8
10黄平,曹镇,黄俊杰.一种基于线特征的RGB-D视觉里程计算法[J].中国惯性技术学报,2021,29(3):340-349. 被引量：12

共引文献33

1王献中,杨哲华,陈孔哲,孙峰,李鑫.一种顾及杆臂误差的GNSS/INS倾斜测量方法[J].中国惯性技术学报,2025,33(3):219-228.
2赵义武,王星朝,黄丹丹,刘智,郭星辰,侯舒帆.基于BEBLID描述子与SuperGlue补偿匹配改进的ORB-SLAM3算法[J].中国惯性技术学报,2025,33(3):249-256. 被引量：2
3詹申平,徐志慧,张屹.智慧赋能执法办案监督技术研究及应用[J].警察技术,2025(3):22-26.
4张新生,林承宇,马玉龙,王润周.融合响应特征差异的多模态AI虚假信息检测[J].情报杂志,2025,44(7):122-134. 被引量：2
5黄超,黄予昕,杨泽彬,张毅.VIG-SLAM:基于自适应多传感器融合的SLAM算法[J].电子测量与仪器学报,2025,39(5):67-74. 被引量：2
6郭旭,袁杰,谢霖伟,鲍慧敏,李世钰.室内环境下融合点线特征的双目VI-SLAM方法[J].哈尔滨工业大学学报,2025,57(8):69-78.
7程向红,于兴云,吴建峰,刘丰宇.基于点-线-面特征和曼哈顿约束的鲁棒RGB-D里程计[J].中国惯性技术学报,2025,33(7):688-697. 被引量：1
8孙进,申学.动态环境下基于改进RT-DETR的视觉SLAM方法[J].中国惯性技术学报,2025,33(8):794-801.
9陈孟元,许瑞珩,杨苏朋,丁帅.动态遮挡场景下基于改进YOLOv6s网络的SLAM算法[J].中国惯性技术学报,2025,33(8):802-811. 被引量：1
10吴一全,谢浩博.基于深度学习的单目深度估计方法综述[J].光学学报(网络版),2025(13):24-53.

1陈烽,王浩.基于多通道视觉注意力的模糊图像质量复原算法设计[J].吉林大学学报（工学版）,2023,53(9):2626-2631. 被引量：5
2陆音,蒋珍浈,孙进,沈玲.融合LightGlue的机器人单目视觉里程计[J].南京邮电大学学报(自然科学版),2025,45(4):70-77.
3张功明清.结合深度估计网络的SLAM视觉里程计研究[J].计算机与数字工程,2025,53(6):1601-1607. 被引量：2
4崔慧,郭英慧,蔡肖红,王晓燕.深度学习在肝脏及肝脏肿瘤分割中的应用进展[J].计算机工程与应用,2025,61(17):47-61.
5梁旭,张慧峰,高凯.融合改进YOLOv7-tiny与ByteTrack跟踪的胶带运输机速度测量方法[J].矿业研究与开发,2025,45(8):209-216.
6张月皎.基于光学图像几何结构约束的SAR三维成像[J].科学技术创新,2025(18):60-63.
7闫畅,周自凡,刘朵,张建东,顾建成.新型轻量化装配式桥梁伸缩缝健康监测方法研究[J].公路,2025,70(8):130-137. 被引量：2
8龚烨飞,程艳花,赵广志,刘继承,谢雨欣,余明岭,谷心浩.基于面结构光视觉检测的机器人焊缝铣削导引[J].计算机集成制造系统,2025,31(8):2816-2828. 被引量：1
9冉国锋,卢瑞,于继图.多因素条件下煤矸石识别模拟研究[J].煤炭科技,2025,46(4):92-96.
10张宪法,冯静璇,卜晓燕,曹嘉玲,苗笑冬.基于多维度光立体的飞机大部件表面缺陷检测方法[J].航空精密制造技术,2025,61(4):22-26. 被引量：1

中国惯性技术学报

2025年第8期

浏览历史

内容加载中请稍等...

自监督几何约束的单目视觉里程计

参考文献7

二级参考文献26

共引文献33

相关作者

相关机构

相关主题

浏览历史