基于多尺度网络与轴向注意力的3D目标检测算法

3D object detection algorithm based on multi-scale network and axial attention

下载PDF

导出

摘要在3D目标检测中小目标诸如行人和骑行者的检测精确度较低,这是自动驾驶感知系统中存在的挑战性问题。为了准确估计周围环境的状态从而提高行车安全,对Voxel R-CNN(Voxel Region-based Convolutional Neural Network)算法进行改进,提出一种基于多尺度网络与轴向注意力的3D目标检测算法。首先,在主干网络中构建多尺度网络和像素级融合模块(PFM)获取更丰富和精准的特征表示,从而增强算法在复杂场景下的鲁棒性和泛化能力;其次,设计适用于具有3D空间维度特征的轴向注意力,并将它应用于感兴趣区域(RoI)的多尺度池化特征,以在有效捕捉局部和全局特征的同时保留3D空间结构中的重要信息,从而提升算法的目标检测和分类的精度和效率;最后,将一种旋转解耦的交并比(RDIoU)方法纳入回归和分类分支,从而使网络学习更精确的边界框,并解决分类和回归之间的对齐问题。在KITTI公开数据集上的实验结果表明,所提算法对行人和骑行者的平均精度均值(mAP)分别达到了62.25%和79.36%,与基准算法Voxel R-CNN相比分别提高了4.02和3.15个百分点,显示出了改进算法在难感知目标检测上的有效性。 In 3D object detection,the detection accuracy of small targets such as pedestrians and cyclists remains low,presenting a challenging issue to perception systems of autonomous vehicles.To estimate the state of surrounding environment accurately and enhance driving safety,a 3D object detection algorithm based on a multi-scale network and axial attention was proposed after improving Voxel R-CNN(Voxel Region-based Convolutional Neural Network)algorithm.Firstly,a multi-scale network and a Pixel-level Fusion Module(PFM)were constructed in the backbone network to obtain richer and more precise feature representations,thereby enhancing robustness and generalization of the algorithm in complex scenarios.Secondly,an axial attention mechanism,tailored for 3D spatial dimension features,was designed and applied to Region of Interest(RoI)multi-scale pooling features,so as to capture both local and global features effectively while preserving essential information in 3D spatial structure,thereby improving accuracy and efficiency of object detection and classification of the algorithm.Finally,a Rotation-Decoupled Intersection over Union(RDIoU)method was brought into regression and classification branches,thereby enabling network to learn more precise bounding boxes and addressing alignment issue between classification and regression.Experimental results on KITTI public dataset show that the proposed algorithm achieves the mean Average Precision(mAP)of 62.25%for pedestrians and 79.36%for cyclists,which are improved by 4.02 and 3.15 percentage points,respectively,compared to baseline algorithm Voxel R-CNN,demonstrating the effectiveness of the improved algorithm in detecting hard-to-perceive objects.

作者颜承志陈颖钟凯高寒 YAN Chengzhi;CHEN Ying;ZHONG Kai;GAO Han(School of Computer Science and Information Engineering,Shanghai Institute of Technology,Shanghai 201418,China)

机构地区上海应用技术大学计算机科学与信息工程学院

出处《计算机应用》北大核心 2025年第8期2537-2545,共9页 journal of Computer Applications

基金国家自然科学基金资助项目(61976140) 上海应用技术大学协同创新基金资助项目(XTCX2022-25)。

关键词 3D目标检测多尺度网络特征融合轴向注意力损失函数 3D object detection multi-scale network feature fusion axial attention loss function

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1秦静,王伟滨,邹启杰,汪祖民,季长清.基于激光雷达点云的3D目标检测方法综述[J].计算机科学,2023,50(S01):249-255. 被引量：17

二级参考文献2

1李广云,李明磊,王力,杨凡,王瑞鹏.地面激光扫描点云数据预处理综述[J].测绘通报,2015(11):1-3. 被引量：40
2肖雨晴,杨慧敏.目标检测算法在交通场景中应用综述[J].计算机工程与应用,2021,57(6):30-41. 被引量：71

共引文献16

1刘培刚,薛开欣,袁昊,李宗民.基于局部感知的点云语义分割方法[J].科学技术与工程,2024,24(15):6329-6337.
2李加定,万若楠,孙小广,邓磊.基于球面投影的激光点云目标检测[J].电子测量技术,2024,47(8):93-99. 被引量：5
3朱萱,韩鹏,吴子博,朱清利.车载激光雷达参数问题研究进展[J].激光与红外,2024,54(9):1339-1345. 被引量：2
4林舒萍,宋晓,张铃.基于三维激光扫描技术的智能制造生产线目标检测研究[J].激光杂志,2024,45(10):227-231. 被引量：2
5华春林,吕旭龙,赖焱辉,林巨龙,曹彬章,陈啸.尾矿行车无人化的改进及应用实践[J].有色冶金设计与研究,2025,46(2):39-43.
6张淦,彭育辉,孙宝哲,林申炀,张家铭.基于点云特征增强的PointPillars改进算法[J].激光与光电子学进展,2025,62(6):247-256. 被引量：4
7胡淑杰,李恒磊.基于激光雷达的安全帽检测[J].智能物联技术,2025,57(2):94-97.
8周牧,冉浩成,王勇,杜楠.基于激光雷达点云投影的多视图融合目标检测方法[J].光学学报,2025,45(12):349-359. 被引量：2
9安翠娟,秦宇龙,谢俊杰,丁大伟.面向目标检测的图特征增强点云采样方法[J].工程科学学报,2025,47(9):1917-1927.
10钱程.基于改进MLESAC的隧道点云自适应去噪方法研究[J].光学技术,2025,51(6):750-755.

1范学明,赵坤,孙向东,马玉全,吴红林.UHPC钢纤维随机均匀分布配向系数的数值仿真验证[J].混凝土,2025(7):45-50.
2王葵,吴玲红.基于大数据深度挖掘的复杂光照图像质量评价[J].激光杂志,2025,46(7):123-128.
3邢宇阳,王慧琴,王可,王展,李源.基于光谱信息扩展的古城墙病害检测方法[J].激光与光电子学进展,2025,62(10):358-369.
4杨文飞,姜涵,潘晓扬,李茂登,周晔,张天柱.隐式3D表征学习的星表障碍物检测方法[J].深空探测学报(中英文),2025,12(2):172-178.
5吴志军,任欢,董文,肖泽民,田伟.四维计算机断层扫描联合呼吸门控技术在肺癌放射治疗中的临床研究[J].当代医学,2024,30(30):111-114.
6王辉,孔雅婷.中文国际形象结构模型构建及其实证研究[J].语言文字应用,2025(2):15-30. 被引量：2
7Ching-Lung Fan,Yu-Jen Chung,Shan-Min Yen.Comparative Analysis of Deep Learning Models for Banana Plant Detection in UAV RGB and Grayscale Imagery[J].Computers, Materials & Continua,2025,84(9):4627-4653.
8曹仰杰,王伟平,李振强,谢俊,吕润峰.融合CLIP和3D高斯的多模态场景编辑算法[J].郑州大学学报(工学版),2025,46(5):35-42.

计算机应用

2025年第8期

浏览历史

内容加载中请稍等...

基于多尺度网络与轴向注意力的3D目标检测算法

参考文献1

二级参考文献2

共引文献16

相关作者

相关机构

相关主题

浏览历史