期刊文献+
共找到133篇文章
< 1 2 7 >
每页显示 20 50 100
Depth-Guided Vision Transformer With Normalizing Flows for Monocular 3D Object Detection 被引量:2
1
作者 Cong Pan Junran Peng Zhaoxiang Zhang 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第3期673-689,共17页
Monocular 3D object detection is challenging due to the lack of accurate depth information.Some methods estimate the pixel-wise depth maps from off-the-shelf depth estimators and then use them as an additional input t... Monocular 3D object detection is challenging due to the lack of accurate depth information.Some methods estimate the pixel-wise depth maps from off-the-shelf depth estimators and then use them as an additional input to augment the RGB images.Depth-based methods attempt to convert estimated depth maps to pseudo-LiDAR and then use LiDAR-based object detectors or focus on the perspective of image and depth fusion learning.However,they demonstrate limited performance and efficiency as a result of depth inaccuracy and complex fusion mode with convolutions.Different from these approaches,our proposed depth-guided vision transformer with a normalizing flows(NF-DVT)network uses normalizing flows to build priors in depth maps to achieve more accurate depth information.Then we develop a novel Swin-Transformer-based backbone with a fusion module to process RGB image patches and depth map patches with two separate branches and fuse them using cross-attention to exchange information with each other.Furthermore,with the help of pixel-wise relative depth values in depth maps,we develop new relative position embeddings in the cross-attention mechanism to capture more accurate sequence ordering of input tokens.Our method is the first Swin-Transformer-based backbone architecture for monocular 3D object detection.The experimental results on the KITTI and the challenging Waymo Open datasets show the effectiveness of our proposed method and superior performance over previous counterparts. 展开更多
关键词 monocular 3d object detection normalizing flows Swin Transformer
在线阅读 下载PDF
Monocular 3D object detection with Pseudo-LiDAR confidence sampling and hierarchical geometric feature extraction in 6G network
2
作者 Jianlong Zhang Guangzu Fang +3 位作者 Bin Wang Xiaobo Zhou Qingqi Pei Chen Chen 《Digital Communications and Networks》 SCIE CSCD 2023年第4期827-835,共9页
The high bandwidth and low latency of 6G network technology enable the successful application of monocular 3D object detection on vehicle platforms.Monocular 3D-object-detection-based Pseudo-LiDAR is a low-cost,lowpow... The high bandwidth and low latency of 6G network technology enable the successful application of monocular 3D object detection on vehicle platforms.Monocular 3D-object-detection-based Pseudo-LiDAR is a low-cost,lowpower solution compared to LiDAR solutions in the field of autonomous driving.However,this technique has some problems,i.e.,(1)the poor quality of generated Pseudo-LiDAR point clouds resulting from the nonlinear error distribution of monocular depth estimation and(2)the weak representation capability of point cloud features due to the neglected global geometric structure features of point clouds existing in LiDAR-based 3D detection networks.Therefore,we proposed a Pseudo-LiDAR confidence sampling strategy and a hierarchical geometric feature extraction module for monocular 3D object detection.We first designed a point cloud confidence sampling strategy based on a 3D Gaussian distribution to assign small confidence to the points with great error in depth estimation and filter them out according to the confidence.Then,we present a hierarchical geometric feature extraction module by aggregating the local neighborhood features and a dual transformer to capture the global geometric features in the point cloud.Finally,our detection framework is based on Point-Voxel-RCNN(PV-RCNN)with high-quality Pseudo-LiDAR and enriched geometric features as input.From the experimental results,our method achieves satisfactory results in monocular 3D object detection. 展开更多
关键词 monocular 3d object detection Pseudo-LiDAR Confidence sampling Hierarchical geometric feature extraction
在线阅读 下载PDF
基于深度图像渲染的裸眼3D图像合成研究
3
作者 苏杭 许英朝 +3 位作者 王素彬 邱骏毅 刘博 洪荣辉 《激光杂志》 北大核心 2026年第1期162-170,共9页
针对裸眼3D图像合成中存在的硬件成本高、遮挡区域有空洞及视点间串扰问题,提出了一种基于深度图像渲染的裸眼3D图像合成方法。引入单目深度估计模型Depth Anything V2,通过自监督优化与多任务联合训练实现了高精度深度信息提取,显著降... 针对裸眼3D图像合成中存在的硬件成本高、遮挡区域有空洞及视点间串扰问题,提出了一种基于深度图像渲染的裸眼3D图像合成方法。引入单目深度估计模型Depth Anything V2,通过自监督优化与多任务联合训练实现了高精度深度信息提取,显著降低对深度相机的依赖,降低成本;其次,提出了深度跳变检测与纹理外插联合的空洞填充算法,有效解决遮挡区域像素缺失问题;最后优化了像素重分配策略,通过交错式列像素分布抑制视点间光线交叠,提升了裸眼3D显示的适配性与清晰度。在多种高分辨率图像上,联合空洞填充算法的PSNR与SSIM值较于现有先进算法,分别提升0.34 dB和0.007,视差像素交错映射策略实现视点间光线交叠区域减少47%~49%,光线交叠角度平均增加2.2°~2.3°。 展开更多
关键词 单目深度估计 深度跳变检测 三维映射 视差像素交错映射
原文传递
基于3DGS的可实时驱动人体化身生成研究
4
作者 钟雨攸 沈旭昆 胡勇 《系统仿真学报》 北大核心 2026年第1期200-210,共11页
3D人体化身生成及实时驱动技术在虚拟现实、远程协作等领域具有重要应用价值。针对现有方法在细节建模、实时性与新姿态驱动鲁棒性方面的不足,提出一种基于高斯泼溅(3D Gaussian splatting,3DGS)的高效人体化身生成及驱动方法,结合优化... 3D人体化身生成及实时驱动技术在虚拟现实、远程协作等领域具有重要应用价值。针对现有方法在细节建模、实时性与新姿态驱动鲁棒性方面的不足,提出一种基于高斯泼溅(3D Gaussian splatting,3DGS)的高效人体化身生成及驱动方法,结合优化参数化人体重建、三平面特征编码与动态偏移预测实现单目视频输入的高效建模。通过引入骨骼绑定与可见性分析策略,同时设计多尺度正则损失以解决过拟合问题。仿真实验结果表明:所提方法在各项指标上均取得了非常优异的表现,尤其在新姿态驱动与遮挡场景下表现出更强的鲁棒性,验证了方法的有效性与优越性。 展开更多
关键词 高斯泼溅 可驱动人体化身 单目视频 实时渲染 参数化模型
原文传递
MonoDI:基于融合深度实例的单目3D目标检测
5
作者 赵科 董浩然 业宁 《数据采集与处理》 北大核心 2025年第5期1322-1332,共11页
单目3D目标检测旨在定位输入单个2D图像中物体的3D边界框,这在缺乏图像深度信息的情况下是一个极具困难的任务。针对2D图像在推理时的深度信息缺失以及深度图背景噪声干扰导致检测效果不佳的问题,提出一种融合深度实例的单目3D目标检测... 单目3D目标检测旨在定位输入单个2D图像中物体的3D边界框,这在缺乏图像深度信息的情况下是一个极具困难的任务。针对2D图像在推理时的深度信息缺失以及深度图背景噪声干扰导致检测效果不佳的问题,提出一种融合深度实例的单目3D目标检测方法MonoDI。其关键思想在于利用有效的深度估计网络所生成的深度信息结合实例分割掩码得到深度实例,再与2D图像信息融合来帮助物体3D信息的回归。为了更好地利用深度实例信息,设计了一个迭代深度感知注意力融合模块(iterative Depth aware attention fusion module,iDAAFM),将深度实例特征与2D图像特征融合以得到含有物体清晰边界和深度信息的特征表示;另外,在训练和推理过程引入残差卷积结构代替一般的单一卷积结构,以保证网络在处理融合信息时的稳定与高效。同时,设计了一个3D边界框不确定性辅助任务,在训练中帮助任务学习边界框的生成,提高单目3D目标检测任务的精度。在KITTI数据集上对此方法进行验证,实验结果表明,MonoDI在3D目标检测任务中中等难度情况下的车辆类别的检测精度比基线提高了4.41个百分点,且优于MonoCon、MonoLSS等对比方法,同时在KITTI-nuScenes跨数据集实验中取得了较优的结果。 展开更多
关键词 单目3d目标检测 实例分割 特征融合 残差卷积 辅助学习
在线阅读 下载PDF
Real-time drogue recognition and 3D locating for UAV autonomous aerial refueling based on monocular machine vision 被引量:18
6
作者 Wang Xufeng Kong Xingwei +2 位作者 Zhi Jianhui Chen Yong Dong Xinmin 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2015年第6期1667-1675,共9页
Drogue recognition and 3D locating is a key problem during the docking phase of the autonomous aerial refueling (AAR). To solve this problem, a novel and effective method based on monocular vision is presented in th... Drogue recognition and 3D locating is a key problem during the docking phase of the autonomous aerial refueling (AAR). To solve this problem, a novel and effective method based on monocular vision is presented in this paper. Firstly, by employing computer vision with red-ring-shape feature, a drogue detection and recognition algorithm is proposed to guarantee safety and ensure the robustness to the drogue diversity and the changes in environmental condi- tions, without using a set of infrared light emitting diodes (LEDs) on the parachute part of the dro- gue. Secondly, considering camera lens distortion, a monocular vision measurement algorithm for drogue 3D locating is designed to ensure the accuracy and real-time performance of the system, with the drogue attitude provided. Finally, experiments are conducted to demonstrate the effective- ness of the proposed method. Experimental results show the performances of the entire system in contrast with other methods, which validates that the proposed method can recognize and locate the drogue three dimensionally, rapidly and precisely. 展开更多
关键词 Autonomous aerial refueling Drogue 3d locating Drogue attitudemeasurement Drogue detection Drogue recognition monocular machine vision
原文传递
基于自学习区域选择与边缘聚焦的单目3D检测
7
作者 王鑫威 张友兵 周奎 《计算机应用研究》 北大核心 2025年第8期2552-2560,共9页
提出了一种基于自学习区域选择与边缘聚焦的单目3D检测算法。不同于以往直接使用整个RoI进行3D属性学习,所提算法通过数据驱动的模型自学习机制选择有价值区域,抑制无关区域的负面影响。同时,针对边缘截断目标,所提算法通过建模截断目... 提出了一种基于自学习区域选择与边缘聚焦的单目3D检测算法。不同于以往直接使用整个RoI进行3D属性学习,所提算法通过数据驱动的模型自学习机制选择有价值区域,抑制无关区域的负面影响。同时,针对边缘截断目标,所提算法通过建模截断目标分布特点进行边缘增强,提升对截断高频区域聚焦。此外,引入了一种结合空间一致性约束的数据增强方法,通过在cut-and-paste中加入空间约束,扩展符合成像原理的3D样本集。在KITTI数据集上实验表明,所提算法整体优于基线模型,且针对边缘截断目标相比基线模型精度提升29.8百分点。 展开更多
关键词 单目3d检测 自学习区域选择 边缘融合 数据增强 注意力机制
在线阅读 下载PDF
基于表面高度和不确定性的单目3D物体检测
8
作者 吉银帅 续晋华 《华东师范大学学报(自然科学版)》 北大核心 2025年第1期72-81,共10页
单目3D (three-dimensional)物体检测是自动驾驶和机器人导航中的一项基础但具有挑战性的任务.直接从单张图片预测深度本质上是一个不适定的问题.几何投影是一种强大的深度估计方法,它从物体的物理高度和图像平面中的投影高度推断物体... 单目3D (three-dimensional)物体检测是自动驾驶和机器人导航中的一项基础但具有挑战性的任务.直接从单张图片预测深度本质上是一个不适定的问题.几何投影是一种强大的深度估计方法,它从物体的物理高度和图像平面中的投影高度推断物体的深度.然而,高度估计错误将会放大深度估计的误差.研究了预测物体表面点的物理高度和投影高度,而不是物体本身的高度,由此可获得一系列深度候选值;还研究了估计高度的不确定性,并根据不确定性来组合这些深度候选值,以获得最终的目标深度.实验证明了此深度估计方法的有效性,且该方法在KITTI数据集的单目3D目标检测任务上达到了SOTA (state-ofthe-art)结果. 展开更多
关键词 单目3d物体检测 深度估计 几何投影 自动驾驶
在线阅读 下载PDF
基于上下文信息增强和深度引导的单目3D目标检测
9
作者 于家艺 吴秦 《浙江大学学报(工学版)》 北大核心 2025年第1期89-99,共11页
为了充分利用单目图像提供的特征信息,提出上下文信息增强和深度引导的单目3D目标检测方法.设计高效的上下文信息增强模块,使用多个大核卷积自适应地增强多尺度目标的上下文信息,利用深度可分离卷积和条形卷积操作有效减少大核卷积的参... 为了充分利用单目图像提供的特征信息,提出上下文信息增强和深度引导的单目3D目标检测方法.设计高效的上下文信息增强模块,使用多个大核卷积自适应地增强多尺度目标的上下文信息,利用深度可分离卷积和条形卷积操作有效减少大核卷积的参数量和计算复杂度.统计分析3D目标框各个属性的预测误差,发现3D目标框的长度和深度属性预测不准确是导致预测框偏差大的主要原因.设计深度误差加权损失函数,在训练过程中进行目标的长度和深度预测监督,提高长度和深度属性的预测精度,进而提升3D预测框的准确性.在KITTI数据集上开展实验,结果表明,所提方法在数据集的多个级别上的平均准确度高于现有的单目3D目标检测方法. 展开更多
关键词 单目3d目标检测 大核卷积 深度可分离卷积 条形卷积 多尺度目标
在线阅读 下载PDF
3D视觉结合图像检测与导纳控制的圆轴孔零件机器人装配 被引量:14
10
作者 陈平 李灿 雷学军 《控制与决策》 EI CSCD 北大核心 2023年第4期963-970,共8页
面向机器人柔顺装配圆轴与圆孔零件,建立基于3D、单目视觉与导纳控制的机器人自动装配系统,提出基于三维点云的轴线位姿估计算法、图像深度学习目标检测、导纳控制结合的圆轴孔零件的装配策略.针对3D视觉估计圆孔零件位姿问题,重点研究... 面向机器人柔顺装配圆轴与圆孔零件,建立基于3D、单目视觉与导纳控制的机器人自动装配系统,提出基于三维点云的轴线位姿估计算法、图像深度学习目标检测、导纳控制结合的圆轴孔零件的装配策略.针对3D视觉估计圆孔零件位姿问题,重点研究基于三维点云的轴线位姿估计算法.首先,介绍三维点云关键点选取方法;然后,以点云表面法线与轴线的几何约束为基础,提出并分析轴线粗估计的算法;最后,在轴线粗估计的基础上,提出并分析基于迭代鲁棒最小二乘的轴线位姿优化的算法.实验结果表明:轴线位姿估计的角度均方根误差为0.248°,位置均方根误差为0.463 mm,与现有流行的轴线估计方法相比,所提方法的精度更高,使装配策略很好地满足了机器人圆形轴孔零件装配的精度高、稳定可靠的要求. 展开更多
关键词 3d视觉 单目视觉 三维点云 导纳控制 圆轴孔零件 机器人装配
原文传递
基于深度与实例分割融合的单目3D目标检测方法 被引量:3
11
作者 孙逊 冯睿锋 陈彦如 《计算机应用》 CSCD 北大核心 2024年第7期2208-2215,共8页
针对单目3D目标检测在视角变化引起的物体大小变化以及物体遮挡等情况下效果不佳的问题,提出一种融合深度信息和实例分割掩码的新型单目3D目标检测方法。首先,通过深度-掩码注意力融合(DMAF)模块,将深度信息与实例分割掩码结合,以提供... 针对单目3D目标检测在视角变化引起的物体大小变化以及物体遮挡等情况下效果不佳的问题,提出一种融合深度信息和实例分割掩码的新型单目3D目标检测方法。首先,通过深度-掩码注意力融合(DMAF)模块,将深度信息与实例分割掩码结合,以提供更准确的物体边界;其次,引入动态卷积,并利用DMAF模块得到的融合特征引导动态卷积核的生成,以处理不同尺度的物体;再次,在损失函数中引入2D-3D边界框一致性损失函数,调整预测的3D边界框与对应的2D检测框高度一致,以提高实例分割和3D目标检测任务的效果;最后,通过消融实验验证该方法的有效性,并在KITTI测试集上对该方法进行验证。实验结果表明,与仅使用深度估计图和实例分割掩码的方法相比,在中等难度下对车辆类别检测的平均精度提高了6.36个百分点,且3D目标检测和鸟瞰图目标检测任务的效果均优于D4LCN(Depth-guided Dynamic-Depthwise-Dilated Local Convolutional Network)、M3D-RPN(Monocular 3D Region Proposal Network)等对比方法。 展开更多
关键词 单目3d目标检测 深度学习 动态卷积 实例分割
在线阅读 下载PDF
多光谱3D成像方法 被引量:3
12
作者 蒋威 易定容 +2 位作者 孔令华 余卿 崔长彩 《仪器仪表学报》 EI CAS CSCD 北大核心 2019年第8期140-147,共8页
已有3D成像方法难以实现单目、单帧图像条件下同时获取场景图像及深度信息,也不能兼具时间效率高、体积紧凑、能耗低等优点。为此,创新地提出多光谱3D成像方法,通过具有纵向色散的光学成像镜头与快照式多光谱图像传感器两部分构成图像... 已有3D成像方法难以实现单目、单帧图像条件下同时获取场景图像及深度信息,也不能兼具时间效率高、体积紧凑、能耗低等优点。为此,创新地提出多光谱3D成像方法,通过具有纵向色散的光学成像镜头与快照式多光谱图像传感器两部分构成图像采集系统,使用离焦深度还原算法获取深度信息。其基本原理为:首先,增强纵向色差光学镜头使得同一物点在不同光谱波段图像上的成像离焦程度不同;其次,快照式窄带多光谱图像传感器单帧曝光同时获取多幅窄带光谱图像;再通过离焦深度还原算法根据多光谱图像边缘梯度获取3D信息。实验采用纵向色散增强型光学成像系统及快照式多光谱相机捕获450±10 nm、525±10 nm、620±10 nm 3通道光谱图像,对5 m内场景进行3D深度恢复,获得了深度误差不高于5 cm的测量结果。实验结果表明多光谱3D视觉方法可以实现单目、所提单帧图像的深度估计。该方法能同时获得视觉及深度信息且无需空间位置配准及预先深度刻度,单帧图像处理平均耗时0. 186 s,图像采集系统尺寸为120 mm×77 mm×65 mm,其工作功率约为10 W,兼具时间效率高、体积紧凑、能耗低等优点。因此,所提方法有望在无人驾驶及智能机器人等领域获得广泛应用。 展开更多
关键词 离焦深度法 多光谱3d成像 纵向色散 快照式窄带多光谱成像 单目单次曝光3d成像
原文传递
基于Contextual Transformer的自动驾驶单目3D目标检测 被引量:1
13
作者 厍向阳 颜唯佳 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第19期178-189,共12页
针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构... 针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构以提取特征。设计多尺度空间感知模块(MSP),通过尺度空间响应操作改善浅层特征的丢失情况,嵌入沿水平和竖直两个空间方向的坐标注意力机制(CA),使用softmax函数生成各尺度的重要性软权重。在偏移损失中采用Huber损失函数代替L1损失函数。实验结果表明:在KITTI自动驾驶数据集上,相较于RTM3D算法,该算法在简单、中等、困难三个难度级别下,AP3D分别提升了4.84、3.82、5.36个百分点,APBEV分别提升了4.75、6.26、3.56个百分点。 展开更多
关键词 自动驾驶 单目3d目标检测 Contextual Transformer 多尺度感知 坐标注意力机制
在线阅读 下载PDF
面向自动驾驶的多尺度目标三维检测算法
14
作者 刘嫚 陈晓楠 《现代电子技术》 北大核心 2026年第1期141-147,共7页
在自动驾驶场景中,使用单目相机进行三维目标检测是一项具有挑战性的任务,尤其是在复杂道路环境下,目标的尺度差异和遮挡现象容易导致误检或漏检。针对这一问题,文中提出一种基于特征融合与增强的单目三维目标检测算法。首先,构建Faster... 在自动驾驶场景中,使用单目相机进行三维目标检测是一项具有挑战性的任务,尤其是在复杂道路环境下,目标的尺度差异和遮挡现象容易导致误检或漏检。针对这一问题,文中提出一种基于特征融合与增强的单目三维目标检测算法。首先,构建FasterNet+作为骨干网络,通过优化嵌入层和块结构,增强细节信息的提取,提升网络的整体性能;其次,设计多维特征自适应融合模块,自适应地选择并融合高维与低维特征,解决高维特征丢失小目标信息和低维特征缺乏上下文信息的问题;最后,引入特征增强注意力模块,突出特定目标区域,进一步提升网络在目标定位和分类方面的精度。在nuScenes数据集上的实验结果表明,其mAP和NDS比基准方法分别提高0.038和0.035,可以有效检测出不同类型和尺度的目标,并展现出更强的鲁棒性,为自动驾驶场景中的多维目标检测提供了一种新思路。 展开更多
关键词 自动驾驶 单目相机 三维目标检测 多尺度感知 特征融合 注意力机制 机器视觉
在线阅读 下载PDF
基于单目图像的多目标三维视觉定位方法
15
作者 黄舒雯 郭柯宇 +3 位作者 宋翔宇 韩锋 孙士杰 宋焕生 《计算机应用》 北大核心 2026年第1期207-215,共9页
针对现有的三维视觉定位方法依赖昂贵传感器设备、系统成本高且在复杂多目标定位中准确度和鲁棒性不足的问题,提出一种基于单目图像的多目标三维视觉定位方法。该方法结合自然语言描述,在单个RGB图像中实现对多个三维目标的识别。为此,... 针对现有的三维视觉定位方法依赖昂贵传感器设备、系统成本高且在复杂多目标定位中准确度和鲁棒性不足的问题,提出一种基于单目图像的多目标三维视觉定位方法。该方法结合自然语言描述,在单个RGB图像中实现对多个三维目标的识别。为此,构建一个多目标视觉定位数据集Mmo3DRefer,并设计跨模态匹配网络TextVizNet。TextVizNet通过预训练的单目检测器生成目标的三维边界框,并借助信息融合模块与信息对齐模块实现视觉与语言信息的深度整合,进而实现文本指导下的多目标三维检测。与CORE-3DVG(Contextual Objects and RElations for 3D Visual Grounding)、3DVG-Transformer和Multi3DRefer(Multiple 3D object Referencing dataset and task)等5种方法对比的实验结果表明,与次优方法Multi3DRefer相比,TextVizNet在Mmo3DRefer数据集上的F1-score、精确度和召回率分别提升了8.92%、8.39%和9.57%,显著提升了复杂场景下基于文本的多目标定位精度,为自动驾驶和智能机器人等实际应用提供了有效支持。 展开更多
关键词 三维视觉定位 单目图像 多模态技术 目标检测 场景理解
在线阅读 下载PDF
基于2D-3D泛轮廓点对应的三维刚体目标的迭代姿态估计 被引量:4
16
作者 冷大炜 马洪兵 孙卫东 《中国科学院研究生院学报》 CAS CSCD 北大核心 2012年第6期821-828,共8页
以单目观测下三维刚体目标的姿态估计为研究对象,针对现有迭代估计方法存在的收敛半径小和收敛速度慢的问题,提出一种新的基于2D-3D泛轮廓点对应的迭代姿态估计方法.与现有的基于数值优化的方法不同,本方法从输入图像的2D泛轮廓点出发,... 以单目观测下三维刚体目标的姿态估计为研究对象,针对现有迭代估计方法存在的收敛半径小和收敛速度慢的问题,提出一种新的基于2D-3D泛轮廓点对应的迭代姿态估计方法.与现有的基于数值优化的方法不同,本方法从输入图像的2D泛轮廓点出发,着眼于显性地建立输入图像到目标三维模型的2D-3D特征投影对应关系,进而以此显性投影对应关系对目标的三维姿态参数进行估计.实验结果表明,该方法在算法复杂性、收敛半径和收敛速度上均有明显改进. 展开更多
关键词 三维刚体目标 单目视觉 姿态估计 特征投影对应关系
原文传递
基于单目视觉的轴类零件3D重构技术 被引量:3
17
作者 沈宝国 蒋超峰 +1 位作者 孙明 梁佩佩 《机械设计与制造工程》 2015年第2期17-20,共4页
在结构化环境下,提取轴类零件三维信息是实现机械手自动上下料的重要环节。首先采集放置于特定工作台上的轴类零件图像,其次利用超红特征和Otsu法获取超红特征灰度图并进行动态阈值分割,提取标准圆的像素半径,进而获取每毫米所代表的像... 在结构化环境下,提取轴类零件三维信息是实现机械手自动上下料的重要环节。首先采集放置于特定工作台上的轴类零件图像,其次利用超红特征和Otsu法获取超红特征灰度图并进行动态阈值分割,提取标准圆的像素半径,进而获取每毫米所代表的像素值;利用拟合直线方程可获取摄像机与工作台的距离,同时利用亮度特征,采用相同的方法获取轴类零件的像素尺寸,然后利用每毫米所代表的像素值计算轴类零件的实际尺寸,完成轴类零件的三维重构。该技术降低了软硬件的复杂性,可实现机械手智能抓取轴类零件,为数控机床无人化操作的可行性发展提供了理论基础。 展开更多
关键词 轴类零件 颜色特征 三维重构 单目视觉
在线阅读 下载PDF
基于遮挡感知像素级融合的单目3D目标检测方法 被引量:2
18
作者 林璐颖 《黑龙江工业学院学报(综合版)》 2023年第9期95-101,共7页
利用深度边界框残差和目标边界框来联合估计密集场景深度,对3D目标进行双流检测,从而产生更鲁棒的检测结果。其中,几何流组合了可见深度和深度边界框残差,通过显式的遮挡感知优化方法来恢复目标的3D边界框。此外,基于包围框的几何投影... 利用深度边界框残差和目标边界框来联合估计密集场景深度,对3D目标进行双流检测,从而产生更鲁棒的检测结果。其中,几何流组合了可见深度和深度边界框残差,通过显式的遮挡感知优化方法来恢复目标的3D边界框。此外,基于包围框的几何投影方案被用于增强距离感知。上下文流则用于直接回归3D目标的位置和大小。这种新颖的双流表示促进了跨流之间的一致性,将双流的输出结果进行对齐,从而提高整体性能。在公开数据集上的大量实验表明,该方法在保持实时推理速度的同时,在汽车类别上的检测精度也优于最先进的方法。 展开更多
关键词 深度边界框残差 密集场景深度 双流检测 单目3d目标
在线阅读 下载PDF
联合多注意力和C-ASPP的单目3D目标检测 被引量:9
19
作者 郑自立 徐健 +3 位作者 刘秀平 刘高峰 赵一剑 夏代洪 《电子测量与仪器学报》 CSCD 北大核心 2023年第8期241-248,共8页
针对单目3D检测中网络结构复杂、深度估计后得到的目标深度信息不精确的问题,本文提出一种端到端的联合多注意力深度估计的单目3D目标检测网络结构(CDCN-3D)。首先,为获取目标显著特征,引入自适应空间注意力机制,对像素特征进行聚集,以... 针对单目3D检测中网络结构复杂、深度估计后得到的目标深度信息不精确的问题,本文提出一种端到端的联合多注意力深度估计的单目3D目标检测网络结构(CDCN-3D)。首先,为获取目标显著特征,引入自适应空间注意力机制,对像素特征进行聚集,以增强局部特征来提升网络表征能力;其次,为改善深度估计时局部信息丢失问题,利用改进C-ASPP使每个深度信息都能够捕获更加精确的方向感知和位置敏感信息;最后,利用精确的P-BEV将得到的目标三维信息映射到二维平面,再用单级目标检测器完成检测输出任务。实验结果证明,CDCN-3D网络在KITTI数据集上,在FPS与现有单目3D检测网络持平情况下,其准确率优于其他网络,在Car、Pedestrian、Cyclist类中,其检测精确度分别提升2.31%、1.48%、1.14%,能够完成3D目标检测任务。 展开更多
关键词 单目3d目标检测 深度估计 多注意力机制 机器视觉 自动驾驶
原文传递
单目-无扫描3D激光雷达融合的非合作目标相对位姿估计 被引量:14
20
作者 郝刚涛 杜小平 +1 位作者 赵继广 宋建军 《宇航学报》 EI CAS CSCD 北大核心 2015年第10期1178-1186,共9页
针对传统的利用单一视觉传感器难以实现复杂非合作空间操控导航的问题,提出一种基于单目相机与无扫描三维激光雷达融合的非合作目标相对位姿估计方法。首先,设计了基于成像几何关系的单目纹理-非扫描距离图像的快速配准与融合方法;之后... 针对传统的利用单一视觉传感器难以实现复杂非合作空间操控导航的问题,提出一种基于单目相机与无扫描三维激光雷达融合的非合作目标相对位姿估计方法。首先,设计了基于成像几何关系的单目纹理-非扫描距离图像的快速配准与融合方法;之后,在构建目标同步定位与建图(SLAM)贝叶斯滤波模型基础上,提出一种扩展卡尔曼滤波-无损卡尔曼滤波-粒子滤波联合的滤波估计算法,可实现尺度模糊下相对位姿的快速鲁棒估计;其次,针对估计中的尺度模糊问题,提出基于融合图像的全局尺度系数确定方法,将尺度系数估计问题转化为简单线性滤波问题。基于Open GL生成的2D/3D图像实验表明:所提出的方法具有较优的精度和鲁棒性;相对位置估计误差与尺度估计误差相关,二者近似成线性正比关系。 展开更多
关键词 非合作目标 相对位姿 单目相机 无扫描三维激光雷达 图像融合
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部