期刊文献+
共找到425篇文章
< 1 2 22 >
每页显示 20 50 100
The Fusion of Temporal Sequence with Scene Priori Information in Deep Learning Object Recognition
1
作者 Yongkang Cao Fengjun Liu +2 位作者 Xian Wang Wenyun Wang Zhaoxin Peng 《Open Journal of Applied Sciences》 2024年第9期2610-2627,共18页
For some important object recognition applications such as intelligent robots and unmanned driving, images are collected on a consecutive basis and associated among themselves, besides, the scenes have steady prior fe... For some important object recognition applications such as intelligent robots and unmanned driving, images are collected on a consecutive basis and associated among themselves, besides, the scenes have steady prior features. Yet existing technologies do not take full advantage of this information. In order to take object recognition further than existing algorithms in the above application, an object recognition method that fuses temporal sequence with scene priori information is proposed. This method first employs YOLOv3 as the basic algorithm to recognize objects in single-frame images, then the DeepSort algorithm to establish association among potential objects recognized in images of different moments, and finally the confidence fusion method and temporal boundary processing method designed herein to fuse, at the decision level, temporal sequence information with scene priori information. Experiments using public datasets and self-built industrial scene datasets show that due to the expansion of information sources, the quality of single-frame images has less impact on the recognition results, whereby the object recognition is greatly improved. It is presented herein as a widely applicable framework for the fusion of information under multiple classes. All the object recognition algorithms that output object class, location information and recognition confidence at the same time can be integrated into this information fusion framework to improve performance. 展开更多
关键词 Computer Vison object Recognition Deep Learning Consecutive scene Information Fusion
在线阅读 下载PDF
NLOT3D:单目视角下自然语言描述驱动的三维目标跟踪研究
2
作者 杨洋 魏弘凯 +4 位作者 孙士杰 宋翔宇 胡红利 郭柯宇 宋焕生 《电子学报》 北大核心 2025年第6期2038-2049,共12页
自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但... 自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但现有方法大多局限于二维空间,未能充分利用三维空间的位姿信息,因此无法像人类一样自然地进行三维感知;而传统三维目标跟踪任务又依赖于昂贵的传感器,并且数据采集和处理存在局限性,这使得三维目标跟踪变得更加复杂.针对上述挑战,本文提出了单目视角下自然语言描述驱动的三维目标跟踪(Natural Language-driven Object Tracking in 3D,NLOT3D)新任务,并构建了对应的数据集NLOT3D-SPD.此外,本文还设计了一个端到端的NLOT3D-TR(Natural Language-driven Object Tracking in 3D based on Transformer)模型,该模型融合了视觉与文本的跨模态特征,在NLOT3D-SPD数据集上取得了优异的实验结果.本文为NLOT3D任务提供了全面的基准测试,并进行了对比实验与消融研究,为三维目标跟踪领域的进一步发展提供了支持. 展开更多
关键词 场景理解 三维目标跟踪 单目标跟踪 多模态学习 机器视觉
在线阅读 下载PDF
基于YOLOv8的雾天车辆行人实时检测方法
3
作者 汤亮 陈博文 +1 位作者 牛一森 马荣庚 《广西师范大学学报(自然科学版)》 北大核心 2025年第3期72-83,共12页
随着智能通信技术在智能交通场景的广泛运用,行人、车辆目标检测已成为保障道路安全的重要基础。针对在雾天恶劣环境中检测网络漏检率高、检测速度慢的问题,本文提出基于YOLOv8的实时雾天目标检测方法。该模型将输入图片加入去雾网络模... 随着智能通信技术在智能交通场景的广泛运用,行人、车辆目标检测已成为保障道路安全的重要基础。针对在雾天恶劣环境中检测网络漏检率高、检测速度慢的问题,本文提出基于YOLOv8的实时雾天目标检测方法。该模型将输入图片加入去雾网络模块对输入图像进行预处理,保留原图片的细节特征并去除雾气的遮挡,再使用改进后的YOLOv8n进行检测。在YOLOv8n上基于FasterNet改进C2f模块,降低模型参数量及模型大小,增加模型计算效率,并设计SE-ResNeXt检测头,避免了因堆积神经网络层数带来的负面影响。最后运用知识蒸馏的方式,进一步提高检测精度。将所提出模型在reside rtts数据集和合成有雾数据集上进行验证。与原网络相比,平均精度(mAP@50_95)提升5.2个百分点,检测帧数达到170 frame/s。 展开更多
关键词 雾天场景 目标检测 信息交互 FasterNet SENet ResNeXt
在线阅读 下载PDF
面向复杂动态场景的无人移动视觉技术研究进展
4
作者 张艳宁 王昊宇 +5 位作者 闫庆森 杨佳琪 刘婷 符梦芹 吴鹏 张磊 《中国图象图形学报》 北大核心 2025年第6期1828-1871,共44页
随着人类活动范围的不断扩大和国家利益的持续发展,新域新质无人系统已成为世界各大国科技战略竞争的制高点和制胜未来的关键力量。无人移动视觉技术是无人系统辅助人类透彻感知理解物理世界的核心关键之一,旨在基于无人移动平台捕获的... 随着人类活动范围的不断扩大和国家利益的持续发展,新域新质无人系统已成为世界各大国科技战略竞争的制高点和制胜未来的关键力量。无人移动视觉技术是无人系统辅助人类透彻感知理解物理世界的核心关键之一,旨在基于无人移动平台捕获的视觉数据,精准感知理解复杂动态场景与目标特性。深度神经网络凭借其超强的非线性拟合能力和区分能力,已经成为无人移动视觉技术的基准模型。然而,实际应用中无人系统通常面临成像环境复杂动态、成像目标高速机动—伪装对抗、成像任务需求多样,导致基于深度神经网络的无人移动视觉模型成像质量大幅退化,场景重建解译与目标识别分析精度显著下降,从而严重制约无人系统在复杂动态场景下对物理世界的感知解译能力与应用前景。针对这一挑战,本文深入探讨面向复杂动态场景的无人移动视觉技术发展现状,从图像增强处理、三维重建、场景分割、目标检测识别以及异常检测与行为分析等5个关键技术入手,介绍每项技术的基本研究思路与发展现状,分析每项技术中典型算法的优缺点,探究该技术目前依然面临的问题与挑战,并展望未来研究方向,为面向复杂动态场景的无人移动视觉技术长远发展与落地奠定基础。 展开更多
关键词 无人移动视觉 复杂动态场景 图像增强 三维重建 场景分割 目标检测 异常检测
原文传递
改进YOLOv5s的自然场景下茶叶嫩芽检测
5
作者 胡永光 金矿 +3 位作者 刘益航 鹿永宗 张志 潘庆民 《中国农机化学报》 北大核心 2025年第8期103-111,共9页
茶叶嫩芽采摘是茶叶生产中的重要环节,智能化采茶需要基于深度学习的茶叶嫩芽检测算法作为技术保障。为提高茶叶嫩芽检测速度和精度,提出一种改进YOLOv5s网络模型的检测算法TN—YOLOv5s。首先引入GhostNet网络结构中的深度可分离卷积Gho... 茶叶嫩芽采摘是茶叶生产中的重要环节,智能化采茶需要基于深度学习的茶叶嫩芽检测算法作为技术保障。为提高茶叶嫩芽检测速度和精度,提出一种改进YOLOv5s网络模型的检测算法TN—YOLOv5s。首先引入GhostNet网络结构中的深度可分离卷积GhostConv,替代原有YOLOv5s模型中特征提取网络与特征融合网络的普通卷积层;然后在模型特征提取网络的末端加入CA空间注意力机制;其次使用SIoU_Loss代替CIoU_Loss作为回归损失函数;最后使用Soft—NMS替换NMS。结果表明,改进后的模型在自制的茶叶嫩芽数据集上,相比于原始YOLOv5s算法,模型精确率、召回率和平均精度均值分别高出7.1%、5.9%、6.4%,权重大小从13.7 MB下降到7.48 MB。同时与目前主流的检测算法相比,在检测精度、模型大小和检测速度方面更有优势。改进后的模型降低被遮挡茶叶嫩芽的漏检率,能够准确快速地实现不同场景下的茶叶嫩芽检测。 展开更多
关键词 茶叶嫩芽 自然场景 YOLOv5s 目标检测 遮挡
在线阅读 下载PDF
非宾述词带宾语的认知基础
6
作者 卢英顺 《汉语学习》 北大核心 2025年第4期13-20,共8页
非宾述词是指不能带宾语的述词,即一般所说的形容词和不及物动词。汉语中非宾述词能够直接充当谓语,这为其带宾语提供了可能。从认知要素的激活来看,现代汉语中能够带宾语的多是那些可以激活两个或以上认知要素的非宾述词。非宾述词带... 非宾述词是指不能带宾语的述词,即一般所说的形容词和不及物动词。汉语中非宾述词能够直接充当谓语,这为其带宾语提供了可能。从认知要素的激活来看,现代汉语中能够带宾语的多是那些可以激活两个或以上认知要素的非宾述词。非宾述词带宾语后为相关述词增添了新的句式。 展开更多
关键词 非宾述词 形容词 宾语 认知图景
原文传递
基于深度学习的动态场景视觉SLAM算法
7
作者 王晓栋 陈援峰 杨伟高 《广州城市职业学院学报》 2025年第3期95-100,共6页
同时定位与地图构建(SLAM)技术是无人机或机器人在未知复杂环境中进行自主探索的关键研究方向。借助该技术,机器人能够通过其传感器获取的数据,实时计算自身的位姿,同时构建外部环境的高精度地图。基于这些信息,机器人不仅能够制定路径... 同时定位与地图构建(SLAM)技术是无人机或机器人在未知复杂环境中进行自主探索的关键研究方向。借助该技术,机器人能够通过其传感器获取的数据,实时计算自身的位姿,同时构建外部环境的高精度地图。基于这些信息,机器人不仅能够制定路径规划,还可以动态修正位姿误差,从而显著提升在未知环境中导航的准确性和稳定性。在使用视觉传感器的SLAM系统中,位姿解算通常依赖于几何算法和特征匹配技术。这些方法通常假设外部环境由静止的物体构成,即基于场景静态化的前提。然而,在实际应用中,动态物体如行人和车辆经常出现,这对系统的性能和鲁棒性提出了严峻的挑战。因此,引入深度学习技术与视觉SLAM算法相结合,在现有的ORB-SLAM2算法框架上新增一个动态目标检测线程,用于识别动态物体,并在里程计的计算中剔除动态点,以减少动态目标对系统定位精度的影响。实验结果表明,该方法能够显著降低绝对轨迹误差,提升SLAM算法在动态场景下的适用性和稳定性。 展开更多
关键词 视觉SLAM 动态场景 深度学习 目标检测
在线阅读 下载PDF
基于改进YOLOv5的复杂场景电动车头盔检测方法 被引量:2
8
作者 韩东辰 张方晖 +3 位作者 王诗洋 段克盼 李宁星 王凯 《现代电子技术》 北大核心 2025年第1期123-129,共7页
佩戴电动车头盔是安全骑行的重要保障,对电动车驾乘人员佩戴头盔进行有效检测在保障驾乘人员安全方面具有重要意义。电动车头盔检测中存在目标之间相互遮挡、复杂背景干扰、头盔目标小等问题,现有方法尚不能满足复杂场景下电动车头盔检... 佩戴电动车头盔是安全骑行的重要保障,对电动车驾乘人员佩戴头盔进行有效检测在保障驾乘人员安全方面具有重要意义。电动车头盔检测中存在目标之间相互遮挡、复杂背景干扰、头盔目标小等问题,现有方法尚不能满足复杂场景下电动车头盔检测的要求,因此,提出一种改进YOLOv5的复杂场景电动车头盔识别方法。首先,提出一种新的主干网络结构ML-CSPDarknet53,增强网络的特征提取能力,引入轻量级上采样算子CARAFE,利用特征图语义信息扩大感受野;其次,搭建坐标卷积CoordConv模块,增强网络对空间信息的感知能力,并将WIoU v3作为边界框损失函数,降低低质量样本对模型性能的不利影响;最后,构建了内容丰富的头盔检测数据集对改进算法进行验证。实验结果表明,改进后算法相较于原算法在精确度、召回率、mAP@0.5、mAP@0.5:0.95上分别提升了2.9%、3.0%、3.4%和2.2%,并且性能优于其他主流检测算法,满足复杂道路交通场景下电动车驾乘人员头盔检测的任务要求。 展开更多
关键词 头盔检测 改进YOLOv5 复杂场景 目标遮挡 特征提取 上采样 坐标卷积 损失函数
在线阅读 下载PDF
基于F-CNN的电网工程场景识别系统设计与应用
9
作者 董斌 祝和春 +2 位作者 邹仕富 张剑铧 龚旗帜 《自动化与仪器仪表》 2025年第4期264-268,273,共6页
针对电网工程场景识别准确率和效率不高的问题,设计一种基于卷积神经网络的多源图像融合识别模型(Fusion image convolutional neural network,F-CNN)的电网工程场景识别系统。首先,然后采用改进的YOLOv5s网络进行电网场景图像进行目标... 针对电网工程场景识别准确率和效率不高的问题,设计一种基于卷积神经网络的多源图像融合识别模型(Fusion image convolutional neural network,F-CNN)的电网工程场景识别系统。首先,然后采用改进的YOLOv5s网络进行电网场景图像进行目标检测;然后对红外图像和可见光图像进行多光谱图像融合处理;最后通过F-CNN识别模型实现电网工程场景识别。实验结果表明,本模型的场景识别精确率、召回率和F1值分别取值为95.37%、94.06%和97.59%,明显高于传统的CNN-Transformer识别模型和ResNet-LSTM识别模型,且本模型的识别时长仅为18.52 s,相较于另外两种模型分别低了61.48 s和39.97 s。由此分析可知,本方法可实现电网工程场景快速准确识别,可在系统中进行有效应用,具备有效性。 展开更多
关键词 电网工程 场景识别 目标检测 图像融合 F-CNN
原文传递
复杂场景下SAR图像多尺度舰船检测算法 被引量:1
10
作者 贺顺 王雨竹 杨志伟 《电子技术应用》 2025年第3期59-64,共6页
针对复杂场景下的多尺度SAR舰船目标检测存在误检漏检的问题,提出了一种改进的SAR舰船目标检测方法。首先,利用多尺度目标特征提取网络提取特征信息,以提升多尺度目标的检测能力并减少冗余计算。其次,引入可形变卷积(DConv)通过自适应... 针对复杂场景下的多尺度SAR舰船目标检测存在误检漏检的问题,提出了一种改进的SAR舰船目标检测方法。首先,利用多尺度目标特征提取网络提取特征信息,以提升多尺度目标的检测能力并减少冗余计算。其次,引入可形变卷积(DConv)通过自适应调整卷积核的形状来提升复杂场景下SAR舰船目标的检测性能。最后,引入了注意力机制来抑制背景杂波并增强特征信息。实验结果表明,在SSDD数据集和HRSID数据集上改进方法的检测精度分别达到了97.9%和93.1%,整体性能优于现有主流目标检测算法。 展开更多
关键词 目标检测 复杂场景 多尺度船舶检测 合成孔径雷达(SAR) 深度学习
在线阅读 下载PDF
基于优化背景差分法的船舶号灯检测与识别研究 被引量:1
11
作者 赵月林 高祥雨 《重庆交通大学学报(自然科学版)》 北大核心 2025年第8期42-49,共8页
正确的检测与识别船舶号灯,是实现有效的海上船舶态势感知方式之一,因此,提出了一种基于背景运动补偿和优化背景差分法的动态场景下号灯检测与识别方法。首先,基于SURF特征点提取算法,采用圆形区域代替矩形区域提取32维描述符,实现描述... 正确的检测与识别船舶号灯,是实现有效的海上船舶态势感知方式之一,因此,提出了一种基于背景运动补偿和优化背景差分法的动态场景下号灯检测与识别方法。首先,基于SURF特征点提取算法,采用圆形区域代替矩形区域提取32维描述符,实现描述符的降维,提高算法的速度;其次,通过改进后的SURF算法实现对视频图像的特征点提取及匹配,得到反映图像间映射关系的线性参数,进行背景估计并完成背景运动补偿;最后,采用分段式更新策略和自适应差分阈值,对背景差分法进行优化,结合号灯几何和颜色特征消除干扰灯光、海浪等环境因素的影响。研究结果表明:完成背景运动补偿后的算法具有较高的号灯检测与识别精度及较强的鲁棒性,该方法可以较好的检测与识别动态背景下的船舶号灯。 展开更多
关键词 港口航道工程 船舶号灯识别 目标检测 背景差分法 动态场景 SURF算法
在线阅读 下载PDF
具备红外感知的低光场景目标检测
12
作者 张志佳 那惺奇 +2 位作者 肖宇航 房建 赵怀慈 《沈阳工业大学学报》 北大核心 2025年第4期417-424,共8页
【目的】随着人工智能领域的快速发展,基于可见光图像的目标检测技术日益成熟,并在自动驾驶、安防监控、智能交通等领域得到了广泛应用。然而,在低光场景(如黑夜或昏暗灯光环境)下,基于可见光图像的目标检测算法性能显著下降。主要原因... 【目的】随着人工智能领域的快速发展,基于可见光图像的目标检测技术日益成熟,并在自动驾驶、安防监控、智能交通等领域得到了广泛应用。然而,在低光场景(如黑夜或昏暗灯光环境)下,基于可见光图像的目标检测算法性能显著下降。主要原因在于可见光图像在低光条件下信息丢失严重,导致目标特征难以提取。为解决这一问题,提出了基于可见光图像和红外图像的多模态目标检测技术,该技术能够有效改善低光场景下的目标检测性能。然而,多模态检测技术的成本较高,需要对不同模态的图像进行精确配准,计算量较大,从而增加了实现难度和处理负担。基于此,提出了一种具备红外感知的目标检测网络(InSCnet),旨在通过一个可见光相机来预测红外热辐射特征,在不增加模态的情况下提升网络在低光场景下的目标检测能力。【方法】InSCnet以可见光图像为输入,通过红外预测分支(IPB)生成红外图像来预测热辐射特征,从而增强网络对低光场景的感知能力。为了有效融合多尺度视觉和热辐射特征,设计了互补融合滤波(COFF)模块。COFF通过互补融合这两种特征,增强特征间的互补性,避免了网络对单一模态特征的过度依赖。此外,采用混合特征金字塔(HyFP)模块,通过特征金字塔和注意力机制,进一步提升多尺度全局与局部特征的融合与提取能力,确保网络在不同程度的低光条件下均能保持较高的检测准确率。【结果】实验结果表明,InSCnet在LLVIP行人检测数据集上表现优异。具体而言,S mAP50达到了0.830,S mAP50-95达到了0.426。同时在DroneVehicle数据集上进行了实验,S mAP50达到了0.702,证明了InSCnet具备多类别低光检测能力。【结论】InSCnet通过引入红外热辐射特征和特征融合机制,提升了低光场景下的目标检测性能;在低光场景下能够有效检测可见光图像中难以识别的目标,为低光场景下的目标检测提供了一种有效的解决方案。未来的研究可以进一步探索如何优化网络结构。 展开更多
关键词 目标检测 低光场景 红外预测 特征融合 特征金字塔 全局特征 局部特征 人工智能
在线阅读 下载PDF
基于YOLOv8改进的机器人多物体抓取检测算法 被引量:2
13
作者 赵朝 岳龙旺 《机电工程技术》 2025年第2期132-137,共6页
针对机器人抓取任务中多物体抓取场景中目标检测问题,现有的目标检测算法虽然精度很高,但存在模型参数量大、计算复杂度高的问题,无法满足端对端的工业部署。针对此问题,分析了YOLOv8参数量大的原因,对比了解耦头和耦合头两种检测头方... 针对机器人抓取任务中多物体抓取场景中目标检测问题,现有的目标检测算法虽然精度很高,但存在模型参数量大、计算复杂度高的问题,无法满足端对端的工业部署。针对此问题,分析了YOLOv8参数量大的原因,对比了解耦头和耦合头两种检测头方式对参数量和精度的影响,为减少参数量对目标检测头进行参数共享。同时引入部分卷积重新设计了一种轻量化检测头,达到轻量化和算法的性能的平衡。实验表明,改进算法相比于YOLOv8n,模型精度下降了0.20%,但参数量下降了37.08%,有效实现了模型轻量化和性能的平衡。最后对改进模型用基于层自适应的幅度剪枝方法和基于损失函数泰勒展开近似的卷积核剪枝方法进行剪枝,参数量最高下降了79.78%,模型精度基本保持不变,推理速度最高提升89.22%。 展开更多
关键词 YOLOv8 轻量化 目标检测 多物体抓取
在线阅读 下载PDF
区域敏感的场景图生成方法
14
作者 王立春 付芳玉 +2 位作者 徐凯 徐洪波 尹宝才 《北京工业大学学报》 CAS 北大核心 2025年第1期51-58,共8页
针对基于关系边界框提取的谓词特征粒度相对较粗的问题,提出区域敏感的场景图生成(region-sensitive scene graph generation,RS-SGG)方法。谓词特征提取模块将关系边界框分为4个区域,基于自注意力机制抑制关系边界框中与关系分类无关... 针对基于关系边界框提取的谓词特征粒度相对较粗的问题,提出区域敏感的场景图生成(region-sensitive scene graph generation,RS-SGG)方法。谓词特征提取模块将关系边界框分为4个区域,基于自注意力机制抑制关系边界框中与关系分类无关的背景区域。关系特征解码器在进行关系预测时不仅考虑了物体对的视觉特征和语义特征,也考虑了物体对的位置特征。在视觉基因组(visual genome,VG)数据集上分别计算了RS-SGG方法针对场景图生成、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行了比较。实验结果表明,RS-SGG的图约束召回率和无图约束召回率均优于主流方法。此外,可视化实验结果也进一步证明了所提出方法的有效性。 展开更多
关键词 图像理解 场景图生成 物体分类 关系分类 区域感知 自注意力机制
在线阅读 下载PDF
参数稀疏的复杂交通场景图像车辆检测
15
作者 韩雪娟 瞿中 《电讯技术》 北大核心 2025年第5期719-726,共8页
尽管基于深度学习的目标检测在交通场景的应用已经取得了一定的进展,但复杂交通场景多目标精度与速度的博弈仍然是个挑战。大多数提升精度的方法都是参数密集型的,大大增加了模型的参数量。针对这一难题,提出了基于YOLOv8的稀疏参数模型... 尽管基于深度学习的目标检测在交通场景的应用已经取得了一定的进展,但复杂交通场景多目标精度与速度的博弈仍然是个挑战。大多数提升精度的方法都是参数密集型的,大大增加了模型的参数量。针对这一难题,提出了基于YOLOv8的稀疏参数模型,实现在降低参数量的同时提升模型的召回率和检测精度。首先使用简单注意力机制(Simple Attention Mechanism,SimAM)以建立更强劲的骨干网络提取特征;其次提出轻量化的内容感知特征重组模块(Lightweight Content-Aware ReAssembly of Features,L-CARAFE)代替上采样操作,在一个更大的感受野上聚合上下文信息;最后通过稀疏参数的多解耦头,在降低参数量的同时提升模型的检测精度。由于交通场景的复杂性,不仅通过KITTI数据集验证模型的有效性,还通过COCO数据集验证模型的泛化性。该模型在公开的数据集上均能大幅提升召回率和平均精度(mean Average Precision,mAP),其中,nano在KITTI数据集上以2.95的参数量使召回率和mAP分别提高了3.1%和0.9%,小模型在COCO数据集上的mAP@0.5达到60.6%。 展开更多
关键词 交通场景 目标检测 参数稀疏化 注意力机制
在线阅读 下载PDF
动态特征滤除与稠密重建的视觉SLAM算法
16
作者 张德林 杨光祥 +3 位作者 冉一森 杨宝丰 向移丹 王潇珩 《实验室研究与探索》 北大核心 2025年第8期113-118,137,共7页
针对动态场景下同步定位与建图(SLAM)算法易丢失跟踪、定位精度低和难以生成稠密地图等问题,提出一种改进SLAM算法。在ORB-SLAM3中新增动态特征点检测线程:利用YOLOv5s提取语义信息与检测框,剔除动态区域特征点,并通过改进GMS算法提升... 针对动态场景下同步定位与建图(SLAM)算法易丢失跟踪、定位精度低和难以生成稠密地图等问题,提出一种改进SLAM算法。在ORB-SLAM3中新增动态特征点检测线程:利用YOLOv5s提取语义信息与检测框,剔除动态区域特征点,并通过改进GMS算法提升静态特征点的匹配数量与速度。引入稠密建图线程,用静态特征点构建稠密点云地图,通过体素网格滤波和外点去除滤波减小规模,生成栅格地图。在TUM数据集实验表明,相比ORB-SLAM3,所提算法绝对轨迹误差(ATE)平均降低95.6%,相对轨迹误差(RPE)平均降低34.9%,显著提高了动态场景下的定位精度与鲁棒性,并成功实现稠密点云和栅格地图的构建。 展开更多
关键词 同步定位与建图 动态场景 目标检测 稠密建图
在线阅读 下载PDF
一种椭球模型表示的对象级动态语义SLAM方法
17
作者 白素琴 诸皓伟 +2 位作者 吕宗磊 王成根 史金龙 《中国惯性技术学报》 北大核心 2025年第1期46-54,共9页
为了提高动态场景同步定位与建图(SLAM)的相机位姿精度和鲁棒性,提出一种高精度对象级SLAM方法。首先,将检测到的实例对象表示为3D椭球模型,构建对象地图;接着,寻找实例对象和地图中对象之间的最佳匹配关系;然后,通过运动检测找到场景... 为了提高动态场景同步定位与建图(SLAM)的相机位姿精度和鲁棒性,提出一种高精度对象级SLAM方法。首先,将检测到的实例对象表示为3D椭球模型,构建对象地图;接着,寻找实例对象和地图中对象之间的最佳匹配关系;然后,通过运动检测找到场景中的动态对象,在地图中追踪对象的运动轨迹,并不断更新其对应的3D椭球模型,以确保对象地图的准确性;最后,采用静态对象和内部3D点联合优化的方式,在跟踪丢失后重新定位相机。在TUM和BONN数据集上的实验结果表明:所提方法具有更高的相机位姿精度,位姿误差仅为OA-SLAM算法误差的12.5%、ReFusion算法的16.7%、ACEFusion算法的33.3%。重定位实验结果表明:所提的相机重定位策略有效地解决了动态场景中相机丢失的问题,提高了系统的鲁棒性。代码开源在https://github.com/wawcg/23Object-SLAM。 展开更多
关键词 动态场景 同步定位与建图 数据关联 对象追踪 椭球模型
在线阅读 下载PDF
复杂天气条件下道路场景目标检测的域泛化
18
作者 王云亭 张金艺 《上海大学学报(自然科学版)》 北大核心 2025年第4期704-718,共15页
道路场景目标检测是智慧交通领域的重要组成部分,直接关系到众多智慧交通应用性技术的实施.然而,现有道路场景目标检测域泛化技术普遍存在域不变特征提取不充分、检测精度不高和泛化能力弱的问题.针对此问题,提出复杂天气条件下道路场... 道路场景目标检测是智慧交通领域的重要组成部分,直接关系到众多智慧交通应用性技术的实施.然而,现有道路场景目标检测域泛化技术普遍存在域不变特征提取不充分、检测精度不高和泛化能力弱的问题.针对此问题,提出复杂天气条件下道路场景目标检测的域泛化方法.设计了道路场景域不变特征生成模型,分别提取源域图像的域内不变特征和域间不变特征,并生成更具多样性的复杂天气条件下的道路场景域不变特征,以提高目标检测模型的泛化能力;在此基础上,设计了道路场景目标检测域泛化模型,引入自蒸馏机制,使目标检测模型提取的特征拥有丰富的域不变特征,以进一步增强泛化能力,从而提高目标检测模型的检测精度.实验结果表明,所提出的目标检测域泛化模型性能与对比模型相比有明显提升,能显著提高目标检测模型的泛化能力和检测精度,其中F1-score较基线目标检测模型提升0.042~0.051,均值平均精度(mean average precision,mAP)提升3.0%~5.9%,证明了所提出的目标检测域泛化方法的有效性和优越性. 展开更多
关键词 道路场景 目标检测 域泛化 域不变特征生成 自蒸馏
在线阅读 下载PDF
动态场景中基于神经网络特征提取的SLAM
19
作者 孙润 刘百川 +2 位作者 闫伊琳 徐卫星 和望利 《控制工程》 北大核心 2025年第7期1233-1240,共8页
传统同时定位与地图构建(simultaneous localization and mapping,SLAM)在弱纹理场景中的鲁棒性差,在动态场景中受动态物体干扰。针对这些问题,提出了动态视觉SLAM。首先,在视觉前端使用几何对应网络2(geometric correspondence network... 传统同时定位与地图构建(simultaneous localization and mapping,SLAM)在弱纹理场景中的鲁棒性差,在动态场景中受动态物体干扰。针对这些问题,提出了动态视觉SLAM。首先,在视觉前端使用几何对应网络2(geometric correspondence network version 2,GCNv2)提取特征点并生成二值描述子,提高SLAM在弱纹理场景中的鲁棒性;然后,引入目标检测网络对动态物体进行检测,获取当前帧的语义信息,结合多视图几何剔除动态物体,去除动态物体对SLAM的干扰。实验结果表明:在弱纹理场景中,所提方法可以持续提取足够数量的高质量特征点;在存在动态物体干扰的场景中,所提方法的绝对位姿误差和相对位姿误差较小;在静态场景中,所提方法的性能仍然较优。 展开更多
关键词 SLAM 视觉里程计 弱纹理场景 目标检测 动态特征点剔除 多视图几何
原文传递
开放词汇目标检测方法综述 被引量:1
20
作者 聂秀山 赵润虎 +1 位作者 宁阳 刘新锋 《山东大学学报(工学版)》 北大核心 2025年第1期1-14,共14页
目标检测方法针对特定场景进行训练,需要识别的物体都要人工标注,检测器只能识别被标注的物体。随着目标检测应用场景逐渐增加,特定场景下训练的目标检测器不能满足多样化场景需求,目标检测方法的泛化性能成为研究者关注热点。不同场景... 目标检测方法针对特定场景进行训练,需要识别的物体都要人工标注,检测器只能识别被标注的物体。随着目标检测应用场景逐渐增加,特定场景下训练的目标检测器不能满足多样化场景需求,目标检测方法的泛化性能成为研究者关注热点。不同场景中存在同一物体标签不一致,不同物体特征差异较大等问题,导致在特定场景下训练目标检测器无法泛化到其他场景。针对上述挑战,研究者提出面向开放词汇目标检测方法,利用大量图像-词汇知识将目标检测器从特定场景扩展到开放场景。检测器扩展到开放场景通常有两种方式,即基于大规模图像标题数据方法和基于预训练视觉语言模型方法。基于图像标题数据方法通常需要从大量数据中提取与物体相对应的词汇知识注入检测器,基于视觉语言模型方法则直接利用预训练的知识扩展检测器。开放词汇目标检测模型无需重新训练即可应用在不同场景,更加实用有效。 展开更多
关键词 开放词汇 开放世界 零样本学习 开放场景目标检测 视觉语言模型
原文传递
上一页 1 2 22 下一页 到第
使用帮助 返回顶部