期刊文献+
共找到1,106篇文章
< 1 2 56 >
每页显示 20 50 100
Explosive Field Visualization Based on Image Fusion
1
作者 张文耀 蒋凌霜 《Journal of Beijing Institute of Technology》 EI CAS 2009年第2期136-140,共5页
The advantages and disadvantages of two existing methods for explosive field visualization are analyzed in this paper. And a new method based on image fusion is proposed to integrate their complementary advantages. Wi... The advantages and disadvantages of two existing methods for explosive field visualization are analyzed in this paper. And a new method based on image fusion is proposed to integrate their complementary advantages. With the method, two source images built by equal mapping and modulus mapping are individually decomposed into two Gauss-Laplacian pyramid sequences. Then, the two individual sequences are used to make a composite one according to the process of fusion. Finally, a new image is reconstructed from the composite sequence. Experimental results show that the new images integrate the advantages of sources, effectively improve the visualization, and disclose more information about explosive field. 展开更多
关键词 explosive field visualIZATION image fusion pyramid transform
在线阅读 下载PDF
无人船视觉场景虚实融合系统设计与实现
2
作者 孙燕 李贞辉 +3 位作者 洪坤龙 王琳博 唐建中 聂勇 《舰船科学技术》 北大核心 2026年第6期31-38,共8页
针对无人船自主航行测试过程中存在的周期长、成本高、试验场景单一等问题,设计并实现一种面向实际场景下无人船自主航行测试的视觉场景虚实融合系统。该系统将构建的虚拟仿真场景,通过位姿映射、虚实配准、融合渲染等技术,将虚拟视觉... 针对无人船自主航行测试过程中存在的周期长、成本高、试验场景单一等问题,设计并实现一种面向实际场景下无人船自主航行测试的视觉场景虚实融合系统。该系统将构建的虚拟仿真场景,通过位姿映射、虚实配准、融合渲染等技术,将虚拟视觉场景融入无人船实际视觉场景,生成具有一致性的融合视觉场景,为无人船航行测试过程提供更加丰富、真实的试验场景。实验结果表明,无人船视觉场景虚实融合系统能够有效实现虚实无人船的姿态同步及其视觉场景融合,且在复杂的海洋环境下,融合效果能够保持较高的真实感。 展开更多
关键词 无人舰船 视觉场景融合 自主航行测试
在线阅读 下载PDF
基于跨模态多头注意力的交通量音视融合检测方法
3
作者 马庆禄 吴斐斐 +2 位作者 吴跃川 张丽 张埂 《重庆交通大学学报(自然科学版)》 北大核心 2026年第1期95-105,共11页
针对传统视觉或音频信号在交通量检测中均无法充分捕捉时域和频域细节信息的问题,提出了基于跨模态多头注意力的交通量音视融合检测方法。该方法通过构建一种跨音视频模态的交通量检测模型,获取高质量的交通视觉模态表征和声音模态表征... 针对传统视觉或音频信号在交通量检测中均无法充分捕捉时域和频域细节信息的问题,提出了基于跨模态多头注意力的交通量音视融合检测方法。该方法通过构建一种跨音视频模态的交通量检测模型,获取高质量的交通视觉模态表征和声音模态表征并进行高效融合。首先,采用Res2Net网络与DCNv3网络对音视频数据进行特征提取,通过双向长短期记忆网络对时间序列特征处理,分别分析了音视频中复杂行为序列,获取丰富性和连贯性的交通信息描述;其次,在跨模态融合中将交叉注意力与多头注意力结合,利用多个子空间进行合并输出,进行多头注意力跨模态融合;最后,将交叉熵损失和一致性损失联合应用,加强对不同模态信息的协调解析,确保多模态数据在分类和识别任务中的一致性表现。实验结果表明在交通量检测场景下笔者方法分别比单一音频、视频与AVSS(audio-visual speech separation,AVSS)中的融合方法的平均车辆检测准确率提高了2.57%、1.70%、0.95%,车辆平均分类准确率分别提高了4.72%、1.78%、1.62%,总体交通量平均检测准确率分别提高了4.41%、2.96%、1.46%,且在4种不同场景下表现稳定。 展开更多
关键词 交通工程 交通量检测 音视融合 跨模态 注意力机制
在线阅读 下载PDF
移动机器人基于视觉的导航综述
4
作者 胡章芳 张薇 《半导体光电》 北大核心 2026年第1期28-39,共12页
视觉导航作为移动机器人自主运行的核心技术支撑,其性能直接决定移动机器人的环境感知精度、定位建图可靠性与路径规划的合理性。文章系统综述移动机器人视觉导航的研究进展,围绕视觉传感器、同步定位与地图构建(Simultaneous Localizat... 视觉导航作为移动机器人自主运行的核心技术支撑,其性能直接决定移动机器人的环境感知精度、定位建图可靠性与路径规划的合理性。文章系统综述移动机器人视觉导航的研究进展,围绕视觉传感器、同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)和路径规划三大核心环节展开分析:在视觉传感器层面,重点探讨单模态、多模态融合视觉传感器和新型视觉传感器的技术特性与适配场景;在SLAM层面,总结传统几何SLAM、多模态融合SLAM以及神经隐式SLAM的技术演进与性能优势;在路径规划层面,重点介绍传统算法与生物启发算法的特点与适用场景。最后,总结当前技术面临的挑战,并对未来研究方向进行展望,为视觉导航技术的进一步发展提供参考。 展开更多
关键词 视觉导航 多模态融合 事件相机 神经隐式SLAM 路径规划
原文传递
融合关键区域增强与双向语义引导的视听定位
5
作者 章佳妍 续欣莹 +3 位作者 谢珺 程兰 张喆 刘潇威 《计算机工程与应用》 北大核心 2026年第3期207-217,共11页
视听定位的目的是对给定图像中发出声音的物体进行定位。定位结果主要依据视听特征的相似性,然而由于数据涵盖范围广,复杂的环境与多变的场景影响了定位效果,针对此问题,提出了融合关键区域增强与双向语义引导的视听定位。模型采用自监... 视听定位的目的是对给定图像中发出声音的物体进行定位。定位结果主要依据视听特征的相似性,然而由于数据涵盖范围广,复杂的环境与多变的场景影响了定位效果,针对此问题,提出了融合关键区域增强与双向语义引导的视听定位。模型采用自监督对比学习框架,利用初步视听特征计算多尺度候选关键区域,将其视为声源目标所在位置后过滤源图像获得多个区域掩码并利用动态权重分配机制聚合,起到增强发声区域抑制未发声背景的作用。为了抑制视听信号的语义噪声同时促进多模态融合,提出了一种视听双向语义引导模块,一方面利用跨模态感知辅助图像特征融合音频语义,另一方面细化图像的深度空间特征并提取其语义引导音频特征。经损失约束,实现对声源的视觉定位。实验结果表明,模型在公开视听数据集Flickr-SoundNet和VGG-Sound上均达到了最佳的性能。 展开更多
关键词 多模态学习 视听融合 视听定位 自监督学习
在线阅读 下载PDF
激光传感器感知环境信息和视觉融合的机器人定位研究
6
作者 范新明 朱锦新 邵俊 《激光杂志》 北大核心 2026年第2期216-221,共6页
为使机器人能够全面感知各种复杂环境,在确保移动位姿稳定的前提下,使其能在各种环境中均能实现稳定精确定位,提出基于激光传感器感知环境信息和视觉融合的机器人定位方法。该方法利用双目相机和激光传感器分别进行机器人空间标定和移... 为使机器人能够全面感知各种复杂环境,在确保移动位姿稳定的前提下,使其能在各种环境中均能实现稳定精确定位,提出基于激光传感器感知环境信息和视觉融合的机器人定位方法。该方法利用双目相机和激光传感器分别进行机器人空间标定和移动环境信息感知,将两者的结果统一到相同的坐标系中,获取机器人的全局移动位姿;依据该位姿结果,采用编码器与卡尔曼滤波方法全面融合机器人感知到的环境细节信息,从而准确确定机器人在空间中的位置。实验表明:该方法可以准确地调节关节夹角,使其平移误差均小于0.14%,而旋转角度误差均小于0.05°;并精确融合机器人激光成像信息与视觉信息,以此准确定位机器人当前位置。 展开更多
关键词 激光传感器 双目相机 参数矩阵 编码器 卡尔曼滤波 视觉融合
原文传递
多模态反无人机检测系统与技术
7
作者 王栋 赵洁 +2 位作者 刘洋 张璐 卢湖川 《中国科学基金》 北大核心 2026年第1期73-84,共12页
随着民用与商用无人机技术的快速普及,低空空间安全面临前所未有的挑战。围绕反无人机防御需求,基于多模态信息的反无人机检测技术已成为该领域的重要研究方向,并为相关技术的发展提供了学术交流与研究基础。本文在此背景下,对该领域的... 随着民用与商用无人机技术的快速普及,低空空间安全面临前所未有的挑战。围绕反无人机防御需求,基于多模态信息的反无人机检测技术已成为该领域的重要研究方向,并为相关技术的发展提供了学术交流与研究基础。本文在此背景下,对该领域的研究进展进行了系统性综述。首先,系统梳理了反无人机问题的演进历程和现有技术体系对比;其次,分别从视觉感知、单一传感器和多传感器融合三个方面分析了反无人机检测技术的研究进展;随后,全面总结了当前主流的反无人机检测数据集和重要国际竞赛;最后,对该领域的未来发展方向进行了前瞻性分析与展望。本文旨在为构建高效、智能、可扩展的反无人机防御体系提供理论支撑和技术参考,进而推动国家低空安全防护体系的持续完善与发展。 展开更多
关键词 反无人机检测 视觉感知 多模态融合 低慢小目标 低空安全
原文传递
面向智能座舱的多源混合模态数据集及层次化融合分类方法
8
作者 赵荣峰 卢宝莉 +3 位作者 唐小江 胡敏 李卫军 宁欣 《智能系统学报》 北大核心 2026年第1期83-94,共12页
针对驾驶领域智能座舱数据开源少、数据模态维度单一、标注力度不足和场景多样性受限的问题,构建了面向智能座舱的多源混合模态数据集,包含彩色数据、深度数据和红外数据的视觉模态数据与包含车辆信息和多维度驾驶场景的结构化文本模态... 针对驾驶领域智能座舱数据开源少、数据模态维度单一、标注力度不足和场景多样性受限的问题,构建了面向智能座舱的多源混合模态数据集,包含彩色数据、深度数据和红外数据的视觉模态数据与包含车辆信息和多维度驾驶场景的结构化文本模态数据,使用双层行为联合标注规则完成了数据集十类标签的标注。同时,基于该数据集提出了层次化混合模态融合框架,通过跨模态信息交换机制与语义引导融合机制提升了模型对数据特征的提取能力,完成了数据集中彩色数据与其余各数据的不同组合对行为分类任务性能影响的实验。实验表明:多源混合模态数据集能够有效提升对智能座舱的环境理解。在该数据集上,逐渐增加数据集中与彩色数据的不同数据源能够提升所提出方法对数据集分类的能力,当使用所有数据时性能达到最佳,相较于只用彩色数据的准确率提升了15.75%,验证了数据集内多源混合模态数据的有效性。 展开更多
关键词 智能座舱 数据集 多模态融合 视觉多模态 行为分类 危险行为 行为识别 多源数据
在线阅读 下载PDF
室内复杂环境中LIO-SLAM算法的改进与优化
9
作者 郝亮 陈国杰 +2 位作者 胡肖彤 叶俊杰 王奇斌 《中山大学学报(自然科学版)(中英文)》 北大核心 2026年第1期23-32,共10页
针对传统开源的激光惯性里程计(LIO,lidar-inertial odometry)和即时定位与地图构建(SLAM,simultaneous localization and mapping)结合的LIO-SLAM在室内复杂环境中受激光特征稀疏与动态遮挡影响、定位精度下降等问题,提出一种融合视觉... 针对传统开源的激光惯性里程计(LIO,lidar-inertial odometry)和即时定位与地图构建(SLAM,simultaneous localization and mapping)结合的LIO-SLAM在室内复杂环境中受激光特征稀疏与动态遮挡影响、定位精度下降等问题,提出一种融合视觉里程计的改进方法。在保持LIO-SLAM激光惯性紧耦合框架的基础上,引入基于ORB特征的三维定位与地图构建算法(ORB-SLAM)作为独立的视觉里程计模块,为系统提供高频率、丰富纹理的视觉约束信息。通过自适应权重融合策略,实现激光、惯性与视觉观测的多源优化,增强了在弱几何约束、纹理丰富但结构复杂环境中的鲁棒性。在多种典型室内场景(走廊、开放大厅及动态人群环境)中开展了实验验证。结果表明,相较于原始LIO-SLAM,整体轨迹误差降低至原始系统的70%。研究验证了视觉-激光-惯性多模态融合在室内复杂环境下的可行性与有效性,为高精度室内自主定位与地图构建提供了新的思路。 展开更多
关键词 室内自主定位 LIO-SLAM ORB-SLAM 视觉里程计 多传感器融合
在线阅读 下载PDF
受限环境下基于视觉伺服的假肢手目标对准方法
10
作者 马保平 汪远翔 +3 位作者 王文瑞 陈锋 阚宏伟 汤奇荣 《机器人》 北大核心 2026年第2期226-237,共12页
为解决带腕关节的假肢手因主动自由度多、仅依赖肌电控制易致穿戴者疲劳并影响肌电解码与意图识别准确性的问题,提出利用视觉伺服技术替代肌电信号控制假肢手的腕关节。在用户穿戴假肢手执行操控任务时,先以视觉伺服法控制手腕关节实现... 为解决带腕关节的假肢手因主动自由度多、仅依赖肌电控制易致穿戴者疲劳并影响肌电解码与意图识别准确性的问题,提出利用视觉伺服技术替代肌电信号控制假肢手的腕关节。在用户穿戴假肢手执行操控任务时,先以视觉伺服法控制手腕关节实现特征对准,再融合肌电信号控制手指精准操控。针对有限算力和空间条件,设计融合视觉伺服的假肢手操控对准方法。其中图像处理模块对图像进行预处理和边缘检测,进而识别目标轮廓,并通过特征点匹配确定关键特征位置;特征对准模块基于处理结果运用伺服算法调整关节姿态实现精确对准,突破视觉与肌电信号跨模态融合技术瓶颈。最终,将视觉伺服算法零样本部署至假肢手开展综合实验。结果表明,该方法平均调整时间不超过1.81 s、操控成功率达70%以上、识别准确率不低于90%,能一定程度替代肌电信号实现腕关节控制,减轻穿戴者负担,降低疲劳影响,有效解决仅依赖肌电控制的问题,具有良好应用前景。 展开更多
关键词 假肢手 要素提取 特征对准 视觉伺服 多模态融合
原文传递
基于深度视觉信息的驾驶员分心行为检测方法
11
作者 赵栓峰 王茂权 +3 位作者 李乐平 谢乐坤 李小雨 李开放 《现代电子技术》 北大核心 2026年第4期165-172,共8页
驾驶员分心行为(DDB)检测对于高级驾驶辅助系统(ADAS)极为关键。针对现有DDB检测模型依赖单一RGB视觉信息、全局特征表示不足且泛化性弱等问题,提出一种基于深度视觉信息的DDB检测模型,旨在利用多特征融合与深度学习技术,解决传统方法在... 驾驶员分心行为(DDB)检测对于高级驾驶辅助系统(ADAS)极为关键。针对现有DDB检测模型依赖单一RGB视觉信息、全局特征表示不足且泛化性弱等问题,提出一种基于深度视觉信息的DDB检测模型,旨在利用多特征融合与深度学习技术,解决传统方法在DDB检测中存在的问题。首先,开发了基于IHSNet的视觉特征融合模块,通过结合彩色纹理特征与深度信息,捕捉驾驶员行为的空间依赖关系;其次,构建反向残差软阈值注意力(STA-IR)模块来抑制复杂背景的干扰,减少特征提取过程中冗余特征的生成;然后,提出了全局特征提取STA-FE模块,增强模型的全局特征表示能力。实验结果表明,所提方法在自建驾驶行为数据集上的检测准确率高达98.76%,在准确性和可靠性方面优于现有的方法,对推进ADAS的发展具有重要的理论和实践意义。 展开更多
关键词 分心行为检测 深度视觉信息 高级驾驶辅助系统 多特征融合 反向残差 软阈值注意力
在线阅读 下载PDF
融合理念下的图书馆视障儿童无障碍文化服务:案例研究与创新探索
12
作者 左妍 胡晓梅 +1 位作者 张利锋 井水 《国家图书馆学刊》 北大核心 2026年第1期85-93,共9页
本文借助NVivo编码构建类目体系,并综合运用建构性解释分析与逻辑模型分析,探究陕西省图书馆面向视障儿童的融合型无障碍文化服务实践。首先,系统揭示了该服务的属性特征,厘清了融合对象、要素、作用及类型的概念内涵与其内在关联;其次... 本文借助NVivo编码构建类目体系,并综合运用建构性解释分析与逻辑模型分析,探究陕西省图书馆面向视障儿童的融合型无障碍文化服务实践。首先,系统揭示了该服务的属性特征,厘清了融合对象、要素、作用及类型的概念内涵与其内在关联;其次,提炼出涵盖服务层面、协同层面、建设与传播层面、创新层面及目标层面的普适性服务模式,并构建相应模型以阐释其运行逻辑;最后,提出了“精准化”与“协同化”的优化策略,为推动融合理念应用下的图书馆视障儿童无障碍文化服务高质量发展提供参考。图1。表2。参考文献27。 展开更多
关键词 视障儿童 融合理念 无障碍文化服务 陕西省图书馆
在线阅读 下载PDF
基于场景-物体-方向线索补全及融合的视觉语言导航
13
作者 王立春 耿圆 +1 位作者 李爽 付煜 《北京工业大学学报》 北大核心 2026年第4期392-401,共10页
针对视觉语言导航(vision-and-language navigation,VLN)模型中基于语言指令构建语言图时某些线索缺失导致所构建的语言图中存在无效节点的问题,设计线索补全模块(clues completion module,CCM)以改善无效节点的信息表达能力,并设计线... 针对视觉语言导航(vision-and-language navigation,VLN)模型中基于语言指令构建语言图时某些线索缺失导致所构建的语言图中存在无效节点的问题,设计线索补全模块(clues completion module,CCM)以改善无效节点的信息表达能力,并设计线索加权融合模块(clues-weighted fusion module,CFM)对3种线索进行差异化融合,融合后的线索信息用于动作预测,进而得到更加准确的动作分数以提高导航准确率。在房间到房间(room-to-room,R2R)数据集上的实验结果表明,该方法的导航成功率(success rate,SR)和路径长度加权成功率(success rate weighted by path length,SPL)有明显提升。 展开更多
关键词 视觉语言导航(vision-and-language navigation VLN) 线索信息 线索补全 线索加权融合 视觉线索 语义线索
在线阅读 下载PDF
融合双编码器注意力网络的钻孔结构面分割与参数可视化方法
14
作者 时乙入 段东 +4 位作者 李杰 冯小静 何家雄 陆卫东 甘元平 《矿业研究与开发》 北大核心 2026年第2期288-302,共15页
针对钻孔图像光照不均、背景复杂及结构面形态差异大等难题,提出了一种双编码器交互式注意力增强融合网络(DISA-FuseNet)。该网络基于UNet编码器-解码器架构,采用Swin Transformer和ResNet50双编码器结构,同时捕捉全局上下文信息与局部... 针对钻孔图像光照不均、背景复杂及结构面形态差异大等难题,提出了一种双编码器交互式注意力增强融合网络(DISA-FuseNet)。该网络基于UNet编码器-解码器架构,采用Swin Transformer和ResNet50双编码器结构,同时捕捉全局上下文信息与局部细节特征;通过统计聚合通道注意力模块(SACA)进行注意力加权,抑制岩体背景噪声和无关信息;底层特征经拼接后输入自适应层级增强模块(AHE),强化网络对多尺度结构面特征的捕捉能力。基于自建钻孔结构面数据集开展试验验证,将DISA-FuseNet与UNet、Deeplabv3+、Trans-UNet、DeepCrack及CrackFormer五种模型进行对比。结果表明,DISA-FuseNet在平均交并比、平均像素准确率、召回率、精确率、F1分数指标上均优于其他模型,各指标较基准模型UNet分别提升了8.44,9.51,8.52,10.60,9.62个百分点。进一步提出结构面参数提取与三维可视化方法,实现结构面参数的精准提取与交互式三维可视化模型构建。经实际工程案例验证,该方法具备良好的有效性和工程适用性。 展开更多
关键词 结构面识别 钻孔图像 双编码器 交互式注意力增强融合网络 三维可视化
原文传递
面向冶金质检的2D/3D视觉协同检测系统关键算法 被引量:1
15
作者 华晋军 王思贤 +1 位作者 唐文明 李树丰 《河北冶金》 2026年第2期65-69,84,共6页
针对热态钢轨质检中高温干扰、缺陷复杂及结构与纹理信息割裂等问题,本文提出并验证了一套面向冶金质检的2D/3D视觉系统检测系统的关键算法。在2D检测方面,提出轻量化DFAM-YOLO-Met(Defect-Focused Attention Module YOLO for Metallur... 针对热态钢轨质检中高温干扰、缺陷复杂及结构与纹理信息割裂等问题,本文提出并验证了一套面向冶金质检的2D/3D视觉系统检测系统的关键算法。在2D检测方面,提出轻量化DFAM-YOLO-Met(Defect-Focused Attention Module YOLO for Metallurgy)模型,通过将特征增强技术与注意力模块与YOLO模型进行耦合,实现对微小缺陷的高效识别。在自建图像集上取得91.6%的mAP和0.89的F1-score,在3D建模方面,设计三阶段点云优化与分段曲率拟合策略,引入热响应补偿机制,实现高温下的在线尺寸精测,误差由±0.28 mm降至±0.12 mm,满足国标≤0.15 mm的要求;在多模态融合方面,构建图-点映射与模块互引机制,实现2D与3D检测结果的联动复核,系统误报率由2.4%降至1.5%,复合缺陷Recall提升11.7%。实测表明,系统可在5 m/s钢轨产线上稳定运行72 h,单帧推理时延11.4 ms,GPU功耗低于15 W,具备良好鲁棒性与部署价值,为冶金行业在高温高速工况下实现智能质检提供了技术路径与实践参考。 展开更多
关键词 热态钢轨 表面检测 MAP 多模态融合 数据增强 2D/3D视觉协同
在线阅读 下载PDF
双域多尺度状态空间网络下的口腔颌面全景X射线图像分割算法研究
16
作者 李冰 胡伟杰 刘侠 《电子与信息学报》 北大核心 2026年第1期382-393,共12页
针对口腔颌面全景X射线图像中存在的形态变异显著、牙体-牙龈边界模糊以及牙周组织灰度值重叠等问题,该研究提出基于双域多尺度状态空间网络的口腔颌面全景X射线图像分割算法。空间域利用视觉状态空间块建立牙弓动态传播模型,并利用微... 针对口腔颌面全景X射线图像中存在的形态变异显著、牙体-牙龈边界模糊以及牙周组织灰度值重叠等问题,该研究提出基于双域多尺度状态空间网络的口腔颌面全景X射线图像分割算法。空间域利用视觉状态空间块建立牙弓动态传播模型,并利用微分方程实现跨象限长程关联捕捉。特征域构建可变形多尺度注意力金字塔,并利用通道-空间注意力动态加权关键解剖标志的灰度渐变特征,解析牙体-牙龈模糊边界。双域特征进一步通过三重注意力融合机制,强化解剖标注的语义表达。实验表明,该算法在颌面全景X射线图像分割任务中取得显著效果,戴斯系数(Dice)达93.8%,豪斯多夫距离(HD95)为18.73像素,充分验证了算法的有效性。 展开更多
关键词 口腔颌面全景X射线图像分割 视觉状态空间块 可变形多尺度注意力金字塔 三重注意力融合
在线阅读 下载PDF
基于点线特征融合改进IMU初始化的双目视觉惯性SLAM方法
17
作者 陈久朋 杨旺 +2 位作者 伞红军 冯金祥 伞亮 《农业机械学报》 北大核心 2026年第5期373-386,共14页
针对基于特征点的SLAM系统在弱纹理场景下存在特征提取不足、易跟踪丢失等问题,为提高在复杂场景中的系统初始化精度和鲁棒性,本文在ORB-SLAM3框架的基础上加入了线特征,并对视觉惯性初始化进行了改进。首先在前端视觉里程计部分融入了... 针对基于特征点的SLAM系统在弱纹理场景下存在特征提取不足、易跟踪丢失等问题,为提高在复杂场景中的系统初始化精度和鲁棒性,本文在ORB-SLAM3框架的基础上加入了线特征,并对视觉惯性初始化进行了改进。首先在前端视觉里程计部分融入了LSD算法和LBD描述子进行线特征的提取和匹配,建立点、线特征重投影误差模型,并用基于非线性优化的BA方法来最小化重投影误差,同时引入自适应因子动态调整线特征权重。接着通过扩展双目MNEC约束构建陀螺仪偏差估计器,采用旋转-平移解耦优化策略,并引入残差评估机制确保视觉惯性初始化可靠性,同时将IMU残差、特征点重投影误差以及直线重投影误差共同作为非线性优化的约束条件对相机位姿进行估计。在euroc数据集和真实场景中进行实验,结果表明与改进前ORB-SLAM3算法相比,在数据集下改进算法定位精度提高22.9%,真实环境中偏移量减少1.4 m,从而验证了改进算法的可行性和有效性。 展开更多
关键词 视觉SLAM 点线特征融合 初始化优化 弱纹理场景
在线阅读 下载PDF
融合多模态信息的机器人轴孔装配
18
作者 代卓宏 黄腾飞 +1 位作者 渠继强 毕德学 《机床与液压》 北大核心 2026年第3期72-77,共6页
针对当前轴孔装配策略多依赖单一传感器且缺乏不同模态数据深度交互,导致环境感知不全面、装配精度与鲁棒性受限的问题,提出基于Transformer进行多传感器融合的装配方法。通过自监督学习提取图像、深度图、力-力矩的特征,利用注意力机... 针对当前轴孔装配策略多依赖单一传感器且缺乏不同模态数据深度交互,导致环境感知不全面、装配精度与鲁棒性受限的问题,提出基于Transformer进行多传感器融合的装配方法。通过自监督学习提取图像、深度图、力-力矩的特征,利用注意力机制构建模态间的复杂关系并自适应分配权重,动态调整不同数据类型对状态表示的影响,并对结果进行可视化分析。最后,采用近端策略优化(PPO)算法提取装配状态并生成动作,引导机器人调整装配姿态。实验结果表明,相较于仅依赖单一视觉(RGB)、深度(Depth)或触觉(Tactile)输入的轴孔装配策略,基于Transformer的多模态融合输入将装配成功率分别提高了31%、21%和51%。注意力可视化结果进一步表明,所提方法能够依据装配阶段(寻孔/插孔)自适应聚焦关键模态与区域。 展开更多
关键词 多模态融合 轴孔装配 可视化分析
在线阅读 下载PDF
复杂病房环境下改进ORB-SLAM3的机器人定位导航研究
19
作者 刘欣达 王家俊 周涛 《传感器与微系统》 北大核心 2026年第1期62-66,共5页
针对医院病房巡视机器人在复杂光照、频繁遮挡、低纹理和动态干扰等条件下自主定位精度下降的问题,提出一种改进型视觉惯导融合ORB-SLAM3的定位与导航方法。该方法在传统ORB-SLAM3框架的基础上,引入了视觉-惯性测量单元(IMU)紧耦合残差... 针对医院病房巡视机器人在复杂光照、频繁遮挡、低纹理和动态干扰等条件下自主定位精度下降的问题,提出一种改进型视觉惯导融合ORB-SLAM3的定位与导航方法。该方法在传统ORB-SLAM3框架的基础上,引入了视觉-惯性测量单元(IMU)紧耦合残差优化模型,通过改进预积分提高了在弱光和遮挡环境下的鲁棒性与建图精度。针对病房布局紧凑、人员与设备频繁移动的特点,结合Navigation2(Nav2)框架,设计了基于A*的全局路径规划与动态窗口法(DWA)的局部避障策略,并引入速度平滑约束的纯跟踪算法,确保机器人在医疗场景中的安全与舒适运行。实验验证表明,该方法在复杂病房环境中有效提升了病房巡视机器人的任务执行的稳定性与精度。 展开更多
关键词 病房巡视机器人 ORB-SLAM3 自主导航 视觉惯导融合
在线阅读 下载PDF
On‐device audio‐visual multi‐person wake word spotting
20
作者 Yidi Li Guoquan Wang +2 位作者 Zhan Chen Hao Tang Hong Liu 《CAAI Transactions on Intelligence Technology》 SCIE EI 2023年第4期1578-1589,共12页
Audio‐visual wake word spotting is a challenging multi‐modal task that exploits visual information of lip motion patterns to supplement acoustic speech to improve overall detection performance.However,most audio‐vi... Audio‐visual wake word spotting is a challenging multi‐modal task that exploits visual information of lip motion patterns to supplement acoustic speech to improve overall detection performance.However,most audio‐visual wake word spotting models are only suitable for simple single‐speaker scenarios and require high computational complexity.Further development is hindered by complex multi‐person scenarios and computational limitations in mobile environments.In this paper,a novel audio‐visual model is proposed for on‐device multi‐person wake word spotting.Firstly,an attention‐based audio‐visual voice activity detection module is presented,which generates an attention score matrix of audio and visual representations to derive active speaker representation.Secondly,the knowledge distillation method is introduced to transfer knowledge from the large model to the on‐device model to control the size of our model.Moreover,a new audio‐visual dataset,PKU‐KWS,is collected for sentence‐level multi‐person wake word spotting.Experimental results on the PKU‐KWS dataset show that this approach outperforms the previous state‐of‐the‐art methods. 展开更多
关键词 audio‐visual fusion human‐computer interfacing speech processing
在线阅读 下载PDF
上一页 1 2 56 下一页 到第
使用帮助 返回顶部