期刊文献+
共找到611篇文章
< 1 2 31 >
每页显示 20 50 100
HDMapFusion:用于自动驾驶的多模态融合高清地图生成(特邀)
1
作者 刘洋宏 付杨悠然 董性平 《计算机工程》 北大核心 2025年第10期18-26,共9页
高清环境语义地图的生成是自动驾驶系统实现环境感知与决策规划不可或缺的关键技术。针对当前自动驾驶领域相机与激光雷达在感知任务中存在的模态差异问题,提出一种创新的多模态融合范式HDMapFusion,通过特征级融合策略显著提升了语义... 高清环境语义地图的生成是自动驾驶系统实现环境感知与决策规划不可或缺的关键技术。针对当前自动驾驶领域相机与激光雷达在感知任务中存在的模态差异问题,提出一种创新的多模态融合范式HDMapFusion,通过特征级融合策略显著提升了语义地图的生成精度。与传统直接融合原始传感器数据的方法不同,HDMapFusion创新性地将相机图像特征和激光雷达点云特征统一转换为鸟瞰视图(BEV)空间表示,在统一的几何坐标系下实现了多模态信息的物理可解释性融合。具体而言:HDMapFusion首先通过深度学习网络分别提取相机图像的视觉特征和激光雷达的三维(3D)结构特征;然后利用可微分的视角变换模块将前视图像特征转换为BEV空间表示,同时将激光雷达点云特征通过体素化处理投影到相同的BEV空间,在此基础上设计一个基于注意力机制的特征融合模块,自适应地加权整合两种模态;最后通过语义解码器生成包含车道线、人行横道、道路边界线等要素的高精度语义地图。在nuScenes自动驾驶数据集上的实验结果表明,HDMapFusion在高清地图生成精度方面显著优于现有基准方法。这些实验结果验证了HDMapFusion的有效性和优越性,为自动驾驶环境感知中的多模态融合问题提供了新的解决思路。 展开更多
关键词 高清地图生成 多模态融合 鸟瞰视图表示 自动驾驶 深度估计
在线阅读 下载PDF
基于多尺度双流网络的深度伪造检测方法
2
作者 蒋翠玲 程梓源 +1 位作者 俞新贵 万永菁 《计算机工程》 北大核心 2026年第1期242-253,共12页
人脸深度伪造技术的滥用给社会和个人带来了极大的安全隐患,因此深度伪造检测技术已成为当今研究的热点。目前基于深度学习的伪造检测技术在高质量(HQ)数据集上效果较好,但在低质量(LQ)数据集和跨数据集上的检测效果不佳。为提升深度伪... 人脸深度伪造技术的滥用给社会和个人带来了极大的安全隐患,因此深度伪造检测技术已成为当今研究的热点。目前基于深度学习的伪造检测技术在高质量(HQ)数据集上效果较好,但在低质量(LQ)数据集和跨数据集上的检测效果不佳。为提升深度伪造检测的泛化性,提出一种基于多尺度双流网络(MSDSnet)的深度伪造检测方法。MSDSnet输入分为空域特征流和高频噪声特征流,首先采用多尺度融合(MSF)模块捕获不同情况下图像在空域被篡改的粗粒度人脸特征和伪造图像的细粒度高频噪声特征信息,然后通过MSF模块将空域流和高频噪声流的双流特征充分融合,由多模态交互注意力(MIA)模块进一步交互以充分学习双流特征信息,最后利用FcaNet(Frequency Channel Attention Network)获取伪造人脸特征的全局信息并完成检测分类。实验结果表明,该方法在HQ数据集Celeb-DF v2上的准确率为98.54%,在LQ数据集FaceForensics++上的准确率为93.11%,同时在跨数据集上的实验效果也优于其他同类方法。 展开更多
关键词 深度伪造检测 双流网络 多尺度融合 多模态交互注意力 高频噪声
在线阅读 下载PDF
基于多模态融合特征的并分支发动机寿命预测方法
3
作者 李亚男 郭梦阳 +3 位作者 邓国军 陈允峰 任建吉 原永亮 《计算机应用》 北大核心 2026年第1期305-313,共9页
针对发动机运行数据的多模态以及难以实现有效的发动机寿命预测问题,提出一种融合图像和发动机运行时间数据潜在关系的多模态融合特征并分支发动机寿命预测方法。首先,利用滑动窗口对发动机运行数据进行分割,以构造发动机运行数据的序... 针对发动机运行数据的多模态以及难以实现有效的发动机寿命预测问题,提出一种融合图像和发动机运行时间数据潜在关系的多模态融合特征并分支发动机寿命预测方法。首先,利用滑动窗口对发动机运行数据进行分割,以构造发动机运行数据的序列样本,并采用格拉姆角场(GAF)将构造的序列样本转化为图像;其次,用序列样本和图像分别通过双向长短期记忆(BiLSTM)网络和卷积神经网络(CNN)获取趋势和周期等传感器之间的潜在关系特征;最后,引入交叉注意力机制(CAM)实现2种模态特征的融合并实现发动机寿命的预测。在公开的C-MAPSS数据集上的实验结果表明,该预测方法的R-squared(R^(2))高于0.99,而均方根误差(RMSE)在1以内。可见,该方法能在保证预测精度的同时改善计算效率。 展开更多
关键词 寿命预测 多模态融合 格拉姆角场 卷积神经网络 交叉注意力机制
在线阅读 下载PDF
基于自适应超模态学习的音视频情绪识别方法
4
作者 胡峻峰 刘倩 《计算机工程与设计》 北大核心 2026年第2期486-494,共9页
针对多模态情感识别中存在的特征冗余、噪声干扰及模态权重固化问题,提出一种基于自适应超模态学习的音视频情感识别方法。通过EfficientFace网络与一维卷积分别提取视频面部特征和音频特征,采用自适应超模态学习方法评估模态信息质量,... 针对多模态情感识别中存在的特征冗余、噪声干扰及模态权重固化问题,提出一种基于自适应超模态学习的音视频情感识别方法。通过EfficientFace网络与一维卷积分别提取视频面部特征和音频特征,采用自适应超模态学习方法评估模态信息质量,建立跨模态特征交互通道以抑制噪声特征。设计双重特征融合架构,结合残差连接保持原始特征完整性,通过一维卷积层实现跨模态特征自适应拼接。在公开数据集CH-SIMS和RAVDESS上的实验结果表明,所提方法情感识别准确率优于基准模型,F1值同步提升。消融实验验证了自适应超模态学习模块对噪声抑制的有效性。 展开更多
关键词 深度学习 情感分析 跨模态融合 注意力机制 特征提取 情绪分类 多模态
在线阅读 下载PDF
基于多码深度特征融合生成对抗网络的文本生成图像方法
5
作者 顾广华 孙文星 伊柏宇 《电子与信息学报》 北大核心 2026年第1期287-296,共10页
文本生成图像是一项极具挑战的跨模态任务,其核心在于生成与文本描述高度一致、细节丰富的高质量图像。当前基于生成对抗网络的方法多依赖单一噪声输入,导致生成图像细粒度不足;同时,单词级特征利用不充分,也制约了文本与图像之间的语... 文本生成图像是一项极具挑战的跨模态任务,其核心在于生成与文本描述高度一致、细节丰富的高质量图像。当前基于生成对抗网络的方法多依赖单一噪声输入,导致生成图像细粒度不足;同时,单词级特征利用不充分,也制约了文本与图像之间的语义对齐精度。为此,该文提出一种多码深度特征融合生成对抗网络(mDFAGAN)。该方法通过设计多噪声输入生成器与多码先验融合模块,提升生成图像的细节表现力;在生成器中引入多头注意力机制,从多角度对齐单词与图像子区域,增强语义一致性;此外,提出多码先验融合损失以稳定训练过程。在CUB和COCO数据集上的实验结果表明,所提方法在IS与FID评价指标上均优于当前主流生成对抗网络方法,能够生成更逼真、细节更丰富、语义一致性更强的图像。 展开更多
关键词 文本生成图像 生成对抗网络 跨模态 多码先验融合
在线阅读 下载PDF
基于多模态三支路异构融合的逆变器开路故障诊断研究
6
作者 刘伟 王澜 易冠群 《电力系统保护与控制》 北大核心 2026年第1期71-82,共12页
针对逆变器开路故障,提出了一种基于GAF-RP-LSTM-Transformer的三支路异构融合的诊断方法。首先,采用互补集合经验模态分解与相位随机技术(complementary ensemble empirical mode decomposition with phase randomization technique,CE... 针对逆变器开路故障,提出了一种基于GAF-RP-LSTM-Transformer的三支路异构融合的诊断方法。首先,采用互补集合经验模态分解与相位随机技术(complementary ensemble empirical mode decomposition with phase randomization technique,CEEMD-PRT)算法处理逆变器输出电流信号,提取局部故障特征。并通过格拉姆角场(Gramian angular field,GAF)和递归图(recurrence plot,RP)变换将一维时序信号转换为二维图像,充分利用时序信号中的全局趋势特征(GAF)和非线性动力学特征(RP)。为弥补传统一维特征提取在空间相关性表征上的不足,利用长短期记忆(long short-term memory,LSTM)网络提取时序数据的动态特征,利用GAF-RP-Transformer双支路模型提取二维图片的空间特征。为实现一维时序特征与二维空间特征间多维信息的融合,提出了全新的异构特征融合模块,通过多模态图像的互补性,增强模型对故障细微差异的捕捉能力。实验结果表明,所提模型在测试集上的分类准确率达到99.3%,显著优于其他对比模型,并能在不同噪声干扰下保持较高的诊断准确性。特别是在30 dB和20 dB噪声下,准确率下降幅度较小,表明该方法具有较强的鲁棒性。仿真验证了GAF-RP-LSTM-Transformer三支路异构融合模型在逆变器故障诊断中的有效性与优越性。 展开更多
关键词 逆变器开路故障诊断 多模态三支路异构融合模型 CEEMD-PRT算法 异构特征融合
在线阅读 下载PDF
无人机多模态超宽谱认知仪研究
7
作者 施云鹤 张小飞 吴启晖 《数据采集与处理》 北大核心 2026年第1期28-52,共25页
本文设计了一种无人机(Unmanned aerial vehicle,UAV)多模态超宽谱认知仪,通过深度融合可见光、红外、合成孔径雷达(Synthetic aperture radar,SAR)及无线频谱等多模态传感器构建智能遥感系统,旨在攻克传统无人机遥感的根本性瓶颈:续航... 本文设计了一种无人机(Unmanned aerial vehicle,UAV)多模态超宽谱认知仪,通过深度融合可见光、红外、合成孔径雷达(Synthetic aperture radar,SAR)及无线频谱等多模态传感器构建智能遥感系统,旨在攻克传统无人机遥感的根本性瓶颈:续航时间短严重制约探测范围、有效载荷不足限制多模态感知能力、机载算力薄弱导致实时处理延迟、通信容量有限阻碍高保真态势评估。本文设计方案针对续航挑战,采用活塞发动机与锂电池协同的混合能源构型,结合垂直起降(Vertical take-off and landing,VTOL)飞翼布局,显著提升航时效能;为应对载荷限制,开发复眼多目相机实现大视场高分辨率成像,集成W波段轻小型SAR突破亚毫米级振动补偿技术,支撑空-时-频多维度协同感知;为化解实时处理困境,基于时空配准框架与轻量化深度学习模型,构建数据层-特征层-语义层多层次融合机制,将低可观测目标检测精度提升至90%以上;针对通信瓶颈,创新生成式编码技术结合知识图谱驱动的态势重建,通过无参考质量评估模型量化语义保真度,实现超400倍压缩下的高保真三维态势生成。该仪器在国防侦察领域成功实现复杂电磁环境中隐蔽目标实时追踪,在应急救援中完成洪涝灾害监测与三维重建等关键任务,验证了多模态超宽谱认知在复杂场景的实用价值。 展开更多
关键词 无人机 混合能源 多模态载荷集成 多模态融合 质量评估
在线阅读 下载PDF
面向智慧家庭空间的时空知识图谱的双模态融合构建方法
8
作者 王菲 陶冶 +3 位作者 刘家旺 李伟 秦修功 张宁 《计算机应用》 北大核心 2026年第1期52-59,共8页
智慧家庭领域的发展依赖于构建丰富的时空知识图谱支撑下游任务的设计与执行。然而,构建智慧家庭空间的时空知识图谱面临数据源多样、数据质量低以及规模有限等挑战。因此,提出一种融合说明文档相对位置信息与用户行为日志的双模态知识... 智慧家庭领域的发展依赖于构建丰富的时空知识图谱支撑下游任务的设计与执行。然而,构建智慧家庭空间的时空知识图谱面临数据源多样、数据质量低以及规模有限等挑战。因此,提出一种融合说明文档相对位置信息与用户行为日志的双模态知识提取框架来充分挖掘设备说明文档和用户行为日志中的多模态信息,从而高效地实现知识提取与图谱构建。该框架包括两部分:首先,提出一个基于相对位置布局匹配(RPLM)的方法,以利用说明文档的相对位置特性来对设备说明文档中的图像和文本进行关联匹配,同时设计说明文档的本体模型,并与大语言模型(LLM)融合,提取结构化信息并构建说明文档知识图谱;其次,设计功能关联分析(FCA)算法和设备使用行为处理(DUBP)算法,从用户行为日志中提取功能关联的设备信息并构建家庭空间的时空知识图谱。选取LayoutLMv3、ERNIE-Layout和GeoLayoutLM等作为基准模型,并在一个自建中文说明文档布局分析(CMDLA)数据集和合成的用户行为日志数据集以及3个公开文档分析数据集上进行验证。结果表明,所提框架在家庭领域数据集上的知识提取准确性和效率上优于基线方法,准确率达到96.39%,比次优方法GeoLayoutLM提高了0.97个百分点,在异构数据融合与时空建模任务中表现出显著优势。 展开更多
关键词 智能家庭 设备说明文档 行为日志 知识图谱 多模态融合 知识抽取
在线阅读 下载PDF
点云与图像两阶段双向融合的3D目标检测方法
9
作者 黄博瑞 王肖霞 杨风暴 《激光杂志》 北大核心 2026年第2期51-61,共11页
在自动驾驶感知系统中,实现点云与图像信息的有效融合对于提升3D目标检测的准确性具有关键意义。针对目前点云与图像融合方法存在互补性利用不足的问题,提出一种两阶段双向跨模态融合网络。首先,在前融合阶段构建双向特征补偿机制,通过... 在自动驾驶感知系统中,实现点云与图像信息的有效融合对于提升3D目标检测的准确性具有关键意义。针对目前点云与图像融合方法存在互补性利用不足的问题,提出一种两阶段双向跨模态融合网络。首先,在前融合阶段构建双向特征补偿机制,通过映射矩阵建立点云几何特征与图像纹理特征的细粒度空间对应关系,利用交叉投影策略实现模态间的双向信息互补;其次,在中期融合阶段设计跨模态特征学习模块,采用基于Transformer的感知机制来提高有效信息的权重,并通过交叉注意力机制动态调整特征权重,实现互补特征的深度聚合。最后,为优化跨模态特征对齐,引入了一种针对点云与图像特征动态对齐的损失函数,根据点—像素匹配的相似性权重,自适应优化特征映射过程中的语义偏移。在KITTI与Waymo数据集上的实验表明,所提方法在mAP指标上相较其他模型平均提升了6.07%和4.12%。 展开更多
关键词 双模态融合 3D目标检测 两阶段融合 注意力机制 动态损失函数
原文传递
融合医学信息学技术与大语言模型的名老中医学术思想传承研究路径探讨
10
作者 朱希焕 李子轩 +3 位作者 袁驰 王怀玉 王济 王琦 《中医杂志》 北大核心 2026年第2期126-130,共5页
名老中医学术思想传承是中医药高质量发展的核心任务。在信息化时代背景下,传统传承模式面临隐性知识难以量化提取、传承碎片化矛盾凸显、传承的动态性与知识固化矛盾等多重挑战,名老中医学术思想蕴含的知识理论亟待系统化挖掘。从传承... 名老中医学术思想传承是中医药高质量发展的核心任务。在信息化时代背景下,传统传承模式面临隐性知识难以量化提取、传承碎片化矛盾凸显、传承的动态性与知识固化矛盾等多重挑战,名老中医学术思想蕴含的知识理论亟待系统化挖掘。从传承的需求与矛盾出发,提出通过多模态技术构建中医隐性知识的客观表征体系;通过本体构建系统性整合名老中医诊疗知识;结合知识图谱与大语言模型,实现知识图谱的动态拓展与辨证推演,为名老中医学术思想的传承提供信息化技术路径,促进中医药现代化发展。 展开更多
关键词 名老中医学术思想传承 医学信息学 多模态融合 大语言模型 知识图谱
原文传递
油气场站巡检机器人智能分析技术
11
作者 孙国宝 杨豪 +3 位作者 魏普鑫 薛琦 陈冰 檀朝东 《钻采工艺》 北大核心 2026年第1期88-97,共10页
在全球能源转型与“双碳”目标驱动下,油气场站智能巡检已成为保障安全生产的核心手段。传统人工巡检模式面临效率低下、安全风险高及数据一致性差等突出问题。文章提出了基于五层架构的油气场站巡检机器人智能分析技术体系,整合智能感... 在全球能源转型与“双碳”目标驱动下,油气场站智能巡检已成为保障安全生产的核心手段。传统人工巡检模式面临效率低下、安全风险高及数据一致性差等突出问题。文章提出了基于五层架构的油气场站巡检机器人智能分析技术体系,整合智能感知层、分析层、决策层、执行层及人机交互与云边协同层,构建了从油气场站环境感知到全流程自动化智能决策的机器人智能巡检系统。该系统融合激光雷达、红外热像仪和多种传感器等多模态感知技术,采用改进的混合路径规划算法实现复杂场景下的安全高效避障,结合SLAM技术达到厘米级定位精度。硬件平台达到国标防爆标准和IP66防护等级,软件系统基于ROS2框架实现模块化开发。长庆油田页岩油场站验证表明,巡检机器人系统仪表识别准确率达98.5%,避障成功率100%,巡检效率较人工大幅提升,为油气场站智能化运维提供了可靠的技术解决方案。 展开更多
关键词 巡检机器人 智能分析技术 多传感器融合 多模态感知 路径规划
在线阅读 下载PDF
PKHOI:利用先验知识增强人-物交互检测算法
12
作者 赵文豪 梅萌 +1 位作者 王小平 罗航宇 《计算机科学》 北大核心 2026年第1期141-152,共12页
人-物交互检测(Human-Object Interaction,HOI)在视觉场景理解中起着至关重要的作用,随着深度学习技术的发展,基于视觉的交互检测模型已经能够获得良好的性能。然而,现有方法大多缺乏对先验的逻辑知识的运用,有时会推导出不合理的结果... 人-物交互检测(Human-Object Interaction,HOI)在视觉场景理解中起着至关重要的作用,随着深度学习技术的发展,基于视觉的交互检测模型已经能够获得良好的性能。然而,现有方法大多缺乏对先验的逻辑知识的运用,有时会推导出不合理的结果。其次,一些方法将空间信息和人体姿态信息用于推理,但它们仅在推理结果和标注之间构造损失,导致解码器无法学习到准确的隐含关系。因此,提出一种利用先验知识增强现有人-物交互检测算法的方法PKHOI,该方法能够有效增强现有人-物交互检测算法的准确性。具体而言,从训练集中构建了一个包含物品功能性、空间关系、人体姿态和动词共现的逻辑规则表,将其形式化为一阶逻辑并映射到连续空间中,在训练阶段和推理阶段分别以损失函数和矩阵乘法的形式将先验的逻辑规则融入神经网络,提升模型的准确性。此外,提出一种通过融合多模态信息(空间、语义和人体姿态信息)生成人-物对查询的方法,结合逻辑损失函数,可以引导解码器学习到更多的隐含知识。利用提出的方法增强了两个主流的人-物交互检测算法UPT和PViC,并在V-COCO,HICO-DET和Flickr30k数据集上进行了评估,实验结果表明,提出的方法可以有效提高现有方法的性能。 展开更多
关键词 人-物交互检测 先验知识 一阶逻辑 姿态信息 多模态信息融合
在线阅读 下载PDF
基于多模态信息融合的无监督CAN总线测绘框架
13
作者 姚伟平 李清宝 +1 位作者 陈志锋 焦卫华 《信息工程大学学报》 2026年第1期88-96,共9页
针对黑盒环境下控制器局域网(CAN)总线拓扑测绘的挑战,提出一种基于多模态信息融合的无监督测绘模型(3Mapping)。该方法通过JointVEM多模态特征工程方法,同步采集电压与电磁信号,提取上升沿和下降沿的电压微分峰值、电磁峰值及其时间间... 针对黑盒环境下控制器局域网(CAN)总线拓扑测绘的挑战,提出一种基于多模态信息融合的无监督测绘模型(3Mapping)。该方法通过JointVEM多模态特征工程方法,同步采集电压与电磁信号,提取上升沿和下降沿的电压微分峰值、电磁峰值及其时间间隔等多维特征,有效融合发动机控制器(ECU)的硬件特征和位置信息,显著增强特征的区分度和鲁棒性。引入基于隔离森林(IF)的异常数据清洗机制,有效剔除噪声样本;结合变分自编码器(VAE)进行潜在空间特征学习,并采用高斯混合模型(GMM)实现无监督聚类。实验结果表明,JointVEM多模态特征方法能有效提取节点硬件特征,聚类分析轮廓系数均超过0.95,Davies-Bouldin(DB)指数低于0.2,多项指标上均优于对比方法,能准确完成CAN节点聚类和总线拓扑测绘,为后续安全检测提供可靠真实的有效标签。 展开更多
关键词 CAN总线测绘 多模态信息融合 物理层特征 聚类分析 异常检测 车载网络安全
在线阅读 下载PDF
面向冶金质检的2D/3D视觉协同检测系统关键算法
14
作者 华晋军 王思贤 +1 位作者 唐文明 李树丰 《河北冶金》 2026年第2期65-69,84,共6页
针对热态钢轨质检中高温干扰、缺陷复杂及结构与纹理信息割裂等问题,本文提出并验证了一套面向冶金质检的2D/3D视觉系统检测系统的关键算法。在2D检测方面,提出轻量化DFAM-YOLO-Met(Defect-Focused Attention Module YOLO for Metallur... 针对热态钢轨质检中高温干扰、缺陷复杂及结构与纹理信息割裂等问题,本文提出并验证了一套面向冶金质检的2D/3D视觉系统检测系统的关键算法。在2D检测方面,提出轻量化DFAM-YOLO-Met(Defect-Focused Attention Module YOLO for Metallurgy)模型,通过将特征增强技术与注意力模块与YOLO模型进行耦合,实现对微小缺陷的高效识别。在自建图像集上取得91.6%的mAP和0.89的F1-score,在3D建模方面,设计三阶段点云优化与分段曲率拟合策略,引入热响应补偿机制,实现高温下的在线尺寸精测,误差由±0.28 mm降至±0.12 mm,满足国标≤0.15 mm的要求;在多模态融合方面,构建图-点映射与模块互引机制,实现2D与3D检测结果的联动复核,系统误报率由2.4%降至1.5%,复合缺陷Recall提升11.7%。实测表明,系统可在5 m/s钢轨产线上稳定运行72 h,单帧推理时延11.4 ms,GPU功耗低于15 W,具备良好鲁棒性与部署价值,为冶金行业在高温高速工况下实现智能质检提供了技术路径与实践参考。 展开更多
关键词 热态钢轨 表面检测 MAP 多模态融合 数据增强 2D/3D视觉协同
在线阅读 下载PDF
基于多阶段特征融合的跨模态室内定位方法
15
作者 张志伟 王庆虎 +1 位作者 刘金宇 裴志利 《内蒙古民族大学学报(自然科学版)》 2026年第1期41-49,共9页
多模态融合定位虽能在一定程度上弥补单一地磁或Wi-Fi定位的缺陷,但定位精度严重受制于不同模态间的特征异质性。针对该问题,提出一种基于多阶段特征融合的跨模态室内定位模型MamLoc。构建以Mamba选择性状态空间模型为核心并引入层归一... 多模态融合定位虽能在一定程度上弥补单一地磁或Wi-Fi定位的缺陷,但定位精度严重受制于不同模态间的特征异质性。针对该问题,提出一种基于多阶段特征融合的跨模态室内定位模型MamLoc。构建以Mamba选择性状态空间模型为核心并引入层归一化与残差连接设计的特征提取单元Mamba Block,用于学习地磁和Wi-Fi中隐含的位置关联信息。设计基于多头注意力的跨模态特征融合机制与多阶段特征融合方法,在特征提取的不同阶段分2次融合地磁与Wi-Fi特征,逐步构建跨模态的初级与高级融合表示。同时,通过多头注意力进一步学习跨模态融合特征与单模态特征的关联信息,增强跨模态融合特征的辨识度,降低模态异质性对定位精度的影响。实验结果表明,MamLoc基于地磁和Wi-Fi的融合定位精度较单一地磁、Wi-Fi定位精度分别相对提升了13.8%、58.7%,并且MamLoc的定位精度相比基于迁移学习的CNN-LSTM定位方法与基于MLP的定位方法分别相对提升了13.7%、25.2%。 展开更多
关键词 室内定位 多模态 模态异质性 跨模态融合
在线阅读 下载PDF
基于多任务学习的眼科视频特征融合与多维画像
16
作者 杜剑彤 管泽礼 薛哲 《计算机科学》 北大核心 2026年第3期383-391,共9页
针对社交网络眼科视频存在的视觉特征区分度低、文本描述口语化严重以及多模态语义异构等挑战,提出了一种基于多任务学习的眼科视频特征融合与多维画像构建方法(OVP),从非结构化的视频流与文本流中挖掘具有医学语义价值的多维特征,以实... 针对社交网络眼科视频存在的视觉特征区分度低、文本描述口语化严重以及多模态语义异构等挑战,提出了一种基于多任务学习的眼科视频特征融合与多维画像构建方法(OVP),从非结构化的视频流与文本流中挖掘具有医学语义价值的多维特征,以实现对眼科视频的精准表征。利用预训练深度残差网络提取视频关键帧的高维视觉表征,捕捉眼科图像特有的细粒度特征;提出基于眼科知识图谱的眼科视频文本特征提取方法,通过检索并融合外部实体注解与关联知识,有效弥补了社交媒体文本专业语义稀疏的问题,并结合BERT模型提取富含领域知识的文本特征;在此基础上,设计跨模态注意力融合机制,动态计算视觉与文本特征的交互权重,实现了图像信息与医学语义的深度对齐。构建多任务联合优化与眼科多维画像,协同训练视频疾病分类、传播热度预测与内容质量评估3个子任务,利用任务间的共享信息提升泛化能力。在真实眼科视频数据集上进行实验,实验结果表明,OVP方法在眼科视频疾病分类准确率、热度预测及质量评估性能上均显著优于现有基线方法,验证了该方法在复杂眼科视频特征融合与多维度画像构建方面的有效性。 展开更多
关键词 眼科视频画像 多任务学习 多模态融合 知识图谱 深度学习
在线阅读 下载PDF
多模态数据驱动的智能故障诊断方法
17
作者 鲍逸国 万烂军 倪炜 《现代电子技术》 北大核心 2026年第6期184-188,193,共6页
在数据驱动的旋转机械智能故障诊断中,多模态数据相比单模态数据能提供更为全面和多维度的机械设备运行状态信息,多模态数据驱动的故障诊断方法能显著提升旋转机械故障诊断(RMFD)的准确性和鲁棒性。然而,在旋转机械设备运行中不同类型... 在数据驱动的旋转机械智能故障诊断中,多模态数据相比单模态数据能提供更为全面和多维度的机械设备运行状态信息,多模态数据驱动的故障诊断方法能显著提升旋转机械故障诊断(RMFD)的准确性和鲁棒性。然而,在旋转机械设备运行中不同类型的传感器采集的多模态数据不仅规模庞大而且具有显著的异质性和互补性,如何有效提取和融合不同模态的故障特征是多模态数据驱动的故障诊断亟待解决的关键问题。为此,提出一种多模态数据驱动的智能故障诊断方法。首先,将振动信号和电流信号构成的多模态数据根据半径近邻算法构建为多张包含多模态故障特征的多模态半径图,以便模型能有效地学习和提取多模态故障特征的深层次信息。其次,将GraphSAGE网络中每层的输入与输出进行加权融合,以充分捕捉多模态数据中的潜在关联,提升模型的表达能力。最后,开展一系列实验来验证所提方法的有效性,结果表明该方法取得了较高的故障诊断精度。 展开更多
关键词 多模态 滚动轴承 故障诊断 加权融合 GraphSAGE网络 数据驱动
在线阅读 下载PDF
大语言模型驱动的言语障碍评估方法综述
18
作者 徐成 刘宇轩 +3 位作者 王欣 张铖 姚登峰 袁家政 《计算机科学》 北大核心 2026年第3期307-320,共14页
随着言语障碍对个体认知发展和社会适应能力的负面影响日益凸显,构建智能化评估体系成为语言康复领域的重要课题。传统评估方法依赖人工观察和浅层特征分析,存在主观性强、效率低及跨场景泛化能力不足等局限性。大语言模型驱动的评估技... 随着言语障碍对个体认知发展和社会适应能力的负面影响日益凸显,构建智能化评估体系成为语言康复领域的重要课题。传统评估方法依赖人工观察和浅层特征分析,存在主观性强、效率低及跨场景泛化能力不足等局限性。大语言模型驱动的评估技术通过融合多模态数据与深层语义建模,提升了病理语音检测的客观性和精准度。对此,系统梳理了言语障碍评估领域的技术演进路径,从声学特征提取到多模态融合架构,重点分析基于Transformer架构的多模态融合方法在跨语言迁移和实时干预中的创新应用。通过对比分析主流数据集与评价指标,揭示了大语言模型在语音清晰度量化、语义一致性检测等任务上的性能优势,但现有方法仍面临评估标准动态适配不足、生成偏见治理机制缺失等核心挑战。未来研究需构建动态可扩展的评估体系,通过伦理约束机制与跨模态对比学习框架突破高维语义一致性建模瓶颈,同时深化临床验证与隐私保护机制,推动智能评估技术向精准化、公平化方向迭代升级,为构建精准化、可扩展的智能评估系统提供方法论指导,推动其在教育干预与远程医疗场景的规模化应用。 展开更多
关键词 大语言模型 言语质量评估 语音障碍检测 语义一致性 多模态融合
在线阅读 下载PDF
基于红外和可见光图像融合的多光谱行人检测
19
作者 项靖 姜明新 +1 位作者 周清清 张宇恒 《传感技术学报》 北大核心 2026年第2期377-385,共9页
针对目前多光谱行人检测算法在恶劣环境下对行人检测精度较低,且计算复杂度和参数量大的问题,提出一种基于红外和可见光图像融合的多光谱行人检测算法CMDFT-YOLOv8。利用差异增强模块保留和增强不同模态特定的特征,并提出了跨模态特征... 针对目前多光谱行人检测算法在恶劣环境下对行人检测精度较低,且计算复杂度和参数量大的问题,提出一种基于红外和可见光图像融合的多光谱行人检测算法CMDFT-YOLOv8。利用差异增强模块保留和增强不同模态特定的特征,并提出了跨模态特征交互来有效地融合来自不同模态的输入;另外使用部分卷积改进双路特征提取网络的BottleNeck结构,减少骨干网络的冗余信息和计算复杂度,更有效地提取空间特征。与基准方法相比,所提出的多光谱行人检测算法在弱光环境下的mAP达到了67.3%,相较于基准模型提升了5.8%,模型参数量下降80.2%,模型计算复杂度下降33.2%。所提出的算法可有效提高弱光环境下检测模型的精度和降低模型参数量。 展开更多
关键词 多光谱行人检测 模态特征差分增强 跨模态特征交互 YOLOv8 多模态图像融合
在线阅读 下载PDF
虚实混合表情数据与心电数据决策级融合的人员情绪动态识别方法
20
作者 王昊琪 刘志浩 +7 位作者 冯兴智 李浩 王广伟 鲁效平 董李扬 蔡权 刘和松 朱容君 《计算机集成制造系统》 北大核心 2026年第1期225-240,共16页
工业5.0“人本智造”理念强调智能制造技术的发展应以人的需求为核心。在危险、封闭的工业生产现场,人员情绪的准确识别是保障工人心理健康和安全有效生产的基础。针对现有情绪识别方法存在数据集覆盖面有限、识别精度不足和缺乏动态调... 工业5.0“人本智造”理念强调智能制造技术的发展应以人的需求为核心。在危险、封闭的工业生产现场,人员情绪的准确识别是保障工人心理健康和安全有效生产的基础。针对现有情绪识别方法存在数据集覆盖面有限、识别精度不足和缺乏动态调整的问题,提出了一种虚实混合表情数据与心电数据决策级融合的人员情绪动态识别方法。首先,采用集成CLIP和LoRA的Stable Diffusion模型生成高质量的表情虚拟数据集,并与真实数据集混合构建虚实混合数据集;利用该数据集对引入CBAM的YOLOv8网络进行训练,实现面部表情情绪识别;然后,结合基于LSTM的心电数据特征提取,实现心电信号的情绪识别;最后,提出基于Softmax动态权重与特征交互的决策级融合策略,实现多模态的情绪动态识别。实验结果表明,动态权重融合识别准确率达到81.10%,其中在虚拟数据集与真实数据集比例为5:1时,模型在数据不平衡场景下表现出更高的泛化能力。 展开更多
关键词 虚实混合数据集 情绪识别 工业5.0人本智造 稳态扩散模型 多模态动态融合
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部