期刊文献+
共找到834篇文章
< 1 2 42 >
每页显示 20 50 100
Lip-Audio Modality Fusion for Deep Forgery Video Detection
1
作者 Yong Liu Zhiyu Wang +3 位作者 Shouling Ji Daofu Gong Lanxin Cheng Ruosi Cheng 《Computers, Materials & Continua》 2025年第2期3499-3515,共17页
In response to the problem of traditional methods ignoring audio modality tampering, this study aims to explore an effective deep forgery video detection technique that improves detection precision and reliability by ... In response to the problem of traditional methods ignoring audio modality tampering, this study aims to explore an effective deep forgery video detection technique that improves detection precision and reliability by fusing lip images and audio signals. The main method used is lip-audio matching detection technology based on the Siamese neural network, combined with MFCC (Mel Frequency Cepstrum Coefficient) feature extraction of band-pass filters, an improved dual-branch Siamese network structure, and a two-stream network structure design. Firstly, the video stream is preprocessed to extract lip images, and the audio stream is preprocessed to extract MFCC features. Then, these features are processed separately through the two branches of the Siamese network. Finally, the model is trained and optimized through fully connected layers and loss functions. The experimental results show that the testing accuracy of the model in this study on the LRW (Lip Reading in the Wild) dataset reaches 92.3%;the recall rate is 94.3%;the F1 score is 93.3%, significantly better than the results of CNN (Convolutional Neural Networks) and LSTM (Long Short-Term Memory) models. In the validation of multi-resolution image streams, the highest accuracy of dual-resolution image streams reaches 94%. Band-pass filters can effectively improve the signal-to-noise ratio of deep forgery video detection when processing different types of audio signals. The real-time processing performance of the model is also excellent, and it achieves an average score of up to 5 in user research. These data demonstrate that the method proposed in this study can effectively fuse visual and audio information in deep forgery video detection, accurately identify inconsistencies between video and audio, and thus verify the effectiveness of lip-audio modality fusion technology in improving detection performance. 展开更多
关键词 Deep forgery video detection lip-audio modality fusion mel frequency cepstrum coefficient siamese neural network band-pass filter
在线阅读 下载PDF
Mining Fine-Grain Face Forgery Cues with Fusion Modality
2
作者 Shufan Peng Manchun Cai +1 位作者 Tianliang Lu Xiaowen Liu 《Computers, Materials & Continua》 SCIE EI 2023年第5期4025-4045,共21页
Face forgery detection is drawing ever-increasing attention in the academic community owing to security concerns.Despite the considerable progress in existing methods,we note that:Previous works overlooked finegrain f... Face forgery detection is drawing ever-increasing attention in the academic community owing to security concerns.Despite the considerable progress in existing methods,we note that:Previous works overlooked finegrain forgery cues with high transferability.Such cues positively impact the model’s accuracy and generalizability.Moreover,single-modality often causes overfitting of the model,and Red-Green-Blue(RGB)modal-only is not conducive to extracting the more detailed forgery traces.We propose a novel framework for fine-grain forgery cues mining with fusion modality to cope with these issues.First,we propose two functional modules to reveal and locate the deeper forged features.Our method locates deeper forgery cues through a dual-modality progressive fusion module and a noise adaptive enhancement module,which can excavate the association between dualmodal space and channels and enhance the learning of subtle noise features.A sensitive patch branch is introduced on this foundation to enhance the mining of subtle forgery traces under fusion modality.The experimental results demonstrate that our proposed framework can desirably explore the differences between authentic and forged images with supervised learning.Comprehensive evaluations of several mainstream datasets show that our method outperforms the state-of-the-art detection methods with remarkable detection ability and generalizability. 展开更多
关键词 Face forgery detection fine-grain forgery cues fusion modality adaptive enhancement
在线阅读 下载PDF
HDMapFusion:用于自动驾驶的多模态融合高清地图生成(特邀)
3
作者 刘洋宏 付杨悠然 董性平 《计算机工程》 北大核心 2025年第10期18-26,共9页
高清环境语义地图的生成是自动驾驶系统实现环境感知与决策规划不可或缺的关键技术。针对当前自动驾驶领域相机与激光雷达在感知任务中存在的模态差异问题,提出一种创新的多模态融合范式HDMapFusion,通过特征级融合策略显著提升了语义... 高清环境语义地图的生成是自动驾驶系统实现环境感知与决策规划不可或缺的关键技术。针对当前自动驾驶领域相机与激光雷达在感知任务中存在的模态差异问题,提出一种创新的多模态融合范式HDMapFusion,通过特征级融合策略显著提升了语义地图的生成精度。与传统直接融合原始传感器数据的方法不同,HDMapFusion创新性地将相机图像特征和激光雷达点云特征统一转换为鸟瞰视图(BEV)空间表示,在统一的几何坐标系下实现了多模态信息的物理可解释性融合。具体而言:HDMapFusion首先通过深度学习网络分别提取相机图像的视觉特征和激光雷达的三维(3D)结构特征;然后利用可微分的视角变换模块将前视图像特征转换为BEV空间表示,同时将激光雷达点云特征通过体素化处理投影到相同的BEV空间,在此基础上设计一个基于注意力机制的特征融合模块,自适应地加权整合两种模态;最后通过语义解码器生成包含车道线、人行横道、道路边界线等要素的高精度语义地图。在nuScenes自动驾驶数据集上的实验结果表明,HDMapFusion在高清地图生成精度方面显著优于现有基准方法。这些实验结果验证了HDMapFusion的有效性和优越性,为自动驾驶环境感知中的多模态融合问题提供了新的解决思路。 展开更多
关键词 高清地图生成 多模态融合 鸟瞰视图表示 自动驾驶 深度估计
在线阅读 下载PDF
基于SMPL模态分解与嵌入融合的多模态步态识别
4
作者 吴越 梁铮 +4 位作者 高巍 杨茂达 赵培森 邓红霞 常媛媛 《浙江大学学报(工学版)》 北大核心 2026年第1期52-60,共9页
针对现有步态识别研究中步态信息挖掘不足和跨模态特征对齐不充分导致真实场景中识别性能受限的问题,提出基于蒙皮多人线性(SMPL)模态分解与嵌入融合的多模态步态识别方法.通过将SMPL模型分解为形状分支和姿势分支,全面提取人体静态形... 针对现有步态识别研究中步态信息挖掘不足和跨模态特征对齐不充分导致真实场景中识别性能受限的问题,提出基于蒙皮多人线性(SMPL)模态分解与嵌入融合的多模态步态识别方法.通过将SMPL模型分解为形状分支和姿势分支,全面提取人体静态形状特征和动态运动特征;构建自适应帧关节注意力模块,自适应聚焦关键帧与重要关节,增强姿势特征表达能力;设计模态嵌入融合模块,将不同模态特征投影至统一语义空间,并构建模态一致性损失函数,优化跨模态特征对齐,提升融合效果.在Gait3D数据集上的实验结果表明,与6种基于轮廓的方法、2种基于骨骼的方法以及5种基于轮廓和骨骼或SMPL模型的多模态方法比较,所提方法 Rank-1准确率达到70.4%,在复杂真实场景中表现出更高鲁棒性,验证了所提方法在模态特征提取和跨模态特征对齐方面的有效性. 展开更多
关键词 步态识别 SMPL模型 自适应注意力 特征对齐 模态融合
在线阅读 下载PDF
基于RGB与深度图像融合的生菜表型特征估算方法 被引量:5
5
作者 陆声链 李沂杨 +3 位作者 李帼 贾小泽 鞠青青 钱婷婷 《农业机械学报》 北大核心 2025年第1期84-91,101,共9页
采用自动化手段对植物生长过程中的表型特征进行精准测量对于育种和栽培等应用具有重要意义。本文围绕工厂化生菜种植中的表型特征无损精准检测需求,通过融合深度相机采集的RGB图像和深度图像,利用改进的DeepLabv3+模型进行图像分割,并... 采用自动化手段对植物生长过程中的表型特征进行精准测量对于育种和栽培等应用具有重要意义。本文围绕工厂化生菜种植中的表型特征无损精准检测需求,通过融合深度相机采集的RGB图像和深度图像,利用改进的DeepLabv3+模型进行图像分割,并通过双模态回归网络对生菜表型特征进行估算。本文改进的分割模型的骨干网络由Xception替换为MobileViTv2,以增强其全局感知能力和性能;在回归网络中,提出了卷积双模态特征融合模块CMMCM,用于估算生菜的表型特征。在包含4个生菜品种的公开数据集上的实验结果表明,本文方法可对鲜质量、干质量、冠幅、叶面积和株高共5种生菜表型特征进行估算,决定系数分别达到0.9222、0.9314、0.8620、0.9359和0.8875。相较于未添加CMMCM和SE模块的RGB和深度图的表型参数估计基准ResNet-10(双模态),本文改进的模型决定系数分别提高2.54%、2.54%、1.48%、2.99%和4.88%,单幅图像检测耗时为44.8 ms,说明该方法对于双模态图像融合的生菜表型特征无损提取具有较高的准确性和实时性。 展开更多
关键词 生菜 表型估算 模态融合 分割模型 RGB图像 深度图像
在线阅读 下载PDF
农业领域多模态融合技术方法与应用研究进展 被引量:20
6
作者 李道亮 赵晔 杜壮壮 《农业机械学报》 北大核心 2025年第1期1-15,共15页
多模态融合技术通过结合多源数据,可以克服单一模态的局限性。近年来,传感器以及遥感技术的发展为作物监测提供了更加丰富的数据源,光谱数据、图像数据、雷达数据以及热红外数据被广泛应用于作物监测中。通过利用计算机视觉技术以及数... 多模态融合技术通过结合多源数据,可以克服单一模态的局限性。近年来,传感器以及遥感技术的发展为作物监测提供了更加丰富的数据源,光谱数据、图像数据、雷达数据以及热红外数据被广泛应用于作物监测中。通过利用计算机视觉技术以及数据分析方法,可以从中获取作物的表型参数、理化特征等信息,从而有助于评估作物的生长状况、指导农业生产管理。现有研究多数是基于单一模态数据展开,而单一模态的数据仅有一种类型的输入,缺乏对整体信息的理解,且容易受到单模态噪声的影响;部分研究虽然采用了多模态融合技术,但仍未能充分考虑模态间的复杂交互关系。为了深入分析多模态融合技术在农业领域应用的潜力,本文首先阐述了农业领域中多模态融合的先进技术与方法,重点梳理了多模态融合技术在作物识别、性状分析、产量预测、胁迫分析及病虫害诊断领域中的应用研究成果,分析了多模态融合技术在农业领域中存在的数据利用程度低、有效特征提取难、融合方式单一等问题,并对未来发展提出展望,以期通过多模态融合的方法推动农业精准管理、提高生产效率。 展开更多
关键词 多模态融合 传感器 遥感技术 作物监测 计算机视觉 农业精准管理
在线阅读 下载PDF
基于音视频信息融合与Self-Attention-DSC-CNN6网络的鲈鱼摄食强度分类方法 被引量:4
7
作者 李道亮 李万超 杜壮壮 《农业机械学报》 北大核心 2025年第1期16-24,共9页
摄食强度识别分类是实现水产养殖精准投喂的重要环节。现有的投喂方式存在过度依赖人工经验判断、投喂量不精确、饲料浪费严重等问题。基于多模态融合的鱼类摄食程度分类能够综合不同类型的数据(如:视频、声音和水质参数),为鱼群的投喂... 摄食强度识别分类是实现水产养殖精准投喂的重要环节。现有的投喂方式存在过度依赖人工经验判断、投喂量不精确、饲料浪费严重等问题。基于多模态融合的鱼类摄食程度分类能够综合不同类型的数据(如:视频、声音和水质参数),为鱼群的投喂提供更加全面精准的决策依据。因此,提出了一种融合视频和音频数据的多模态融合框架,旨在提升鲈鱼摄食强度分类性能。将预处理后的Mel频谱图(Mel Spectrogram)和视频帧图像分别输入到Self-Attention-DSC-CNN6(Self-attention-depthwise separable convolution-CNN6)优化模型进行高层次的特征提取,并将提取的特征进一步拼接融合,最后将拼接后的特征经分类器分类。针对Self-Attention-DSC-CNN6优化模型,基于CNN6算法进行了改进,将传统卷积层替换为深度可分离卷积(Depthwise separable convolution,DSC)来达到减少计算复杂度的效果,并引入Self-Attention注意力机制以增强特征提取能力。实验结果显示,本文所提出的多模态融合框架鲈鱼摄食强度分类准确率达到90.24%,模型可以有效利用不同数据源信息,提升了对复杂环境中鱼群行为的理解,增强了模型决策能力,确保了投喂策略的及时性与准确性,从而有效减少了饲料浪费。 展开更多
关键词 鲈鱼 摄食强度分类 多模态融合 Self-Attention-DSC-CNN6
在线阅读 下载PDF
基于细粒度图像-方面的情感增强方面级情感分析 被引量:3
8
作者 余本功 陈明玥 《计算机应用研究》 北大核心 2025年第4期1073-1079,共7页
为了缩小模态间的异质性差异并缓解多个方面词带来的情感混淆,提出一种基于细粒度图像-方面的情感增强多模态方面级情感分析。具体地,该模型经过文本图像编码后,首先利用形容词-名词对将与方面词相关的图像信息加入到文本方面词中,并通... 为了缩小模态间的异质性差异并缓解多个方面词带来的情感混淆,提出一种基于细粒度图像-方面的情感增强多模态方面级情感分析。具体地,该模型经过文本图像编码后,首先利用形容词-名词对将与方面词相关的图像信息加入到文本方面词中,并通过细粒度图像-方面跨模态注意力机制优化图像表征,得到细粒度方面词-图像特征;接着,基于句法结构引入情感得分,得到基于方面词的文本情感特征;最后,进行模态融合得到最终情感预测结果。在Twitter-2015和Twitter-2017数据集上,与基线模型TMSC相比,提出模型值准确率分别提高了0.25百分点和0.16百分点,充分证明了细粒度的图文匹配和情感增强操作有助于提高分类效果。 展开更多
关键词 多模态方面级情感分析 形容词-名词对 跨模态注意力机制 情感分数 模态融合
在线阅读 下载PDF
面向社交网络平台的多模态网络欺凌检测模型研究 被引量:1
9
作者 李猛坤 李柯锦 +3 位作者 王琪 袁晨 吕慧颖 应作斌 《信息安全研究》 北大核心 2025年第2期154-163,共10页
随着社交网络平台的迅速发展,网络欺凌问题日益突出,文本与图片相结合的多样化网络表达形式提高了网络欺凌的检测和治理难度.构建了一个包含文本和图片的中文多模态网络欺凌数据集,将BERT(bidirectional encoder representations from t... 随着社交网络平台的迅速发展,网络欺凌问题日益突出,文本与图片相结合的多样化网络表达形式提高了网络欺凌的检测和治理难度.构建了一个包含文本和图片的中文多模态网络欺凌数据集,将BERT(bidirectional encoder representations from transformers)模型与ResNet50模型相结合,分别提取文本和图片的单模态特征,并进行决策层融合,对融合后的特征进行检测,实现了对网络欺凌与非网络欺凌2个类别的文本和图片的准确识别.实验结果表明,提出的多模态网络欺凌检测模型能够有效识别出包含文本与图片的具有网络欺凌性质的社交网络帖子或者评论,提高了多模态形式网络欺凌检测的实用性、准确性和效率,为社交网络平台的网络欺凌检测和治理提供了一种新的思路和方法,有助于构建更加健康、文明的网络环境. 展开更多
关键词 网络欺凌 多模态 特征融合 检测模型 社交网络平台
在线阅读 下载PDF
BEV感知学习在自动驾驶中的应用综述 被引量:3
10
作者 黄德启 黄海峰 +1 位作者 黄德意 刘振航 《计算机工程与应用》 北大核心 2025年第6期1-21,共21页
自动驾驶感知模块中作为采集输入的传感器种类不断发展,要使多模态数据统一地表征出来变得愈加困难。BEV感知学习在自动驾驶感知任务模块中可以使多模态数据统一融合到一个特征空间,相比于其他感知学习模型拥有更好的发展潜力。从研究... 自动驾驶感知模块中作为采集输入的传感器种类不断发展,要使多模态数据统一地表征出来变得愈加困难。BEV感知学习在自动驾驶感知任务模块中可以使多模态数据统一融合到一个特征空间,相比于其他感知学习模型拥有更好的发展潜力。从研究意义、空间部署、准备工作、算法发展及评价指标五个方面总结了BEV感知模型具有良好发展潜力的原因。BEV感知模型从框架角度概括为四个系列:Lift-Splat-Lss系列、IPM逆透视转换、MLP视图转换及Transformer视图转换;从输入数据概括为两类:第一类是纯图像特征的输入包括单目摄像头输入和多摄像头输入,第二类在融合数据输入中不仅是简单的点云数据和图像特征的数据融合,还包括了以点云数据为引导或监督的知识蒸馏融合和以引导切片方式去划分高度段的融合。概述了多目标追踪、地图分割、车道线检测及3D目标检测四种自动驾驶任务在BEV感知模型当中的应用,并总结了目前BEV感知学习四个系列框架的缺点。 展开更多
关键词 BEV感知学习 视图转换 多模态数据融合 多目标追踪 地图分割 车道线检测及3D目标检测
在线阅读 下载PDF
引入单模态监督对比学习的多视图讽刺检测
11
作者 张政 刘金硕 +1 位作者 邓娟 王丽娜 《计算机工程与应用》 北大核心 2025年第19期118-126,共9页
社交媒体上图像和文本数据的快速增长导致人们对多模态讽刺检测问题的关注不断提高。然而,现有基于特征提取融合的检测方法存在一些缺陷:一是大多数方法缺乏多模态检测所需的底层模态对齐能力,二是模态融合过程忽视了模态间的动态关系,... 社交媒体上图像和文本数据的快速增长导致人们对多模态讽刺检测问题的关注不断提高。然而,现有基于特征提取融合的检测方法存在一些缺陷:一是大多数方法缺乏多模态检测所需的底层模态对齐能力,二是模态融合过程忽视了模态间的动态关系,三是未能充分利用模态互补性。为此,提出一种基于单模态监督对比学习、多模态融合和多视图聚合预测的检测模型。以CLIP(contrastive language image pre-training)模型作为编码器来增强图像和文本底层编码的对齐效果。结合单模态监督对比学习方法,通过单模态预测来指导模态间的动态关系。然后,设计了全局-局部跨模态融合方法,利用每种模态的语义级表示作为全局多模态上下文与局部单模态特征进行交互,通过多个跨模态融合层提高模态融合效果,并减少了以往局部-局部跨模态融合方法的时间和空间成本。采用多视图聚合预测方法充分利用图像、文本和图文视图的互补性。总之,该模型能有效捕捉多模态讽刺数据的跨模态语义不一致性,在公开数据集MSD上取得了比现有最好方法DMSD-Cl更好的结果。 展开更多
关键词 讽刺检测 多模态 对比学习 跨模态融合
在线阅读 下载PDF
基于有限标量量化与分阶段跨模态注意力融合的光伏功率预测
12
作者 张海清 刘珈伶 +3 位作者 唐聃 向筱铭 杨东 郭本俊 《计算机应用研究》 北大核心 2025年第12期3594-3601,共8页
为解决光伏功率预测中多模态融合在处理模态异构性带来的数据表征差异与跨模态关联建模方面的不足等问题,提出了一种多模态气象数据融合模型(MMDF)。首先,该模型通过有限标量量化FSQ(finite scalar quantization)技术实现多源数据的统... 为解决光伏功率预测中多模态融合在处理模态异构性带来的数据表征差异与跨模态关联建模方面的不足等问题,提出了一种多模态气象数据融合模型(MMDF)。首先,该模型通过有限标量量化FSQ(finite scalar quantization)技术实现多源数据的统一表征,有效突破了模态间信息对齐的瓶颈,并降低了跨模态融合过程中的计算复杂度;接着,设计混合编码的特征提取模块,结合Vision Transformer的全局空间建模能力与GRU-Linear架构的时序动态捕获机制,显著提升了多模态特征的判别性;进一步,基于门控机制构建了分阶段式的跨模态融合策略,并通过Cross Transformer跨模态注意力机制,实现了时间序列特征和云图特征的深度融合,有效地揭示了不同模态数据之间的复杂关系。经实验验证,相比于FusionSF算法,MMDF模型在多模态太阳能功率数据集上的MAE、RMSE和R^(2)指标分别提升了5.69%、12.44%和4.52%,为复杂气象条件下的光伏功率预测提供了理论突破与工程实践新范式。 展开更多
关键词 光伏功率预测 多模态融合 信息对齐 有限标量量化
在线阅读 下载PDF
中国热带农业遥感研究体系框架与展望
13
作者 李海亮 李伟光 +4 位作者 田光辉 刘晓娟 黄启厅 郑倩 马艺文 《热带作物学报》 北大核心 2025年第9期2259-2270,共12页
热带农业对全球粮食安全和乡村振兴至关重要,但复杂的地理环境、气候条件以及频发灾害共同制约其现代化进程。遥感技术凭借大范围、高时效的信息获取优势,已成为推动热带农业智慧化与精准化管理的关键工具。本文构建了中国热带农业遥感... 热带农业对全球粮食安全和乡村振兴至关重要,但复杂的地理环境、气候条件以及频发灾害共同制约其现代化进程。遥感技术凭借大范围、高时效的信息获取优势,已成为推动热带农业智慧化与精准化管理的关键工具。本文构建了中国热带农业遥感研究的体系框架,提出了“天空地”(即天-空-地)一体化观测理念,阐释了低、中、高分辨率的分层观测体系与区域资源调查、农田长势监测及地块表型诊断之间的技术适配关系;系统回顾了遥感在资源调查、作物监测、产量估测、灾害评估与生态评价等领域的应用进展;分析了数据支撑不足、模型迁移性弱、区域适应性差与成果转化效率低等现实问题;提出构建遥感协同观测、多模态融合、智能建模与数字孪生预测体系,并展望“系统集成-智能感知-全球协同”的未来发展方向。该研究结果为提升我国热带农业遥感技术的系统性与实用性提供理论基础与技术支撑。 展开更多
关键词 热带农业 遥感技术 智慧农业 天空地一体化 多模态融合 表型遥感
在线阅读 下载PDF
空天目标测控信息多模态适配融合方法
14
作者 李伟 程先哲 +1 位作者 刘航 王磊 《数据采集与处理》 北大核心 2025年第5期1153-1164,共12页
针对单一的空天目标测控信息融合方法难以应对传感器突发失效、目标干扰突变及强电磁干扰等复杂场景的局限,提出测控信息多模态适配融合方法。在自适应加权融合方法的基础上集成了单台光电-雷达异构融合模型和航迹预报补偿机制,能够适... 针对单一的空天目标测控信息融合方法难以应对传感器突发失效、目标干扰突变及强电磁干扰等复杂场景的局限,提出测控信息多模态适配融合方法。在自适应加权融合方法的基础上集成了单台光电-雷达异构融合模型和航迹预报补偿机制,能够适应弹道式目标、临近空间高超声速滑翔目标和航空飞行器等典型空天目标的运动特性。为进一步提升传感器网络对动态环境的适应性,设计了基于动态门限决策的多模态切换方法,以此作为实现适配融合的核心支撑,动态门限也避免了融合模态频繁误切换或滞后切换。通过体系化创新方法,构建了超越单一算法自适应调节能力的多模态融合体系。实验表明,多模态适配融合方法显著提升了传感器网络对空天目标的全程测控能力和航迹融合处理精度。 展开更多
关键词 多模态 融合 适配 测控信息 空天目标
在线阅读 下载PDF
基于文本引导的人脸图像修复
15
作者 廉敬 张继保 +2 位作者 刘冀钊 张家骏 董子龙 《吉林大学学报(工学版)》 北大核心 2025年第8期2732-2740,共9页
针对目前人脸修复方法存在结构扭曲、纹理模糊以及不可控等问题,提出了一种文本引导的人脸图像修复方法。该方法通过融合图像特征和相应的文本特征来重建图像中的缺失区域。在网络训练中,设计了视觉-文本模态融合模块,用于关联图像和文... 针对目前人脸修复方法存在结构扭曲、纹理模糊以及不可控等问题,提出了一种文本引导的人脸图像修复方法。该方法通过融合图像特征和相应的文本特征来重建图像中的缺失区域。在网络训练中,设计了视觉-文本模态融合模块,用于关联图像和文本特征,使重建人脸缺失区域不仅以图像中可见的视觉语义为基础,还以具有丰富的文本语义为指导。在编码和解码特征之间添加了一个注意力感知层,以提高可见区域和生成区域外观的一致性。在CelebA-HQ人脸数据集上的实验结果表明:本文方法能够得到在纹理和结构上更自然且符合文本语义的修复结果,其视觉效果和评价指标均优于对比算法。 展开更多
关键词 图像修复 文本指导 跨模态融合 深度学习
原文传递
结构感知增强与跨模态融合的文本图像超分辨率
16
作者 朱仲杰 张磊 +3 位作者 李沛 屠仁伟 白永强 王玉儿 《中国图象图形学报》 北大核心 2025年第5期1364-1376,共13页
目的 场景文本图像超分辨率是一种新兴的视觉增强技术,用于提升低分辨率文本图像的分辨率,从而提高文本可读性。然而,现有方法无法有效提取文本结构动态特征,导致形成的语义先验无法与图像特征有效对齐并融合,进而影响图像重建质量并造... 目的 场景文本图像超分辨率是一种新兴的视觉增强技术,用于提升低分辨率文本图像的分辨率,从而提高文本可读性。然而,现有方法无法有效提取文本结构动态特征,导致形成的语义先验无法与图像特征有效对齐并融合,进而影响图像重建质量并造成文本识别困难。为此,提出一种基于文本结构动态感知的跨模态融合超分辨率方法以提高文本图像质量和文本可读性。方法 首先,构建文本结构动态感知模块,通过方向感知层和上下文关联单元,分别提取文本的多尺度定向特征并解析字符邻域间的上下文联系,精准捕获文本图像的结构动态特征;其次,设计语义空间对齐模块,利用文本掩码信息促进精细化文本语义先验的生成,并通过仿射变换对齐语义先验和图像特征;最后,在此基础上,通过跨模态融合模块结合文本语义先验与图像特征,以自适应权重分配的方式促进跨模态交互融合,输出高分辨率文本图像。结果 在真实数据集TextZoom上与多种主流方法进行对比,实验结果表明所提方法在ASTER(attentional scene text recognizer)、CRNN(convolutional recurrent neural network)和MORAN(multiobject rectified attention network)3种文本识别器上的平均识别精度为62.4%,较性能第2的方法有2.8%的提升。此外,所提方法的峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity index,SSIM)指标分别为21.9 dB和0.789,分别处于第1名和第2名的位置,领先大多数方法。结论 所提方法通过精准捕获文本结构动态特征来指导高级文本语义先验的生成,从而促进文本和图像两种模态的对齐和融合,有效提升了图像重建质量和文本可读性。 展开更多
关键词 场景文本图像超分辨率(STISR) 文本结构动态特征 多尺度定向特征 语义空间对齐 跨模态融合
原文传递
自动驾驶中的3D目标检测研究进展
17
作者 陈建 苏思教 +1 位作者 黄立勤 赵铁松 《电子学报》 北大核心 2025年第6期2131-2156,共26页
近年来,自动驾驶因其在提升道路安全、提高交通效率等方面展现出巨大的潜力而受到越来越多的关注.在现代自动驾驶系统中,感知系统扮演着至关重要的角色,其目标是准确地估计周围环境的状态,并为预测和规划提供可靠的观测信息.其中,3D目... 近年来,自动驾驶因其在提升道路安全、提高交通效率等方面展现出巨大的潜力而受到越来越多的关注.在现代自动驾驶系统中,感知系统扮演着至关重要的角色,其目标是准确地估计周围环境的状态,并为预测和规划提供可靠的观测信息.其中,3D目标检测作为感知系统的重要组成部分,旨在预测自动驾驶车辆周围物体的位置、大小和类别.本文归纳了近年来自动驾驶领域中3D目标检测的研究进展,从单模态检测和多模态融合检测两个角度出发,介绍了使用不同传感器进行单模态方法和多模态融合方法的优势和不足.此外,本文还对比了各种代表性算法在公共数据集上的性能,总结了当前常用训练策略,并讨论了该领域未来的发展趋势. 展开更多
关键词 自动驾驶 3D目标检测 单模态 多模态融合
在线阅读 下载PDF
语言视觉激光多模态融合的机器人导航方法
18
作者 毕盛 杨礼铭 +1 位作者 董敏 沈煜 《小型微型计算机系统》 北大核心 2025年第8期1809-1817,共9页
针对在移动机器人室内导航过程中,单一使用视觉语言导航算法无法充分利用语义中的方位和环境中的感知信息、无法导航至目标半米内的问题,提出了一种语言视觉激光多模态融合的机器人导航方法.首先,在全局路径规划中,标记地图中的导航点,... 针对在移动机器人室内导航过程中,单一使用视觉语言导航算法无法充分利用语义中的方位和环境中的感知信息、无法导航至目标半米内的问题,提出了一种语言视觉激光多模态融合的机器人导航方法.首先,在全局路径规划中,标记地图中的导航点,保留其位姿、图像、点云图和各点之间的拓扑信息,通过多模态融合网络得到各导航点与目标的匹配权值,结合dijkstra算法和方位优化算法,规划出全局路径导航点序列.然后,在局部路径规划中,将多线激光与单目相机进行联合标定,结合目标检测、点云聚类和坐标变换方法得到目标具体位姿,发布导航任务,完成局部路径的规划.最后,通过仿真实验和真实环境实验,验证所提出的导航方法的有效性和可行性. 展开更多
关键词 移动机器人 导航 多模态融合网络 方位优化 多传感器融合
在线阅读 下载PDF
基于异构信息网络的多模态食谱表示学习方法
19
作者 张霄雁 江诗琪 孟祥福 《计算机科学与探索》 北大核心 2025年第10期2803-2814,共12页
当前食谱表示学习方法主要依赖于通过将食谱文本与图像进行对齐,或利用邻接矩阵捕捉食谱与其用料之间关系的方式,学习食谱的嵌入表示。然而,这些方法在信息融合处理上较为粗糙,未能深入挖掘不同模态之间的交叉信息,且难以有效地动态评... 当前食谱表示学习方法主要依赖于通过将食谱文本与图像进行对齐,或利用邻接矩阵捕捉食谱与其用料之间关系的方式,学习食谱的嵌入表示。然而,这些方法在信息融合处理上较为粗糙,未能深入挖掘不同模态之间的交叉信息,且难以有效地动态评估食谱组成要素之间的关联强度,导致模型的表示能力受限。针对上述问题,提出一种基于异构信息网络的多模态食谱表示学习模型(CookRec2vec)。将视觉、文本和关系信息集成到食谱嵌入中,通过自适应的邻接关系更加充分挖掘和量化食谱组成要素之间的关联信息及其强度,同时基于高阶共现矩阵的显式建模方法提供了互补信息且保留了原有特性,显著提高了食谱特征表达能力。实验结果表明,所提模型在食谱分类性能上优于现有主流方法,并在创新菜嵌入预测方面取得了显著进展。 展开更多
关键词 表示学习 图嵌入 异构信息网络 跨模态融合 对抗攻击 节点分类
在线阅读 下载PDF
基于图神经网络的交通场景声音事件检测
20
作者 姜彦吉 郭丁旭 +1 位作者 邱友利 董浩 《信息与控制》 北大核心 2025年第3期413-427,共15页
为了更好地在复杂行车环境下通过声音信号检测发生的事件,提出一种基于图神经网络获取交叉模态信息的交通场景声音事件检测方法。首先,通过声音事件窗方法获取声音信号中同时和相继发生的关系信息作为交叉模态信息,并过滤掉其中可能存... 为了更好地在复杂行车环境下通过声音信号检测发生的事件,提出一种基于图神经网络获取交叉模态信息的交通场景声音事件检测方法。首先,通过声音事件窗方法获取声音信号中同时和相继发生的关系信息作为交叉模态信息,并过滤掉其中可能存在的噪声关系,构建为图形结构;其次,改进图卷积神经网络以平衡邻居与自身的关系权重并避免过度平滑现象,利用其学习图形结构中的关系信息;最后,基于卷积循环神经网络学习声音事件的声学特征和时序信息,并以交叉模态融合的方式获取事件的关系信息,从而增强模型检测性能。相较于卷积循环神经网络(CRNN)模型,该方法在TUT Sound Events 2016和TUT Sound Events 2017数据集上均取得了更优的检测性能,F_(1)分数分别提高了10.3%和2.04%,ER(error rate)度量分别降低了5.89%和10.06%,总体错误率分别降低了8.1%和6.07%。实验结果表明,该方法可以有效地提升智能汽车在行驶过程中对周围环境的感知能力。 展开更多
关键词 声音事件检测 智能交通 图神经网络 交叉模态融合 图形构建
原文传递
上一页 1 2 42 下一页 到第
使用帮助 返回顶部