期刊文献+
共找到15,821篇文章
< 1 2 250 >
每页显示 20 50 100
SFMFusion:基于语义特征映射自编码的红外与可见光图像融合
1
作者 管芳景 汪娟 罗晓清 《红外技术》 北大核心 2026年第2期156-165,共10页
以往的红外与可见光图像融合方法常忽略了语义信息特征的关系,导致红外图像的独特信息挖掘不够充分。为了充分提取挖掘图像的语义信息和细粒度判别特征,本文提出了一种基于语义特征映射自编码的红外与可见光图像融合方法(SFMFusion)。... 以往的红外与可见光图像融合方法常忽略了语义信息特征的关系,导致红外图像的独特信息挖掘不够充分。为了充分提取挖掘图像的语义信息和细粒度判别特征,本文提出了一种基于语义特征映射自编码的红外与可见光图像融合方法(SFMFusion)。该方法针对粗、细粒度关注的信息重点不同,采取了两重融合策略:对于包含图像空间细节纹理的浅层信息,本文设计了基于内容丰富度的融合规则;对于蕴含图像判别性内容的深层语义信息,设计了基于最小二乘法的语义特征映射融合规则,通过寻求最佳特征映射以便最大限度地保留红外图像的独特信息。在此基础上,为了进一步增强语义融合特征的上下文相关性,本文设计了多尺度增强模块。该模块使用多个具有不同扩张率的空洞卷积对特征进行并行处理语义融合特征,以此学习特征不同尺度的信息。最后,在浅层融合细节信息的逐层引导下,从粗到细重构出最终的融合图像。通过在标准图像TNO和RoadScene数据集上进行主客观实验,与传统和近来深度学习融合方法进行比较分析,结果显示本文方法能有效保留并融合红外与可见光图像中的互补信息,在视觉感知和定量指标上均取得较好的效果。 展开更多
关键词 特征映射 语义 最小二乘法 多尺度 红外与可见光 图像融合
在线阅读 下载PDF
基于YOLO-BioFusion的血细胞检测模型 被引量:1
2
作者 张傲 刘微 +2 位作者 刘阳 杨思瑶 管勇 《电子测量技术》 北大核心 2025年第18期177-188,共12页
血细胞检测是临床诊断中的重要任务,尤其在面对细胞类型多样、尺寸差异显著、目标重叠频繁以及复杂背景时,现有检测模型的精度和鲁棒性仍面临挑战。为解决这些问题,本文提出了一种改进的YOLOv8目标检测模型——YOLO-BioFusion。该模型... 血细胞检测是临床诊断中的重要任务,尤其在面对细胞类型多样、尺寸差异显著、目标重叠频繁以及复杂背景时,现有检测模型的精度和鲁棒性仍面临挑战。为解决这些问题,本文提出了一种改进的YOLOv8目标检测模型——YOLO-BioFusion。该模型通过引入ACFN模块,提高了对细小目标和重叠目标的检测能力;应用C2f-DPE和SPPF-LSK模块增强了多尺度特征的融合与提取,提升了模型的鲁棒性和泛化能力;同时,采用Inner-CIoU损失函数加速了模型收敛并提高了定位精度。实验结果表明,在BCCD数据集上,YOLO-BioFusion的mAP@0.5为94.0%,mAP@0.5:0.95为65.2%,分别较YOLOv8-n提高了1.9%和3.2%。与此同时,计算成本仅为6.8 GFLOPs,展示了其在资源受限环境中的应用潜力。该研究为复杂背景下的血细胞检测提供了一种高效且精确的解决方案。 展开更多
关键词 血细胞检测 多尺度特征融合 损失函数优化 YOLOv8 重叠目标
原文传递
Multi-scale feature fusion optical remote sensing target detection method 被引量:1
3
作者 BAI Liang DING Xuewen +1 位作者 LIU Ying CHANG Limei 《Optoelectronics Letters》 2025年第4期226-233,共8页
An improved model based on you only look once version 8(YOLOv8)is proposed to solve the problem of low detection accuracy due to the diversity of object sizes in optical remote sensing images.Firstly,the feature pyram... An improved model based on you only look once version 8(YOLOv8)is proposed to solve the problem of low detection accuracy due to the diversity of object sizes in optical remote sensing images.Firstly,the feature pyramid network(FPN)structure of the original YOLOv8 mode is replaced by the generalized-FPN(GFPN)structure in GiraffeDet to realize the"cross-layer"and"cross-scale"adaptive feature fusion,to enrich the semantic information and spatial information on the feature map to improve the target detection ability of the model.Secondly,a pyramid-pool module of multi atrous spatial pyramid pooling(MASPP)is designed by using the idea of atrous convolution and feature pyramid structure to extract multi-scale features,so as to improve the processing ability of the model for multi-scale objects.The experimental results show that the detection accuracy of the improved YOLOv8 model on DIOR dataset is 92%and mean average precision(mAP)is 87.9%,respectively 3.5%and 1.7%higher than those of the original model.It is proved the detection and classification ability of the proposed model on multi-dimensional optical remote sensing target has been improved. 展开更多
关键词 multi scale feature fusion optical remote sensing feature map improve target detection ability optical remote sensing imagesfirstlythe target detection feature fusionto enrich semantic information spatial information
原文传递
Multi-Scale Feature Fusion and Advanced Representation Learning for Multi Label Image Classification
4
作者 Naikang Zhong Xiao Lin +1 位作者 Wen Du Jin Shi 《Computers, Materials & Continua》 2025年第3期5285-5306,共22页
Multi-label image classification is a challenging task due to the diverse sizes and complex backgrounds of objects in images.Obtaining class-specific precise representations at different scales is a key aspect of feat... Multi-label image classification is a challenging task due to the diverse sizes and complex backgrounds of objects in images.Obtaining class-specific precise representations at different scales is a key aspect of feature representation.However,existing methods often rely on the single-scale deep feature,neglecting shallow and deeper layer features,which poses challenges when predicting objects of varying scales within the same image.Although some studies have explored multi-scale features,they rarely address the flow of information between scales or efficiently obtain class-specific precise representations for features at different scales.To address these issues,we propose a two-stage,three-branch Transformer-based framework.The first stage incorporates multi-scale image feature extraction and hierarchical scale attention.This design enables the model to consider objects at various scales while enhancing the flow of information across different feature scales,improving the model’s generalization to diverse object scales.The second stage includes a global feature enhancement module and a region selection module.The global feature enhancement module strengthens interconnections between different image regions,mitigating the issue of incomplete represen-tations,while the region selection module models the cross-modal relationships between image features and labels.Together,these components enable the efficient acquisition of class-specific precise feature representations.Extensive experiments on public datasets,including COCO2014,VOC2007,and VOC2012,demonstrate the effectiveness of our proposed method.Our approach achieves consistent performance gains of 0.3%,0.4%,and 0.2%over state-of-the-art methods on the three datasets,respectively.These results validate the reliability and superiority of our approach for multi-label image classification. 展开更多
关键词 Image classification MULTI-LABEL multi scale attention mechanisms feature fusion
在线阅读 下载PDF
Step-by-step to success:Multi-stage learning driven robust audiovisual fusion network for fine-grained bird species classification
5
作者 Shanshan Xie Jiangjian Xie +6 位作者 Yang Liu Lianshuai Sha Ye Tian Jiahua Dong Diwen Liang Kaijun Pan Junguo Zhang 《Avian Research》 2025年第4期818-831,共14页
Bird monitoring and protection are essential for maintaining biodiversity,and fine-grained bird classification has become a key focus in this field.Audio-visual modalities provide critical cues for this task,but robus... Bird monitoring and protection are essential for maintaining biodiversity,and fine-grained bird classification has become a key focus in this field.Audio-visual modalities provide critical cues for this task,but robust feature extraction and efficient fusion remain major challenges.We introduce a multi-stage fine-grained audiovisual fusion network(MSFG-AVFNet) for fine-grained bird species classification,which addresses these challenges through two key components:(1) the audiovisual feature extraction module,which adopts a multi-stage finetuning strategy to provide high-quality unimodal features,laying a solid foundation for modality fusion;(2) the audiovisual feature fusion module,which combines a max pooling aggregation strategy with a novel audiovisual loss function to achieve effective and robust feature fusion.Experiments were conducted on the self-built AVB81and the publicly available SSW60 datasets,which contain data from 81 and 60 bird species,respectively.Comprehensive experiments demonstrate that our approach achieves notable performance gains,outperforming existing state-of-the-art methods.These results highlight its effectiveness in leveraging audiovisual modalities for fine-grained bird classification and its potential to support ecological monitoring and biodiversity research. 展开更多
关键词 Audiovisual modality Bird species classification Feature fusion FINE-GRAINED
在线阅读 下载PDF
HDMapFusion:用于自动驾驶的多模态融合高清地图生成(特邀)
6
作者 刘洋宏 付杨悠然 董性平 《计算机工程》 北大核心 2025年第10期18-26,共9页
高清环境语义地图的生成是自动驾驶系统实现环境感知与决策规划不可或缺的关键技术。针对当前自动驾驶领域相机与激光雷达在感知任务中存在的模态差异问题,提出一种创新的多模态融合范式HDMapFusion,通过特征级融合策略显著提升了语义... 高清环境语义地图的生成是自动驾驶系统实现环境感知与决策规划不可或缺的关键技术。针对当前自动驾驶领域相机与激光雷达在感知任务中存在的模态差异问题,提出一种创新的多模态融合范式HDMapFusion,通过特征级融合策略显著提升了语义地图的生成精度。与传统直接融合原始传感器数据的方法不同,HDMapFusion创新性地将相机图像特征和激光雷达点云特征统一转换为鸟瞰视图(BEV)空间表示,在统一的几何坐标系下实现了多模态信息的物理可解释性融合。具体而言:HDMapFusion首先通过深度学习网络分别提取相机图像的视觉特征和激光雷达的三维(3D)结构特征;然后利用可微分的视角变换模块将前视图像特征转换为BEV空间表示,同时将激光雷达点云特征通过体素化处理投影到相同的BEV空间,在此基础上设计一个基于注意力机制的特征融合模块,自适应地加权整合两种模态;最后通过语义解码器生成包含车道线、人行横道、道路边界线等要素的高精度语义地图。在nuScenes自动驾驶数据集上的实验结果表明,HDMapFusion在高清地图生成精度方面显著优于现有基准方法。这些实验结果验证了HDMapFusion的有效性和优越性,为自动驾驶环境感知中的多模态融合问题提供了新的解决思路。 展开更多
关键词 高清地图生成 多模态融合 鸟瞰视图表示 自动驾驶 深度估计
在线阅读 下载PDF
Rolling Bearing Fault Diagnosis Based on Cross-Attention Fusion WDCNN and BILSTM
7
作者 Yingyong Zou Xingkui Zhang +3 位作者 Tao Liu Yu Zhang Long Li Wenzhuo Zhao 《Computers, Materials & Continua》 2025年第6期4699-4723,共25页
High-speed train engine rolling bearings play a crucial role in maintaining engine health and minimizing operational losses during train operation.To solve the problems of low accuracy of the diagnostic model and unst... High-speed train engine rolling bearings play a crucial role in maintaining engine health and minimizing operational losses during train operation.To solve the problems of low accuracy of the diagnostic model and unstable model due to the influence of noise during fault detection,a rolling bearing fault diagnosis model based on cross-attention fusion of WDCNN and BILSTM is proposed.The first layer of the wide convolutional kernel deep convolutional neural network(WDCNN)is used to extract the local features of the signal and suppress the highfrequency noise.A Bidirectional Long Short-Term Memory Network(BILSTM)is used to obtain global time series features of the signal.Cross-attention combines the WDCNN layer and the BILSTM layer so that the model can recognize more comprehensive feature information of the signal.Meanwhile,to improve the accuracy,Variable Modal Decomposition(VMD)is used to decompose the signals and filter and reconstruct the signals using envelope entropy and kurtosis,which enables the pre-processing of the signals so that the data input to the neural network contains richer feature information.The feasibility of the model is tested and experimentally validated using publicly available datasets.The experimental results show that the accuracy of themodel proposed in this paper is significantly improved compared to the traditional WDCNN,BILSTM,and WDCNN-BILSTM models. 展开更多
关键词 High-speed train engine rolling bearings fault diagnosis variational modal decomposition WDCNNBILSTM-cross-attention feature fusion
在线阅读 下载PDF
Lip-Audio Modality Fusion for Deep Forgery Video Detection
8
作者 Yong Liu Zhiyu Wang +3 位作者 Shouling Ji Daofu Gong Lanxin Cheng Ruosi Cheng 《Computers, Materials & Continua》 2025年第2期3499-3515,共17页
In response to the problem of traditional methods ignoring audio modality tampering, this study aims to explore an effective deep forgery video detection technique that improves detection precision and reliability by ... In response to the problem of traditional methods ignoring audio modality tampering, this study aims to explore an effective deep forgery video detection technique that improves detection precision and reliability by fusing lip images and audio signals. The main method used is lip-audio matching detection technology based on the Siamese neural network, combined with MFCC (Mel Frequency Cepstrum Coefficient) feature extraction of band-pass filters, an improved dual-branch Siamese network structure, and a two-stream network structure design. Firstly, the video stream is preprocessed to extract lip images, and the audio stream is preprocessed to extract MFCC features. Then, these features are processed separately through the two branches of the Siamese network. Finally, the model is trained and optimized through fully connected layers and loss functions. The experimental results show that the testing accuracy of the model in this study on the LRW (Lip Reading in the Wild) dataset reaches 92.3%;the recall rate is 94.3%;the F1 score is 93.3%, significantly better than the results of CNN (Convolutional Neural Networks) and LSTM (Long Short-Term Memory) models. In the validation of multi-resolution image streams, the highest accuracy of dual-resolution image streams reaches 94%. Band-pass filters can effectively improve the signal-to-noise ratio of deep forgery video detection when processing different types of audio signals. The real-time processing performance of the model is also excellent, and it achieves an average score of up to 5 in user research. These data demonstrate that the method proposed in this study can effectively fuse visual and audio information in deep forgery video detection, accurately identify inconsistencies between video and audio, and thus verify the effectiveness of lip-audio modality fusion technology in improving detection performance. 展开更多
关键词 Deep forgery video detection lip-audio modality fusion mel frequency cepstrum coefficient siamese neural network band-pass filter
在线阅读 下载PDF
Low-light image enhancement based on multi-illumination estimation and multi-scale fusion
9
作者 ZHANG Xin'ai GAO Jing +1 位作者 NIE Kaiming LUO Tao 《Optoelectronics Letters》 2025年第6期362-369,共8页
To improve image quality under low illumination conditions,a novel low-light image enhancement method is proposed in this paper based on multi-illumination estimation and multi-scale fusion(MIMS).Firstly,the illuminat... To improve image quality under low illumination conditions,a novel low-light image enhancement method is proposed in this paper based on multi-illumination estimation and multi-scale fusion(MIMS).Firstly,the illumination is processed by contrast-limited adaptive histogram equalization(CLAHE),adaptive complementary gamma function(ACG),and adaptive detail preserving S-curve(ADPS),respectively,to obtain three components.Then,the fusion-relevant features,exposure,and color contrast are selected as the weight maps.Subsequently,these components and weight maps are fused through multi-scale to generate enhanced illumination.Finally,the enhanced images are obtained by multiplying the enhanced illumination and reflectance.Compared with existing approaches,this proposed method achieves an average increase of 0.81%and 2.89%in the structural similarity index measurement(SSIM)and peak signal-to-noise ratio(PSNR),and a decrease of 6.17%and 32.61%in the natural image quality evaluator(NIQE)and gradient magnitude similarity deviation(GMSD),respectively. 展开更多
关键词 adaptive detail preserving s curve contrast limited adaptive histogram equalization adaptive complementary gamma function low light image enhancement equalization clahe adaptive complementary gamma function acg multi scale fusion weight maps multi illumination estimation
原文传递
MSL-Net:a lightweight apple leaf disease detection model based on multi-scale feature fusion
10
作者 YANG Kangyi YAN Chunman 《Optoelectronics Letters》 2025年第12期745-752,共8页
Aiming at the problem of low detection accuracy due to the different scale sizes of apple leaf disease spots and their similarity to the background,this paper proposes a multi-scale lightweight network(MSL-Net).Firstl... Aiming at the problem of low detection accuracy due to the different scale sizes of apple leaf disease spots and their similarity to the background,this paper proposes a multi-scale lightweight network(MSL-Net).Firstly,a multiplexed aggregated feature extraction network is proposed using residual bottleneck block(RES-Bottleneck)and middle partial-convolution(MP-Conv)to capture multi-scale spatial features and enhance focus on disease features for better differentiation between disease targets and background information.Secondly,a lightweight feature fusion network is designed using scale-fuse concatenation(SF-Cat)and triple-scale sequence feature fusion(TSSF)module to merge multi-scale feature maps comprehensively.Depthwise convolution(DWConv)and GhostNet lighten the network,while the cross stage partial bottleneck with 3 convolutions ghost-normalization attention module(C3-GN)reduces missed detections by suppressing irrelevant background information.Finally,soft non-maximum suppression(Soft-NMS)is used in the post-processing stage to improve the problem of misdetection of dense disease sites.The results show that the MSL-Net improves mean average precision at intersection over union of 0.5(mAP@0.5)by 2.0%over the baseline you only look once version 5s(YOLOv5s)and reduces parameters by 44%,reducing computation by 27%,outperforming other state-of-the-art(SOTA)models overall.This method also shows excellent performance compared to the latest research. 展开更多
关键词 enhance focus disease features background i multi scale feature fusion apple leaf disease spots residual bottleneck block res bottleneck multiplexed aggregated feature extraction network lightweight network apple leaf disease detection
原文传递
基于自适应超模态学习的音视频情绪识别方法
11
作者 胡峻峰 刘倩 《计算机工程与设计》 北大核心 2026年第2期486-494,共9页
针对多模态情感识别中存在的特征冗余、噪声干扰及模态权重固化问题,提出一种基于自适应超模态学习的音视频情感识别方法。通过EfficientFace网络与一维卷积分别提取视频面部特征和音频特征,采用自适应超模态学习方法评估模态信息质量,... 针对多模态情感识别中存在的特征冗余、噪声干扰及模态权重固化问题,提出一种基于自适应超模态学习的音视频情感识别方法。通过EfficientFace网络与一维卷积分别提取视频面部特征和音频特征,采用自适应超模态学习方法评估模态信息质量,建立跨模态特征交互通道以抑制噪声特征。设计双重特征融合架构,结合残差连接保持原始特征完整性,通过一维卷积层实现跨模态特征自适应拼接。在公开数据集CH-SIMS和RAVDESS上的实验结果表明,所提方法情感识别准确率优于基准模型,F1值同步提升。消融实验验证了自适应超模态学习模块对噪声抑制的有效性。 展开更多
关键词 深度学习 情感分析 跨模态融合 注意力机制 特征提取 情绪分类 多模态
在线阅读 下载PDF
基于多尺度双流网络的深度伪造检测方法
12
作者 蒋翠玲 程梓源 +1 位作者 俞新贵 万永菁 《计算机工程》 北大核心 2026年第1期242-253,共12页
人脸深度伪造技术的滥用给社会和个人带来了极大的安全隐患,因此深度伪造检测技术已成为当今研究的热点。目前基于深度学习的伪造检测技术在高质量(HQ)数据集上效果较好,但在低质量(LQ)数据集和跨数据集上的检测效果不佳。为提升深度伪... 人脸深度伪造技术的滥用给社会和个人带来了极大的安全隐患,因此深度伪造检测技术已成为当今研究的热点。目前基于深度学习的伪造检测技术在高质量(HQ)数据集上效果较好,但在低质量(LQ)数据集和跨数据集上的检测效果不佳。为提升深度伪造检测的泛化性,提出一种基于多尺度双流网络(MSDSnet)的深度伪造检测方法。MSDSnet输入分为空域特征流和高频噪声特征流,首先采用多尺度融合(MSF)模块捕获不同情况下图像在空域被篡改的粗粒度人脸特征和伪造图像的细粒度高频噪声特征信息,然后通过MSF模块将空域流和高频噪声流的双流特征充分融合,由多模态交互注意力(MIA)模块进一步交互以充分学习双流特征信息,最后利用FcaNet(Frequency Channel Attention Network)获取伪造人脸特征的全局信息并完成检测分类。实验结果表明,该方法在HQ数据集Celeb-DF v2上的准确率为98.54%,在LQ数据集FaceForensics++上的准确率为93.11%,同时在跨数据集上的实验效果也优于其他同类方法。 展开更多
关键词 深度伪造检测 双流网络 多尺度融合 多模态交互注意力 高频噪声
在线阅读 下载PDF
气候适应性城市综合交通系统韧性综述
13
作者 李得伟 张若楠 +3 位作者 邹林翰 戴智丞 李涛 赵禹舒 《北京交通大学学报》 北大核心 2026年第1期1-14,共14页
在全球极端气候事件频发的背景下,城市交通系统正面临结构性脆弱与气候风险双重压力,亟需提升系统的气候适应性与综合韧性.首先,系统梳理了气候变化对城市交通网络结构与居民出行行为的主要影响,揭示了气象灾害导致的网络通达性下降与... 在全球极端气候事件频发的背景下,城市交通系统正面临结构性脆弱与气候风险双重压力,亟需提升系统的气候适应性与综合韧性.首先,系统梳理了气候变化对城市交通网络结构与居民出行行为的主要影响,揭示了气象灾害导致的网络通达性下降与出行需求时空错配等问题.然后,从物理韧性与社会韧性两方面分析了基础设施抗扰与恢复能力、出行者风险响应行为及治理体系适应机制的演化特征.最后,总结了以低碳出行为导向的可持续交通政策、以抗扰恢复为核心的交通韧性政策框架,探讨了两者融合形成的协同治理路径,并综述了城市交通网络在基础设施优化、运力资源协同配置及交通-能源系统耦合方面的最新研究进展,提出构建多模式协同、低碳韧性一体化的交通系统优化思路.研究结果表明:未来城市交通系统的气候适应性提升应以多模式网络优化和科技赋能为核心,强化社会公平性与政策协同,推动交通治理由基础设施韧性向系统韧性、由单一目标向多目标协调转变;需深度融合交通与能源系统耦合发展,建立覆盖抵御、吸收、恢复、适应的全周期韧性评估体系,填补当前评估聚焦气候灾害滞后、忽视长期演化的短板;需完善物理与社会韧性整合建模,融合网络拓扑、出行行为与治理机制分析,为不同气候特征城市提供定制化的设施优化方案与政策支撑. 展开更多
关键词 综合交通 韧性 气候适应性 可持续交通 多模式协同
在线阅读 下载PDF
基于多码深度特征融合生成对抗网络的文本生成图像方法
14
作者 顾广华 孙文星 伊柏宇 《电子与信息学报》 北大核心 2026年第1期287-296,共10页
文本生成图像是一项极具挑战的跨模态任务,其核心在于生成与文本描述高度一致、细节丰富的高质量图像。当前基于生成对抗网络的方法多依赖单一噪声输入,导致生成图像细粒度不足;同时,单词级特征利用不充分,也制约了文本与图像之间的语... 文本生成图像是一项极具挑战的跨模态任务,其核心在于生成与文本描述高度一致、细节丰富的高质量图像。当前基于生成对抗网络的方法多依赖单一噪声输入,导致生成图像细粒度不足;同时,单词级特征利用不充分,也制约了文本与图像之间的语义对齐精度。为此,该文提出一种多码深度特征融合生成对抗网络(mDFAGAN)。该方法通过设计多噪声输入生成器与多码先验融合模块,提升生成图像的细节表现力;在生成器中引入多头注意力机制,从多角度对齐单词与图像子区域,增强语义一致性;此外,提出多码先验融合损失以稳定训练过程。在CUB和COCO数据集上的实验结果表明,所提方法在IS与FID评价指标上均优于当前主流生成对抗网络方法,能够生成更逼真、细节更丰富、语义一致性更强的图像。 展开更多
关键词 文本生成图像 生成对抗网络 跨模态 多码先验融合
在线阅读 下载PDF
基于SAM的水陆两栖环境感知微调策略与应用
15
作者 左哲 蓝鸿 +1 位作者 覃卫 王坤 《北京理工大学学报》 北大核心 2026年第1期20-28,共9页
针对水陆两栖无人平台在不确定环境中面临的高误报率及多感知任务整合困难的问题,本研究提出了一种基于分割一切模型(segment anything model,SAM)的多模型联合环境感知方法,实现了障碍物检测与水陆域分割的统一处理.具体而言,是将U-Net... 针对水陆两栖无人平台在不确定环境中面临的高误报率及多感知任务整合困难的问题,本研究提出了一种基于分割一切模型(segment anything model,SAM)的多模型联合环境感知方法,实现了障碍物检测与水陆域分割的统一处理.具体而言,是将U-Net和YOLOv8与SAM结合,U-Net和YOLOv8负责获取目标的粗略轮廓,而SAM通过其编码−解码结构实现进一步精细分割.此外,设计了专门的微调策略以实现联合训练,进一步提升了模型的性能.本研究还构建了专有数据集USV-Dataset,并开发了数据引擎以提高标注效率.为增强模型的泛化能力,采用了4个公开数据集与USV-Dataset进行混合训练,涵盖了多样化的场景和障碍物类别.实验结果表明,该方法实现了96.8%的mPA分割精度和10 FPS的推理速度,展现出良好的泛化能力,能够满足中低速两栖无人平台的实时环境感知需求. 展开更多
关键词 水陆两栖平台 环境感知 SAM 多模型融合
在线阅读 下载PDF
基于多尺度特征融合的超短期风电功率预测
16
作者 高鹭 庄庆泽 +2 位作者 张飞 秦岭 邬锡麟 《电子测量技术》 北大核心 2026年第1期166-175,共10页
鉴于风电在能源结构中的重要性及其间断性带来的挑战,本文提出了一种基于异常值处理和多尺度特征融合的端到端超短期风电功率多步预测组合模型,旨在提高超短期风电功率预测的精确度与稳定性,进而为电力系统调度与运行的准确性与稳定性... 鉴于风电在能源结构中的重要性及其间断性带来的挑战,本文提出了一种基于异常值处理和多尺度特征融合的端到端超短期风电功率多步预测组合模型,旨在提高超短期风电功率预测的精确度与稳定性,进而为电力系统调度与运行的准确性与稳定性提供有力支撑。首先,通过RobustTSF方法处理时间序列异常,为预测模型的鲁棒性提供有力的保障,减少了异常时间序列预测和噪声标签学习之间的差异。其次,融合空间金字塔匹配映射策略、Levy飞行策略以及自适应t分布变异策略对蜣螂优化算法进行改进,显著提高了全局搜索能力和收敛效率。同时,利用多策略蜣螂优化算法优化改进的TimeMixer模型的超参数,以获得最优的模型性能。最后使用CATimeMixer模型,实现了多尺度季节特征和趋势特征的融合和预测。实验结果表明,相较于基准模型多层感知机的MAE、RMSE、MSE分别下降了49.71%、41.26%、65.50%,同时R2提高了4.49%,能够有效降低预测误差,为超短期风电功率的准确预测提供了一种新的方法和思路。 展开更多
关键词 超短期风电功率多步预测 异常值处理 多尺度特征融合 多策略蜣螂优化算法
原文传递
基于多模态三支路异构融合的逆变器开路故障诊断研究
17
作者 刘伟 王澜 易冠群 《电力系统保护与控制》 北大核心 2026年第1期71-82,共12页
针对逆变器开路故障,提出了一种基于GAF-RP-LSTM-Transformer的三支路异构融合的诊断方法。首先,采用互补集合经验模态分解与相位随机技术(complementary ensemble empirical mode decomposition with phase randomization technique,CE... 针对逆变器开路故障,提出了一种基于GAF-RP-LSTM-Transformer的三支路异构融合的诊断方法。首先,采用互补集合经验模态分解与相位随机技术(complementary ensemble empirical mode decomposition with phase randomization technique,CEEMD-PRT)算法处理逆变器输出电流信号,提取局部故障特征。并通过格拉姆角场(Gramian angular field,GAF)和递归图(recurrence plot,RP)变换将一维时序信号转换为二维图像,充分利用时序信号中的全局趋势特征(GAF)和非线性动力学特征(RP)。为弥补传统一维特征提取在空间相关性表征上的不足,利用长短期记忆(long short-term memory,LSTM)网络提取时序数据的动态特征,利用GAF-RP-Transformer双支路模型提取二维图片的空间特征。为实现一维时序特征与二维空间特征间多维信息的融合,提出了全新的异构特征融合模块,通过多模态图像的互补性,增强模型对故障细微差异的捕捉能力。实验结果表明,所提模型在测试集上的分类准确率达到99.3%,显著优于其他对比模型,并能在不同噪声干扰下保持较高的诊断准确性。特别是在30 dB和20 dB噪声下,准确率下降幅度较小,表明该方法具有较强的鲁棒性。仿真验证了GAF-RP-LSTM-Transformer三支路异构融合模型在逆变器故障诊断中的有效性与优越性。 展开更多
关键词 逆变器开路故障诊断 多模态三支路异构融合模型 CEEMD-PRT算法 异构特征融合
在线阅读 下载PDF
多传感器数据融合下齿轮箱轴心轨迹跟踪方法
18
作者 熊强强 齐志艺 樊鑫 《机械设计与制造》 北大核心 2026年第1期212-217,共6页
在齿轮箱中,振动源可能包含多种频率成分,导致轴心轨迹呈现出复杂的多频特征。而单一传感器在捕捉和分离这些多频成分时存在局限性,容易产生多频成分混叠现象,影响轴心轨迹跟踪效果。因此,提出多传感器数据融合下齿轮箱轴心轨迹跟踪方... 在齿轮箱中,振动源可能包含多种频率成分,导致轴心轨迹呈现出复杂的多频特征。而单一传感器在捕捉和分离这些多频成分时存在局限性,容易产生多频成分混叠现象,影响轴心轨迹跟踪效果。因此,提出多传感器数据融合下齿轮箱轴心轨迹跟踪方法。分析齿轮箱转子运动状态,获取齿轮箱轴心轨迹图,并利用多传感器数据融合技术采集齿轮箱轴心轨迹图中所示的转子4种典型运动状态的特征信息,将不同通道的特征信息加权融合,生成反映轴心轨迹变化的特征信息图,突出不同频率成分的特征。通过全局平均池化模块降维,提取最具代表性的频率成分,利用Softmax函数归一化处理,动态调整权重,生成加权特征图,有效分离多频成分,最终输出多传感器数据融合结果。将多传感器数据融合结果带入卡尔曼滤波算法中,通过观测矩阵和观测噪声协方差矩阵,动态调整预测值,使其更接近真实值,避免多频成分混叠。实现当前时刻轴心轨迹的有效跟踪。实验结果表明,经由所提方法融合后的轴心轨迹与其各自对应的故障完全吻合,且轴心轨迹简洁清晰,信噪比可以保持在40dB以上。说明所提方法可以有效跟踪齿轮箱轴心轨迹,为齿轮箱状态监测提供了新的技术手段。 展开更多
关键词 多传感器数据融合 轴心轨迹跟踪 转子运动状态 多频成分分离 卡尔曼滤波算法
在线阅读 下载PDF
基于复杂设施农业环境的多传感器融合建图
19
作者 张三强 钱刚 +4 位作者 虢淇泽 刘微 吴杰 周红宇 胡新宇 《农机化研究》 北大核心 2026年第6期179-187,共9页
针对当前2D激光雷达SLAM系统不适应复杂设施农业环境建图和3D激光雷达成本高昂的问题,基于阿克曼农业机器人平台提出了一种2D激光雷达、视觉RGB-D相机与轮式里程计融合的建图方法,构建了2D激光雷达、RGB-D相机与轮式里程计多传感器融合... 针对当前2D激光雷达SLAM系统不适应复杂设施农业环境建图和3D激光雷达成本高昂的问题,基于阿克曼农业机器人平台提出了一种2D激光雷达、视觉RGB-D相机与轮式里程计融合的建图方法,构建了2D激光雷达、RGB-D相机与轮式里程计多传感器融合建图模型,对视觉-雷达-轮式里程计融合的SLAM建图过程进行了研究分析。在模拟的复杂设施农业环境中进行试验,对提出的建图方法进行了验证。试验结果显示:该方法建立的环境地图为二维平面与三维空间的融合地图,误差最大为2.2%,2D激光雷达建图的地图误差最大为2.9%,RGB-D相机纯视觉建图的地图误差最大为4.4%,融合建图地图的精度高于2D激光雷达与RGB-D相机建图。融合地图中,障碍物长、宽、高的最大误差分别为16.3%、20.9%、12.1%,障碍物质心到建图起始点的距离最大误差为4.5%,均在合理范围内,满足复杂设施农业环境中自动导航的建图要求,有效改善了农业机器人2D激光雷达在复杂设施农业环境下建图的局限性,同时解决了3D激光雷达成本昂贵、不利于农业机器人推广应用的问题,为农业机器人建图与导航研究提供了理论基础与数据支撑。 展开更多
关键词 设施农业 多传感器融合 SLAM 2D激光雷达 RGB-D深度相机 轮式里程计
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部