期刊文献+
共找到2,049篇文章
< 1 2 103 >
每页显示 20 50 100
Multi-scale feature fusion optical remote sensing target detection method 被引量:1
1
作者 BAI Liang DING Xuewen +1 位作者 LIU Ying CHANG Limei 《Optoelectronics Letters》 2025年第4期226-233,共8页
An improved model based on you only look once version 8(YOLOv8)is proposed to solve the problem of low detection accuracy due to the diversity of object sizes in optical remote sensing images.Firstly,the feature pyram... An improved model based on you only look once version 8(YOLOv8)is proposed to solve the problem of low detection accuracy due to the diversity of object sizes in optical remote sensing images.Firstly,the feature pyramid network(FPN)structure of the original YOLOv8 mode is replaced by the generalized-FPN(GFPN)structure in GiraffeDet to realize the"cross-layer"and"cross-scale"adaptive feature fusion,to enrich the semantic information and spatial information on the feature map to improve the target detection ability of the model.Secondly,a pyramid-pool module of multi atrous spatial pyramid pooling(MASPP)is designed by using the idea of atrous convolution and feature pyramid structure to extract multi-scale features,so as to improve the processing ability of the model for multi-scale objects.The experimental results show that the detection accuracy of the improved YOLOv8 model on DIOR dataset is 92%and mean average precision(mAP)is 87.9%,respectively 3.5%and 1.7%higher than those of the original model.It is proved the detection and classification ability of the proposed model on multi-dimensional optical remote sensing target has been improved. 展开更多
关键词 multi scale feature fusion optical remote sensing feature map improve target detection ability optical remote sensing imagesfirstlythe target detection feature fusionto enrich semantic information spatial information
原文传递
A Lightweight Convolutional Neural Network with Hierarchical Multi-Scale Feature Fusion for Image Classification 被引量:2
2
作者 Adama Dembele Ronald Waweru Mwangi Ananda Omutokoh Kube 《Journal of Computer and Communications》 2024年第2期173-200,共28页
Convolutional neural networks (CNNs) are widely used in image classification tasks, but their increasing model size and computation make them challenging to implement on embedded systems with constrained hardware reso... Convolutional neural networks (CNNs) are widely used in image classification tasks, but their increasing model size and computation make them challenging to implement on embedded systems with constrained hardware resources. To address this issue, the MobileNetV1 network was developed, which employs depthwise convolution to reduce network complexity. MobileNetV1 employs a stride of 2 in several convolutional layers to decrease the spatial resolution of feature maps, thereby lowering computational costs. However, this stride setting can lead to a loss of spatial information, particularly affecting the detection and representation of smaller objects or finer details in images. To maintain the trade-off between complexity and model performance, a lightweight convolutional neural network with hierarchical multi-scale feature fusion based on the MobileNetV1 network is proposed. The network consists of two main subnetworks. The first subnetwork uses a depthwise dilated separable convolution (DDSC) layer to learn imaging features with fewer parameters, which results in a lightweight and computationally inexpensive network. Furthermore, depthwise dilated convolution in DDSC layer effectively expands the field of view of filters, allowing them to incorporate a larger context. The second subnetwork is a hierarchical multi-scale feature fusion (HMFF) module that uses parallel multi-resolution branches architecture to process the input feature map in order to extract the multi-scale feature information of the input image. Experimental results on the CIFAR-10, Malaria, and KvasirV1 datasets demonstrate that the proposed method is efficient, reducing the network parameters and computational cost by 65.02% and 39.78%, respectively, while maintaining the network performance compared to the MobileNetV1 baseline. 展开更多
关键词 MobileNet Image Classification Lightweight convolutional Neural Network Depthwise Dilated Separable convolution Hierarchical multi-scale feature fusion
在线阅读 下载PDF
Multi-Scale Feature Fusion and Advanced Representation Learning for Multi Label Image Classification
3
作者 Naikang Zhong Xiao Lin +1 位作者 Wen Du Jin Shi 《Computers, Materials & Continua》 2025年第3期5285-5306,共22页
Multi-label image classification is a challenging task due to the diverse sizes and complex backgrounds of objects in images.Obtaining class-specific precise representations at different scales is a key aspect of feat... Multi-label image classification is a challenging task due to the diverse sizes and complex backgrounds of objects in images.Obtaining class-specific precise representations at different scales is a key aspect of feature representation.However,existing methods often rely on the single-scale deep feature,neglecting shallow and deeper layer features,which poses challenges when predicting objects of varying scales within the same image.Although some studies have explored multi-scale features,they rarely address the flow of information between scales or efficiently obtain class-specific precise representations for features at different scales.To address these issues,we propose a two-stage,three-branch Transformer-based framework.The first stage incorporates multi-scale image feature extraction and hierarchical scale attention.This design enables the model to consider objects at various scales while enhancing the flow of information across different feature scales,improving the model’s generalization to diverse object scales.The second stage includes a global feature enhancement module and a region selection module.The global feature enhancement module strengthens interconnections between different image regions,mitigating the issue of incomplete represen-tations,while the region selection module models the cross-modal relationships between image features and labels.Together,these components enable the efficient acquisition of class-specific precise feature representations.Extensive experiments on public datasets,including COCO2014,VOC2007,and VOC2012,demonstrate the effectiveness of our proposed method.Our approach achieves consistent performance gains of 0.3%,0.4%,and 0.2%over state-of-the-art methods on the three datasets,respectively.These results validate the reliability and superiority of our approach for multi-label image classification. 展开更多
关键词 Image classification multi-LABEL multi scale attention mechanisms feature fusion
在线阅读 下载PDF
MSL-Net:a lightweight apple leaf disease detection model based on multi-scale feature fusion
4
作者 YANG Kangyi YAN Chunman 《Optoelectronics Letters》 2025年第12期745-752,共8页
Aiming at the problem of low detection accuracy due to the different scale sizes of apple leaf disease spots and their similarity to the background,this paper proposes a multi-scale lightweight network(MSL-Net).Firstl... Aiming at the problem of low detection accuracy due to the different scale sizes of apple leaf disease spots and their similarity to the background,this paper proposes a multi-scale lightweight network(MSL-Net).Firstly,a multiplexed aggregated feature extraction network is proposed using residual bottleneck block(RES-Bottleneck)and middle partial-convolution(MP-Conv)to capture multi-scale spatial features and enhance focus on disease features for better differentiation between disease targets and background information.Secondly,a lightweight feature fusion network is designed using scale-fuse concatenation(SF-Cat)and triple-scale sequence feature fusion(TSSF)module to merge multi-scale feature maps comprehensively.Depthwise convolution(DWConv)and GhostNet lighten the network,while the cross stage partial bottleneck with 3 convolutions ghost-normalization attention module(C3-GN)reduces missed detections by suppressing irrelevant background information.Finally,soft non-maximum suppression(Soft-NMS)is used in the post-processing stage to improve the problem of misdetection of dense disease sites.The results show that the MSL-Net improves mean average precision at intersection over union of 0.5(mAP@0.5)by 2.0%over the baseline you only look once version 5s(YOLOv5s)and reduces parameters by 44%,reducing computation by 27%,outperforming other state-of-the-art(SOTA)models overall.This method also shows excellent performance compared to the latest research. 展开更多
关键词 enhance focus disease features background i multi scale feature fusion apple leaf disease spots residual bottleneck block res bottleneck multiplexed aggregated feature extraction network lightweight network apple leaf disease detection
原文传递
Multi-source Remote Sensing Image Registration Based on Contourlet Transform and Multiple Feature Fusion 被引量:6
5
作者 Huan Liu Gen-Fu Xiao +1 位作者 Yun-Lan Tan Chun-Juan Ouyang 《International Journal of Automation and computing》 EI CSCD 2019年第5期575-588,共14页
Image registration is an indispensable component in multi-source remote sensing image processing. In this paper, we put forward a remote sensing image registration method by including an improved multi-scale and multi... Image registration is an indispensable component in multi-source remote sensing image processing. In this paper, we put forward a remote sensing image registration method by including an improved multi-scale and multi-direction Harris algorithm and a novel compound feature. Multi-scale circle Gaussian combined invariant moments and multi-direction gray level co-occurrence matrix are extracted as features for image matching. The proposed algorithm is evaluated on numerous multi-source remote sensor images with noise and illumination changes. Extensive experimental studies prove that our proposed method is capable of receiving stable and even distribution of key points as well as obtaining robust and accurate correspondence matches. It is a promising scheme in multi-source remote sensing image registration. 展开更多
关键词 feature fusion multi-scale circle Gaussian combined invariant MOMENT multi-direction GRAY level CO-OCCURRENCE matrix multi-SOURCE remote sensing image registration CONTOURLET transform
原文传递
Pedestrian attribute classification with multi-scale and multi-label convolutional neural networks
6
作者 朱建清 Zeng Huanqiang +2 位作者 Zhang Yuzhao Zheng Lixin Cai Canhui 《High Technology Letters》 EI CAS 2018年第1期53-61,共9页
Pedestrian attribute classification from a pedestrian image captured in surveillance scenarios is challenging due to diverse clothing appearances,varied poses and different camera views. A multiscale and multi-label c... Pedestrian attribute classification from a pedestrian image captured in surveillance scenarios is challenging due to diverse clothing appearances,varied poses and different camera views. A multiscale and multi-label convolutional neural network( MSMLCNN) is proposed to predict multiple pedestrian attributes simultaneously. The pedestrian attribute classification problem is firstly transformed into a multi-label problem including multiple binary attributes needed to be classified. Then,the multi-label problem is solved by fully connecting all binary attributes to multi-scale features with logistic regression functions. Moreover,the multi-scale features are obtained by concatenating those featured maps produced from multiple pooling layers of the MSMLCNN at different scales. Extensive experiment results show that the proposed MSMLCNN outperforms state-of-the-art pedestrian attribute classification methods with a large margin. 展开更多
关键词 PEDESTRIAN ATTRIBUTE CLASSIFICATION multi-scale features multi-LABEL CLASSIFICATION convolutional NEURAL network (CNN)
在线阅读 下载PDF
Marine organism classification method based on hierarchical multi-scale attention mechanism
7
作者 XU Haotian CHENG Yuanzhi +1 位作者 ZHAO Dong XIE Peidong 《Optoelectronics Letters》 2025年第6期354-361,共8页
We propose a hierarchical multi-scale attention mechanism-based model in response to the low accuracy and inefficient manual classification of existing oceanic biological image classification methods. Firstly, the hie... We propose a hierarchical multi-scale attention mechanism-based model in response to the low accuracy and inefficient manual classification of existing oceanic biological image classification methods. Firstly, the hierarchical efficient multi-scale attention(H-EMA) module is designed for lightweight feature extraction, achieving outstanding performance at a relatively low cost. Secondly, an improved EfficientNetV2 block is used to integrate information from different scales better and enhance inter-layer message passing. Furthermore, introducing the convolutional block attention module(CBAM) enhances the model's perception of critical features, optimizing its generalization ability. Lastly, Focal Loss is introduced to adjust the weights of complex samples to address the issue of imbalanced categories in the dataset, further improving the model's performance. The model achieved 96.11% accuracy on the intertidal marine organism dataset of Nanji Islands and 84.78% accuracy on the CIFAR-100 dataset, demonstrating its strong generalization ability to meet the demands of oceanic biological image classification. 展开更多
关键词 integrate information different scales hierarchical multi scale attention lightweight feature extraction focal loss efficientnetv marine organism classification oceanic biological image classification methods convolutional block attention module
原文传递
融合Multi-scale CNN和Bi-LSTM的人脸表情识别研究 被引量:3
8
作者 李军 李明 《北京联合大学学报》 CAS 2021年第1期35-39,44,共6页
为了有效改善现有人脸表情识别模型中存在信息丢失严重、特征信息之间联系不密切的问题,提出一种融合多尺度卷积神经网络(Multi-scale CNN)和双向长短期记忆(Bi-LSTM)的模型。Bi-LSTM可以增强特征信息间的联系与信息的维持,在Multi-scal... 为了有效改善现有人脸表情识别模型中存在信息丢失严重、特征信息之间联系不密切的问题,提出一种融合多尺度卷积神经网络(Multi-scale CNN)和双向长短期记忆(Bi-LSTM)的模型。Bi-LSTM可以增强特征信息间的联系与信息的维持,在Multi-scale CNN中通过不同尺度的卷积核可以提取到更加丰富的特征信息,并通过加入批标准化(BN)层与特征融合处理,从而加快网络的收敛速度,有利于特征信息的重利用,再将两者提取到的特征信息进行融合,最后将改进的正则化方法应用到目标函数中,减小网络复杂度和过拟合。在JAFFE和FER-2013公开数据集上进行实验,准确率分别达到了95.455%和74.115%,由此证明所提算法的有效性和先进性。 展开更多
关键词 多尺度卷积神经网络 双向长短期记忆 特征融合 批标准化层 正则化
在线阅读 下载PDF
基于YOLO-BioFusion的血细胞检测模型
9
作者 张傲 刘微 +2 位作者 刘阳 杨思瑶 管勇 《电子测量技术》 北大核心 2025年第18期177-188,共12页
血细胞检测是临床诊断中的重要任务,尤其在面对细胞类型多样、尺寸差异显著、目标重叠频繁以及复杂背景时,现有检测模型的精度和鲁棒性仍面临挑战。为解决这些问题,本文提出了一种改进的YOLOv8目标检测模型——YOLO-BioFusion。该模型... 血细胞检测是临床诊断中的重要任务,尤其在面对细胞类型多样、尺寸差异显著、目标重叠频繁以及复杂背景时,现有检测模型的精度和鲁棒性仍面临挑战。为解决这些问题,本文提出了一种改进的YOLOv8目标检测模型——YOLO-BioFusion。该模型通过引入ACFN模块,提高了对细小目标和重叠目标的检测能力;应用C2f-DPE和SPPF-LSK模块增强了多尺度特征的融合与提取,提升了模型的鲁棒性和泛化能力;同时,采用Inner-CIoU损失函数加速了模型收敛并提高了定位精度。实验结果表明,在BCCD数据集上,YOLO-BioFusion的mAP@0.5为94.0%,mAP@0.5:0.95为65.2%,分别较YOLOv8-n提高了1.9%和3.2%。与此同时,计算成本仅为6.8 GFLOPs,展示了其在资源受限环境中的应用潜力。该研究为复杂背景下的血细胞检测提供了一种高效且精确的解决方案。 展开更多
关键词 血细胞检测 多尺度特征融合 损失函数优化 YOLOv8 重叠目标
原文传递
LDD-YOLO:改进YOLOv8的轻量级密集行人检测算法
10
作者 杨迪 张喜龙 王鹏 《计算机科学与探索》 北大核心 2026年第1期251-265,共15页
针对当前行人检测算法在密集场景中由于遮挡和尺度变化导致的漏检、误检,以及模型计算复杂度高等问题,提出了一种基于YOLOv8的轻量级密集行人检测方法(LDD-YOLO),以实现检测效率与精度的平衡。设计了一种重参数化层聚合网络RELAN,融合... 针对当前行人检测算法在密集场景中由于遮挡和尺度变化导致的漏检、误检,以及模型计算复杂度高等问题,提出了一种基于YOLOv8的轻量级密集行人检测方法(LDD-YOLO),以实现检测效率与精度的平衡。设计了一种重参数化层聚合网络RELAN,融合了重参数化卷积和多分支结构,分别在训练阶段和推理阶段强化特征表达能力与模型推理效率。引入了分离式大卷积核注意力机制的空间金字塔池化模块SPPF-LSKA,结合分离式大卷积核操作以扩大感受野,增强对密集目标的特征捕获能力,抑制背景干扰。为解决YOLOv8在特征处理中未能充分挖掘局部与全局信息的局限性,提出了一种改进的多尺度特征融合模块FFDM,通过融合多尺度特征信息,提升模型密集行人检测的特征表达能力。设计了一种轻量化的特征对齐检测头LSCSBD,利用不同特征层级之间的共享卷积层,提高参数利用效率并减少冗余计算。在CrowdHuman与WiderPerson数据集上的对比实验结果表明,LDD-YOLO在总体性能上优于对比模型,实现了精度与效率的平衡。 展开更多
关键词 密集行人检测 YOLO 重参数化 可分离大核注意力机制 多尺度特征融合 轻量化
在线阅读 下载PDF
一种融合MSC和时空双重注意力的TCN航迹预测方法
11
作者 焦卫东 杨蓓 《北京航空航天大学学报》 北大核心 2026年第1期15-27,共13页
针对现有航迹预测模型难以有效提取多尺度时空特征,导致预测精度受限的问题,提出一种融合多尺度卷积(MSC)网络和时空双重注意力(STDA)的时间卷积网络(TCN)航迹预测方法MDAT-Net。MDAT-Net模型包含MSAT、MTAT航迹预测模块及投票模块。在... 针对现有航迹预测模型难以有效提取多尺度时空特征,导致预测精度受限的问题,提出一种融合多尺度卷积(MSC)网络和时空双重注意力(STDA)的时间卷积网络(TCN)航迹预测方法MDAT-Net。MDAT-Net模型包含MSAT、MTAT航迹预测模块及投票模块。在航迹预测模块中,为优化传统时间卷积网络中卷积核大小固定的问题,搭建由不同尺度卷积核组成的多尺度卷积架构,以更好地提取不同尺度的时空特征;为动态挖掘隐藏特征与目标特征之间的潜在相关性,引入空间注意力机制及时间注意力机制来自适应地关注重要信息,跳过次要信息。在投票模块中,决定各维度使用合适模块进行预测,以融合MSAT、MTAT航迹预测模块的优点,实现高精度的航迹预测。实验结果表明:MDAT-Net模型的均方根误差(RMSE)的改进率最高可达83.33%,平均绝对误差(MAE)的改进率最高可达85.85%,具有较高的准确性和鲁棒性。 展开更多
关键词 航迹预测 多尺度卷积 时间卷积网络 注意力机制 时空特征
原文传递
基于多注意力机制的脊柱病灶MRI影像识别模型
12
作者 周慧 宋新景 《计算机科学与探索》 北大核心 2026年第1期291-300,共10页
人工检测脊柱病变是一项耗时的工作,并且高度依赖于该领域的专家,因此脊柱病灶的自动识别是非常必要的。然而,因为脊柱病灶的大小、位置和结构存在着广泛的差异,同时脊柱肿瘤与稀有病布鲁氏菌在影像上高度相似,所以脊柱病灶的准确定位... 人工检测脊柱病变是一项耗时的工作,并且高度依赖于该领域的专家,因此脊柱病灶的自动识别是非常必要的。然而,因为脊柱病灶的大小、位置和结构存在着广泛的差异,同时脊柱肿瘤与稀有病布鲁氏菌在影像上高度相似,所以脊柱病灶的准确定位和分类是一项具有挑战性的工作。为了应对这些挑战,提出了一种改进的脊柱病灶MRI影像识别模型。引入以ResNet-101为基础的双向特征金字塔主干网络,利用可变卷积在不同层替代传统的卷积神经网络,从特征层中获得更多的特征信息。在不同的模块中加入了多重注意力,包括自注意力机制和柔性注意力机制,有效地融合特征中贡献较大的部分。为了克服脊柱肿瘤、感染性病变、稀有病布鲁氏菌的数据不平衡问题,引入了改进的平衡交叉熵损失函数。在大连某医院提供的临床数据集上进行验证,识别精确率达到了94.2%,识别召回率达到90.8%。与其他识别模型进行对比实验,结果说明了该方法相对于其他模型识别性能更好。 展开更多
关键词 脊柱病灶识别 双向特征金字塔 多注意力机制 可变卷积 多特征融合
在线阅读 下载PDF
一种抗遮挡重叠与尺度变化的行人检测算法
13
作者 马晞茗 李宁 吴迪 《现代电子技术》 北大核心 2026年第1期41-48,共8页
针对复杂人群密集场景中因行人目标受遮挡和行人目标尺度不一等因素导致行人检测器检测精度下降、漏检率变高的问题,基于Faster R-CNN算法进行改进,提出一种抗遮挡重叠与尺度变化的行人检测算法。在特征提取环节,设计一种融合注意力机... 针对复杂人群密集场景中因行人目标受遮挡和行人目标尺度不一等因素导致行人检测器检测精度下降、漏检率变高的问题,基于Faster R-CNN算法进行改进,提出一种抗遮挡重叠与尺度变化的行人检测算法。在特征提取环节,设计一种融合注意力机制的循环多尺度特征提取网络,用于学习更为丰富细致的多尺度特征信息,并重点聚焦于关键特征信息,提升网络对不同尺度行人目标的灵敏度;对于损失函数模块,引入斥力损失以降低目标相互遮挡对检测造成的干扰;在后处理环节,设计一种基于遮挡重叠率补偿的非极大值抑制算法,使得实际的抑制阈值能够随着遮挡程度的变化而自适应调整,从而进一步降低密集处行人目标的漏检率。实验结果表明:改进后算法的检测性能更为出色,在CrowdHuman和CityPersons数据集上的检测平均精度相比基准算法分别提升了2.5%和1.9%,对数平均漏检率分别降低了3.5%和3.2%,在TJU-DHD-pedestrian数据集上不同尺度行人目标的对数平均漏检率也得到较为明显的降低,所提算法可以适用于复杂场景中的行人检测。 展开更多
关键词 行人检测 人群密集场景 Faster R-CNN 多尺度特征融合 损失函数 非极大值抑制
在线阅读 下载PDF
基于层次化自适应增强的芯片表面缺陷检测算法HAE-YOLO
14
作者 李长江 邓剑勋 +4 位作者 蒲俊宇 孙宏森 刘凯 靳清清 余先伦 《半导体技术》 北大核心 2026年第1期77-86,共10页
针对半导体芯片表面缺陷检测中存在的微小缺陷识别困难、缺陷特征复杂多样等挑战,提出了一种基于YOLOv8n改进的层次化自适应增强的芯片表面缺陷检测算法HAE-YOLO。采用渐进式通道感知C2f特征金字塔通道注意力(C2f_PCA)特征提取模块融合... 针对半导体芯片表面缺陷检测中存在的微小缺陷识别困难、缺陷特征复杂多样等挑战,提出了一种基于YOLOv8n改进的层次化自适应增强的芯片表面缺陷检测算法HAE-YOLO。采用渐进式通道感知C2f特征金字塔通道注意力(C2f_PCA)特征提取模块融合视觉混合器与卷积门控线性单元,借助层次化状态空间动态机制增强微小缺陷的特征表征能力;构建多路径自适应特征融合网络(MPAFFN),提升对不同类型缺陷的自适应能力;引入跨层特征对齐模块(CFAB)实现了骨干(Backbone)网络与颈部(Neck)网络的高效桥接及跨层级特征语义的对齐。实验结果表明,相较于基准模型,HAE-YOLO算法的平均精度均值(mAP@0.5)提高了4.6%,mAP@0.5~0.95提高了5.2%,同时参数量(Params)减少了29%,计算量(GFLOPs)减少了0.5。该算法可为晶圆生产线芯片表面缺陷实时检测提供高效的解决方案,对减少缺陷芯片流入后续工序、提高制备良率具有重要意义。 展开更多
关键词 芯片表面缺陷检测 YOLOv8 特征融合 多尺度特征 注意力机制
原文传递
改进YOLOv11s的无人机图像小目标检测模型
15
作者 牟毅 黄海松 +3 位作者 李宜汀 付盛伟 李科 朱云伟 《电光与控制》 北大核心 2026年第1期51-57,共7页
为解决无人机目标检测中小尺寸、密集目标检测困难及在边缘设备部署困难的问题,提出了小目标检测模型Drone-YOLO。首先,提出了MF-FPN网络,在降低模型复杂度的同时融合高级语义与低级几何特征;其次,为解决小目标、密集目标难以检测问题... 为解决无人机目标检测中小尺寸、密集目标检测困难及在边缘设备部署困难的问题,提出了小目标检测模型Drone-YOLO。首先,提出了MF-FPN网络,在降低模型复杂度的同时融合高级语义与低级几何特征;其次,为解决小目标、密集目标难以检测问题提出了小目标检测头;而后,提出轻量化检测头LSCD,通过共享卷积降低模型复杂度,并利用组归一化提升检测性能;最后,引入Inner-WIoU损失函数,动态调整锚框权重,使模型更专注于中等质量锚框优化,从而提升回归效率与泛化能力。在公开数据集VisDrone2019上进行实验,改进后模型的mAP 0.5达到44.3%,较YOLOv11s提升6.4个百分点,参数量减少67.5%。 展开更多
关键词 无人机 小目标检测 YOLOv11s 多尺度特征融合 轻量化 损失函数
在线阅读 下载PDF
面向自动驾驶的多尺度目标三维检测算法
16
作者 刘嫚 陈晓楠 《现代电子技术》 北大核心 2026年第1期141-147,共7页
在自动驾驶场景中,使用单目相机进行三维目标检测是一项具有挑战性的任务,尤其是在复杂道路环境下,目标的尺度差异和遮挡现象容易导致误检或漏检。针对这一问题,文中提出一种基于特征融合与增强的单目三维目标检测算法。首先,构建Faster... 在自动驾驶场景中,使用单目相机进行三维目标检测是一项具有挑战性的任务,尤其是在复杂道路环境下,目标的尺度差异和遮挡现象容易导致误检或漏检。针对这一问题,文中提出一种基于特征融合与增强的单目三维目标检测算法。首先,构建FasterNet+作为骨干网络,通过优化嵌入层和块结构,增强细节信息的提取,提升网络的整体性能;其次,设计多维特征自适应融合模块,自适应地选择并融合高维与低维特征,解决高维特征丢失小目标信息和低维特征缺乏上下文信息的问题;最后,引入特征增强注意力模块,突出特定目标区域,进一步提升网络在目标定位和分类方面的精度。在nuScenes数据集上的实验结果表明,其mAP和NDS比基准方法分别提高0.038和0.035,可以有效检测出不同类型和尺度的目标,并展现出更强的鲁棒性,为自动驾驶场景中的多维目标检测提供了一种新思路。 展开更多
关键词 自动驾驶 单目相机 三维目标检测 多尺度感知 特征融合 注意力机制 机器视觉
在线阅读 下载PDF
基于多粒度特征融合模型的多说话人声纹识别研究
17
作者 李娅 周斌 胡波 《中南民族大学学报(自然科学版)》 2026年第1期77-85,共9页
声纹识别是一种通过比对语音中的说话人特征来确认身份的技术.其流程包括从不定长的单人语音片段中提取声学特征,再由模型提取说话人特征,最后通过余弦相似度判断是否为同一说话人.多说话人声纹识别则需从包含多位说话人的音频中识别各... 声纹识别是一种通过比对语音中的说话人特征来确认身份的技术.其流程包括从不定长的单人语音片段中提取声学特征,再由模型提取说话人特征,最后通过余弦相似度判断是否为同一说话人.多说话人声纹识别则需从包含多位说话人的音频中识别各自身份,该任务的关键在于提取具判别力的说话人特征.为此提出了多粒度特征融合模型(MGFF-TDNN),在MGFF-TDNN中,首先使用二维深度可分离卷积模块(DSM)作为前端特征提取器,以增强时频域特征的建模.其次,为了实现多粒度特征融合,设计了多粒度融合结构(M-TDNN),采用时延神经网络和音素级特征池化来捕获不同粒度的信息.在VoxCeleb数据集上的实验表明:MGFF-TDNN模型在使用了更少的参数量(4.78M)和计算资源(1.49G的浮点计算量)的情况下,仍表现出良好的性能. 展开更多
关键词 声纹识别 多说话人 多粒度特征融合 深度可分离卷积
在线阅读 下载PDF
基于全局与局部特征引导的显著性目标检测网络
18
作者 王政凯 周永霞 《现代电子技术》 北大核心 2026年第1期124-128,共5页
显著性目标检测旨在识别出图像中的显著性区域,然而,现有方法在处理复杂场景图像或多尺度物体时往往表现不佳。针对现有网络在处理复杂场景时无法精确定位目标的问题,借鉴人类视觉系统的特性,文中提出一种全新的基于全局与局部特征引导... 显著性目标检测旨在识别出图像中的显著性区域,然而,现有方法在处理复杂场景图像或多尺度物体时往往表现不佳。针对现有网络在处理复杂场景时无法精确定位目标的问题,借鉴人类视觉系统的特性,文中提出一种全新的基于全局与局部特征引导的显著性目标检测网络,通过全局与局部特征增强模块帮助网络获得更丰富准确的特征。针对多尺度目标检测效果不佳的问题,提出基于注意力机制的多尺度特征融合模块,加强了多尺度特征之间的融合,并提取出更深层的全局特征。设计了一个误差损失权重,通过计算预测图与真实图的并集与交集的差值作为损失函数的权重,通过像素级的误差计算,增强了网络对局部特征的敏感性与空间一致性。在5个公共数据集上与近年来的12种先进方法进行比较,文中方法在多个指标上表现更优,证明了所提方法的优越性与高效性。 展开更多
关键词 全局与局部特征引导 显著性目标检测 深度学习 特征增强 多尺度 特征融合
在线阅读 下载PDF
基于多尺度特征融合的多模态重载钢轨伤损检测
19
作者 张建 郭江龙 +1 位作者 戴少石 曹经纬 《无损检测》 2026年第1期49-55,共7页
钢轨伤损智能检测对快速核定钢轨伤损位置与类别、提高伤损检出效率及钢轨运营安全有着重要意义。针对当前钢轨超声智能伤损检测存在的漏报误报以及检测结果不准确等问题,提出了一种基于多尺度特征融合的多模态重载钢轨伤损检测方法,在... 钢轨伤损智能检测对快速核定钢轨伤损位置与类别、提高伤损检出效率及钢轨运营安全有着重要意义。针对当前钢轨超声智能伤损检测存在的漏报误报以及检测结果不准确等问题,提出了一种基于多尺度特征融合的多模态重载钢轨伤损检测方法,在钢轨超声检测数据和B扫描图像数据基础上,分别利用采样延展等时序序列处理法和MFF-SSD多尺度特征图融合目标检测算法来检测目标信息,以丰富的特征维度提升伤损的定位与检出效率。并且,根据不同模态数据的特征体现形式和关联程度,结合多模态数据相关信息确定最终的伤损类别。试验结果表明,该方法的伤损检出率可达98.56%,且识别速度得到了明显提升。 展开更多
关键词 重载铁路 多尺度特征融合 钢轨伤损检测 多模态 B扫描图像
在线阅读 下载PDF
层级特征融合Transformer的图像分类算法
20
作者 段士玺 王博 《电子科技》 2026年第2期72-78,共7页
针对传统ViT(Vision Transformer)模型难以完成图像多层级分类问题,文中提出了基于ViT的图像分类模型层级特征融合视觉Transformer(Hierarchical Feature Fusion Vision Transformer,HICViT)。输入数据经过ViT提取模块生成多个不同层级... 针对传统ViT(Vision Transformer)模型难以完成图像多层级分类问题,文中提出了基于ViT的图像分类模型层级特征融合视觉Transformer(Hierarchical Feature Fusion Vision Transformer,HICViT)。输入数据经过ViT提取模块生成多个不同层级的特征图,每个特征图包含不同层次的抽象特征表示。基于层级标签将ViT提取的特征映射为多级特征,运用层级特征融合策略整合不同层级信息,有效增强模型的分类性能。在CIFRA-10、CIFRA-100和CUB-200-2011这3个数据集将所提模型与多种先进深度学习模型进行对比和分析。在CIFRA-10数据集,所提方法在第1层级、第2层级和第3层级的分类精度分别为99.70%、98.80%和97.80%。在CIFRA-100数据集,所提方法在第1层级、第2层级和第3层级的分类精度分别为95.23%、93.54%和90.12%。在CUB-200-2011数据集,所提方法在第1层级和第2层级的分类精度分别为98.09%和93.66%。结果表明,所提模型的分类准确率优于其他对比模型。 展开更多
关键词 深度学习 卷积神经网络 TRANSFORMER 图像分类 层级特征 特征融合 多头注意力 Vision Transformer
在线阅读 下载PDF
上一页 1 2 103 下一页 到第
使用帮助 返回顶部