期刊文献+
共找到305篇文章
< 1 2 16 >
每页显示 20 50 100
基于改进YOLOv11的CNN-Transformer混合水域垃圾检测算法
1
作者 赵建永 李瑞东 +1 位作者 姚浩 魏秀蓉 《无线互联科技》 2026年第4期21-25,50,共6页
河流水面漂浮物检测受限于复杂环境条件(如光照变化、波纹干扰)和检测目标尺度较小的特点,传统方法难以实现高精度检测。文章提出一种面向复杂水域场景的单阶段检测模型YOLOv11n-SPT,在YOLOv11n基础上引入新型Spatial Pyramid Transform... 河流水面漂浮物检测受限于复杂环境条件(如光照变化、波纹干扰)和检测目标尺度较小的特点,传统方法难以实现高精度检测。文章提出一种面向复杂水域场景的单阶段检测模型YOLOv11n-SPT,在YOLOv11n基础上引入新型Spatial Pyramid Transformer(SPT)模块与通道注意力机制。SPT模块采用多分支空间金字塔结构,实现高分辨率细节保留与超大感受野全局建模的协同。在FloW-Img数据集上,YOLOv11n-SPT的mAP@0.5达到81.2%,较基线YOLOv11n提升2.9个百分点;消融实验表明,单独引入SPT模块使mAP@0.5提升2.0%,召回率提升2.1%,进一步叠加通道注意力后精确率提升至85.4%。YOLOv11n-SPT在微小目标与强干扰场景下表现出更强的鲁棒性与定位精度,为无人清漂船、无人机巡河等实际水域环境治理任务提供了高效可靠的感知方案。 展开更多
关键词 水面漂浮物检测 Spatial pyramid transformer YOLOv11
在线阅读 下载PDF
基于PyConv-Transformer的锂离子电池剩余寿命预测
2
作者 吴忠强 吴江浩 《计量学报》 北大核心 2026年第1期102-110,共9页
锂离子电池的剩余使用寿命(RUL)是电池健康管理的重要参数。电池在实际使用过程中会出现容量再生现象,而且在电池数据采集过程中,通常难以避免噪声干扰,影响数据质量。针对以上问题提出一种基于Transformer结合金字塔卷积网络的电池RUL... 锂离子电池的剩余使用寿命(RUL)是电池健康管理的重要参数。电池在实际使用过程中会出现容量再生现象,而且在电池数据采集过程中,通常难以避免噪声干扰,影响数据质量。针对以上问题提出一种基于Transformer结合金字塔卷积网络的电池RUL预测模型,选取容量作为健康因子,利用金字塔卷积网络中不同大小的卷积核提取容量序列的特征信息,利用Transformer中的多头注意力机制进一步学习序列的时序特征。采用加权Huber损失函数,提高模型的鲁棒性;采用Dropout技术,提高模型的泛化能力,防止训练过程中出现过拟合。将所提预测模型在NASA和CALCE数据集上实验,并与其他模型比较。实验结果表明,所提模型的预测精度更高,在NASA和CALCE数据集上的相对误差分别为0.008 6、0.019 3;平均绝对误差分别为0.011 5、0.012 6;均方根误差分别为0.017 3、0.018 9。 展开更多
关键词 电学计量 剩余使用寿命 锂电池容量 金字塔卷积网络 transformER 加权Huber损失函数 DROPOUT
在线阅读 下载PDF
Pyramid–MixNet: Integrate Attention into Encoder-Decoder Transformer Framework for Automatic Railway Surface Damage Segmentation
3
作者 Hui Luo Wenqing Li Wei Zeng 《Computers, Materials & Continua》 2025年第7期1567-1580,共14页
Rail surface damage is a critical component of high-speed railway infrastructure,directly affecting train operational stability and safety.Existing methods face limitations in accuracy and speed for small-sample,multi... Rail surface damage is a critical component of high-speed railway infrastructure,directly affecting train operational stability and safety.Existing methods face limitations in accuracy and speed for small-sample,multi-category,and multi-scale target segmentation tasks.To address these challenges,this paper proposes Pyramid-MixNet,an intelligent segmentation model for high-speed rail surface damage,leveraging dataset construction and expansion alongside a feature pyramid-based encoder-decoder network with multi-attention mechanisms.The encoding net-work integrates Spatial Reduction Masked Multi-Head Attention(SRMMHA)to enhance global feature extraction while reducing trainable parameters.The decoding network incorporates Mix-Attention(MA),enabling multi-scale structural understanding and cross-scale token group correlation learning.Experimental results demonstrate that the proposed method achieves 62.17%average segmentation accuracy,80.28%Damage Dice Coefficient,and 56.83 FPS,meeting real-time detection requirements.The model’s high accuracy and scene adaptability significantly improve the detection of small-scale and complex multi-scale rail damage,offering practical value for real-time monitoring in high-speed railway maintenance systems. 展开更多
关键词 pyramid vision transformer encoder–decoder architecture railway damage segmentation masked multi-head attention mix-attention
在线阅读 下载PDF
基于特征提取增强和金字塔结构的实时Transformer小目标检测模型 被引量:1
4
作者 张伟 蔡宇帆 +1 位作者 叶林涛 刘大志 《计算机科学》 北大核心 2025年第S2期363-373,共11页
针对室外环境下小目标检测,如复杂背景、光照不足、目标密集和遮挡严重等挑战,提出了一种基于实时检测Transformer改进的模型LDSD-DETR,用于增强复杂背景下的特征提取及小目标检测能力。为提高特征提取效率,池化层和下采样部分采用线性... 针对室外环境下小目标检测,如复杂背景、光照不足、目标密集和遮挡严重等挑战,提出了一种基于实时检测Transformer改进的模型LDSD-DETR,用于增强复杂背景下的特征提取及小目标检测能力。为提高特征提取效率,池化层和下采样部分采用线性可变形卷积(LDConv)进行改进,能更有效地提取特征,在基于注意力的尺度内特征交互部分引入可变形注意力机制,优化目标相关区域的特征捕捉。针对小目标检测,在跨尺度特征融合部分设计了小目标增强金字塔,增强了对小尺寸目标的敏感度。为了进一步提升性能,重构后的结构结合了DGCST模块,有效捕获图像的局部和全局特征。实验结果表明,LDSD-DETR在Roboflow100及其扩展数据集上的平均检测精度优于其他测试模型,相比原模型,各指标均有效提升,其中mAP50提升至90%,提高了1.8个百分点。此外,模型在计算量、参数量及权重文件大小方面均有所优化,为小目标的实时检测提供了更精确、高效的解决方案。 展开更多
关键词 目标检测 小目标 RT-DETR 特征提取 金字塔结构 transformER
在线阅读 下载PDF
PAM结合TCN优化Transformer的光伏功率预测研究 被引量:1
5
作者 张红 李峰 +2 位作者 马彦宏 姬文宣 郑启鹏 《计算机工程》 北大核心 2025年第10期140-149,共10页
准确的光伏功率预测对于提高电网稳定性和用电效率至关重要。针对现有研究难以同时考虑光伏功率长期依赖性和短期变化模式的缺陷,提出一种金字塔注意力模块(PAM)结合时间卷积网络(TCN)优化Transformer的光伏功率预测方法Solarformer。... 准确的光伏功率预测对于提高电网稳定性和用电效率至关重要。针对现有研究难以同时考虑光伏功率长期依赖性和短期变化模式的缺陷,提出一种金字塔注意力模块(PAM)结合时间卷积网络(TCN)优化Transformer的光伏功率预测方法Solarformer。基于多种特征选择机制筛选输入特征,增强对光伏数据特征的表征能力;利用粗粒度构造模块和PAM优化Transformer编码器,在多尺度上捕获光伏功率的长期时间依赖特征;利用光伏功率日出日落效应约束机制和TCN优化Transformer解码器,增强光伏功率的短期变化特征,以更好地捕捉其短期变化模式。在澳大利亚Sanyo数据集上进行实验,结果表明,Solarformer能够有效提高光伏功率的预测精度,相比DLinear模型,其均方根误差(RMSE)、平均绝对误差(MAE)和对称平均绝对百分比误差(SMAPE)分别降低了约7.45%、6.99%和14.10%。 展开更多
关键词 光伏功率预测 transformer模型 金字塔注意力模块 约束机制 时间卷积网络
在线阅读 下载PDF
一种基于Transformer特征金字塔的自蒸馏目标分割方法 被引量:1
6
作者 陈雷 杨吉斌 +5 位作者 曹铁勇 郑云飞 王杨 张波 林振华 李文斌 《电子与信息学报》 北大核心 2025年第2期551-560,共10页
为在不增加网络参数规模的情况下提升目标分割性能,该文提出一种基于Transformer特征金字塔的自蒸馏目标分割方法,提升了Transformer分割模型的实用性。首先,以Swin Transformer为主干网构建了像素级的目标分割模型;然后,设计了适合Tran... 为在不增加网络参数规模的情况下提升目标分割性能,该文提出一种基于Transformer特征金字塔的自蒸馏目标分割方法,提升了Transformer分割模型的实用性。首先,以Swin Transformer为主干网构建了像素级的目标分割模型;然后,设计了适合Transformer的蒸馏辅助分支,该分支由密集连接空间空洞金字塔(Dense ASPP)、相邻特征融合模块(AFFM)和得分模块构建而成,通过自蒸馏方式指导主干网络学习蒸馏知识;最后,利用自上而下的学习策略指导模型学习,以保证自蒸馏学习的一致性。实验表明,在4个公开数据集上所提方法均能有效提升目标分割精度,在伪装目标检测(COD)数据集上比次优的Transformer知识蒸馏(TKD)方法的Fβ值提高了约2.29%。 展开更多
关键词 自蒸馏 transformER 目标分割 特征金字塔
在线阅读 下载PDF
基于Swin Transformer的深度特征融合图像检索算法 被引量:1
7
作者 周心妍 姚剑 《测绘地理信息》 2025年第3期44-49,共6页
图像检索,即通过分析图像的内容、特征或语义信息,从大规模图像数据库中检索出与查询图像相关性强的图像的过程,是计算机视觉领域中一个重要的研究方向。常见的图像检索方法通过对图像的全局特征进行相似性搜索来获得检索结果。由于图... 图像检索,即通过分析图像的内容、特征或语义信息,从大规模图像数据库中检索出与查询图像相关性强的图像的过程,是计算机视觉领域中一个重要的研究方向。常见的图像检索方法通过对图像的全局特征进行相似性搜索来获得检索结果。由于图像视角、光照变化会影响算法精度,目前主流的Transformer图像检索方法主要利用其网络特性输出块(patch)特征对候选图像进行重排序以优化检索结果。然而两阶段检索会耗费大量时间和存储空间。本文基于Swin Transformer的金字塔分层结构特性,输出浅层块特征构建局部特征分支,实现了一个单阶段的图像检索网络,同时设计实验针对主流图像检索损失对检索精度的影响进行初步探讨。在测试集和基准检索数据集上的实验结果表明,本文方法达到了不错的检索效果。 展开更多
关键词 图像检索 特征表示 Swin transformer 金字塔分层结构
原文传递
一种并行注意力的金字塔视觉Transformer的结肠息肉分割网络
8
作者 庞飞翔 丁德锐 罗康 《小型微型计算机系统》 北大核心 2025年第5期1161-1168,共8页
针对结肠息肉数据的多样性特征以及大多数息肉分割的方法缺乏将不同层的特征信息进行交互的不足,本文提出了一种新的结肠息肉分割模型(PVT-PMFFD).该模型由可以捕捉多尺度信息的金字塔视觉Tranformer(PVT)编码器和实现不同层之间多尺度... 针对结肠息肉数据的多样性特征以及大多数息肉分割的方法缺乏将不同层的特征信息进行交互的不足,本文提出了一种新的结肠息肉分割模型(PVT-PMFFD).该模型由可以捕捉多尺度信息的金字塔视觉Tranformer(PVT)编码器和实现不同层之间多尺度信息交互的并行多级特征融合解码器(PMFFD)组成.特别地,并行多级特征融合解码器包括了特征融合池化模块(FPM)用于全局和局部信息的融合,特征增强模块(FEM)用于对特征信息的增强,并行注意力卷积模块(PACM)用于实现全局和局部信息之间的交互以及细化再增强特征.此外本文使用了深度监督的框架,对多级特征进行监督学习,进一步改善了模型的分割性能.本文模型在5个息肉数据集上与9个医学图像分割网络进行对比,结果表明本文方法具有更强的学习能力与泛化能力. 展开更多
关键词 结肠息肉分割 金字塔视觉transformer 并行多级特征融合 注意力
在线阅读 下载PDF
基于局部Transformer的多尺度图像去雾网络
9
作者 毛德乾 高珊珊 +2 位作者 吕海霞 张彩明 周元峰 《计算机辅助设计与图形学学报》 北大核心 2025年第6期1006-1019,共14页
针对现有去雾方法大多无法较好地处理非均匀雾度雾天图像的问题,提出一个高效的基于局部Transformer的多尺度图像去雾网络MIDNet.首先利用局部Transformer的线性计算优势、窗口内的局部信息及像素间的远程关系,设计多尺度特征提取器,高... 针对现有去雾方法大多无法较好地处理非均匀雾度雾天图像的问题,提出一个高效的基于局部Transformer的多尺度图像去雾网络MIDNet.首先利用局部Transformer的线性计算优势、窗口内的局部信息及像素间的远程关系,设计多尺度特征提取器,高效而全面地提取多尺度特征;然后结合金字塔结构和密集连接提出特征聚合模块,实现多源多层级特征的全面聚合;最后基于门控结构设计细节增强单元,保留图像更多边缘等细节信息.在RESIDE, O-HAZE, I-HAZE, NH-HAZE和NITER数据集上的大量实验证明, MIDNet获得了更优的视觉效果,且在NITER数据集上, MIDNet相较于SRKTDN和DeHamer方法的PSNR分别提高了5.552 0 dB和8.170 2 dB, SSIM分别提高了0.029 7和0.095 3. 展开更多
关键词 图像去雾 局部transformer 多尺度 金字塔结构 密集连接
在线阅读 下载PDF
基于量子Transformer的多模态实体关系联合抽取方法
10
作者 李代祎 孔德龙 +2 位作者 吴怀广 张佳慧 韩宇璨 《计算机科学》 北大核心 2025年第S2期110-117,共8页
多模态命名实体识别(Multimodal Name Entity Recognition,MNER)和多模态关系抽取(Multimodal Relation Extraction,MRE)是多模态知识图谱构建中的两个关键技术。然而,现有的MNER和MRE方法在对高维数据进行特征提取和融合时还存在一定... 多模态命名实体识别(Multimodal Name Entity Recognition,MNER)和多模态关系抽取(Multimodal Relation Extraction,MRE)是多模态知识图谱构建中的两个关键技术。然而,现有的MNER和MRE方法在对高维数据进行特征提取和融合时还存在一定的局限性。为了解决这些问题,提出了一种基于量子Transformer的多模态实体关系联合抽取方法。首先,设计一种针对文本数据处理的参数化量子电路,该线路利用量子力学中的叠加和纠缠特性,结合Transformer模型提取文本深层特征;其次,通过设计的金字塔视觉特征提取模型获取包含从高到底的金字塔状的层次特征,充分考虑到了图像的多尺度信息。最后,通过设计的分层视觉前缀网络将分层多尺度图像特征与文本特征对齐并融合,获取鲁棒性高的文本表示。本研究为多模态实体关系抽取提供了新的研究思路,在3个公开基准数据集上的实验结果表明,提出的基于量子Transformer多模态实体关系抽取方法是有效且稳定的。 展开更多
关键词 多模态实体识别 多模态关系抽取 金字塔特征 transformER 特征融合
在线阅读 下载PDF
基于CNN-Transformer和注意力金字塔的行人重识别方法研究
11
作者 徐岩 刘香兰 +2 位作者 潘旭光 李芳 赵海燕 《山东科技大学学报(自然科学版)》 北大核心 2025年第1期110-118,共9页
针对行人重识别技术中难以捕捉不同尺度特征图的显著区域,以及在非重叠摄像机中将多尺度特征汇总到全局视图中仍存在挑战的问题,提出一种基于CNN-Transformer和注意力金字塔的行人重识别方法。首先,引入基于Transformer的特征校准模块... 针对行人重识别技术中难以捕捉不同尺度特征图的显著区域,以及在非重叠摄像机中将多尺度特征汇总到全局视图中仍存在挑战的问题,提出一种基于CNN-Transformer和注意力金字塔的行人重识别方法。首先,引入基于Transformer的特征校准模块和深度监督聚合方法组成TFCNet,从全局角度以循环自适应的方式将骨干网络的各层级不同尺度的特征进行聚合。然后,设计一种串行融合注意力模块,在计算时能够结合通道和空间的信息交互。同时,引入注意力金字塔,设计一种多尺度串行融合注意力金字塔结构,采用由粗到细的金字塔方法学习到更多不同尺度特征图的显著区域,提取更多有识别性的行人特征。最后,采用多重损失函数对网络进行总体优化,并在三个主流数据集上进行实验验证,证明了所提方法的有效性。 展开更多
关键词 行人重识别 transformER 特征聚合 注意力金字塔
在线阅读 下载PDF
FEC-PVT:基于PVT架构的甲骨钻凿图像分割网络
12
作者 刘国奇 李文格 +3 位作者 茹琳媛 宋黎明 刘杰 韩燕彪 《河南师范大学学报(自然科学版)》 北大核心 2026年第1期8-16,I0003,共10页
由于长时间埋藏于地下和风化腐蚀,造成甲骨片破损和甲骨钻凿边界模糊不易分辨,给甲骨钻凿分割带来极大挑战.从甲骨数据库及著录书中系统收集并标注甲骨钻凿图像.基于该数据集,提出一种以Transformer为编码器的甲骨钻凿分割网络FEC-PVT(f... 由于长时间埋藏于地下和风化腐蚀,造成甲骨片破损和甲骨钻凿边界模糊不易分辨,给甲骨钻凿分割带来极大挑战.从甲骨数据库及著录书中系统收集并标注甲骨钻凿图像.基于该数据集,提出一种以Transformer为编码器的甲骨钻凿分割网络FEC-PVT(feature extraction and connection pyramid vision transformer).首先,FEC-PVT利用FE_C和FE_D模块分别补充低层和高层特征,以获取细节和全局特征;其次,FCOM模块用交叉注意力让不同层特征交互,获取有效细节;最后,FFDM模块逐层解码并整合多层次特征,提升解码精度,避免特征丢失.实验验证,所提FEC-PVT优于其他的方法,与次优的DuAT方法相比,IoU提高5.18%. 展开更多
关键词 图像分割 甲骨钻凿 金字塔视觉变换器 卷积神经网络
在线阅读 下载PDF
融合FPN与SFB的Swin Transformer图像去噪网络
13
作者 袁姮 华乾勇 《计算机系统应用》 2025年第10期32-43,共12页
为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在... 为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在浅层特征提取阶段,设计了特征金字塔网络以增强局部特征提取能力;在深层特征提取阶段,结合快速傅里叶卷积(fast Fourier convolution, FFC)设计空间频率块,用于同时捕捉全局与局部信息;最后,通过聚合浅层与深层特征,进一步增强网络去噪能力.此外,本文构建了一种高斯噪声退化模型并结合多种数据增强策略,以提升网络的泛化能力.在CBSD68、Kodak24和Urban100数据集上的实验结果表明,与当前主流去噪方法如BM3D、DnCNN、FFDNet、SwinIR等相比, SwinFPSFNet能够兼顾局部与全局信息,在噪声抑制和保留图像细节方面表现出显著优势. 展开更多
关键词 图像去噪 Swin transformer 特征金字塔网络 空间频率块
在线阅读 下载PDF
基于Transformer的边缘检测网络
14
作者 林坚普 李先广 +2 位作者 林珊玲 吕珊红 林志贤 《光学精密工程》 北大核心 2025年第22期3564-3576,共13页
目前主流的基于卷积神经网络的边缘检测方法,在感受野范围和细粒度边缘感知方面存在局限,随着视觉Transformer的发展,其全局建模能力和灵活的信息交互机制为边缘检测任务带来了新的可能。为了解决这一问题,本文提出了一种结合视觉Transf... 目前主流的基于卷积神经网络的边缘检测方法,在感受野范围和细粒度边缘感知方面存在局限,随着视觉Transformer的发展,其全局建模能力和灵活的信息交互机制为边缘检测任务带来了新的可能。为了解决这一问题,本文提出了一种结合视觉Transformer和多级聚合金字塔与多尺度注意力聚合模块的编码器-解码器模型TFEdge,用于高精度边缘检测。该模型引入Dilated Neighborhood Attention Transformer作为主干网络,通过多阶段层叠设计提取图像全局上下文信息与局部边缘线索。同时,设计了多级聚合特征金字塔聚合各阶段深浅层特征,赋予浅层特征更丰富的语义特征,以抑制图像噪声和提升对不明显边界的检测能力。最后提出了基于注意力机制的多尺度注意力聚合模块,通过聚合特征图像的跨尺度空间与通道注意力信息,进一步强化特征表述。实验在BSDS500和NYUDv2数据集上进行评估,TFEdge在BSDS500上的ODS和OIS F-score分别达到0.857和0.874,在NYUDv2上分别为0.788和0.801。与多种现有方法相比,TFEdge在定量与定性结果上均表现出优越的边缘检测性能。 展开更多
关键词 边缘检测 transformER 注意力机制 多级聚合特征金字塔 多尺度注意力增强
在线阅读 下载PDF
Steerable Pyramid分解地震随机噪声衰减——基于局部Laplace先验概率密度模型 被引量:3
15
作者 林春 王绪本 刘力辉 《计算机工程与应用》 CSCD 2012年第2期222-226,共5页
简单介绍了具有多尺度与多方向性特点的Steerable Pyramid分解和重构的基本原理。采用softLMAP阈值将其应用于地震数据随机噪声衰减中,进行了仿真计算和实际资料的处理并与自适应BayesShrink阈值及小波域softLMAP阈值去噪进行比较。结... 简单介绍了具有多尺度与多方向性特点的Steerable Pyramid分解和重构的基本原理。采用softLMAP阈值将其应用于地震数据随机噪声衰减中,进行了仿真计算和实际资料的处理并与自适应BayesShrink阈值及小波域softLMAP阈值去噪进行比较。结果证明利用Steerable Pyramid分解softLMAP阈值能比较彻底地去掉噪声,去噪后的图像边缘保持良好,滤除噪声同时还保留了有效部分,去噪效果良好,且易于实现,在地震资料处理中具有一定的可行性和应用前景。 展开更多
关键词 Steerable pyramid softLMAP 自适应BayesShrink 小波分解 随机噪声
在线阅读 下载PDF
基于CNN和TransFormer多尺度学习行人重识别方法 被引量:5
16
作者 陈莹 匡澄 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2256-2263,共8页
行人重识别(ReID)旨在跨监控摄像头下检索出特定的行人目标。为聚合行人图像的多粒度特征并进一步解决深层特征映射相关性的问题,该文提出基于CNN和TransFormer多尺度学习行人重识别方法(CTM)进行端对端的学习。CTM网络由全局分支、深... 行人重识别(ReID)旨在跨监控摄像头下检索出特定的行人目标。为聚合行人图像的多粒度特征并进一步解决深层特征映射相关性的问题,该文提出基于CNN和TransFormer多尺度学习行人重识别方法(CTM)进行端对端的学习。CTM网络由全局分支、深度聚合分支和特征金字塔分支组成,其中全局分支提取行人图像全局特征,提取具有不同尺度的层次特征;深度聚合分支循环聚合CNN的层次特征,提取多尺度特征;特征金字塔分支是一个双向的金字塔结构,在注意力模块和正交正则化操作下,能够显著提高网络的性能。大量实验结果表明了该文方法的有效性,在Market1501,DukeMTMC-reID和MSMT17数据集上,mAP/Rank-1分别达到了90.2%/96.0%,82.3%/91.6%和63.2%/83.7%,优于其他现有方法。 展开更多
关键词 行人重识别 transformER CNN 金字塔结构
在线阅读 下载PDF
引入Transformer的道路小目标检测 被引量:2
17
作者 李丽芬 黄如 《计算机工程与设计》 北大核心 2024年第1期95-101,共7页
针对道路场景中检测小目标时漏检率较高、检测精度低的问题,提出一种引入Transformer的道路小目标检测算法。在原YOLOv4算法基础上,对多尺度检测进行改进,把浅层特征信息充分利用起来;设计ICvT(improved convolutional vision transform... 针对道路场景中检测小目标时漏检率较高、检测精度低的问题,提出一种引入Transformer的道路小目标检测算法。在原YOLOv4算法基础上,对多尺度检测进行改进,把浅层特征信息充分利用起来;设计ICvT(improved convolutional vision transformer)模块捕获特征内部的相关性,获得上下文信息,提取更加全面丰富的特征;在网络特征融合部分嵌入改进后的空间金字塔池化模块,在保持较小计算量的同时增加特征图的感受野。实验结果表明,在KITTI数据集上,算法检测精度达到91.97%,与YOLOv4算法相比,mAP提高了2.53%,降低了小目标的漏检率。 展开更多
关键词 小目标检测 深度学习 YOLOv4算法 多尺度检测 transformER 空间金字塔池化 特征融合
在线阅读 下载PDF
Transformer架构下跨多尺度信息融合的遥感影像建筑提取 被引量:3
18
作者 刘异 张寅捷 +2 位作者 敖洋 江大龙 张肇睿 《遥感学报》 CSCD 北大核心 2024年第12期3173-3183,共11页
建筑物是城市中最为普遍的基础设施,获取遥感影像中的建筑区域对于城市规划、人口估计和灾情分析等具有重要的意义。本文基于Transformer结构,设计了一种端到端的遥感影像建筑区域提取方法。首先,针对多尺度影像特征存在的信息冗余和信... 建筑物是城市中最为普遍的基础设施,获取遥感影像中的建筑区域对于城市规划、人口估计和灾情分析等具有重要的意义。本文基于Transformer结构,设计了一种端到端的遥感影像建筑区域提取方法。首先,针对多尺度影像特征存在的信息冗余和信息差异问题,本文提出了一种多次特征金字塔结构Tri-FPN(Triple-Feature Pyramid Network),实现跨越近邻尺度的全局多尺度信息融合,提高多尺度特征的类别表征一致性并减少信息的冗余。其次,针对多尺度提取结果融合时仅考虑尺度因素的问题,本文设计了一种顾及“尺度—类别—空间”的注意力模块CSA-Module(Class-Scale Attention Module),有效融合了不同尺度下的建筑提取结果。最后,在Transformer结构上加入Tri-FPN与CSA-Module进行模型训练,获得最佳的建筑提取效果。实验对比分析表明,本文的方法有效提高了建筑区域的检出率,并提供出更为准确的建筑轮廓,提升了遥感影像中建筑的提取精度,在WHU Building数据集和INRIA数据集上分别取得了91.53%和81.7%的IOU分数。 展开更多
关键词 遥感影像 建筑提取 深度学习 transformER 影像特征金字塔 类别尺度注意力
原文传递
基于多尺度金字塔Transformer的人群计数方法 被引量:1
19
作者 张少乐 雷涛 +3 位作者 王营博 周强 薛明园 赵伟强 《智能系统学报》 CSCD 北大核心 2024年第1期67-78,共12页
针对密集人群场景中背景复杂、目标尺度变化较大导致人群计数精度较低的问题,本文提出一种基于多尺度金字塔Transformer的人群计数方法(multi-scale pyramid transformer network,MSPT-Net)。在特征提取阶段设计了一种基于深度可分离自... 针对密集人群场景中背景复杂、目标尺度变化较大导致人群计数精度较低的问题,本文提出一种基于多尺度金字塔Transformer的人群计数方法(multi-scale pyramid transformer network,MSPT-Net)。在特征提取阶段设计了一种基于深度可分离自注意力的金字塔Transformer主干网络结构,该网络结构能有效捕获图像的局部和全局信息,从而有效解决人群密度图像背景复杂导致计数精度低的问题;设计了一种特征金字塔融合模块及多尺度感受野的回归头,实现了密集人群图像浅层细节特征和深层语义特征的高效融合,增强了网络对不同尺度目标的捕获能力;采用深度监督的训练方法在3个公开数据集上对提出的方法进行验证。实验结果表明,本文方法在全监督与弱监督学习策略中,与目前主流的人群计数方法相比,实现了更高精度的人群计数,克服了主流方法对背景复杂、目标尺度变化大的密集人群图像计数精度低的问题,同时本文方法保持着更小的参数量与计算量。 展开更多
关键词 密集人群 人群计数 多尺度 金字塔 transformER 自注意力 密度图 深度监督
在线阅读 下载PDF
基于多层次特征融合和注意力机制的无人机图像小目标检测算法
20
作者 张信佳 王芳 《计算机工程》 北大核心 2026年第2期148-157,共10页
无人机(UAV)航拍图像中的目标通常具有尺度密集、易被遮挡且多为小目标等特点,这导致检测过程中容易出现漏检和误检。为应对上述挑战,基于YOLOv5s提出了针对小目标检测的SNA-YOLOv5s算法。首先,引入空间深度转换卷积(SPD-Conv)模块替换... 无人机(UAV)航拍图像中的目标通常具有尺度密集、易被遮挡且多为小目标等特点,这导致检测过程中容易出现漏检和误检。为应对上述挑战,基于YOLOv5s提出了针对小目标检测的SNA-YOLOv5s算法。首先,引入空间深度转换卷积(SPD-Conv)模块替换原模型的跨步卷积层,避免细节信息丢失,增强小目标特征提取能力;其次,设计新型平均快速空间金字塔池化(AGSPPF)模块,引入平均池化操作缓解池化层在提取特征信息的同时会导致部分信息丢失的问题,提升模型的特征提取能力;再次,新增针对小目标的大尺度检测分支,捕捉浅层特征中丰富的细节信息,提升模型对小目标的检测能力;最后,将归一化注意力机制(NAM)嵌入骨干网络,对特征信息进行加权处理,抑制无效的特征信息。在VisDrone2019数据集和NWPU VHR-10数据集上的训练测试结果表明,该算法的均值平均精度(mAP)分别达到了42.3%和96.5%,与基线模型YOLOv5s相比分别提高了8.4和2.6百分点。通过与其他基于深度学习的主流模型对比实验,进一步验证了该模型的鲁棒性和精确性。 展开更多
关键词 YOLOv5s模型 小目标检测 空间深度转换卷积 空间金字塔池化 归一化注意力机制
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部