期刊文献+
共找到4,705篇文章
< 1 2 236 >
每页显示 20 50 100
基于时序二维变换和多尺度Transformer的电能质量扰动分类方法 被引量:2
1
作者 王守相 李慧强 +3 位作者 赵倩宇 郭陆阳 王同勋 王洋 《电力系统自动化》 北大核心 2025年第7期198-207,共10页
随着新能源渗透率的不断提高,电网面临的电能质量扰动(PQD)问题变得更加复杂,基于一维PQD信号的传统分类方法难以同时提取并辨识周期性与趋势性扰动。针对此问题,提出了一种基于时序二维变换和多尺度Transformer的PQD分类方法。首先,利... 随着新能源渗透率的不断提高,电网面临的电能质量扰动(PQD)问题变得更加复杂,基于一维PQD信号的传统分类方法难以同时提取并辨识周期性与趋势性扰动。针对此问题,提出了一种基于时序二维变换和多尺度Transformer的PQD分类方法。首先,利用时序二维变换将一维PQD时间序列转换为一组基于多个周期的二维张量,以实现在二维空间中深入挖掘PQD信号中所包含的特征信息。然后,通过多尺度Transformer编码器模块提取PQD信号的多尺度特征图,利用多尺度Transformer解码器模块对多尺度特征图进行拼接和特征融合,有效合并在不同尺度上提取的特征图。最后,通过全连接层和Softmax分类器完成PQD分类任务。为验证所提方法的有效性,建立了含24种PQD的数据集对模型进行测试,结果表明所提方法对PQD信号具有较高的分类准确率和噪声鲁棒性。 展开更多
关键词 电能质量 扰动 分类 时序二维变换 多尺度transformer 特征提取 特征融合
在线阅读 下载PDF
结合MoE与Transformer的生态翻译模型优化研究
2
作者 李玲 雷宏友 《自动化与仪器仪表》 2025年第4期178-181,186,共5页
生态翻译过程是译者进行适应与选择的过程,翻译原则是多维度的选择性适应以及适应性选择。虽然目前Transformer模型在生态翻译领域取得了显著的成果,然而在面对生态翻译中的复杂语义和多模态信息时,Transformer模型仍存在容量瓶颈和破... 生态翻译过程是译者进行适应与选择的过程,翻译原则是多维度的选择性适应以及适应性选择。虽然目前Transformer模型在生态翻译领域取得了显著的成果,然而在面对生态翻译中的复杂语义和多模态信息时,Transformer模型仍存在容量瓶颈和破坏模块化结构的问题。为此,研究提出结合专家混合与Transformer的生态翻译模型优化方法,通过引入专家混合机制,旨在提升模型对多样化输入的处理能力与翻译质量。研究结果表明,在Europarl数据集上,所提模型的翻译准确率总体保持在94%以上;在ParaCrawl数据集中,所提模型的准确率同样稳定在95%以上,且具有较强的稳定性,验证了此次研究的有效性。此次研究为生态翻译模型的优化提供了更广阔的思路和经验指导。 展开更多
关键词 生态翻译模型 transformER 专家混合 模型优化 神经机器翻译
原文传递
一种融合Transformer的多尺度结构图像去模糊方法
3
作者 郭业才 阳刚 毛湘南 《电光与控制》 北大核心 2025年第3期62-68,共7页
针对现有图像去模糊模型对于全局特征信息学习的不足以及感受野受限的问题,提出一种改进的融合Transformer的多尺度结构图像去模糊方法。首先,为了提高模型对全局特征学习以及远程像素捕获的能力,设计了一个多特征多尺度融合模块,该模... 针对现有图像去模糊模型对于全局特征信息学习的不足以及感受野受限的问题,提出一种改进的融合Transformer的多尺度结构图像去模糊方法。首先,为了提高模型对全局特征学习以及远程像素捕获的能力,设计了一个多特征多尺度融合模块,该模块利用双旁路结构将局部特征信息和全局特征信息有效地结合起来,同时简化Transformer以提升计算效率;其次,为了缓解卷积操作缺乏输入内容自适应的缺点,将通道注意力引入到特征融合模块中来动态地学习有用信息;最后,在基准数据集GoPro上,所提方法取得的峰值信噪比为31.87 dB,结构相似度为0.952。实验结果表明,所提方法与主流方法相比能够有效地复原图像细节特征,并且能够提升后续计算机视觉任务的鲁棒性。 展开更多
关键词 图像去模糊 多尺度结构 transformER 卷积神经网络 注意力机制
在线阅读 下载PDF
多维度聚合Transformer的图像超分辨率重建
4
作者 陈清江 陈鹏民 《光学精密工程》 北大核心 2025年第12期1955-1970,共16页
针对现有基于Transformer的图像超分辨率网络中感受野尺度单一以及未充分挖掘额外维度信息等问题,本文提出了一种多维度聚合Transformer网络。首先,通过构建多尺度交互调制模块,从低分辨率图像中提取多尺度特征,以增强信息流的丰富性。... 针对现有基于Transformer的图像超分辨率网络中感受野尺度单一以及未充分挖掘额外维度信息等问题,本文提出了一种多维度聚合Transformer网络。首先,通过构建多尺度交互调制模块,从低分辨率图像中提取多尺度特征,以增强信息流的丰富性。其次,设计了空间-通道交互模块,并将其集成于Transformer层中,利用四种形式的注意力机制充分提取关键特征并实现特征融合,从而提升模型性能。最后,提出了特征重用Transformer模块,深入挖掘各层特征之间的关联,精准提取并高效重用重要特征,进一步加强模型表现。实验结果表明,在五个基准测试集上,所提方法优于其他先进算法。在不同放大倍数的超分辨率任务中,相较于基于Swin Transformer的图像恢复方法,峰值信噪比和结构相似度分别平均提升了约0.26 dB和0.0024,且重建效果更加清晰。该方法有效克服了现有方法的不足,在超分辨率任务中展现出显著的性能提升和应用潜力。 展开更多
关键词 图像超分辨率 transformER 注意力机制 特征交互 特征重用 多尺度
在线阅读 下载PDF
基于Transformer和门控融合机制的图像去雾算法
5
作者 王燕 陈燕燕 +1 位作者 刘晶晶 胡津源 《计算机系统应用》 2025年第2期1-10,共10页
针对现有的图像去雾算法仍然存在去雾不彻底、去雾后的图像边缘模糊、细节信息丢失等问题,本文提出了一种基于Transformer和门控融合机制的图像去雾算法.通过改进的通道自注意力机制提取图像的全局特征,提高模型处理图像的效率,设计多... 针对现有的图像去雾算法仍然存在去雾不彻底、去雾后的图像边缘模糊、细节信息丢失等问题,本文提出了一种基于Transformer和门控融合机制的图像去雾算法.通过改进的通道自注意力机制提取图像的全局特征,提高模型处理图像的效率,设计多尺度门控融合块捕获不同尺度的特征,门控融合机制通过动态调整权重,提高模型对不同雾化程度的适应能力,同时更好地保留图像边缘及细节信息,并使用残差连接增强特征的重用性,提高模型泛化能力.经实验验证,所提出的去雾算法可以有效恢复真实有雾图像中的内容信息,在合成的有雾图像数据集SOTS上的峰值信噪比达到了34.841 dB,结构相似性达到了0.984,去雾后的图像内容信息完整且没有出现细节信息模糊和去雾不彻底等现象. 展开更多
关键词 图像去雾 transformER 自注意力机制 门控融合机制 多尺度特征融合
在线阅读 下载PDF
MSMVT:多尺度和多视图Transformer半监督医学图像分割框架 被引量:3
6
作者 李飞翔 降爱莲 《计算机工程与应用》 北大核心 2025年第2期273-282,共10页
近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-sc... 近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-scale and multi-view transformer)。鉴于对比学习在Transformer的预训练中取得的良好效果,设计了一个基于伪标签引导的多尺度原型对比学习模块。该模块利用图像金字塔数据增强技术,为无标签图像生成富有语义信息的多尺度原型表示;通过对比学习,强化了不同尺度原型之间的一致性,从而有效缓解了由标签稀缺性导致的Transformer训练不足的问题。此外,为了增强Transformer模型训练的稳定性,提出了多视图一致性学习策略。通过弱扰动视图,以校正多个强扰动视图。通过最小化不同视图之间的输出差异性,使得模型能够对不同扰动保持多层次的一致性。实验结果表明,当仅采用10%的标注比例时,提出的MSMVT框架在ACDC、LIDC和ISIC三个公共数据集上的DSC图像分割性能指标分别达到了88.93%、84.75%和85.38%,优于现有的半监督医学图像分割方法。 展开更多
关键词 半监督医学图像分割 伪标签 transformER 多尺度 多视图
在线阅读 下载PDF
多尺度特征优化的实时Transformer在无人机航拍中的研究 被引量:3
7
作者 向毅伟 蒋瑜 +1 位作者 王琪凯 罗熔熔 《计算机工程与应用》 北大核心 2025年第9期221-229,共9页
针对无人机目标检测场景中的目标尺度小、遮挡严重、样本分布不均匀等问题,提出了一种改进实时检测Transformer(real-time detection Transformer,RT-DETR)的MSM-DETR检测器。在颈部网络中设计并引入了DSSF特征融合结构,通过结合维度感... 针对无人机目标检测场景中的目标尺度小、遮挡严重、样本分布不均匀等问题,提出了一种改进实时检测Transformer(real-time detection Transformer,RT-DETR)的MSM-DETR检测器。在颈部网络中设计并引入了DSSF特征融合结构,通过结合维度感知选择性整合(DASI)模块以及尺度序列特征融合(SSFF)模块丰富特征融合阶段小目标信息,提高检测精度。针对遮挡严重和样本分布不均匀的问题,提出多核并行尺度间融合(multi-core parallel scale fusion,MCPSF)模块,通过利用尺度间融合思想改进多核分组卷积带来的尺度间信息不平衡问题,为模型提供多尺度感受野,同时利用EMA注意力进一步增强组内上下文信息,提升检测精度。将Inner思想融入原损失函数中,通过引入不同尺度的辅助边框计算损失,加速收敛。实验结果表明,改进后的模型在VisDrone2019数据集中的验证集和测试集的mAP为49.5%、38.9%,较原模型分别提升2.5、2.4个百分点。 展开更多
关键词 RT-DETR 航拍图像 多尺度 感受野
在线阅读 下载PDF
基于多尺度胶囊Swin Transformer的SAR图像目标识别方法 被引量:1
8
作者 侯宇超 王洁 +4 位作者 李洪涛 郝岩 段晓旗 黄凯文 田有亮 《通信学报》 北大核心 2025年第3期274-290,共17页
通过协同胶囊单元的语义特征编码和Swin Transformer的上下文特征图建模优势相结合,提出了一种多尺度胶囊Swin Transformer网络(MSCSTN),将胶囊编码和Swin Transformer联合应用于SAR图像目标识别。该网络集成3个并行的胶囊Swin Transfor... 通过协同胶囊单元的语义特征编码和Swin Transformer的上下文特征图建模优势相结合,提出了一种多尺度胶囊Swin Transformer网络(MSCSTN),将胶囊编码和Swin Transformer联合应用于SAR图像目标识别。该网络集成3个并行的胶囊Swin Transformer编码结构,融合后对输入图像进行分类。每个结构通过基于膨胀卷积切片划分的胶囊令牌编码器和三维胶囊Swin Transformer模块构建,能捕获更深层次、更广泛的语义特征。在运动和静止目标的获取与识别(MSTAR)数据集及FUSAR-Ship数据集上的实验结果表明,MSCSTN在各种测试条件下均优于其他方法。结果表明,MSCSTN展现了良好的识别性能、泛化能力和应用潜力。 展开更多
关键词 膨胀卷积切片分区 胶囊令牌编码器 三维胶囊Swin transformer模块 多尺度胶囊Swin transformer网络 SAR图像目标识别
在线阅读 下载PDF
多尺度特征融合的双阶段Transformer去雨网络 被引量:1
9
作者 李世平 周冬明 《小型微型计算机系统》 北大核心 2025年第4期898-906,共9页
图像去雨研究旨在提升图像质量,强化视觉感知.现有去雨算法由于通常采用单阶段实现,在去除雨纹干扰的同时会造成无雨背景的信息缺失,导致无法兼顾去雨效果和图像清晰度.为此,本文提出了一种基于Transformer的多尺度、双阶段U型去雨网络... 图像去雨研究旨在提升图像质量,强化视觉感知.现有去雨算法由于通常采用单阶段实现,在去除雨纹干扰的同时会造成无雨背景的信息缺失,导致无法兼顾去雨效果和图像清晰度.为此,本文提出了一种基于Transformer的多尺度、双阶段U型去雨网络,将去雨任务通过两个分别侧重于雨纹提取和细节修复的子网络逐步完成.第1阶段,引入反投射技术提出了一种特征融合模块,通过迭代逐渐融合不同尺度下的特征信息以弥补U型结构造成的信息缺失.同时,基于Boosting算法提出了一种增强连接的特征提取模块,以增强细节特征,提高输出信噪比.第2阶段,提出了一种细节增强注意力模块对粗糙去雨图像进行细节修复以生成轮廓清晰的无雨图像.实验结果表明,本文提出的算法在合成和真实数据集上都取得了出色的去雨效果,在Rain100H、SPA-data等数据集上相比近期其他优秀去雨算法均有一定程度的指标提升. 展开更多
关键词 图像去雨 transformER 多阶段网络 多尺度特征融合
在线阅读 下载PDF
基于融合Swin Transformer网络的腰椎解剖区域自动分割方法
10
作者 张英迪 史泽林 +6 位作者 王欢 崔少千 张磊 刘嘉琛 单修祺 刘云鹏 赵恩波 《信息与控制》 北大核心 2025年第3期390-400,共11页
腰椎解剖区域自动分割在脊柱影像自动分析流程中发挥着重要作用。尽管经典的卷积神经网络能够捕捉影像全局特征,其局部先验和权重共享的特性限制了长距离建模的能力。为了解决以上问题,本文提出了一种用于腰椎解剖区域分割的Swin Transf... 腰椎解剖区域自动分割在脊柱影像自动分析流程中发挥着重要作用。尽管经典的卷积神经网络能够捕捉影像全局特征,其局部先验和权重共享的特性限制了长距离建模的能力。为了解决以上问题,本文提出了一种用于腰椎解剖区域分割的Swin Transformer融合网络,将Swin Transformer网络和多尺度空洞卷积融合作为编码器来得到全局和局部特征的层次化表达。设计了特征耦合模块,在通道和空间2个维度将来自Transformer模块和卷积模块的特征进行耦合,提高了模型的局部和长距离建模能力。为了解决开源数据缺乏的问题,提出了带有体素级标注的、包含663个腰椎椎骨计算断层成像的数据集。在此数据集上的实验表明提出的模型分割精度超过了典型医学图像分割方法,本文模型的骰子系数、Hausdorff距离和平均表面距离分别为88.24%、14.48和0.997。消融实验进一步验证了所提出模块的有效性。 展开更多
关键词 卷积神经网络 医学图像分割 transformER 多尺度特征提取
原文传递
面向动态交通流量预测的自适应图注意Transformer
11
作者 刘宇轩 刘毅志 +2 位作者 廖祝华 邹正标 汤璟昕 《浙江大学学报(工学版)》 北大核心 2025年第12期2585-2592,共8页
针对现有基于图神经网络和注意力机制的交通流预测模型在处理复杂时空相关性、克服预定义图结构局限性以及捕捉周期性特征方面的不足,提出多时间尺度自适应图注意Transformer(MSAGAFormer)模型.该模型将短期、中期和长期历史交通数据各... 针对现有基于图神经网络和注意力机制的交通流预测模型在处理复杂时空相关性、克服预定义图结构局限性以及捕捉周期性特征方面的不足,提出多时间尺度自适应图注意Transformer(MSAGAFormer)模型.该模型将短期、中期和长期历史交通数据各自细分为低、中、高3种不同时间尺度的数据序列,并采用压缩机制以降低冗余信息、提升时序特征的表达效率.通过设计时空嵌入方法对节点位置与时间特征进行编码,强化模型对时空数据的理解.空间层采用基于GAT的多头注意力机制以建模动态空间相关性,时间层引入多尺度时间注意力结构以捕获不同时间粒度下的动态变化特征.在PEMS数据集上的实验结果显示,MSAGAFormer在预测精度上优于目前较为先进的Trendformer、ATST-GCN、STTN等模型. 展开更多
关键词 智能交通系统 交通流量预测 transformER 自适应图 多时间尺度
在线阅读 下载PDF
基于Transformer神经机器翻译的文本隐写方法
12
作者 金家立 马卫娇 +1 位作者 李晖 金纾羽 《计算机应用与软件》 北大核心 2025年第5期381-386,共6页
针对基于机器翻译的文本隐写方法存在的翻译质量差、隐藏容量低的问题,提出一种基于Transformer神经机器翻译的文本隐写方法。通过使用较为先进的神经机器翻译模型以及加入隐藏模块的Beam Search解码器,能够根据秘密信息在每一时间步输... 针对基于机器翻译的文本隐写方法存在的翻译质量差、隐藏容量低的问题,提出一种基于Transformer神经机器翻译的文本隐写方法。通过使用较为先进的神经机器翻译模型以及加入隐藏模块的Beam Search解码器,能够根据秘密信息在每一时间步输出与之对应的BPE编码,实现在翻译的过程中嵌入秘密信息。实验结果表明,该方法能够生成高质量、大隐藏容量的隐写译文。与以往的方法相比,BLEU值和隐藏容量分别提升4.84和1.63百分点。 展开更多
关键词 信息隐藏 文本隐写 机器翻译 transformER
在线阅读 下载PDF
一种交互连接CNN和Transformer的肠道息肉图像分类网络
13
作者 曹博 叶淑芳 +3 位作者 饶钰君 汤晓恒 何熊熊 李胜 《小型微型计算机系统》 北大核心 2025年第4期932-939,共8页
利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分... 利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分类任务亟需改善.CNN中的卷积算子擅长提取局部特征.ViT通过级联自注意力模块可以捕获长距离依赖关系和全局特征.本文提出一个交互连接模块,以交互式的方式将CNN和ViT相连接,以整合多尺度特征;所设计的交互混合模型,能最大限度地保留局部特征和全局表示,显著缓解息肉多分类的类内差异性大、类间相似性高的问题;在大规模自然图像数据集中进行预训练;通过微调模型结构,使用预训练的交互混合模型参数初始化主干网络,并迁移至结直肠息肉数据集中再次训练,实现息肉多分类.在结直肠息肉私有数据集和Kvasir公共数据集上评估所提出模型,实验结果显示总体分类准确率分别达到了85.83%和96.84%,优于本文比较的其他算法;且引入迁移学习可以在降低训练成本的同时提升交互混合模型的分类性能和泛化性,在有限的训练数据集下有助于提高临床诊断效率. 展开更多
关键词 卷积神经网络(CNN) 视觉transformer(ViT) 结直肠息肉分类 多尺度特征 迁移学习
在线阅读 下载PDF
融合通道注意力的跨尺度Transformer图像超分辨率重建
14
作者 李焱 董仕豪 +2 位作者 张家伟 赵茹 郑钰辉 《中国图象图形学报》 北大核心 2025年第3期784-797,共14页
目的针对在超分辨率任务中,Transformer模型存在特征提取模式单一、重建图像高频细节丢失和结构失真的问题,提出了一种融合通道注意力的跨尺度Transformer图像超分辨率重建模型。方法模型由4个模块组成:浅层特征提取、跨尺度深层特征提... 目的针对在超分辨率任务中,Transformer模型存在特征提取模式单一、重建图像高频细节丢失和结构失真的问题,提出了一种融合通道注意力的跨尺度Transformer图像超分辨率重建模型。方法模型由4个模块组成:浅层特征提取、跨尺度深层特征提取、多级特征融合以及高质量重建模块。浅层特征提取利用卷积处理早期图像,获得更稳定的输出;跨尺度深层特征提取利用跨尺度Transformer和强化通道注意力机制,扩大感受野并通过加权筛选提取不同尺度特征以便融合;多级特征融合模块利用强化通道注意力机制,实现对不同尺度特征通道权重的动态调整,促进模型对丰富上下文信息的学习,增强模型在图像超分辨率重建任务中的能力。结果在Set5、Set14、BSD100(Berkeley segmentation dataset 100)、Urban100(urban scene 100)和Manga109标准数据集上的模型评估结果表明,相较于SwinIR超分辨率模型,所提模型在峰值信噪比上提高了0.06~0.25 dB,且重建图像视觉效果更好。结论提出的融合通道注意力的跨尺度Transformer图像超分辨率重建模型,通过融合卷积特征与Transformer特征,并利用强化通道注意力机制减少图像中噪声和冗余信息,降低模型产生图像模糊失真的可能性,图像超分辨率性能有效提升,在多个公共实验数据集的测试结果验证了所提模型的有效性。 展开更多
关键词 图像超分辨率 跨尺度transformer 通道注意力机制 特征融合 深度学习
原文传递
结合多尺度融合与注意力机制的混合Transformer注视估计模型
15
作者 彭黄果 陈亮 《科学技术与工程》 北大核心 2025年第29期12579-12585,共7页
基于外观的注视估计旨在从人脸图像中推测眼睛的注视方向,目前的模型在处理人脸图像时,难以提取局部和全局信息,容易受到背景、面部外貌等噪声干扰,导致预测精度下降。为此,提出了一种结合多尺度特征聚合和共享注意力机制的混合Transfor... 基于外观的注视估计旨在从人脸图像中推测眼睛的注视方向,目前的模型在处理人脸图像时,难以提取局部和全局信息,容易受到背景、面部外貌等噪声干扰,导致预测精度下降。为此,提出了一种结合多尺度特征聚合和共享注意力机制的混合Transformer模型。首先通过CBAM(convolutional block attention module)通道空间注意力结合ResNet进行初步特征提取,以增强模型对双眼区域的敏感性;接着,通过多尺度特征融合模块整合不同尺度的信息,在捕捉头部姿势和面部表情等粗粒度特征的同时,关注眼部等细粒度细节,提高模型对多层次特征的表达能力。为提取全局信息,使用添加位置编码的Transformer模块,以捕获图像中的全局依赖关系并建模空间位置信息,使模型能够更全面理解图像的结构和布局。最后,引入改进的共享注意力,利用图像之间的相似性减少对无关特征的关注。实验结果表明,提出的模型在MPIIFaceGaze和RT-Gene数据集上表现最好,平均角度误差分别降低0.11°和0.12°,显示出在注视估计任务中的显著优势。 展开更多
关键词 注视估计 多尺度特征 注意力 transformER
在线阅读 下载PDF
从放缩到重构的Swin Transformer图像矩形化网络
16
作者 杨利春 党建武 +2 位作者 王梦思 张天胤 田彬 《计算机工程与应用》 北大核心 2025年第12期258-266,共9页
图像矩形化旨在解决拼接后的图像所存在的边界不规则问题。现有的矩形化方法通过多步扭曲处理来实现图像的矩形化处理。但是这些方法仍然存在一定的内容失真及边界破损等问题。为了解决这些问题,提出了一种单步扭曲处理的图像矩形化解... 图像矩形化旨在解决拼接后的图像所存在的边界不规则问题。现有的矩形化方法通过多步扭曲处理来实现图像的矩形化处理。但是这些方法仍然存在一定的内容失真及边界破损等问题。为了解决这些问题,提出了一种单步扭曲处理的图像矩形化解决方案(IRFormer)。具体来说,结合了尺度放缩策略,构建了一个基于Swin Transformer架构的低分辨率单步扭曲分支;结合轻量化策略,构建了一个高分辨率重建及边界修复的分支。通过广泛的实验,验证了IRFormer在多种场景中均具有良好的矩形化表现,具有较高的内容保真性和边界完整性。在定性和定量比较中,IRFormer均展现出了最先进的矩形化性能。 展开更多
关键词 图像矩形化 单级网格预测 尺度放缩 Swin transformer 超分辨率重建
在线阅读 下载PDF
基于轻量级多尺度CNN-Transformer网络的鼻咽癌诊断方法
17
作者 任宇 杨鹏 +3 位作者 范小琴 汪天富 聂国辉 雷柏英 《中国生物医学工程学报》 北大核心 2025年第3期279-290,共12页
深度学习(DL)技术是辅助临床医生进行内窥镜图像中鼻咽癌(NPC)肿瘤物的诊断重要手段,但其面临两个挑战:1)图像局部区域的视觉信息相似而冗余,可能会导致低效的计算效率;2)全局信息和局部特征之间的长期的动态交互往往会导致无效的学习,... 深度学习(DL)技术是辅助临床医生进行内窥镜图像中鼻咽癌(NPC)肿瘤物的诊断重要手段,但其面临两个挑战:1)图像局部区域的视觉信息相似而冗余,可能会导致低效的计算效率;2)全局信息和局部特征之间的长期的动态交互往往会导致无效的学习,同时增加冗余计算。针对上述问题,提出了一种轻量级多尺度CNN-Transformer网络,称为L-MTransNet。该网络由多尺度的卷积神经网络(MCNN)块和具有动态卷积的多尺度CNN-Transformer(MTrans)构成。首先,MCNN用于提取内窥镜数据的多尺度的局部特征,降低局部信息的冗余;其次,为了在同一特征层级具有精细和粗糙的多尺度特征表示,并且重构每个多尺度局部特征间的全局关系,多路径视觉Transformer(MPViT)和动态卷积Transformer(TransNet)组成的MTrans模块被构建。其赋予网络较强的归纳偏置和全局信息交互能力,缓解特征的表示差异和提升融合效率。基于深圳市第二人民医院采集的300例患者的临床内窥镜数据集进行验证实验。结果证明,分类准确率为94.53%±0.35%,F1-评分为94.17%±0.34%,AUC达到98.61%±0.07%,同时具有较低的计算成本,参数为5.9 M,FLOPs为7.6 G。所提出的方法展现出了良好的效果,有望应用于内窥镜图像的NPC肿瘤早期筛查。 展开更多
关键词 鼻咽癌 轻量级 多尺度 transformER 动态卷积
暂未订购
CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架
18
作者 陈丽佳 陈宏辉 +3 位作者 谢艳秋 何天友 叶菁 吴林煌 《地球信息科学学报》 北大核心 2025年第7期1624-1637,共14页
【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力... 【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力,影响了推理分割质量。【方法】为了解决这一问题,本文提出了一种联合跨尺度注意力和语义视觉Transformer的遥感影像分割框架(Cross-scale Attention Transformer,CATrans),融合跨尺度注意力模块和语义视觉Transformer,提取上下文先验知识增强局部特征表示和分割性能。首先,跨尺度注意力模块通过空间和通道两个维度进行并行特征处理,分析浅层-深层和局部-全局特征之间的依赖关系,提升对遥感影像中不同粒度对象的注意力。其次,语义视觉Transformer通过空间注意力机制捕捉上下文语义信息,建模语义信息之间的依赖关系。【结果】本文在DeepGlobe、Inria Aerial和LoveDA数据集上进行对比实验,结果表明:CATrans的分割性能优于现有的WSDNet(Discrete Wavelet Smooth Network)和ISDNet(Integrating Shallow and Deep Network)等分割算法,分别取得了76.2%、79.2%、54.2%的平均交并比(Mean Intersection over Union,mIoU)和86.5%、87.8%、66.8%的平均F1得分(Mean F1 Score,mF1),推理速度分别达到38.1 FPS、13.2 FPS和95.22 FPS。相较于本文所对比的最佳方法WSDNet,mIoU和mF1在3个数据集中分别提升2.1%、4.0%、5.3%和1.3%、1.8%、5.6%,在每类地物的分割中都具有显著优势。【结论】本方法实现了高效率、高精度的高分辨率遥感影像语义分割。 展开更多
关键词 高分辨率 语义分割 跨尺度注意力 视觉transformer 上下文先验 空间注意力 语义信息
原文传递
轻量型Swin Transformer与多尺度特征融合相结合的人脸表情识别方法 被引量:1
19
作者 李艳秋 李胜赵 +1 位作者 孙光灵 颜普 《光电工程》 北大核心 2025年第1期24-37,共14页
针对Swin Transformer模型应用在表情识别上参数量过大、实时性较差和对表情中存在的复杂且微小的表情变化特征捕捉能力有限的问题,提出了一个轻量型Swin Transformer和多尺度特征融合(EMA)模块相结合的人脸表情识别方法。该方法首先利... 针对Swin Transformer模型应用在表情识别上参数量过大、实时性较差和对表情中存在的复杂且微小的表情变化特征捕捉能力有限的问题,提出了一个轻量型Swin Transformer和多尺度特征融合(EMA)模块相结合的人脸表情识别方法。该方法首先利用提出的SPST模块替换掉原Swin Transformer模型第四个stage中的Swin Transformer block模块,来降低模型的参数量,实现模型的轻量化。然后在轻量型模型的第二个stage后嵌入了多尺度特征融合(EMA)模块,通过多尺度特征提取和跨空间信息聚合,有效地增强了模型对人脸表情细节的捕捉能力,从而提高人脸表情识别的准确性和鲁棒性。实验结果表明,所提方法在JAFFE、FERPLUS、RAF-DB和FANE这4个公共数据集上分别达到了97.56%、86.46%、87.29%和70.11%的识别准确率,且相比于原Swin Transformer模型,改进后的模型参数量下降了15.8%,FPS提升了9.6%,在保持模型较低参数量的同时,显著增强了模型的实时性。 展开更多
关键词 表情识别 Swin transformer SPST模块 EMA模块
在线阅读 下载PDF
基于多尺度双分支Transformer的图像去噪方法 被引量:1
20
作者 高煜宝 文志诚 +1 位作者 段旭升 马跑 《云南大学学报(自然科学版)》 北大核心 2025年第3期465-474,共10页
针对现有图像去噪算法在特征处理阶段忽视对局部特征的充分利用、无法有效恢复边缘细节、甚至导致失真的问题,提出了一种基于多尺度双分支Transformer的图像去噪方法.首先,该方法设计了一种双分支的Transformer结构,有效融合浅层和深层... 针对现有图像去噪算法在特征处理阶段忽视对局部特征的充分利用、无法有效恢复边缘细节、甚至导致失真的问题,提出了一种基于多尺度双分支Transformer的图像去噪方法.首先,该方法设计了一种双分支的Transformer结构,有效融合浅层和深层特征的多尺度信息,在恢复图像细节的同时保留整体的特征;其次,加入残差块组以缓解因网络加深可能导致梯度消失的问题;最后,应用极化自注意力机制,提高模型对多尺度特征的感知能力,并在参数量受控的情况下减少下采样过程中特征信息的丢失.实验结果表明,相较于现有主流图像去噪方法,新方法不仅能有效去除图像噪声,还能够恢复出更精细的纹理效果,在定性和定量分析中均表现出优异的去噪性能. 展开更多
关键词 深度学习 图像去噪 残差学习 transformer模型 多尺度
在线阅读 下载PDF
上一页 1 2 236 下一页 到第
使用帮助 返回顶部