期刊文献+
共找到399,753篇文章
< 1 2 250 >
每页显示 20 50 100
基于视觉Transformer语义分割的电能表外壳凹坑缺陷自动检测
1
作者 李良 刘汇平 +3 位作者 孟舰 冯国君 吴云佳 赵冲 《自动化应用》 2026年第2期74-77,共4页
在电能表外壳凹坑缺陷检测中,图像特征提取模型难以捕捉图像中长距离的依赖关系,导致模型无法捕捉到全局信息,从而导致检测结果准确度不高。为此,提出了基于视觉Transformer语义分割的电能表外壳凹坑缺陷自动检测方法的研究设计。采用... 在电能表外壳凹坑缺陷检测中,图像特征提取模型难以捕捉图像中长距离的依赖关系,导致模型无法捕捉到全局信息,从而导致检测结果准确度不高。为此,提出了基于视觉Transformer语义分割的电能表外壳凹坑缺陷自动检测方法的研究设计。采用形态学处理的方法增强电能表外壳图像,结合视觉Transformer语义分割架构,捕获全局上下文信息。在完成凹坑缺陷的识别后,进一步通过逆向映射,实现凹坑缺陷的标定。实验结果表明,该方法的检测性能优异,ROC曲线对应的AUC值达0.97,准确度较高,具有良好的应用前景。 展开更多
关键词 电能表外壳 凹坑缺陷 缺陷检测 视觉transformer 语义分割
在线阅读 下载PDF
基于视觉Transformer多模型融合的风电机组异常状态监测 被引量:2
2
作者 向玲 高鑫 +3 位作者 姚青陶 苏浩 胡爱军 程砺锋 《太阳能学报》 北大核心 2025年第4期522-529,共8页
为实现风电机组的异常状态监测并用于其故障诊断和日常维护,提出一种新的监测方法,该方法基于视觉Transformer(ViT)模型与长短期记忆(LSTM)网络融合,能有效识别风电机组的运行状态。首先,利用箱线图法和Spearman相关性分析对原始SCADA... 为实现风电机组的异常状态监测并用于其故障诊断和日常维护,提出一种新的监测方法,该方法基于视觉Transformer(ViT)模型与长短期记忆(LSTM)网络融合,能有效识别风电机组的运行状态。首先,利用箱线图法和Spearman相关性分析对原始SCADA数据进行预处理,去除无效数据并选择输入参数。然后,构建融合LSTM的ViT预测模型,并引入统计学中KL散度作为检测指标,对目标参数预测值与真实值进行计算分析。最后采用核密度估计确定安全阈值,根据检测指标是否越过安全阈值来识别风电机组异常状态。通过将该模型应用于华北某风场进行实例分析,并与其他深度学习模型对比。结果表明:该方法相较于其他模型能更好识别出风电机组异常状态。 展开更多
关键词 风电机组 状态监测 长短期记忆网络 视觉transformer KL散度
原文传递
基于视觉Transformer的运动特征选择融合微表情识别算法 被引量:1
3
作者 杜含月 张鹏 +3 位作者 林强 李晓桐 徐森 贲晛烨 《信号处理》 北大核心 2025年第2期267-278,共12页
微表情识别旨在揭示目标对象隐藏的真实情感,其在人机交互、心理诊断以及意图预测等领域具有重要应用价值。然而,微表情表达强度微弱、时间短暂且面部运动单元间存在长距离依赖,使得传统卷积神经网络难以有效表征微表情动态特征。此外,... 微表情识别旨在揭示目标对象隐藏的真实情感,其在人机交互、心理诊断以及意图预测等领域具有重要应用价值。然而,微表情表达强度微弱、时间短暂且面部运动单元间存在长距离依赖,使得传统卷积神经网络难以有效表征微表情动态特征。此外,微表情特征与受试者身份以及面部外观信息存在强耦合性,不利于分离和提取微表情语义信息。为了解决上述问题,本文提出了一种基于视觉Transformer和运动特征选择的微表情识别算法。首先,利用TVL1光流算法计算水平和垂直光流运动图,用以表征面部运动。随后,利用视觉Transformer网络编码微表情发生时面部运动单元间的运动依赖关系,为了进一步提升特征表达能力,本文设计了特征选择融合模块(Feature Selection Fusion Module,FSFM)以实现微表情关键的局部信息的有效获取,并引入空间一致性注意力模块(Spatial Consistency Attention Module,SCAM)以确保不同运动特征在空间分布上的一致性。此外,本文提出的交叉注意力融合模块(Cross Attention Fusion Module,CAFM)能够增强微表情语义信息的表征能力。与现有方法相比,本文所提出的算法在三个权威的微表情数据库上微表情识别任务中表现出显著的准确率提升,进一步验证了该方法的有效性与优越性。 展开更多
关键词 微表情识别 特征选择与融合 交叉注意力机制 视觉transformer
在线阅读 下载PDF
图像处理中CNN与视觉Transformer混合模型研究综述 被引量:9
4
作者 郭佳霖 智敏 +1 位作者 殷雁君 葛湘巍 《计算机科学与探索》 北大核心 2025年第1期30-44,共15页
卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存... 卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存在的弱项,高效地发挥出各自的亮点,在图像处理任务中表现出优异的效果。基于CNN与视觉Transformer混合模型进行深入阐述。总体概述了CNN与Vision Transformer模型的架构和优缺点,并总结混合模型的概念及优势。围绕串行结构融合方式、并行结构融合方式、层级交叉结构融合方式以及其他融合方式等四个方面全面回顾梳理了混合模型的研究现状和实际进展,并针对各种融合方式的主要代表模型进行总结与剖析,从多方面对典型混合模型进行评价对比。多角度叙述了混合模型在图像识别、图像分类、目标检测和图像分割等实际图像处理特定领域中应用研究,展现出混合模型在具体实践中的适用性和高效性。深入分析混合模型未来研究方向,并为后续该模型在图像处理中的研究与应用提出展望。 展开更多
关键词 卷积神经网络(CNN) 视觉transformer 混合模型 图像处理 深度学习
在线阅读 下载PDF
多模态引导视觉Transformer的小样本农作物病害识别 被引量:4
5
作者 杨森 冯全 +2 位作者 阎文博 周文伟 杨婉霞 《农业工程学报》 北大核心 2025年第6期195-203,共9页
为解决现有基于小样本学习方法的农作物病害识别过程中模态信息单一、识别精度低等问题,该研究提出了一种多模态小样本学习(multimodal few-shot learning, MMFSL)模型,并将其应用于低数据场景下的作物病害识别。首先,该模型在小样本学... 为解决现有基于小样本学习方法的农作物病害识别过程中模态信息单一、识别精度低等问题,该研究提出了一种多模态小样本学习(multimodal few-shot learning, MMFSL)模型,并将其应用于低数据场景下的作物病害识别。首先,该模型在小样本学习图像分支中引入视觉Transformer(visual Transformer,ViT)替代传统卷积神经网络编码器,充分利用ViT全局感知特性增强小样本图像的特征提取能力;其次,设计了基于预训练语言模型的文本分支,将类标签嵌入手工设计的提示模板中,并提取模板中特定位置的隐藏向量作为文本嵌入,从而引导模型更精准地选择视觉特征;最后,构建图文对比模块对齐视觉嵌入与文本嵌入,并采用模型无关的元学习(model-agnostic meta-learning, MAML)算法优化网络参数,实现多模态信息的高效融合。试验结果表明,在5way-1shot设置下,MMFSL模型在PlantVillage数据集和自建大田病害数据集上的平均准确率分别为86.97%和56.78%;在5way-5shot设置下,模型在两种数据集上的平均准确率分别为96.33%和74.49%,均优于对比的小样本学习模型。此外,与单模态小样本学习模型相比,MMFSL模型在5way-1shot和5way-5shot设置下的平均准确率分别提升了2.77和0.80个百分点。研究表明,引入文本信息能够提高小样本学习模型的泛化性能,研究结果可为深度学习领域降低病害收集成本提供技术参考。 展开更多
关键词 病害 识别 小样本 多模态 视觉transformer 文本信息
在线阅读 下载PDF
基于多模态视觉Transformer的俯视图行人重识别
6
作者 钱可 王先兵 +2 位作者 林海 谢腾 李毅飞 《武汉大学学报(工学版)》 北大核心 2025年第7期1172-1181,共10页
现有行人重识别技术主要关注水平视角下的图像。在例如无人超市这类特定场景下,摄像头以俯视角度拍摄,仅能获得有限的行人信息。针对此问题,将多模态视觉Transformer应用于俯视图行人重识别任务,利用俯视数据集中额外的深度模态来提高... 现有行人重识别技术主要关注水平视角下的图像。在例如无人超市这类特定场景下,摄像头以俯视角度拍摄,仅能获得有限的行人信息。针对此问题,将多模态视觉Transformer应用于俯视图行人重识别任务,利用俯视数据集中额外的深度模态来提高俯视图的检索精度。具体而言,提出一种基于RGB(red,green,blue)与深度多模态视觉Transformer的特征提取方法,利用双流网络提取数据集的深度信息,自集成多个自注意力层的特征输出,以此作为最终的图像特征,并对损失函数进行改进,从而提高了模型的检索效果。通过在俯视图数据集TVPR(top-view person re-identification)和TVPR2上开展实验,结果表明:所提方法能有效提升检索效果,且超过了几种先进的俯视图行人重识别方法。 展开更多
关键词 行人重识别 视觉transformer 多模态 俯视图 自集成
原文传递
基于双路视觉Transformer的图像风格迁移
7
作者 纪宗杏 贝佳 +1 位作者 刘润泽 任桐炜 《北京航空航天大学学报》 北大核心 2025年第7期2488-2497,共10页
图像风格迁移旨在根据风格图像调整内容图像的视觉属性,使其保留原始内容的同时呈现出特定风格样式,从而生成具有视觉吸引力的风格化图像。针对现有代表性方法大多未考虑不同图像域间的编码差异,专注提取图像局部特征而忽视了全局上下... 图像风格迁移旨在根据风格图像调整内容图像的视觉属性,使其保留原始内容的同时呈现出特定风格样式,从而生成具有视觉吸引力的风格化图像。针对现有代表性方法大多未考虑不同图像域间的编码差异,专注提取图像局部特征而忽视了全局上下文信息的重要性,提出一种新型的基于双路视觉Transformer的图像风格迁移方法Bi-Trans,对内容图像域和风格图像域进行独立编码,提取风格参数向量以离散化表征图像风格,通过交叉注意力机制与条件实例归一化(CIN)将内容图像标定至目标域风格,从而生成风格化图像。实验结果表明,该方法无论是内容保留度还是风格还原度均优于现有方法。 展开更多
关键词 图像风格迁移 视觉transformer 任意风格化 条件实例归一化 注意力机制
原文传递
基于视觉Transformer的充电桩故障诊断方法 被引量:1
8
作者 仇新宇 陈霄 +2 位作者 陈铭明 高辉 孟子悦 《计算机与现代化》 2025年第11期97-105,111,共10页
随着电动汽车渗透率不断升高,充电设施普及程度日益提升,电动汽车充电设施运维的难度也在不断增大。直流充电桩的故障诊断是电动汽车充电设施运维的关键,及时发现充电桩早期故障,对排除充电桩故障风险、保障充电桩的稳定运行具有重要意... 随着电动汽车渗透率不断升高,充电设施普及程度日益提升,电动汽车充电设施运维的难度也在不断增大。直流充电桩的故障诊断是电动汽车充电设施运维的关键,及时发现充电桩早期故障,对排除充电桩故障风险、保障充电桩的稳定运行具有重要意义。已有故障诊断方法不仅需要高成本的专用设备辅助,而且对数据采样和特征抽取具有较高要求;已有的基于深度学习模型的故障诊断方法虽然具有较高的性能,但是其训练过程对标注数据质量要求高,不容易获得足够数量的标注数据用于训练。为此,本文仅利用电动汽车直流充电桩自身采集到的电压、电流信号,提出一种基于视觉Transformer(Vision Transformer,ViT)的故障诊断方法。该方法将充电桩的电压和电流低频采样信号转换为时序图像,利用ViT模型进行特征学习。在该过程中,采用预训练技术将跨领域的特征表示知识迁移到故障诊断模型中,使ViT模型可以在相对较小的有标签数据集上进行微调,从而在有限的数据上取得更好的性能,缓解了模型对标注数据的需求。实验结果表明,该故障诊断模型平均正确率为92.2%,符合实际要求。本文提出的方法支持在线诊断并且不依赖专用设备,具有较好的推广前景。 展开更多
关键词 充电桩故障诊断 图像分类 视觉transformer 预训练技术
在线阅读 下载PDF
基于ResNet50和视觉Transformer的滚动轴承故障诊断方法 被引量:3
9
作者 史梦瑶 陈志刚 +2 位作者 王衍学 张志昊 魏梓书 《机床与液压》 北大核心 2025年第16期18-26,共9页
针对因数据量少、故障信号非平稳等特点而导致滚动轴承故障诊断分类方法分类准确率不高及模型泛化能力不强等问题,提出一种基于残差神经网络(ResNet50)与视觉变换器(ViT)的滚动轴承故障诊断方法。通过连续小波变换将轴承振动信号转换为... 针对因数据量少、故障信号非平稳等特点而导致滚动轴承故障诊断分类方法分类准确率不高及模型泛化能力不强等问题,提出一种基于残差神经网络(ResNet50)与视觉变换器(ViT)的滚动轴承故障诊断方法。通过连续小波变换将轴承振动信号转换为时频图像,并将其作为ResNet50的输入,以进行隐式特征提取,将其输出作为ViT的输入。ViT将输入的图像特征按预定尺寸划分为块,并线性映射为输入序列,通过自注意力机制将全局图像特征进行集成,以实现故障诊断。为提高模型的效率和精度,在ViT的输入层引入深度可分离卷积层(DSC),通过逐深度卷积和逐点卷积的方式显著减少模型的参数量和计算量。使用华中科技大学(HSUT)的滚动轴承数据集进行验证,模型的诊断准确率达99.73%,能够有效完成对轴承故障类型的分类识别。在不同工况下进行实验验证,与其他深度学习方法相比,文中方法具有更高的诊断精度和更好的泛化性。通过消融实验验证了所提模型能够显著提升诊断准确率、召回率、精确率和F1-score,表明其在滚动轴承故障诊断领域具有良好的应用前景。 展开更多
关键词 连续小波变换 残差神经网络 视觉transformer 轴承 故障诊断
在线阅读 下载PDF
基于剪枝-蒸馏的视觉Transformer模型压缩
10
作者 郑洋 蒋晓天 +2 位作者 付东豪 郭开泰 梁继民 《西安电子科技大学学报》 北大核心 2025年第4期55-65,共11页
现如今,视觉Transformer在计算机视觉领域的许多任务中都取得了卓越的表现,但其复杂的网络结构通常需要占用大量的存储和计算资源,因此难以在计算资源受限设备上广泛部署。为此提出了一种基于剪枝和蒸馏的视觉Transformer模型压缩方法,... 现如今,视觉Transformer在计算机视觉领域的许多任务中都取得了卓越的表现,但其复杂的网络结构通常需要占用大量的存储和计算资源,因此难以在计算资源受限设备上广泛部署。为此提出了一种基于剪枝和蒸馏的视觉Transformer模型压缩方法,旨在保证模型性能的前提下缩减模型大小。首先,通过对视觉Transformer的结构分析,确定宽度剪枝的对象为多头自注意力的注意力头和多层感知机中隐藏层的神经元,并采用基于模型损失函数变化的参数重要性评估策略对其进行参数重要性评估。其次,通过剪枝后蒸馏策略在模型宽度维度进行裁剪并恢复剪枝后宽度子网络的精度。最后,在深度维度上,通过剪枝后蒸馏得到最终的压缩模型。所提出方法在Tiny ImageNet、CIFAR-100和CIFAR-10数据集上对视觉Transformer进行了压缩实验。其中,在Tiny ImageNet上,ViT-S模型在参数量和计算量减少30%时,精度仅降低0.3%,而ViT-B模型精度甚至提升了0.6%。实验结果表明,所提方法能够有效实现模型精度和压缩率的平衡。 展开更多
关键词 模型压缩 视觉transformer 剪枝 知识蒸馏
在线阅读 下载PDF
一种并行注意力的金字塔视觉Transformer的结肠息肉分割网络
11
作者 庞飞翔 丁德锐 罗康 《小型微型计算机系统》 北大核心 2025年第5期1161-1168,共8页
针对结肠息肉数据的多样性特征以及大多数息肉分割的方法缺乏将不同层的特征信息进行交互的不足,本文提出了一种新的结肠息肉分割模型(PVT-PMFFD).该模型由可以捕捉多尺度信息的金字塔视觉Tranformer(PVT)编码器和实现不同层之间多尺度... 针对结肠息肉数据的多样性特征以及大多数息肉分割的方法缺乏将不同层的特征信息进行交互的不足,本文提出了一种新的结肠息肉分割模型(PVT-PMFFD).该模型由可以捕捉多尺度信息的金字塔视觉Tranformer(PVT)编码器和实现不同层之间多尺度信息交互的并行多级特征融合解码器(PMFFD)组成.特别地,并行多级特征融合解码器包括了特征融合池化模块(FPM)用于全局和局部信息的融合,特征增强模块(FEM)用于对特征信息的增强,并行注意力卷积模块(PACM)用于实现全局和局部信息之间的交互以及细化再增强特征.此外本文使用了深度监督的框架,对多级特征进行监督学习,进一步改善了模型的分割性能.本文模型在5个息肉数据集上与9个医学图像分割网络进行对比,结果表明本文方法具有更强的学习能力与泛化能力. 展开更多
关键词 结肠息肉分割 金字塔视觉transformer 并行多级特征融合 注意力
在线阅读 下载PDF
基于分组序列图像表征和视觉Transformer模型的网络入侵检测系统
12
作者 丁永红 王晓勇 《西华大学学报(自然科学版)》 2025年第5期39-47,69,共10页
随着新型网络攻击的不断涌现,网络入侵检测系统(network-based intrusion detection system,NIDS)已成为网络安全中不可或缺的保护机制。为提高入侵检测的准确性和实时性,文章提出一种基于分组序列特征和深度学习模型的NIDS。首先,利用... 随着新型网络攻击的不断涌现,网络入侵检测系统(network-based intrusion detection system,NIDS)已成为网络安全中不可或缺的保护机制。为提高入侵检测的准确性和实时性,文章提出一种基于分组序列特征和深度学习模型的NIDS。首先,利用分组解析算法分析分组报头和有效载荷数据,提取分组序列特征;其后,通过图像构建算法对特征集中分组的时序关系进行编码,由此为同一流量的前向和后向特征创建RGB图像,这样通过考虑分组特征的方向性和时间关联,识别异常通信模式,实现网络入侵的早期检测;最后,开发基于视觉Transformer(ViT)的入侵检测模型,通过自注意力机制进行图块关联,并使用改进分层焦点损失函数解决数据不平衡问题,减少离群值对模型的影响,进一步提高检测性能。在NIDS公开数据集上的实验结果表明:在不同攻击类型下,所提方法的恶意流量检测准确率均超过98%(最高达100%);与已有NIDS相比,该方法的检测性能均优于其他比较方法。在当前网络入侵的复杂性和多样性不断增加的情况下,所提方法具有更好的性能和更高的检测准确率,将有助于进一步提升网络安全。 展开更多
关键词 网络安全 入侵检测系统 深度学习 分组解析 图像表征 视觉transformer 时序关系
在线阅读 下载PDF
基于视觉Transformer的工业图像异常检测方法研究 被引量:1
13
作者 乌达巴拉 万鑫鑫 《皖西学院学报》 2025年第5期62-70,共9页
针对工业数据异常检测任务,本文提出一种结合视觉Transformer(Vision Transformer,ViT)和卷积神经网络(Convolutional Neural Network,CNN)的深度学习方法。该方法充分发挥ViT在全局语义建模方面的优势,同时结合CNN在图像细节重构方面... 针对工业数据异常检测任务,本文提出一种结合视觉Transformer(Vision Transformer,ViT)和卷积神经网络(Convolutional Neural Network,CNN)的深度学习方法。该方法充分发挥ViT在全局语义建模方面的优势,同时结合CNN在图像细节重构方面的能力,从而实现高效的异常图像识别。具体方案中,引入ViT作为主干网络,核心模块包括:子块切分与线性嵌入层,通过线性转换提取子块嵌入;位置与空间编码模块,通过双码策略增加特征深度;ViT Transformer编码器,提取图像的全局特征;层次化卷积解码器,负责构建重构图像。此外,采用数据增强技术、带有权重衰减的AdamW优化器和早停策略,以防止过拟合并提升整体模型的鲁棒性。通过曲线下面积AUROC(Area Under ROC Curve)和PRO(Per-Region Overlap)两个评估指标进行衡量,在MVTec和BTAD数据集上验证了所提出方法。实验结果表明,该方法表现优异,充分验证了其有效性。 展开更多
关键词 工业图像 异常检测 视觉transformer 解码器
在线阅读 下载PDF
基于视觉Transformer的地铁安全门间隙异物检测算法研究 被引量:1
14
作者 孔祥苏 左付超 +1 位作者 赵新赢 王其锦 《自动化应用》 2025年第2期29-31,共3页
提出了一种基于视觉Transformer(ViT)的地铁安全门间隙异物检测算法。首先,对安全门图像进行切片表示,通过改进的ViT模型提取局部区域的特征,进而输入轻量级分类器进行异物检测。该算法在特征提取过程中引入了多尺度金字塔结构和深度可... 提出了一种基于视觉Transformer(ViT)的地铁安全门间隙异物检测算法。首先,对安全门图像进行切片表示,通过改进的ViT模型提取局部区域的特征,进而输入轻量级分类器进行异物检测。该算法在特征提取过程中引入了多尺度金字塔结构和深度可分离卷积,以增强模型对不同形状和尺寸的异物的检测能力。实验结果表明,该算法能够准确检测多种异物,有望降低地铁运行中的安全事故风险。 展开更多
关键词 视觉transformer 地铁安全门 异物检测
在线阅读 下载PDF
基于卷积视觉Transformer的木薯叶病识别模型
15
作者 谢聪 谢聪 +1 位作者 王天顺 姬少培 《现代电子技术》 北大核心 2025年第3期61-68,共8页
近年来,由于气候变化、室外空气污染物的增加以及全球变暖,木薯叶片病害变得更加普遍,及时和准确地检测木薯叶部病害对于防止其蔓延和确保农业生产的可持续性至关重要。然而,现有的木薯叶病检测模型很容易受到环境背景噪声的影响,这使... 近年来,由于气候变化、室外空气污染物的增加以及全球变暖,木薯叶片病害变得更加普遍,及时和准确地检测木薯叶部病害对于防止其蔓延和确保农业生产的可持续性至关重要。然而,现有的木薯叶病检测模型很容易受到环境背景噪声的影响,这使得其由于无法有效提取出木薯叶病图片的特征,而导致其识别检测精度较低。针对该问题,文中设计了一种卷积视觉Transformer的木薯叶病检测模型——CViT,并提出了一种最小注意力裁剪算法(LeIAP)来选择Transformer模型中每一层最重要的注意力头,以提高模型的性能。该模型在Transformer的基础上利用多头注意力模块来提取图像高级特征,利用软分割标记嵌入捕获局部信息,这不仅可以提高学习到的信息的丰富度,也有利于细粒度的特征学习。此外,该模型还使用了一种焦点角度间隔惩罚损失函数(F⁃Softmax),通过更好地学习类间距离,以改善模型在不同类别疾病数据上的识别精度。实验结果表明,该模型在2021年的Kaggle比赛数据集上的准确率均优于现有的主流模型。 展开更多
关键词 木薯叶病检测 视觉transformer 多头注意力 损失函数 识别精度 最小注意力裁剪
在线阅读 下载PDF
视觉Transformer在细粒度图像分类中的应用综述
16
作者 温世雄 智敏 《计算机工程与应用》 北大核心 2025年第23期24-37,共14页
细粒度图像分类(fine-grained image classification,FGIC)旨在识别视觉上高度相似但存在细微差异的子类别。随着深度学习的快速发展,FGIC算法已由传统强监督学习逐步发展至弱监督学习。视觉Transformer(ViT)凭借其多头自注意力机制,无... 细粒度图像分类(fine-grained image classification,FGIC)旨在识别视觉上高度相似但存在细微差异的子类别。随着深度学习的快速发展,FGIC算法已由传统强监督学习逐步发展至弱监督学习。视觉Transformer(ViT)凭借其多头自注意力机制,无须依赖手工标注,同时克服了基于卷积神经网络(CNN)算法在感受野和全局建模能力上的局限性,成为该任务的主流方法之一。对FGIC的特点与难点进行概述,简要介绍ViT的基本架构及其优势。根据不同的特征融合策略将基于ViT的改进算法分成层次、多局部及多粒度三种特征融合方法,对每类方法的改进方式进行详细的图示说明,并对各类技术方法的机制进行详细阐述和总结分析。梳理了常用的公开数据集,并根据当前研究的局限性提出未来的研究方向,以进一步挖掘ViT在细粒度图像分类任务中的应用潜力。 展开更多
关键词 细粒度图像分类(FGIC) 视觉transformer(ViT) 特征融合
在线阅读 下载PDF
小数据集上基于语义的局部注意视觉Transformer方法
17
作者 冯欣 王俊杰 +1 位作者 钟声 方婷婷 《计算机应用研究》 北大核心 2025年第1期314-320,共7页
在小数据集上从零开始训练时,视觉Transformer无法与同规模的卷积神经网络媲美。基于图像的局部注意力方法,可以显著提高ViT的数据效率,但是会丢失距离较远但相关的补丁之间的信息。为了解决上述问题,提出一种双向并行局部注意力视觉Tra... 在小数据集上从零开始训练时,视觉Transformer无法与同规模的卷积神经网络媲美。基于图像的局部注意力方法,可以显著提高ViT的数据效率,但是会丢失距离较远但相关的补丁之间的信息。为了解决上述问题,提出一种双向并行局部注意力视觉Transformer的方法。该方法首先在特征层面上对补丁进行分组,在组内执行局部注意力,以利用特征空间中补丁之间的关系弥补信息丢失。其次,为了有效融合补丁之间的信息,将基于语义的局部注意力和基于图像的局部注意力并行结合起来,通过双向自适应学习来增强ViT模型在小数据上的性能。实验结果表明,该方法在计算量为15.2 GFLOPs和参数量为57.2 M的情况下,分别在CIFAR-10和CIFAR-100数据集上实现了97.93%和85.80%的准确性。相比于其他方法,双向并行局部注意力视觉Transformer在增强局部引导能力的同时,保持了局部注意力所需属性的有效性。 展开更多
关键词 深度学习 图像分类 transformer 局部注意力 基于语义的局部注意
在线阅读 下载PDF
联合多尺度残差卷积-视觉Transformer和GAN的高光谱图像分类
18
作者 宋子涛 赵全明 张冬梅 《河北工业大学学报》 2025年第2期42-51,共10页
针对高光谱图像分类在有限训练样本条件下,基于卷积神经网络进行局部特征提取的生成式对抗网(Generative adversarial network,GAN)分类方法,存在难以捕获全局特征的缺陷性而导致分类精度受限的问题,提出一种联合多尺度残差卷积-视觉Tra... 针对高光谱图像分类在有限训练样本条件下,基于卷积神经网络进行局部特征提取的生成式对抗网(Generative adversarial network,GAN)分类方法,存在难以捕获全局特征的缺陷性而导致分类精度受限的问题,提出一种联合多尺度残差卷积-视觉Transformer和GAN的高光谱图像分类方法。该方法以GAN为基础网络结构,首先,在反卷积生成器中嵌入CA (coordinate attention)注意力机制,其位置编码增强空间映射的性能可提高数据生成能力;其次,构建多尺度残差卷积-视觉Transformer的判别器,通过多尺度残差卷积网络对不同感受野的局部信息进行有效融合,以级联结构将重构的局部特征块送入视觉Transformer网络实现多尺度局部-全局特征的有效提取;最后,将所提方法应用于Indian Pines、Pavia University和Salinas高光谱图像数据集进行有效性验证,分别随机选取10%、3%和1%的样本进行分类训练。实验结果表明,在3个数据集上的总体分类精度分别达到了98.70%、99.38%和99.01%,相比于SVM、3DCNN、HybridSN、ViT和Cri-CNN等主流方法具有更高的分类性能。 展开更多
关键词 高光谱图像分类 视觉transformer 卷积神经网络 多尺度特征 CA注意力机制
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:14
19
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 Vision transformer(ViT) 深度学习 自注意力
在线阅读 下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:7
20
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部