期刊文献+
共找到71篇文章
< 1 2 4 >
每页显示 20 50 100
ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法
1
作者 张乔一 张瑞 霍光煜 《北京林业大学学报》 北大核心 2025年第10期128-138,共11页
【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图... 【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图像中全局上下文信息方面具有天然优势,尤其适用于形态多变的复杂环境。设计针对树木的视觉提示调优VPT机制,其通过在特征中注入可学习提示(prompts),优化模型在林地高密度树冠、光照变化及不同树种结构下的特征提取能力,提高对不同林分类型的适应性。设计卷积模块的注意力机制模块,利用其在局部感知基础上的长距离依赖建模能力,有效强化模型对树木遮挡、重叠及形态相似目标的辨别能力,提高整体检测的鲁棒性与准确性。设计一个树木检测解码器,通过多层卷积、归一化、GELU激活与上采样操作逐步还原空间分辨率,以生成的目标密度图实现树木计数与定位。【结果】该方法在提升森林、城市场景下的树木检测鲁棒性的同时,增强了模型在多尺度树木目标上的泛化能力。在Larch Casebearer数据集和Urban Tree数据集上进行的实验显示,与其他主流模型相比,该方法的MAE和RMSE最多分别降低了2.53、3.99,表明其泛化能力更强,具有最优的树木检测性能。可视化实验结果表明,在密集森林场景和复杂城市场景中,所提模型均具有较高的树木检测准确率。消融实验的结果证明了模型主要模块的有效性。【结论】基于Vision Transformer的面向复杂场景的树木计数与定位方法能够充分发挥ViT的全局建模能力及视觉提示调优机制任务适应性,结合卷积模块的注意力机制,有效提升复杂场景树木计数与定位的精度与鲁棒性。 展开更多
关键词 目标识别 树木计数 树木定位 复杂场景 vision transformer(vit) 视觉提示调优(VPT) 注意力机制
在线阅读 下载PDF
Vision Transformer模型在中医舌诊图像分类中的应用研究
2
作者 周坚和 王彩雄 +3 位作者 李炜 周晓玲 张丹璇 吴玉峰 《广西科技大学学报》 2025年第5期89-98,共10页
舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于... 舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于Vision Transformer(ViT)深度学习模型,通过预训练与微调策略优化特征提取能力,并结合数据增强技术解决类别分布不平衡问题。实验结果表明,该模型在6项关键舌象特征分类任务中,5项指标的准确率(苔色85.6%、瘀斑98.0%、质地99.6%、舌色96.6%、裂纹87.8%)显著优于现有CNN方法(如ResNet50对应准确率分别为78.0%、91.0%、92.0%、68.0%、80.1%),验证了该模型在突破传统性能瓶颈、提升中医临床智能诊断可靠性方面的有效性和应用潜力。 展开更多
关键词 舌诊 vision transformer(vit) 深度学习 医学图像分类
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:13
3
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 vision transformer(vit) 深度学习 自注意力
在线阅读 下载PDF
基于改进Vision Transformer的局部光照一致性估计 被引量:1
4
作者 王杨 宋世佳 +3 位作者 王鹤琴 袁振羽 赵立军 吴其林 《计算机工程》 北大核心 2025年第2期312-321,共10页
光照一致性是增强现实(AR)系统中实现虚实有机融合的关键因素之一。由于拍摄视角的局限性和场景光照的复杂性,开发者在估计全景照明信息时通常忽略局部光照一致性,从而影响最终的渲染效果。为解决这一问题,提出一种基于改进视觉Transfor... 光照一致性是增强现实(AR)系统中实现虚实有机融合的关键因素之一。由于拍摄视角的局限性和场景光照的复杂性,开发者在估计全景照明信息时通常忽略局部光照一致性,从而影响最终的渲染效果。为解决这一问题,提出一种基于改进视觉Transformer(ViT)结构的局部光照一致性估计框架(ViTLight)。首先利用ViT编码器提取特征向量并计算回归球面谐波(SH)系数,进而恢复光照信息;其次改进ViT编码器结构,引入多头自注意力交互机制,采用卷积运算引导注意力头之间相互联系,在此基础上增加局部感知模块,扫描每个图像分块并对局部像素进行加权求和,捕捉区域内的特定特征,有助于平衡全局上下文特征和局部光照信息,提高光照估计的精度。在公开数据集上对比主流特征提取网络和4种经典光照估计框架,实验和分析结果表明,ViTLight在图像渲染准确率方面高于现有框架,其均方根误差(RMSE)和结构相异性(DSSIM)指标分别为0.1296和0.0426,验证了该框架的有效性与正确性。 展开更多
关键词 增强现实 光照估计 球面谐波系数 视觉transformer 多头自注意力
在线阅读 下载PDF
基于Vision Transformer-LSTM(ViTL)的多时序遥感影像农作物分类方法 被引量:1
5
作者 张青云 杨辉 +1 位作者 李兴伍 武永闯 《安徽农业大学学报》 CAS CSCD 2024年第5期888-898,共11页
针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL... 针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL)的深度学习模型,ViTL模型集成了双路Vision-Transformer特征提取、时空特征融合和长短期记忆递归神经网络(LSTM)时序分类等3个关键模块,双路Vision-Transformer特征提取模块用于捕获图像的时空特征相关性,一路提取空间分类特征,一路提取时间变化特征;时空特征融合模块用于将多时特征信息进行交叉融合;LSTM时序分类模块捕捉多时序的依赖关系并进行输出分类。综合利用基于多时序卫星影像的遥感技术理论和方法,对黑龙江省齐齐哈尔市讷河市作物信息进行提取,研究结果表明,ViTL模型表现出色,其总体准确率(Overall Accuracy,OA)、平均交并比(Mean Intersection over Union,MIoU)和F1分数分别达到0.8676、0.6987和0.8175,与其他广泛使用的深度学习方法相比,包括三维卷积神经网络(3-D CNN)、二维卷积神经网络(2-D CNN)和长短期记忆递归神经网络(LSTM),ViTL模型的F1分数提高了9%~12%,显示出显著的优越性。ViTL模型克服了面对多时序遥感影像的农作物分类任务中的时间和空间信息特征采样不足问题,为准确、高效地农作物分类提供了新思路。 展开更多
关键词 农作物分类 vision transformer(vit) LSTM 深度学习 遥感监测
原文传递
基于改进Vision Transformer的森林火灾视频识别研究
6
作者 张敏 辛颖 黄天棋 《南京林业大学学报(自然科学版)》 北大核心 2025年第4期186-194,共9页
【目的】针对现有森林火灾图像识别算法存在的效率不足、时序特征利用率低等问题,构建基于视频数据的森林火灾识别模型,以提升林火监测的实时性与识别准确率。【方法】提出融合三维卷积神经网络(3DCNN)与视觉Vision Transformer(ViT)的C... 【目的】针对现有森林火灾图像识别算法存在的效率不足、时序特征利用率低等问题,构建基于视频数据的森林火灾识别模型,以提升林火监测的实时性与识别准确率。【方法】提出融合三维卷积神经网络(3DCNN)与视觉Vision Transformer(ViT)的C3D-ViT算法。该模型通过3DCNN提取视频序列的时空特征,构建时空特征向量;利用ViT编码器的自注意力机制融合局部与全局特征;最终经MLP Head层输出分类结果。通过消融实验验证C3D-ViT模型的有效性,并与原模型3DCNN和ViT,以及ResNet50、LSTM、YOLOv5等深度学习模型进行对比。【结果】C3D-ViT在自建林火数据集上准确率达到96.10%,较ResNet50(89.07%)、LSTM(93.26%)和YOLOv5(91.46%)具有明显优势。模型改进有效,准确率超越3DCNN(93.91%)与ViT(90.43%)。在遮挡、远距离、低浓度烟雾等复杂场景下保持较高的平均置信度,满足实时监测需求。【结论】C3D-ViT通过时空特征联合建模,显著提升林火识别的鲁棒性与时效性,为森林防火系统提供可靠的技术支持。 展开更多
关键词 森林火灾 深度学习 目标检测 三维卷积神经网络 vision transformer
原文传递
Enhanced Plant Species Identification through Metadata Fusion and Vision Transformer Integration
7
作者 Hassan Javed Labiba Gillani Fahad +2 位作者 Syed Fahad Tahir Mehdi Hassan Hani Alquhayz 《Computers, Materials & Continua》 2025年第11期3981-3996,共16页
Accurate plant species classification is essential for many applications,such as biodiversity conservation,ecological research,and sustainable agricultural practices.Traditional morphological classification methods ar... Accurate plant species classification is essential for many applications,such as biodiversity conservation,ecological research,and sustainable agricultural practices.Traditional morphological classification methods are inherently slow,labour-intensive,and prone to inaccuracies,especiallywhen distinguishing between species exhibiting visual similarities or high intra-species variability.To address these limitations and to overcome the constraints of imageonly approaches,we introduce a novel Artificial Intelligence-driven framework.This approach integrates robust Vision Transformer(ViT)models for advanced visual analysis with a multi-modal data fusion strategy,incorporating contextual metadata such as precise environmental conditions,geographic location,and phenological traits.This combination of visual and ecological cues significantly enhances classification accuracy and robustness,proving especially vital in complex,heterogeneous real-world environments.The proposedmodel achieves an impressive 97.27%of test accuracy,andMean Reciprocal Rank(MRR)of 0.9842 that demonstrates strong generalization capabilities.Furthermore,efficient utilization of high-performance GPU resources(RTX 3090,18 GB memory)ensures scalable processing of highdimensional data.Comparative analysis consistently confirms that ourmetadata fusion approach substantially improves classification performance,particularly formorphologically similar species,and through principled self-supervised and transfer learning from ImageNet,the model adapts efficiently to new species,ensuring enhanced generalization.This comprehensive approach holds profound practical implications for precise conservation initiatives,rigorous ecological monitoring,and advanced agricultural management. 展开更多
关键词 vision transformers(vits) transformerS machine learning deep learning plant species classification MULTI-ORGAN
在线阅读 下载PDF
基于Vision Transformer的中文唇语识别 被引量:3
8
作者 薛峰 洪自坤 +2 位作者 李书杰 李雨 谢胤岑 《模式识别与人工智能》 EI CSCD 北大核心 2022年第12期1111-1121,共11页
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间... 唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit,GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低. 展开更多
关键词 唇语识别 vision transformer(vit) 深度神经网络 编解码器 注意力机制 特征提取
在线阅读 下载PDF
一种交互连接CNN和Transformer的肠道息肉图像分类网络 被引量:1
9
作者 曹博 叶淑芳 +3 位作者 饶钰君 汤晓恒 何熊熊 李胜 《小型微型计算机系统》 北大核心 2025年第4期932-939,共8页
利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分... 利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分类任务亟需改善.CNN中的卷积算子擅长提取局部特征.ViT通过级联自注意力模块可以捕获长距离依赖关系和全局特征.本文提出一个交互连接模块,以交互式的方式将CNN和ViT相连接,以整合多尺度特征;所设计的交互混合模型,能最大限度地保留局部特征和全局表示,显著缓解息肉多分类的类内差异性大、类间相似性高的问题;在大规模自然图像数据集中进行预训练;通过微调模型结构,使用预训练的交互混合模型参数初始化主干网络,并迁移至结直肠息肉数据集中再次训练,实现息肉多分类.在结直肠息肉私有数据集和Kvasir公共数据集上评估所提出模型,实验结果显示总体分类准确率分别达到了85.83%和96.84%,优于本文比较的其他算法;且引入迁移学习可以在降低训练成本的同时提升交互混合模型的分类性能和泛化性,在有限的训练数据集下有助于提高临床诊断效率. 展开更多
关键词 卷积神经网络(CNN) 视觉transformer(vit) 结直肠息肉分类 多尺度特征 迁移学习
在线阅读 下载PDF
基于紧凑型Vision transformer的细粒度视觉分类 被引量:2
10
作者 徐昊 郭黎 李润泽 《控制与决策》 EI CSCD 北大核心 2024年第3期893-900,共8页
Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池... Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池化技术取消分类令牌的使用,减少计算复杂度;最后,使用部位选择模块和混合损失函数,进一步提升模型在细粒度视觉分类中的表现.所提出算法在公共数据集CUB-200-2011、Butterfly200、Stanford Dogs、Stanford Cars和NABirds中均进行了实验验证,在只使用少量的数据和计算资源条件下,分别获得了88.9%、87.4%、89.0%、93.4%和88.0%的准确率,训练时间平均比常用的Vi T-B_16模型下降了73.8%,同时比TransFG模型下降了93.9%,并且训练过程中的参数量只有这两种模型的1/4左右.实验结果充分表明,所提出的模型较之其他主流的方法在数据量需求和计算复杂度方面具有明显的优越性,可广泛应用于工业过程控制、设备微小故障检测与诊断中. 展开更多
关键词 紧凑型 vision transformer 细粒度视觉分类 卷积块 归纳偏置 序列池化 混合损失
原文传递
基于Vision Transformer的阿尔茨海默病分类研究
11
作者 许曙博 郑英豪 +3 位作者 秦方博 周超 周劲 陈嘉燕 《微型电脑应用》 2024年第8期4-7,共4页
为了有效地提升对阿尔茨海默病(AD)的磁共振成像(MRI)图像分类准确率,提出一种LC(Layer-Cut)-ViT方法。该方法通过引入Vision Transformer(ViT)的自注意力机制对MRI图像进行层切分,使模型能更好地理解图像的全局信息,同时突出切片间的... 为了有效地提升对阿尔茨海默病(AD)的磁共振成像(MRI)图像分类准确率,提出一种LC(Layer-Cut)-ViT方法。该方法通过引入Vision Transformer(ViT)的自注意力机制对MRI图像进行层切分,使模型能更好地理解图像的全局信息,同时突出切片间的特征关系。此外,通过配准、颅骨分离算法提取MRI图像的脑部组织部分,进一步提升模型的性能。实验结果显示,所提方法对阿尔茨海默病的MRI图像具有较好的分类能力。 展开更多
关键词 阿尔茨海默病 MRI图像分类 vision transformer LC-vit
在线阅读 下载PDF
基于时频表示与ViT的航天器姿态系统智能故障诊断方法
12
作者 李婷 高升 +1 位作者 张伟 张荣鹏 《上海航天(中英文)》 2025年第6期26-35,56,共11页
针对传统深度学习方法在复杂航天任务中存在的特征提取局限及故障诊断精度受限的问题,本文提出一种基于时频表示与Vision Transformer(TFViT)的故障诊断方法。该方法首先将原始信号转换为多通道时频表示图像(TFRs),以充分保留信号中的... 针对传统深度学习方法在复杂航天任务中存在的特征提取局限及故障诊断精度受限的问题,本文提出一种基于时频表示与Vision Transformer(TFViT)的故障诊断方法。该方法首先将原始信号转换为多通道时频表示图像(TFRs),以充分保留信号中的时频特征;在此基础上,通过优化TFViT模型的输入层与特征提取模块,进一步提高了模型对时频表示图像中全局依赖关系的捕捉能力,进而实现对不同时频区域特征的深度挖掘。在基于航天器半物理仿真平台构建的实验数据集上,通过系统实验确定了TFViT模型的最优超参数配置。实验结果表明:TFViT模型在故障诊断任务中展现出卓越性能,与多种先进深度学习方法的对比分析,充分验证了所提方法在诊断准确性、鲁棒性方面均具有显著优势。 展开更多
关键词 故障诊断 航天器姿态系统 特征提取 时频表示(TFR) vision transformer(vit)
在线阅读 下载PDF
基于VIT网络的复合材料栓接结构挤压极限快速预测方法研究
13
作者 任宇 刘禹铭 +2 位作者 林清源 赵勇 程辉 《上海航天(中英文)》 2025年第2期121-134,共14页
针对复合材料栓接结构(CBJ)多源装配要素耦合作用下挤压极限预测难题及传统数值模拟效率低下等问题,提出一种基于Vision Transformer(VIT)框架的挤压极限快速预测方法。通过融合装配过程中几何形变参数与物理性能参数,构建多源装配参数... 针对复合材料栓接结构(CBJ)多源装配要素耦合作用下挤压极限预测难题及传统数值模拟效率低下等问题,提出一种基于Vision Transformer(VIT)框架的挤压极限快速预测方法。通过融合装配过程中几何形变参数与物理性能参数,构建多源装配参数空间与挤压极限的非线性映射模型。首先,针对复材栓接结构装配过程的几何参量和性能参量进行分析与建模;其次,创新开发基于VIT架构的CBJ-VIT深度学习网络,采用多头自注意力机制实现多模态装配数据特征融合;最后,以航天薄壁结构复合材料栓接装配体为研究对象进行了实例验证。实验表明:CBJ-VIT模型预测结果与有限元分析结果高度一致,单次预测耗时从传统数值模拟的12.0 h降至8.1 s。在定性和定量评价中,该模型相较传统非图像数据处理方法预测精度提升85.02%,较非VIT架构模型精度提高76.24%。 展开更多
关键词 复合材料 栓接结构 多源因素耦合 形性融合 vision transformer(vit)
在线阅读 下载PDF
融合全局与局部特征的两阶段ViT分心驾驶行为识别方法
14
作者 王腾 高尚兵 任刚 《中国图象图形学报》 北大核心 2025年第11期3617-3633,共17页
目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特... 目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特征的两阶段ViT分心驾驶行为识别方法。方法在第1阶段,为防止丢失先前层的信息,提出token信息补充模块,利用k层的class token来获得更全面的特征信息;在第2阶段,为解决特征复杂的图像识别问题,提出特征交互模块,通过交叉注意力机制和自注意力机制融合ViT全局特征和MobileNetV3局部特征。在提高识别准确率的基础上,提出两阶段注意力模块,用于缓解多头注意力可扩展性问题,从而进一步减少参数计算量。结果实验表明,在State Farm数据集和课题组自建的客运车辆分心驾驶行为数据集上,本文方法准确率分别达到99.69%和96.87%,较主干网络ViT-B_16分别提升1.86%和1.65%;相比于TransFG(Transformer architecture for fine-grained recognition)模型,准确率分别提升0.98%和1.04%,浮点数运算次数(floating point operations,FLOPs)分别降低26.87%和17.23%。两个数据集上的整体性能均优于前沿的识别方法。结论本文方法能够准确识别真实场景下的分心驾驶行为,具有更好的鲁棒性,为分类任务研究提供了新思路。 展开更多
关键词 智能交通 分心驾驶行为识别 视觉transformer(vit) 注意力机制 特征融合
原文传递
融合自监督学习和Vision Transformer的作物病害识别模型
15
作者 张广海 许佳炜 +3 位作者 夏慧娟 王杨 张辉 段蒙蒙 《绵阳师范学院学报》 2024年第11期93-101,共9页
针对基于深度卷积神经网络的作物病害识别模型存在抗干扰能力不足问题,提出一种融合自监督学习和Vision Transformer的HMLP_TR-ViT模型.首先在预训练阶段使用HMLP分块序列化结构来提高MAE模型的层级信息提取能力;然后在精调阶段引入序... 针对基于深度卷积神经网络的作物病害识别模型存在抗干扰能力不足问题,提出一种融合自监督学习和Vision Transformer的HMLP_TR-ViT模型.首先在预训练阶段使用HMLP分块序列化结构来提高MAE模型的层级信息提取能力;然后在精调阶段引入序列重组操作以消除自注意力计算过程中的无效背景序列块,旨在提高网络编码层的推理速度,使所提模型更加聚焦作物病害区域.在公开数据集Plant-Village和自建数据集PDVD-7上实验,使用HMLP结构后的识别率分别为99.90%和98.37%,序列重组后的识别率分别为99.92%和98.37%;对比DCNNs(ResNet、EfficientNet和ConvNeXt),HMLP_TR-ViT在两个数据集上病害识别性能均达到最优,分别为99.92%和98.46%. 展开更多
关键词 作物病害识别 自监督学习 序列重组 vision transformer 自注意力
在线阅读 下载PDF
基于改进ViT的网络流量分类方法
16
作者 李道全 高洁 +1 位作者 聂若琳 胡一帆 《计算机工程与设计》 北大核心 2025年第2期431-437,共7页
目前网络流量分类方法中存在模型结构复杂、特征提取不足等问题,提出一种基于稀疏注意力的改进ViT(SA-ViT)网络流量分类模型。去除数据集中无关字段并转化为灰度图,划分为块序列输入编码器提取特征;引入Longformer稀疏注意力对Self-atte... 目前网络流量分类方法中存在模型结构复杂、特征提取不足等问题,提出一种基于稀疏注意力的改进ViT(SA-ViT)网络流量分类模型。去除数据集中无关字段并转化为灰度图,划分为块序列输入编码器提取特征;引入Longformer稀疏注意力对Self-attention进行优化,使其具有更高的局部与全局特征表达能力;通过对比图像相似度实现流量分类。通过网络公开数据集进行检测,其结果表明,所提算法在分类准确率、精确率以及F1分数等方面有较大提升,验证了该模型的科学性与可行性。 展开更多
关键词 流量分类 vision transformer(vit) 稀疏注意力 Longformer 编解码器 样本不均衡 灰度图
在线阅读 下载PDF
视觉Transformer在细粒度图像分类中的应用综述
17
作者 温世雄 智敏 《计算机工程与应用》 北大核心 2025年第23期24-37,共14页
细粒度图像分类(fine-grained image classification,FGIC)旨在识别视觉上高度相似但存在细微差异的子类别。随着深度学习的快速发展,FGIC算法已由传统强监督学习逐步发展至弱监督学习。视觉Transformer(ViT)凭借其多头自注意力机制,无... 细粒度图像分类(fine-grained image classification,FGIC)旨在识别视觉上高度相似但存在细微差异的子类别。随着深度学习的快速发展,FGIC算法已由传统强监督学习逐步发展至弱监督学习。视觉Transformer(ViT)凭借其多头自注意力机制,无须依赖手工标注,同时克服了基于卷积神经网络(CNN)算法在感受野和全局建模能力上的局限性,成为该任务的主流方法之一。对FGIC的特点与难点进行概述,简要介绍ViT的基本架构及其优势。根据不同的特征融合策略将基于ViT的改进算法分成层次、多局部及多粒度三种特征融合方法,对每类方法的改进方式进行详细的图示说明,并对各类技术方法的机制进行详细阐述和总结分析。梳理了常用的公开数据集,并根据当前研究的局限性提出未来的研究方向,以进一步挖掘ViT在细粒度图像分类任务中的应用潜力。 展开更多
关键词 细粒度图像分类(FGIC) 视觉transformer(vit) 特征融合
在线阅读 下载PDF
基于ViT模型的FPCB缺陷检测系统研究
18
作者 黎志勇 叶兆元 +3 位作者 郑凯扬 郑陆宇 张亮智 易心蕊 《新技术新工艺》 2025年第4期62-67,共6页
柔性印刷电路板(FPCB)作为现代电子设备中的核心组成部分,其生产质量直接影响电子产品的性能与可靠性。为了应对传统检测方法在效率和精度上的不足,提出了一种基于Vision Transformer(ViT)模型的FPCB缺陷检测方法。ViT模型通过其强大的... 柔性印刷电路板(FPCB)作为现代电子设备中的核心组成部分,其生产质量直接影响电子产品的性能与可靠性。为了应对传统检测方法在效率和精度上的不足,提出了一种基于Vision Transformer(ViT)模型的FPCB缺陷检测方法。ViT模型通过其强大的全局特征提取能力,在处理复杂的FPCB缺陷检测任务时表现优异,显著优于传统卷积神经网络(CNN)模型。实验结果表明,使用ViT模型的检测系统在精度、鲁棒性和效率方面都有明显提升,尤其是在处理复杂且多样的缺陷时展现了卓越的性能。 展开更多
关键词 vision transformer(vit) 柔性印刷电路板(FPCB) 缺陷检测 机器视觉
在线阅读 下载PDF
FDTs:A Feature Disentangled Transformer for Interpretable Squamous Cell Carcinoma Grading
19
作者 Pan Huang Xin Luo 《IEEE/CAA Journal of Automatica Sinica》 2025年第11期2365-2367,共3页
Dear Editor,This letter proposes an end-to-end feature disentangled Transformer(FDTs)for entanglement-free and semantic feature representation to enable accurate and trustworthy pathology grading of squamous cell carc... Dear Editor,This letter proposes an end-to-end feature disentangled Transformer(FDTs)for entanglement-free and semantic feature representation to enable accurate and trustworthy pathology grading of squamous cell carcinoma(SCC).Existing vision transformers(ViTs)can implement representation learning for SCC grading,however,they all adopt the class-patch token fuzzy mapping for pattern prediction probability or window down-sampling to enhance the representation to contextual information. 展开更多
关键词 pathology grading feature disentangled transformer feature representation representation learning vision transformers vits can feature disentangled transformer fdts interpretable squamous cell carcinoma grading squamous cell carcinoma scc existing
在线阅读 下载PDF
Transformers for Multi-Modal Image Analysis in Healthcare
20
作者 Sameera V Mohd Sagheer Meghana K H +2 位作者 P M Ameer Muneer Parayangat Mohamed Abbas 《Computers, Materials & Continua》 2025年第9期4259-4297,共39页
Integrating multiple medical imaging techniques,including Magnetic Resonance Imaging(MRI),Computed Tomography,Positron Emission Tomography(PET),and ultrasound,provides a comprehensive view of the patient health status... Integrating multiple medical imaging techniques,including Magnetic Resonance Imaging(MRI),Computed Tomography,Positron Emission Tomography(PET),and ultrasound,provides a comprehensive view of the patient health status.Each of these methods contributes unique diagnostic insights,enhancing the overall assessment of patient condition.Nevertheless,the amalgamation of data from multiple modalities presents difficulties due to disparities in resolution,data collection methods,and noise levels.While traditional models like Convolutional Neural Networks(CNNs)excel in single-modality tasks,they struggle to handle multi-modal complexities,lacking the capacity to model global relationships.This research presents a novel approach for examining multi-modal medical imagery using a transformer-based system.The framework employs self-attention and cross-attention mechanisms to synchronize and integrate features across various modalities.Additionally,it shows resilience to variations in noise and image quality,making it adaptable for real-time clinical use.To address the computational hurdles linked to transformer models,particularly in real-time clinical applications in resource-constrained environments,several optimization techniques have been integrated to boost scalability and efficiency.Initially,a streamlined transformer architecture was adopted to minimize the computational load while maintaining model effectiveness.Methods such as model pruning,quantization,and knowledge distillation have been applied to reduce the parameter count and enhance the inference speed.Furthermore,efficient attention mechanisms such as linear or sparse attention were employed to alleviate the substantial memory and processing requirements of traditional self-attention operations.For further deployment optimization,researchers have implemented hardware-aware acceleration strategies,including the use of TensorRT and ONNX-based model compression,to ensure efficient execution on edge devices.These optimizations allow the approach to function effectively in real-time clinical settings,ensuring viability even in environments with limited resources.Future research directions include integrating non-imaging data to facilitate personalized treatment and enhancing computational efficiency for implementation in resource-limited environments.This study highlights the transformative potential of transformer models in multi-modal medical imaging,offering improvements in diagnostic accuracy and patient care outcomes. 展开更多
关键词 Multi-modal image analysis medical imaging deep learning image segmentation disease detection multi-modal fusion vision transformers(vits) precision medicine clinical decision support
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部