期刊文献+
共找到497篇文章
< 1 2 25 >
每页显示 20 50 100
融合双阶段对齐协同脑图谱与ViT嵌入提炼的MCI高阶连接识别模型
1
作者 吴海锋 翁建明 曾玉 《控制与决策》 北大核心 2025年第12期3713-3724,共12页
针对功能磁共振成像(fMRI)中高阶功能连接建模与分类任务中维度膨胀、归一化缺失与跨阶协同弱化的挑战,提出一种微分几何驱动的结构分层化轻度认知障碍(MCI)识别模型.该模型融合双阶段对齐协同脑图谱(DAS-Connectome)与结构嵌入提炼层(S... 针对功能磁共振成像(fMRI)中高阶功能连接建模与分类任务中维度膨胀、归一化缺失与跨阶协同弱化的挑战,提出一种微分几何驱动的结构分层化轻度认知障碍(MCI)识别模型.该模型融合双阶段对齐协同脑图谱(DAS-Connectome)与结构嵌入提炼层(SERL).DAS-Connectome引入两级结构建模机制:一是通过流形对数映射实现归一化的几何推广,构建稳定的高阶神经依赖结构;二是执行结构映射增强,将高阶结构与原始低阶张量缩并耦合生成DAS-Connectome,从而提升结构表达的一致性与判别密度.SERL通过变分信息瓶颈的嵌入机制和预训练ViT(Vision Transformer)对DAS-Connectome进行低维表征提炼,最终将嵌入特征输入轻量级分类器完成MCI判别.实验表明,所提出框架在阿尔茨海默病神经影像学计划库的数据集上相较传统方法分类准确率最高提升16%,在小样本条件下展现出良好的稳定性与泛化能力. 展开更多
关键词 轻度认知障碍 高阶功能连接 特征降维 功能磁共振成像 vit
原文传递
优化ViT用于黑色素瘤分类:特征筛选与InfoNCE损失的结合
2
作者 黄金杰 马媛雪 《光学精密工程》 北大核心 2025年第16期2649-2660,共12页
针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键... 针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键特征并抑制冗余信息;其次,引入InfoNCE对比损失函数,联合交叉熵损失构建多目标优化框架,增强类间特征区分度;最后,在多头自注意力机制中嵌入关键特征引导机制,实现局部细节与全局语义的协同建模。在ISIC2018和ISIC2019数据集上的实验结果表明:改进模型分类准确率分别达到83.27%和80.17%,较基线ViT模型提升1.83%和0.49%;消融实验验证动态筛选模块减少18.7%冗余计算量,对比学习使类内特征相似度提升23.6%。所提方法显著提高了ViT模型对黑色素瘤的识别能力,分类精度与鲁棒性优于主流模型,为皮肤癌早期诊断提供了高精度、低冗余的自动化解决方案,具有一定的临床实用价值。 展开更多
关键词 图像分类 特征筛选 InfoNCE损失函数 vit模型
在线阅读 下载PDF
基于ViT-EN复合模型的朱墨时序显微图像识别研究
3
作者 黄锐 翁宗州 谢小雪 《中国人民公安大学学报(自然科学版)》 2025年第4期9-20,共12页
朱墨时序鉴定作为文书鉴定的重要组成部分,其传统鉴定方法依赖于鉴定人的主观经验,在复杂案件中易出现结论可靠性不足和重复性差等问题。针对上述问题,提出一种基于深度学习模型的朱墨时序鉴定方法,实现了多场景下朱墨时序的快速鉴定。... 朱墨时序鉴定作为文书鉴定的重要组成部分,其传统鉴定方法依赖于鉴定人的主观经验,在复杂案件中易出现结论可靠性不足和重复性差等问题。针对上述问题,提出一种基于深度学习模型的朱墨时序鉴定方法,实现了多场景下朱墨时序的快速鉴定。该方法通过采集字迹与印文交叉、非交叉部位的立体显微特征图像,构建2种字迹与3种印章组合的6类数据集,按8∶2的比例随机划分训练集和验证集;结合Vision Transformer (ViT)的全局上下文的捕捉能力与EfficientNet (EN)的局部特征高效提取能力,自主构建出ViT-EN(Vision Transformer-Efficient Net)复合模型,以达到对朱墨时序显微图像的快速准确智能识别。结果表明,6类数据集的验证准确率分别达到99.00%、98.00%、99.00%、100.00%、99.00%、98.00%。该方法为朱墨时序鉴定提供了一种客观、高效、可量化的智能辅助手段。 展开更多
关键词 朱墨时序 vit-EN 立体显微特征 图像识别 物证技术
在线阅读 下载PDF
一种基于空洞注意力与可变形卷积的轻量级ViT模型
4
作者 李攀峰 《电脑编程技巧与维护》 2025年第11期158-161,共4页
ViT虽性能优越,但其二次计算复杂度带来的高计算和内存成本,限制了其在边缘设备上的应用。为此,提出了一种名为DADCN-ViT的轻量级ViT模型。实验结果显示,DADCN-ViT在CIFAR-100图像分类任务上达到了99.7%的准确率,比当前最佳模型高出3.6%... ViT虽性能优越,但其二次计算复杂度带来的高计算和内存成本,限制了其在边缘设备上的应用。为此,提出了一种名为DADCN-ViT的轻量级ViT模型。实验结果显示,DADCN-ViT在CIFAR-100图像分类任务上达到了99.7%的准确率,比当前最佳模型高出3.6%,同时模型参数量减少了约21倍,是所有对比模型中规模最小的。构建了以DADCN-ViT为骨干网的简单有效的绝缘子检测框架,取得全类平均正确率(mAP)为95.2%的优异成绩。 展开更多
关键词 轻量级vit模型 DADCN-vit架构 CIFAR-100数据集
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:11
5
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 Vision Transformer(vit) 深度学习 自注意力
在线阅读 下载PDF
基于ViT-B深度学习模型的口腔良恶性病变图像分类研究 被引量:1
6
作者 崔宇琛 谢元栋 +3 位作者 吴聿淼 牛凌霄 常路广达 朱宪春 《口腔医学研究》 北大核心 2025年第1期16-20,共5页
目的:基于深度学习算法,对ViT-B模型检测口腔良性和恶性病变图像的性能进行分析,旨在为临床医生早期发现和准确诊断口腔癌提供有效工具。方法:使用包含口腔良性和恶性病变图像的公共数据集,对数据进行预处理和数据增强,按7∶2∶1的比例... 目的:基于深度学习算法,对ViT-B模型检测口腔良性和恶性病变图像的性能进行分析,旨在为临床医生早期发现和准确诊断口腔癌提供有效工具。方法:使用包含口腔良性和恶性病变图像的公共数据集,对数据进行预处理和数据增强,按7∶2∶1的比例将数据随机划分为训练集、验证集和测试集。选取ViT-B、VGG16、ResNet101、DenseNet121和EfficientNetV25种深度学习模型,对模型进行训练和性能比较。通过外部数据对ViT-B模型的泛化能力进行评估,并基于注意力权重的可视化方法对ViT-B模型进行分析。结果:ViT-B在5种模型中分类性能最佳,受试者工作特征曲线下面积为0.9715,准确率为91.00%。该模型可以有效区分口腔良性和恶性病变图像,具有较强的泛化能力和临床实用性。结论:ViT-B模型在口腔良性和恶性病变图像识别中表现良好,可以为口腔癌的早期发现和准确诊断提供支持。 展开更多
关键词 口腔癌 口腔病变 深度学习 vit-B
在线阅读 下载PDF
基于VITS的高性能歌声转换模型 被引量:1
7
作者 周柯汝 金伟 《现代信息科技》 2025年第12期129-133,140,共6页
歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流... 歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流为基础的多解耦特征约束的UVC(Ultra Singing Voice Conversion)模型,该模型以VIT模型为基础,通过结合ContentVec编码器和NSF-HIFI-GAN声码器,改进模型的输入和输出,极大地提高了转换音频的质量和流畅性,并具有较强的鲁棒性。 展开更多
关键词 歌声转换 vitS ContentVec编码器 NSF-HIFI-GAN声码器
在线阅读 下载PDF
融合全局与局部特征的两阶段ViT分心驾驶行为识别方法
8
作者 王腾 高尚兵 任刚 《中国图象图形学报》 北大核心 2025年第11期3617-3633,共17页
目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特... 目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特征的两阶段ViT分心驾驶行为识别方法。方法在第1阶段,为防止丢失先前层的信息,提出token信息补充模块,利用k层的class token来获得更全面的特征信息;在第2阶段,为解决特征复杂的图像识别问题,提出特征交互模块,通过交叉注意力机制和自注意力机制融合ViT全局特征和MobileNetV3局部特征。在提高识别准确率的基础上,提出两阶段注意力模块,用于缓解多头注意力可扩展性问题,从而进一步减少参数计算量。结果实验表明,在State Farm数据集和课题组自建的客运车辆分心驾驶行为数据集上,本文方法准确率分别达到99.69%和96.87%,较主干网络ViT-B_16分别提升1.86%和1.65%;相比于TransFG(Transformer architecture for fine-grained recognition)模型,准确率分别提升0.98%和1.04%,浮点数运算次数(floating point operations,FLOPs)分别降低26.87%和17.23%。两个数据集上的整体性能均优于前沿的识别方法。结论本文方法能够准确识别真实场景下的分心驾驶行为,具有更好的鲁棒性,为分类任务研究提供了新思路。 展开更多
关键词 智能交通 分心驾驶行为识别 视觉Transformer(vit) 注意力机制 特征融合
原文传递
融合Mobile Vit和倒置门控编解码的视网膜血管分割算法 被引量:1
9
作者 梁礼明 阳渊 +2 位作者 朱晨锟 何安军 吴健 《北京航空航天大学学报》 北大核心 2025年第3期712-723,共12页
针对视网膜血管分割时存在背景噪声干扰、边界纹理模糊和微细血管提取难等问题,提出一种融合Mobile Vit和倒置门控编解码的视网膜血管分割算法(FMVG-Net)。改进Mobile Vit模块,在编码部分实现双联合特征提取;利用多谱注意力模块,从频域... 针对视网膜血管分割时存在背景噪声干扰、边界纹理模糊和微细血管提取难等问题,提出一种融合Mobile Vit和倒置门控编解码的视网膜血管分割算法(FMVG-Net)。改进Mobile Vit模块,在编码部分实现双联合特征提取;利用多谱注意力模块,从频域维度减少图像特征信息缺失,精确分割血管前景像素;提出特征自适应融合模块,建立血管纹理上下文依赖关系,提高血管分割灵敏度;优化编解码结构,设计倒置门控编解码模块,进一步捕获空间信息与深层语义信息,提高视网膜血管图像分割精度。在公共数据集DRIVE、STARE和CHASE_DB1上对所提算法进行实验,特异性分别为0.9863、0.9897和0.9873,准确度分别为0.9709、0.9754和0.9760,敏感度分别为0.8109、0.8010和0.8079。仿真实验证明,所提网络对视网膜血管分割具有较好的分割效果,为眼科疾病的诊断提供了新窗口。 展开更多
关键词 视网膜血管 Mobile vit模块 离散余弦变换 倒置门控编解码模块 特征自适应融合
原文传递
基于时频表示与ViT的航天器姿态系统智能故障诊断方法
10
作者 李婷 高升 +1 位作者 张伟 张荣鹏 《上海航天(中英文)》 2025年第6期26-35,56,共11页
针对传统深度学习方法在复杂航天任务中存在的特征提取局限及故障诊断精度受限的问题,本文提出一种基于时频表示与Vision Transformer(TFViT)的故障诊断方法。该方法首先将原始信号转换为多通道时频表示图像(TFRs),以充分保留信号中的... 针对传统深度学习方法在复杂航天任务中存在的特征提取局限及故障诊断精度受限的问题,本文提出一种基于时频表示与Vision Transformer(TFViT)的故障诊断方法。该方法首先将原始信号转换为多通道时频表示图像(TFRs),以充分保留信号中的时频特征;在此基础上,通过优化TFViT模型的输入层与特征提取模块,进一步提高了模型对时频表示图像中全局依赖关系的捕捉能力,进而实现对不同时频区域特征的深度挖掘。在基于航天器半物理仿真平台构建的实验数据集上,通过系统实验确定了TFViT模型的最优超参数配置。实验结果表明:TFViT模型在故障诊断任务中展现出卓越性能,与多种先进深度学习方法的对比分析,充分验证了所提方法在诊断准确性、鲁棒性方面均具有显著优势。 展开更多
关键词 故障诊断 航天器姿态系统 特征提取 时频表示(TFR) Vision Transformer(vit)
在线阅读 下载PDF
船舶大型低速柴油机VIT机构研究 被引量:2
11
作者 刘建安 《船舶标准化工程师》 2014年第2期25-29,共5页
在船舶大型低速柴油机的管理维护过程中,其VIT机构较之于柴油机其他部件更易于出现复杂的管理状况,甚至发生设备故障,针对此现象,文章研究分析了船舶大型低速主动力柴油机的VIT机构功能调整、故障处理和维护管理技术等三个方面的难点问... 在船舶大型低速柴油机的管理维护过程中,其VIT机构较之于柴油机其他部件更易于出现复杂的管理状况,甚至发生设备故障,针对此现象,文章研究分析了船舶大型低速主动力柴油机的VIT机构功能调整、故障处理和维护管理技术等三个方面的难点问题,提出了相应的预防措施和解决方案,为广大同行提供借鉴。 展开更多
关键词 vit机构 最大爆发压力 vit系统起始点 vit系统临界点 功能调整 故障处理 维护管理
在线阅读 下载PDF
基于VIT网络的复合材料栓接结构挤压极限快速预测方法研究
12
作者 任宇 刘禹铭 +2 位作者 林清源 赵勇 程辉 《上海航天(中英文)》 2025年第2期121-134,共14页
针对复合材料栓接结构(CBJ)多源装配要素耦合作用下挤压极限预测难题及传统数值模拟效率低下等问题,提出一种基于Vision Transformer(VIT)框架的挤压极限快速预测方法。通过融合装配过程中几何形变参数与物理性能参数,构建多源装配参数... 针对复合材料栓接结构(CBJ)多源装配要素耦合作用下挤压极限预测难题及传统数值模拟效率低下等问题,提出一种基于Vision Transformer(VIT)框架的挤压极限快速预测方法。通过融合装配过程中几何形变参数与物理性能参数,构建多源装配参数空间与挤压极限的非线性映射模型。首先,针对复材栓接结构装配过程的几何参量和性能参量进行分析与建模;其次,创新开发基于VIT架构的CBJ-VIT深度学习网络,采用多头自注意力机制实现多模态装配数据特征融合;最后,以航天薄壁结构复合材料栓接装配体为研究对象进行了实例验证。实验表明:CBJ-VIT模型预测结果与有限元分析结果高度一致,单次预测耗时从传统数值模拟的12.0 h降至8.1 s。在定性和定量评价中,该模型相较传统非图像数据处理方法预测精度提升85.02%,较非VIT架构模型精度提高76.24%。 展开更多
关键词 复合材料 栓接结构 多源因素耦合 形性融合 Vision Transformer(vit)
在线阅读 下载PDF
基于Wave-ViT的改进多通道深度残差网络的电能质量扰动分类
13
作者 刘大鹏 罗嘉宾 +3 位作者 刘勇 穆勇 董彪 张淑清 《计量学报》 北大核心 2025年第5期629-637,共9页
提出一种基于小波变换视觉自注意力(Wave-ViT)模型的改进多通道深度残差网络的电能质量扰动分类方法。首先将一维时间序列电能质量扰动(PQDs)信号作为通道一的输入;再将一维PQDs信号通过格拉姆角场(GAF)映射成为二维图像作为通道二的输... 提出一种基于小波变换视觉自注意力(Wave-ViT)模型的改进多通道深度残差网络的电能质量扰动分类方法。首先将一维时间序列电能质量扰动(PQDs)信号作为通道一的输入;再将一维PQDs信号通过格拉姆角场(GAF)映射成为二维图像作为通道二的输入;利用Wave-ViT模块深层挖掘二维GAF图像信息,并作为通道三的输入。接着分别对3个通道进行深层次的特征提取,构造适用于PQDs分类的多通道网络框架。通过消融实验,证实多通道对网络收敛速度和分类精度有互补作用。进一步的噪声实验和对比试验表明该方法特征提取能力强,所需迭代次数少,且抗噪性能好,对16种扰动在随机噪声和无噪声环境下的识别率分别能达到99.81%和99.19%,为电能质量扰动识别提供了一种新的思路。 展开更多
关键词 电磁计量 电能质量扰动 Wave-vit 深度残差网络 消融实验 噪声实验 扰动识别
在线阅读 下载PDF
基于ViT-KANs的双头通信网络协议数据类别概念漂移检测分类算法
14
作者 王润泽 张效义 +2 位作者 李青 任俊康 陈奕凡 《信息工程大学学报》 2025年第5期520-527,共8页
针对网络协议数据中的类别概念漂移问题,提出一种ViT-KANs的双头通信网络数据协议类别概念漂移检测分类算法。该算法通过集成Vision Transformer(ViT)的全局感知能力与Kol⁃mogorov-Arnold Networks(KANs)的灵活函数逼近能力,构建高效的... 针对网络协议数据中的类别概念漂移问题,提出一种ViT-KANs的双头通信网络数据协议类别概念漂移检测分类算法。该算法通过集成Vision Transformer(ViT)的全局感知能力与Kol⁃mogorov-Arnold Networks(KANs)的灵活函数逼近能力,构建高效的特征提取网络;并采用双头并行输出结构,分别处理旧类数据的分类与类别概念漂移的检测。此外,进一步利用验证集数据自适应计算置信度阈值,有效缓解训练阶段概念漂移样本缺失的问题。在Moore数据集、加拿大网络安全研究所2017年入侵检测评估数据集(CICIDS2017)和加拿大网络安全研究所对知识发现与数据挖掘竞赛数据集的改进版(NSL-KDD)3个数据集上的实验表明,所提方法较基线模型及分布外检测方法显著降低了检测错误率,同时保持优越的分类精度。 展开更多
关键词 类别概念漂移 vit-KANs模型 双头网络 置信度阈值 网络协议数据
在线阅读 下载PDF
基于改进ViT的语音情感识别
15
作者 汪珙 詹泳 《计算机与数字工程》 2025年第10期2837-2841,共5页
语音情感识别是提高人机交互体验的关键之一。当前的语音情感识别方法识别率仍然偏低,需进一步提升。为了满足语音情感识别的需求,论文在原有ViT模型的基础上,使用梅尔声谱图作为输入,采用重叠的横向滑动分块机制进行输入适配,并引入了... 语音情感识别是提高人机交互体验的关键之一。当前的语音情感识别方法识别率仍然偏低,需进一步提升。为了满足语音情感识别的需求,论文在原有ViT模型的基础上,使用梅尔声谱图作为输入,采用重叠的横向滑动分块机制进行输入适配,并引入了卷积混合注意力机制在获取全局信息的同时避免损失局部重要特征。在RAVDESS数据集上进行了实验,使用改进ViT模型的识别率为86.11%,高于其他模型,相对于原ViT模型提升了2.78%。实验结果表明,改进ViT模型对语音情感识别具有更好的识别效果。 展开更多
关键词 语音情感识别 语音分类 注意力机制 vit 卷积
在线阅读 下载PDF
具有VIT-VWA结构域的蛋白对衣藻纤毛长度和细胞大小的调控
16
作者 任雅慧 徐嘉 潘俊敏 《中国细胞生物学学报》 2025年第8期1785-1794,共10页
VIT-VWA结构域蛋白在多种生物过程中发挥关键作用,但其在纤毛长度及细胞大小调控中的功能仍不明确。该研究以莱茵衣藻(Chlamydomonas reinhardtii)为模型,通过同源序列比对和系统发育分析,鉴定出两个具有VIT-VWA结构域的蛋白FBB6L1和FBB... VIT-VWA结构域蛋白在多种生物过程中发挥关键作用,但其在纤毛长度及细胞大小调控中的功能仍不明确。该研究以莱茵衣藻(Chlamydomonas reinhardtii)为模型,通过同源序列比对和系统发育分析,鉴定出两个具有VIT-VWA结构域的蛋白FBB6L1和FBB6。功能缺失分析显示,FBB6L1和FBB6的敲除均导致纤毛长度显著延长,细胞体积明显增大,表明二者在纤毛–细胞大小协同稳态中发挥关键调控作用。进一步研究揭示,FBB6L1通过VWA结构域的MIDAS基序抑制纤毛生长,该蛋白缺失可提升纤毛组装速率,此表型源于对纤毛前体物质库的利用效率的提升。此外,FBB6L1缺失显著提升细胞生长速率,这进一步支持其在细胞大小调控中的重要作用。该研究揭示了FBB6L1和FBB6在纤毛长度及细胞大小调控中的协同机制,阐明了VIT-VWA结构域蛋白在细胞稳态调控中的新功能。 展开更多
关键词 纤毛长度 细胞大小 vit-VWA结构域 MIDAS基序 纤毛发生
原文传递
基于改进ViT的网络流量分类方法
17
作者 李道全 高洁 +1 位作者 聂若琳 胡一帆 《计算机工程与设计》 北大核心 2025年第2期431-437,共7页
目前网络流量分类方法中存在模型结构复杂、特征提取不足等问题,提出一种基于稀疏注意力的改进ViT(SA-ViT)网络流量分类模型。去除数据集中无关字段并转化为灰度图,划分为块序列输入编码器提取特征;引入Longformer稀疏注意力对Self-atte... 目前网络流量分类方法中存在模型结构复杂、特征提取不足等问题,提出一种基于稀疏注意力的改进ViT(SA-ViT)网络流量分类模型。去除数据集中无关字段并转化为灰度图,划分为块序列输入编码器提取特征;引入Longformer稀疏注意力对Self-attention进行优化,使其具有更高的局部与全局特征表达能力;通过对比图像相似度实现流量分类。通过网络公开数据集进行检测,其结果表明,所提算法在分类准确率、精确率以及F1分数等方面有较大提升,验证了该模型的科学性与可行性。 展开更多
关键词 流量分类 Vision Transformer(vit) 稀疏注意力 Longformer 编解码器 样本不均衡 灰度图
在线阅读 下载PDF
ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法
18
作者 张乔一 张瑞 霍光煜 《北京林业大学学报》 北大核心 2025年第10期128-138,共11页
【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图... 【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图像中全局上下文信息方面具有天然优势,尤其适用于形态多变的复杂环境。设计针对树木的视觉提示调优VPT机制,其通过在特征中注入可学习提示(prompts),优化模型在林地高密度树冠、光照变化及不同树种结构下的特征提取能力,提高对不同林分类型的适应性。设计卷积模块的注意力机制模块,利用其在局部感知基础上的长距离依赖建模能力,有效强化模型对树木遮挡、重叠及形态相似目标的辨别能力,提高整体检测的鲁棒性与准确性。设计一个树木检测解码器,通过多层卷积、归一化、GELU激活与上采样操作逐步还原空间分辨率,以生成的目标密度图实现树木计数与定位。【结果】该方法在提升森林、城市场景下的树木检测鲁棒性的同时,增强了模型在多尺度树木目标上的泛化能力。在Larch Casebearer数据集和Urban Tree数据集上进行的实验显示,与其他主流模型相比,该方法的MAE和RMSE最多分别降低了2.53、3.99,表明其泛化能力更强,具有最优的树木检测性能。可视化实验结果表明,在密集森林场景和复杂城市场景中,所提模型均具有较高的树木检测准确率。消融实验的结果证明了模型主要模块的有效性。【结论】基于Vision Transformer的面向复杂场景的树木计数与定位方法能够充分发挥ViT的全局建模能力及视觉提示调优机制任务适应性,结合卷积模块的注意力机制,有效提升复杂场景树木计数与定位的精度与鲁棒性。 展开更多
关键词 目标识别 树木计数 树木定位 复杂场景 Vision Transformer(vit) 视觉提示调优(VPT) 注意力机制
在线阅读 下载PDF
基于ViT-Dense-GRU的往复压缩机轴承间隙故障诊断方法
19
作者 王金东 袁瑜 +1 位作者 赵海洋 文浩东 《化工机械》 2025年第3期455-461,467,共8页
针对单一密集连接网络(DenseNet)面对往复压缩机复杂工况时,出现因识别率低、时序特征提取不充分、鲁棒性差,进而导致轴承间隙故障特征提取不充分的问题,将DenseNet、视觉Transformer(ViT)和门控循环单元(GRU)相融合,构建一种新的故障... 针对单一密集连接网络(DenseNet)面对往复压缩机复杂工况时,出现因识别率低、时序特征提取不充分、鲁棒性差,进而导致轴承间隙故障特征提取不充分的问题,将DenseNet、视觉Transformer(ViT)和门控循环单元(GRU)相融合,构建一种新的故障诊断模型,提出一种基于ViT-Dense-GRU的轴承间隙故障诊断方法。利用2D12型天然气往复压缩机轴承间隙故障数据集对所提模型与4种对比模型进行对比分析,结果表明:所提模型的准确率高达99.381%,损失降低至0.032,鲁棒性测试效果最好,实现了对往复压缩机轴承间隙故障的准确识别。 展开更多
关键词 往复压缩机 轴承 密集连接网络 视觉Transformer 门控循环单元 故障诊断
在线阅读 下载PDF
基于增强频域结合微调ViT的滚动轴承故障诊断模型
20
作者 张朝阳 王琳 张会兵 《移动信息》 2025年第3期258-261,共4页
针对轴承诊断模型存在训练时间长、诊断准确性波动较大的问题,文中提出了一种基于增强频域特征结合微调ViT的模型。首先,基于频域转换和矩阵展开获得矩阵特征。其次,使用增强操作增强特征的表达范围。最后,基于ViT模型进行训练和微调,... 针对轴承诊断模型存在训练时间长、诊断准确性波动较大的问题,文中提出了一种基于增强频域特征结合微调ViT的模型。首先,基于频域转换和矩阵展开获得矩阵特征。其次,使用增强操作增强特征的表达范围。最后,基于ViT模型进行训练和微调,得到诊断模型。实验结果证明,该方法可以有效缩短训练时间,提高模型对各类任务的准确性,且具备更高的稳定性。 展开更多
关键词 特征增强 MMD vit 故障诊断
在线阅读 下载PDF
上一页 1 2 25 下一页 到第
使用帮助 返回顶部