期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于Wave-ViT的改进多通道深度残差网络的电能质量扰动分类
1
作者 刘大鹏 罗嘉宾 +3 位作者 刘勇 穆勇 董彪 张淑清 《计量学报》 北大核心 2025年第5期629-637,共9页
提出一种基于小波变换视觉自注意力(Wave-ViT)模型的改进多通道深度残差网络的电能质量扰动分类方法。首先将一维时间序列电能质量扰动(PQDs)信号作为通道一的输入;再将一维PQDs信号通过格拉姆角场(GAF)映射成为二维图像作为通道二的输... 提出一种基于小波变换视觉自注意力(Wave-ViT)模型的改进多通道深度残差网络的电能质量扰动分类方法。首先将一维时间序列电能质量扰动(PQDs)信号作为通道一的输入;再将一维PQDs信号通过格拉姆角场(GAF)映射成为二维图像作为通道二的输入;利用Wave-ViT模块深层挖掘二维GAF图像信息,并作为通道三的输入。接着分别对3个通道进行深层次的特征提取,构造适用于PQDs分类的多通道网络框架。通过消融实验,证实多通道对网络收敛速度和分类精度有互补作用。进一步的噪声实验和对比试验表明该方法特征提取能力强,所需迭代次数少,且抗噪性能好,对16种扰动在随机噪声和无噪声环境下的识别率分别能达到99.81%和99.19%,为电能质量扰动识别提供了一种新的思路。 展开更多
关键词 电磁计量 电能质量扰动 Wave-vit 深度残差网络 消融实验 噪声实验 扰动识别
在线阅读 下载PDF
基于ViT-KANs的双头通信网络协议数据类别概念漂移检测分类算法
2
作者 王润泽 张效义 +2 位作者 李青 任俊康 陈奕凡 《信息工程大学学报》 2025年第5期520-527,共8页
针对网络协议数据中的类别概念漂移问题,提出一种ViT-KANs的双头通信网络数据协议类别概念漂移检测分类算法。该算法通过集成Vision Transformer(ViT)的全局感知能力与Kol⁃mogorov-Arnold Networks(KANs)的灵活函数逼近能力,构建高效的... 针对网络协议数据中的类别概念漂移问题,提出一种ViT-KANs的双头通信网络数据协议类别概念漂移检测分类算法。该算法通过集成Vision Transformer(ViT)的全局感知能力与Kol⁃mogorov-Arnold Networks(KANs)的灵活函数逼近能力,构建高效的特征提取网络;并采用双头并行输出结构,分别处理旧类数据的分类与类别概念漂移的检测。此外,进一步利用验证集数据自适应计算置信度阈值,有效缓解训练阶段概念漂移样本缺失的问题。在Moore数据集、加拿大网络安全研究所2017年入侵检测评估数据集(CICIDS2017)和加拿大网络安全研究所对知识发现与数据挖掘竞赛数据集的改进版(NSL-KDD)3个数据集上的实验表明,所提方法较基线模型及分布外检测方法显著降低了检测错误率,同时保持优越的分类精度。 展开更多
关键词 类别概念漂移 vit-KANs模型 双头网络 置信度阈值 网络协议数据
在线阅读 下载PDF
融合CNN和ViT的声信号轴承故障诊断方法 被引量:11
3
作者 宁方立 王珂 郝明阳 《振动与冲击》 EI CSCD 北大核心 2024年第3期158-163,170,共7页
针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像... 针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像作为卷积神经网络的输入,用于隐式提取图像的深层特征,其输出作为视觉转换器的输入。视觉转换器用于提取信号的时间序列信息。并在输出层利用Softmax函数实现故障模式的识别。试验结果表明,该方法对于轴承故障诊断准确率较高。为了更好解释和优化提出的轴承故障诊断方法,利用t-分布领域嵌入算法对分类特征进行了可视化展示。 展开更多
关键词 短时傅里叶变换 卷积神经网络 视觉转换器 t-分布领域嵌入算法
在线阅读 下载PDF
融合VIT与CNN注意力机制的面部疼痛评估算法研究 被引量:2
4
作者 郭士杰 卢世杰 +2 位作者 耿艳利 顾博文 孙浩 《计算机工程与应用》 CSCD 北大核心 2024年第15期277-283,共7页
准确的疼痛评估可以为病人镇痛提供一定指导,为解决传统人工疼痛评估效率低、费时费力等问题,提出一种基于VIT与CNN注意力机制的面部疼痛评估算法,对疼痛进行多级预测。搭建面部疼痛表情采集平台,提取视频帧序列并进行数据预处理,建立... 准确的疼痛评估可以为病人镇痛提供一定指导,为解决传统人工疼痛评估效率低、费时费力等问题,提出一种基于VIT与CNN注意力机制的面部疼痛评估算法,对疼痛进行多级预测。搭建面部疼痛表情采集平台,提取视频帧序列并进行数据预处理,建立疼痛表情数据库;提出一种改进的多尺度通道注意力模块关注关键特征信息,将CNN和VIT作为主干网络并行连接,提取更高级的面部局部-全局特征,以时序方式输入长短期记忆网络(LSTM)进行疼痛评估;在疼痛表情数据库上进行模型性能验证,实验结果表明,该算法在精确率、召回率、F1分数、准确率指标方面分别达到96.8%、96.7%、0.97、96.8%,与其他深度学习模型相比可更有效识别疼痛,为康复领域疼痛评估研究做出一定贡献。 展开更多
关键词 疼痛评估 面部表情 vit网络 卷积神经网络 注意力机制
在线阅读 下载PDF
融合ViT卷积神经网络的木板表面缺陷识别 被引量:10
5
作者 郭文龙 刘芳华 +3 位作者 吴万毅 李冲 肖鹏 刘朝 《计算机科学》 CSCD 北大核心 2022年第S02期609-614,共6页
由于需要通过木板表面缺陷对木板分级,而人工检测存在一定问题。为解决木板表面缺陷识别问题,提出一种融合ViT的卷积神经网络模型,用于提高缺陷识别的准确率。为此,收集裂缝、虫眼、节子和纹理4种木板表面缺陷图片,其中裂缝和虫眼图片... 由于需要通过木板表面缺陷对木板分级,而人工检测存在一定问题。为解决木板表面缺陷识别问题,提出一种融合ViT的卷积神经网络模型,用于提高缺陷识别的准确率。为此,收集裂缝、虫眼、节子和纹理4种木板表面缺陷图片,其中裂缝和虫眼图片数量远少于节子和纹理。为解决模型训练时样本不均衡问题,利用ProGAN对裂缝和虫眼图片进行训练并生成同类型缺陷图片,以增加其数量,使4种图片数量保持平衡,并在实验前对缺陷图片进行数据增强并添加椒盐噪声,整理得到所需图片数据集。基于融合ViT的卷积神经网络模型,利用数据集验证两种不同激活函数的模型,结果表明使用GELU作为激活函数的模型性能更高。并测试不同的transformer深度时模型的性能,得到的模型缺陷识别的最高准确率可达到98.54%。实验结果表明,融合ViT的卷积神经网络模型是可行的,为木板表面缺陷自动检测提供了新思路。 展开更多
关键词 木板表面缺陷 ProGAN vit 卷积神经网络 深度学习
在线阅读 下载PDF
基于ViT与语义引导的视频内容描述生成 被引量:3
6
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 vit模型 语义引导 长短期记忆网络 注意力机制
在线阅读 下载PDF
融合一维Inception结构与ViT的恶意加密流量检测 被引量:11
7
作者 孙懿 高见 顾益军 《计算机工程》 CAS CSCD 北大核心 2023年第1期154-162,共9页
在互联网加密化背景下,传统恶意流量检测方法在加密流量上的特征区分度较差,为更好地从加密流量中检测出恶意流量,设计一个融合一维Inception-ViT的恶意加密流量检测模型。基于流量数据的时序性特点,通过一维Inception结构对GoogLeNet中... 在互联网加密化背景下,传统恶意流量检测方法在加密流量上的特征区分度较差,为更好地从加密流量中检测出恶意流量,设计一个融合一维Inception-ViT的恶意加密流量检测模型。基于流量数据的时序性特点,通过一维Inception结构对GoogLeNet中的Inception结构进行改进,使用适用于序列数据的一维卷积替换二维卷积,并添加池化操作去除一些冗余信息的干扰。同时,融合ViT模型,将经过一维Inception结构处理后的数据输入到ViT模型中,利用多头注意力突出重要特征,增强特征区分度以提升模型检测结果。为验证一维Inception-ViT模型各模块的有效性,与6种变体模型进行对比,实验结果表明,一维Inception-ViT模型性能最好,平均召回率和平均F1值指标分别达到了99.42%和99.39%。此外,与其他8种现有模型进行比较,一维Inception-ViT模型具有更好的检测效果,同时在恶意加密流量Neris和Virut细粒度分类上,与性能最好的基准模型相比,一维Inception-ViT模型能够有效减少样本检测混淆,可更准确地对恶意加密流量进行识别。 展开更多
关键词 加密流量 恶意加密流量检测 多分类 卷积神经网络 Vision Transformer模型
在线阅读 下载PDF
基于ResNet和ViT双流网络的小麦病虫害识别 被引量:3
8
作者 王汉生 姚建斌 《农业技术与装备》 2024年第2期18-21,共4页
针对小麦病虫害识别过程中,传统深度学习模型表现不稳定、识别精度低、泛化能力有限的现状,提出了新的双流网络模型,即结合ResNet和ViT以提高识别准确性。该方法融合了卷积神经网络处理图像局部结构,同时利用Transformer捕捉长距离依赖... 针对小麦病虫害识别过程中,传统深度学习模型表现不稳定、识别精度低、泛化能力有限的现状,提出了新的双流网络模型,即结合ResNet和ViT以提高识别准确性。该方法融合了卷积神经网络处理图像局部结构,同时利用Transformer捕捉长距离依赖关系,改进了识别性能。通过2070张小麦病虫害图片数据集训练验证,调整ResNet50和ViT预训练模型参数,结果显示,双流模型在训练集上达96.5%准确率,在验证集获0.94的F_(1)分数,明显优于其他主流单一模型。结果证实,新模型在小麦病虫害识别卓越性能,为其在智能农业系统中广泛应用提供潜力。 展开更多
关键词 小麦病虫害识别 ResNet vit 双流网络 深度学习
在线阅读 下载PDF
基于ChipGAN-ViT模型的汉绣艺术风格迁移与模拟 被引量:3
9
作者 沙莎 李怡 +1 位作者 蒋惠敏 陈雅卓 《纺织工程学报》 2023年第5期68-77,共10页
针对真实图像与汉绣图像在风格迁移融合过程中产生的针法工艺模糊和边界伪影问题,提出了基于ChipGAN-ViT模型的汉绣风格迁移方法。由于刺绣纹样内部与背景留白具有不同的线迹填充效果,算法首先利用ChipGAN-ViT模型对前景进行纹理重构,... 针对真实图像与汉绣图像在风格迁移融合过程中产生的针法工艺模糊和边界伪影问题,提出了基于ChipGAN-ViT模型的汉绣风格迁移方法。由于刺绣纹样内部与背景留白具有不同的线迹填充效果,算法首先利用ChipGAN-ViT模型对前景进行纹理重构,再利用循环生成对抗网络对风格图像和内容图像进行风格迁移;其次,采用Sobel算子对汉绣图像进行边缘轮廓提取,以满足汉绣数字化模拟的内容图像需求;最后,对生成的风格迁移图像进行超分辨率处理获得最终汉绣数字化图像。实验结果表明:该方法可有效模拟出汉绣平顺且配色丰富的艺术特点,相比传统的ChipGAN、CNN算法迁移时间缩减了30.58%和41.52%。所提出的汉绣风格迁移方法是对风格迁移技术的有效补充,为汉绣图案的创新设计提供了新的可能。 展开更多
关键词 风格迁移 生成对抗网络 ChipGAN-vit模型 损失函数 画稿模拟
在线阅读 下载PDF
面向卫星网络的流量分类方法研究
10
作者 莫定涛 俱莹 +3 位作者 李文进 张亚生 何辞 董飞虎 《计算机工程》 北大核心 2025年第5期9-19,共11页
卫星网络具有覆盖范围广、机动性强及功耗超低等优势,可作为地面通信网络的重要补充和延伸,推动构建空天地一体化网络。然而,随着卫星业务的开放普及,卫星网络流量激增且日益复杂,给卫星网络的管理及业务调度带来了严峻挑战。显然,设计... 卫星网络具有覆盖范围广、机动性强及功耗超低等优势,可作为地面通信网络的重要补充和延伸,推动构建空天地一体化网络。然而,随着卫星业务的开放普及,卫星网络流量激增且日益复杂,给卫星网络的管理及业务调度带来了严峻挑战。显然,设计一种高效的网络流量分类方法,给不同类型的卫星网络流量分配合理的计算资源,成为缓解卫星网络压力的关键。基于端口、载荷、统计以及行为的传统网络流量分类方法存在有效性、隐私性等问题,已经不再满足复杂网络业务的需求。随着大模型的发展,各种大模型技术得到广泛应用。因此,为提升卫星网络的业务调度效率并优化卫星网络算力,提出一种基于全局感知模块(GPM)-ViT(Vision Transformer)模型的网络流量分类方法。基于网络流量数据,将流量会话数据转化为灰度图片,经过特征提取模块,充分提取图片全局和局部信息。将处理后的数据输入ViT,利用其多头注意力机制提取数据关联信息,增强分类能力。实验结果表明,GPM-ViT模型的分类准确率达到97.86%,相比基准模型有所提升。 展开更多
关键词 网络流量 分类 卫星网络 特征 vit网络
在线阅读 下载PDF
一种交互连接CNN和Transformer的肠道息肉图像分类网络 被引量:1
11
作者 曹博 叶淑芳 +3 位作者 饶钰君 汤晓恒 何熊熊 李胜 《小型微型计算机系统》 北大核心 2025年第4期932-939,共8页
利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分... 利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分类任务亟需改善.CNN中的卷积算子擅长提取局部特征.ViT通过级联自注意力模块可以捕获长距离依赖关系和全局特征.本文提出一个交互连接模块,以交互式的方式将CNN和ViT相连接,以整合多尺度特征;所设计的交互混合模型,能最大限度地保留局部特征和全局表示,显著缓解息肉多分类的类内差异性大、类间相似性高的问题;在大规模自然图像数据集中进行预训练;通过微调模型结构,使用预训练的交互混合模型参数初始化主干网络,并迁移至结直肠息肉数据集中再次训练,实现息肉多分类.在结直肠息肉私有数据集和Kvasir公共数据集上评估所提出模型,实验结果显示总体分类准确率分别达到了85.83%和96.84%,优于本文比较的其他算法;且引入迁移学习可以在降低训练成本的同时提升交互混合模型的分类性能和泛化性,在有限的训练数据集下有助于提高临床诊断效率. 展开更多
关键词 卷积神经网络(CNN) 视觉Transformer(vit) 结直肠息肉分类 多尺度特征 迁移学习
在线阅读 下载PDF
基于深度学习的医学图像分割方法综述 被引量:4
12
作者 石军 王天同 +3 位作者 朱子琦 赵敏帆 王炳勋 安虹 《中国图象图形学报》 北大核心 2025年第6期2161-2186,共26页
医学图像分割是临床医学图像分析的重要组成部分,目标是准确识别和分割医学图像中的人体解剖结构或病灶等感兴趣区域,为临床疾病的诊断、治疗规划以及术后评估等应用场景提供客观、量化的决策依据。随着可用标注数据规模的不断增长,基... 医学图像分割是临床医学图像分析的重要组成部分,目标是准确识别和分割医学图像中的人体解剖结构或病灶等感兴趣区域,为临床疾病的诊断、治疗规划以及术后评估等应用场景提供客观、量化的决策依据。随着可用标注数据规模的不断增长,基于深度学习的医学图像分割方法迅速发展,展现出远超传统图像分割方法的精度和鲁棒性,已成为该领域的主流技术。为了进一步提高分割精度,大量研究集中在对分割模型的结构改进上,产生了一系列结构迥异的分割方法。总的来说,现有的基于深度学习的医学图像分割方法从模型结构上可以分为3类:基于卷积神经网络(convolutional neural network, CNN)、基于视觉Transformer以及基于视觉Mamba。其中,以U-Net为代表的基于CNN的方法最早广泛应用于各类医学图像分割任务。这类方法一般以卷积操作为核心,能够有效提取图像的局部特征。相比之下,基于视觉Transformer的方法更擅长捕捉全局信息和长距离依赖关系,能够更好地处理复杂的上下文信息。基于视觉Mamba的方法作为一种新兴架构,具有全局感受野和线性计算复杂度的特点,表现出巨大的应用潜力。为了深入了解基于深度学习的医学图像分割方法的发展脉络、优势与不足,本文对现有方法进行系统梳理和综述。首先简要回顾上述3类主流分割方法的结构演进历程,分析不同方法的结构特点、优势与局限性,然后从算法结构、学习方法和任务范式等多方面深入探讨医学图像分割领域面临的主要挑战及机遇,最后对基于深度学习的医学图像分割方法的未来发展方向和应用前景进行深入分析和讨论。 展开更多
关键词 深度学习(DL) 医学图像分割 卷积神经网络(CNN) 视觉Transformer(vit) 视觉Mamba
原文传递
基于CNN和Transformer融合的人脸表情识别方法研究
13
作者 居锦武 梁逢财 石睿 《新乡学院学报》 2025年第12期48-53,共6页
人脸表情识别(FER)是智慧医疗、自动驾驶领域非常广的一个应用,它能够辅助医护人员判别病人的健康状况,实时检测驾驶员的状态保证驾驶安全。传统视觉自注意力模型(ViT)基于多头自注意力(MSA)机制具有强大的全局信息提取能力,而缺少卷积... 人脸表情识别(FER)是智慧医疗、自动驾驶领域非常广的一个应用,它能够辅助医护人员判别病人的健康状况,实时检测驾驶员的状态保证驾驶安全。传统视觉自注意力模型(ViT)基于多头自注意力(MSA)机制具有强大的全局信息提取能力,而缺少卷积网络具有的局部特征提取能力。对于具有相似性的细粒度表情识别任务,判别性和有效的局部特征对于正确分类至关重要。此外,ViT由于缺乏归纳偏置,全局空间上下文表示能力需要长时间的训练和大规模的预训练数据集。为了解决上述问题,本文提出了一种卷积神经网络(CNN)和ViT的混合架构TFERC-Vi,以提高FER能力。它将即插即用的CNN特征与ViT相结合。与原始ViT相比,该模型在相对较少的训练数据下也能实现快速且平稳的收敛。本文方法在FER2013和RAF-DB数据集上进行了大量实验,分别取得74.85%和87.89%的准确率。 展开更多
关键词 vit 卷积神经网络 多头自注意力 表情识别
在线阅读 下载PDF
小样本条件下轻量化齿轮箱特征提取与故障诊断方法
14
作者 柳江斧 张建超 莫益辉 《制造业自动化》 2025年第7期32-39,共8页
针对传统卷积神经网络在小样本条件下不能有效提取全局特征以及部分深度学习模型较为复杂的问题,提出一种基于多尺度卷积神经网络(Multiscale Convolutional Neural Networks,MCNN)与特征融合(Vision Transformer,ViT)的轻量化齿轮箱故... 针对传统卷积神经网络在小样本条件下不能有效提取全局特征以及部分深度学习模型较为复杂的问题,提出一种基于多尺度卷积神经网络(Multiscale Convolutional Neural Networks,MCNN)与特征融合(Vision Transformer,ViT)的轻量化齿轮箱故障诊断方法。首先,构建多尺度特征提取模块,该模块通过多尺度卷积神经网络利用不同尺度的卷积核从多个尺度捕捉数据的特征信息,充分挖掘输入信息的局部特征。然后,设计特征融合ViT模块,该模块利用改进的多头注意力机制获取故障信息的全局特征,进一步构建D-MLP,使用深度可分离卷积减少模型的参数量。最后,使用东南大学齿轮箱数据集进行实验验证,结果表明,相比于对比方法,所提方法在变噪声、小样本等复杂条件下具有较高的故障诊断准确率和良好的泛化能力。 展开更多
关键词 齿轮箱 故障诊断 多尺度卷积神经网络 特征融合vit模块
在线阅读 下载PDF
CNN结合Transformer的深度伪造高效检测 被引量:13
15
作者 李颖 边山 +1 位作者 王春桃 卢伟 《中国图象图形学报》 CSCD 北大核心 2023年第3期804-819,共16页
目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型... 目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型各自的优缺点,以及不同域特征在检测场景下的适用性,提出了一种高效的CNN(convolutional neural network)结合Transformer的联合模型。方法 设计基于Efficient Net的空间域特征提取分支及频率域特征提取分支,以丰富单分支的特征表示。之后与Transformer的编码器结构、交叉注意力结构进行连接,对全局区域间特征相关性进行建模。针对跨压缩、跨库场景下深度伪造检测模型精度下降问题,设计注意力机制及嵌入方式,结合数据增广策略,提高模型在跨压缩率、跨库场景下的鲁棒性。结果 在Face Forensics++的4个数据集上与其他9种方法进行跨压缩率的精度比较,在交叉压缩率检测实验中,本文方法对Deepfake、Face2Face和Neural Textures伪造图像的检测准确率分别达到90.35%、71.79%和80.71%,优于对比算法。在跨数据集的实验中,本文模型同样优于其他方法,并且同设备训练耗时大幅缩减。结论 本文提出的联合模型综合了卷积神经网络和Vision Transformer的优点,利用了不同域特征的检测特性及注意力机制和数据增强机制,改善了深度伪造检测在跨压缩、跨库检测时的效果,使模型更加准确且高效。 展开更多
关键词 深度伪造检测 卷积神经网络(CNN) Vision Transformer(vit) 空间域 频率域
原文传递
人群计数研究综述 被引量:12
16
作者 卢振坤 刘胜 +2 位作者 钟乐 刘绍航 张甜 《计算机工程与应用》 CSCD 北大核心 2022年第11期33-46,共14页
人群计数广泛应用在公共安防、视频监控和智慧城市建设等领域,对控制特定场所人数、指挥公共交通、防止疫情蔓延、保障社会稳定具有重要积极意义。传统的计数方法精度不高、场景受限,随着深度学习的发展,传统方法逐渐被卷积神经网络(con... 人群计数广泛应用在公共安防、视频监控和智慧城市建设等领域,对控制特定场所人数、指挥公共交通、防止疫情蔓延、保障社会稳定具有重要积极意义。传统的计数方法精度不高、场景受限,随着深度学习的发展,传统方法逐渐被卷积神经网络(convolutional neural network,CNN)方法代替。介绍了人群计数的研究背景、现状和发展趋势,叙述了两种传统方法;从计数精度、网络结构、评价指标和数据集等方面重点分析了CNN方法,发现CNN技术可以有效解决多尺度和跨场景等问题;阐述了基于Vision Transformer(ViT)序列的弱监督计数方法并且对比各类方法。对未来人群计数的研究前景做出展望。 展开更多
关键词 人群计数 卷积神经网络 VisionTransformer(vit)序列 密度估计
在线阅读 下载PDF
视觉Transformer预训练模型的胸腔X线影像多标签分类 被引量:8
17
作者 邢素霞 鞠子涵 +2 位作者 刘子骄 王瑜 范福强 《中国图象图形学报》 CSCD 北大核心 2023年第4期1186-1197,共12页
目的基于计算机的胸腔X线影像疾病检测和分类目前存在误诊率高,准确率低的问题。本文在视觉Transformer(vision Transformer,ViT)预训练模型的基础上,通过迁移学习方法,实现胸腔X线影像辅助诊断,提高诊断准确率和效率。方法选用带有卷... 目的基于计算机的胸腔X线影像疾病检测和分类目前存在误诊率高,准确率低的问题。本文在视觉Transformer(vision Transformer,ViT)预训练模型的基础上,通过迁移学习方法,实现胸腔X线影像辅助诊断,提高诊断准确率和效率。方法选用带有卷积神经网络(convolutional neural network,CNN)的ViT模型,其在超大规模自然图像数据集中进行了预训练;通过微调模型结构,使用预训练的ViT模型参数初始化主干网络,并迁移至胸腔X线影像数据集中再次训练,实现疾病多标签分类。结果在IU X-Ray数据集中对ViT迁移学习前、后模型平均AUC(area under ROC curve)得分进行对比分析实验。结果表明,预训练ViT模型平均AUC得分为0.774,与不使用迁移学习相比提升了0.208。并针对模型结构和数据预处理进行了消融实验,对ViT中的注意力机制进行可视化,进一步验证了模型有效性。最后使用Chest X-Ray14和CheXpert数据集训练微调后的ViT模型,平均AUC得分为0.839和0.806,与对比方法相比分别有0.014~0.031的提升。结论与其他方法相比,ViT模型胸腔X线影像的多标签分类精确度更高,且迁移学习可以在降低训练成本的同时提升ViT模型的分类性能和泛化性。消融实验与模型可视化表明,包含CNN结构的ViT模型能重点关注有意义的区域,高效获取胸腔X线影像的视觉特征。 展开更多
关键词 胸腔X线影像 多标签分类 卷积神经网络(CNN) 视觉Transformer(vit) 迁移学习
原文传递
融合注意力机制的毫米波雷达人体动作识别方法 被引量:1
18
作者 蒋留兵 裴航舰 车俐 《空天预警研究学报》 CSCD 2023年第5期349-354,共6页
为解决少样本场景下毫米波雷达人体动作识别过程中卷积神经网络(CNN)易出现过拟合、训练效果不理想等问题,提出一种融入时序注意力机制的CNN和视觉转换器模型结合的方法.该方法首先对收到的雷达回波信息做预处理,再通过短时傅里叶变换(S... 为解决少样本场景下毫米波雷达人体动作识别过程中卷积神经网络(CNN)易出现过拟合、训练效果不理想等问题,提出一种融入时序注意力机制的CNN和视觉转换器模型结合的方法.该方法首先对收到的雷达回波信息做预处理,再通过短时傅里叶变换(STFT)进行时频分析得到时频图,最终将带有特征信息的图像送入融合的网络模型中进行分类识别.实验结果表明,与其他4种模型的方法相比,本文提出的方法识别准确率最高,识别效果可达到91.57%.该方法能有效地增强网络对于时间维度建模,增加了网络收敛速度,达到了提升识别准确率的效果. 展开更多
关键词 毫米波雷达 卷积神经网络 视觉转换器 注意力机制 动作识别
在线阅读 下载PDF
融合局部与全局特征的DCE-MRI乳腺肿瘤良恶分类 被引量:2
19
作者 赵小明 廖越辉 +4 位作者 张石清 方江雄 何遐遐 汪国余 卢洪胜 《中国图象图形学报》 CSCD 北大核心 2024年第1期256-267,共12页
目的基于计算机辅助诊断的乳腺肿瘤动态对比增强磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)检测和分类存在着准确度低、缺乏可用数据集等问题。方法针对这些问题,建立一个乳腺DCE-MRI影像数据集,并提... 目的基于计算机辅助诊断的乳腺肿瘤动态对比增强磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)检测和分类存在着准确度低、缺乏可用数据集等问题。方法针对这些问题,建立一个乳腺DCE-MRI影像数据集,并提出一种将面向局部特征学习的卷积神经网络(convolutional neural network,CNN)和全局特征学习的视觉Transformer(vision Transformer,ViT)方法相融合的局部—全局跨注意力融合网络(local global cross attention fusion network,LG-CAFN),用于实现乳腺肿瘤DCE-MRI影像自动诊断,以提高乳腺癌的诊断准确率和效率。该网络采用跨注意力机制方法,将CNN分支提取出的图像局部特征和ViT分支提取出的图像全局特征进行有效融合,从而获得更具判别性的图像特征用于乳腺肿瘤DCE-MRI影像良恶性分类。结果在乳腺癌DCE-MRI影像数据集上设置了两组包含不同种类的乳腺DCE-MRI序列实验,并与VGG16(Visual Geometry Group 16-layer network)、深度残差网络(residualnetwork,ResNet)、SENet(squeeze-and-excitationnetwork)、ViT以及Swin-S(swinTransformer-small)方法进行比较。同时,进行消融实验以及与其他方法的比较。两组实验结果表明,LG-CAFN在乳腺肿瘤良恶性分类任务上分别取得88.20%和83.93%的最高准确率(accuracy),其ROC(receiver operating characteristic)曲线下面积(area under the curve,AUC)分别达到0.9154和0.8826,均优于其他方法并最接近1。结论提出的LG-CAFN方法具有优异的局部—全局特征学习能力,可以有效提升DCE-MRI乳腺肿瘤影像良恶性分类性能。 展开更多
关键词 乳腺肿瘤 动态对比增强磁共振成像(DCE-MRI) 视觉Transformer(vit) 卷积神经网络(CNN) 注意力融合
原文传递
多尺度注意力融合与视觉Transformer方法优化的电阻抗层析成像深度学习方法 被引量:9
20
作者 王琦 张涛 +2 位作者 徐超炜 卢梦凡 王子辰 《仪器仪表学报》 EI CAS CSCD 北大核心 2024年第7期52-63,共12页
电阻抗层析成像(EIT)具有显著的可视化和非侵入性等特点,在工业和生物医学工程领域展现了其广阔的应用潜力。由于其逆问题存在高度非线性和病态性特点,导致了数值成像方法在空间分辨率上的局限性,尤其是在多相介质分布情况下,现有EIT技... 电阻抗层析成像(EIT)具有显著的可视化和非侵入性等特点,在工业和生物医学工程领域展现了其广阔的应用潜力。由于其逆问题存在高度非线性和病态性特点,导致了数值成像方法在空间分辨率上的局限性,尤其是在多相介质分布情况下,现有EIT技术在成像过程中出现边界失真和电导率误差,从而影响最终的成像精度。本文提出了一种基于卷积注意力机制的U型深度成像方法——MAT-UNet,将卷积块注意力模块(CBAM)与U-Net结构相结合,在特征提取与融合过程中嵌入卷积块注意力模块,以增强模型的注意力定向和特征表征能力,同时跳跃连接引入了压缩-激励(SE)注意力机制与视觉Transformer(ViT)来优化全局特征的学习,使用多头交叉注意力模块(MHCA)实现编码器与解码器的多尺度信息融合。MAT-UNet通过大量的仿真数据训练获得最优模型参数,并在多样化复杂形状和肺部仿真模型进行了实验验证。定量评估指标表明,该方法在重建图像中的均方根误差(RMSE)结果为2.3156,结构相似性指数(SSIM)结果为0.9437,可视化结果与真实分布和边界具有很好的一致性。实验结果表明,本文提出的MAT-UNet模型展现出良好的鲁棒性和泛化能力,相较于传统的单一卷积结构,集成Transformer结构提供了更精准的EIT图像重建效果,在无损测量与检测应用中存在很大的潜力和价值。 展开更多
关键词 电阻抗层析成像 卷积注意力机制 SE-vit连接 多头交叉注意力模块 U型卷积网络 无损测量
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部