期刊文献+
共找到508篇文章
< 1 2 26 >
每页显示 20 50 100
基于重叠ViT的特征增强遥感图像目标检测
1
作者 张晴 王养柱 +3 位作者 邱华鑫 张小蔓 吴坤 李可 《空间控制技术与应用(中英文)》 北大核心 2026年第1期111-120,共10页
遥感图像场景范围广、目标尺度差异显著、背景复杂多样,且存在大量低对比度的小目标,给精准检测带来巨大挑战.提出一种基于重叠ViT的特征增强遥感图像目标检测方法(overlapped patches vision transformer detection,OLP-ViTDet).该方法... 遥感图像场景范围广、目标尺度差异显著、背景复杂多样,且存在大量低对比度的小目标,给精准检测带来巨大挑战.提出一种基于重叠ViT的特征增强遥感图像目标检测方法(overlapped patches vision transformer detection,OLP-ViTDet).该方法在ViT基础上引入重叠分块策略,构建重叠ViT捕捉跨块细粒度特征,通过额外的重叠图像块强化跨块特征关联,解决传统ViT不重叠分块所导致的信息割裂问题;结合简化特征金字塔结构,提高多尺度特征信息提取和融合效率;采用滑动窗口注意力机制,降低计算复杂度的同时,保留全局信息交互能力,有效提升低对比度小目标的检测精度.在DIOR数据集和NWPU VHR-10数据集上进行对比实验,实验结果表明OLP-ViTDet算法的平均检测精度mAP分别达到78.8%和96.4%,在小目标和复杂结构目标的检测精度上表现出显著优势.该方法显著提升了遥感图像目标检测精度,为空间任务中的目标识别提供了新思路. 展开更多
关键词 遥感图像 目标检测 vit 重叠分块 简化特征金字塔 滑动窗口注意力
在线阅读 下载PDF
基于GLF-ViT算法的地面侦察机器人多标签图像分类
2
作者 杨成山 王明 +1 位作者 郭东兵 赵爱军 《火力与指挥控制》 北大核心 2026年第2期168-173,共6页
现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强... 现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强局部特征表达,并结合全局特征实现跨尺度协同建模。在PASCAL VOC2012数据集上的实验表明,GLF-ViT算法能够有效融合全局与局部特征,在视觉特征提取方面表现出一定的优越性。 展开更多
关键词 多标签图像分类 vit模型 特征融合 自注意力机制 特征提取
在线阅读 下载PDF
基于改进ViT模型的电网关键线路智能预测方法
3
作者 祝欣宇 窦迅 +2 位作者 牛鹏艺 郭艳敏 石飞 《电力自动化设备》 北大核心 2026年第2期205-214,共10页
针对现有关键线路辨识方法在应对多源不确定性和复杂交易的准确性与适应性不足的问题,提出了一种基于改进视觉转换器(ViT)模型的电网关键线路智能预测方法。剖析了关键线路智能预测的原理,提出了考虑中长期交易和新能源不确定性的关键... 针对现有关键线路辨识方法在应对多源不确定性和复杂交易的准确性与适应性不足的问题,提出了一种基于改进视觉转换器(ViT)模型的电网关键线路智能预测方法。剖析了关键线路智能预测的原理,提出了考虑中长期交易和新能源不确定性的关键线路评价指标;采用多目标组合赋权方法,基于排序学习策略动态平衡主客观权重以优化排序目标;引入多尺度感知模块和上采样操作改进ViT模型,以增强对时序-指标数据的特征提取能力,通过通道扩展与空间适配机制提升其对全局依赖与多尺度特征的表征能力以实现关键线路预测。算例分析结果表明,该方法预测准确率达97.9%,在中长期交易场景下具备良好的有效性与适应性。 展开更多
关键词 中长期交易 关键线路 智能预测 改进vit模型 多尺度感知
在线阅读 下载PDF
基于ViT大模型的安检X光图像违禁品识别研究
4
作者 陈帅 范光涛 《山东工业技术》 2026年第1期77-83,共7页
当前主流X光安检图像识别基于卷积神经网络(CNN),但CNN的局部建模特性,使其在处理目标复杂堆叠、严重遮挡时,识别效果不佳。本文构建基于Vision Transformer(ViT)的安检图像识别方法,利用ViT多头自注意力机制,克服CNN感受视野有限的缺... 当前主流X光安检图像识别基于卷积神经网络(CNN),但CNN的局部建模特性,使其在处理目标复杂堆叠、严重遮挡时,识别效果不佳。本文构建基于Vision Transformer(ViT)的安检图像识别方法,利用ViT多头自注意力机制,克服CNN感受视野有限的缺陷。实验结果表明,本文所采用的ViT+FPN模型在目标检测任务上的平均精度(mAP@0.5)达到87.1%,尤其在识别Wrench(扳手)、Pliers(钳子)这两类容易堆叠违禁品场景下,性能提升更为显著。本研究为深度学习在复杂安检场景中的应用提供了新的思路和实验依据。 展开更多
关键词 vit X光图像 自注意力机制 违禁品识别
在线阅读 下载PDF
KPA-ViT:Key Part-Level Attention Vision Transformer for Foreign Body Classification on Coal Conveyor Belt
5
作者 Haoxuanye Ji Zhiliang Chen +3 位作者 Pengfei Jiang Ziyue Wang Ting Yu Wei Zhang 《Computers, Materials & Continua》 2026年第3期656-671,共16页
Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spa... Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spatial and semantic information.However,the performance of CNN-based methods remains limited in classification accuracy,primarily due to insufficient exploration of local image characteristics.Unlike CNNs,Vision Transformer(ViT)captures discriminative features by modeling relationships between local image patches.However,such methods typically require a large number of training samples to perform effectively.In the context of foreign body classification on coal conveyor belts,the limited availability of training samples hinders the full exploitation of Vision Transformer’s(ViT)capabilities.To address this issue,we propose an efficient approach,termed Key Part-level Attention Vision Transformer(KPA-ViT),which incorporates key local information into the transformer architecture to enrich the training information.It comprises three main components:a key-point detection module,a key local mining module,and an attention module.To extract key local regions,a key-point detection strategy is first employed to identify the positions of key points.Subsequently,the key local mining module extracts the relevant local features based on these detected points.Finally,an attention module composed of self-attention and cross-attention blocks is introduced to integrate global and key part-level information,thereby enhancing the model’s ability to learn discriminative features.Compared to recent transformer-based frameworks—such as ViT,Swin-Transformer,and EfficientViT—the proposed KPA-ViT achieves performance improvements of 9.3%,6.6%,and 2.8%,respectively,on the CUMT-BelT dataset,demonstrating its effectiveness. 展开更多
关键词 Foreign body classification global and part-level key information coal conveyor belt vision transformer(vit) self and cross attention
在线阅读 下载PDF
CNN-VIT双分支遥感影像建筑提取方法研究
6
作者 张彦芬 《地理空间信息》 2026年第1期1-6,共6页
针对现有模型提取遥感影像建筑目标时存在的提取结果数量缺失、形态不完整等问题,构建了一种结合卷积神经网络(CNN)与视觉转换器(VIT)的双分支编码器建筑提取模型。通过参数化重混排卷积单元搭建CNN分支,可变形自注意力转换器搭建VIT分... 针对现有模型提取遥感影像建筑目标时存在的提取结果数量缺失、形态不完整等问题,构建了一种结合卷积神经网络(CNN)与视觉转换器(VIT)的双分支编码器建筑提取模型。通过参数化重混排卷积单元搭建CNN分支,可变形自注意力转换器搭建VIT分支,在两组分支独立进行特征编码。在编码器与解码器间引入三元注意力重构的语义细节融合层,对多尺度特征图进行融合和负样本过滤。在解码器中,利用动态上采样单元对大尺寸特征图进行精密重建,并以广义Dice函数与焦点函数的加权组合计算训练损失。在MDD与WHU-Buliding(East Asia)数据集上的实验结果表明,该模型的F1-score达到91.57%与92.34%,比Swin-UNet模型提高了7.14%与6.51%,提取的建筑目标形态更真实完整,提取精度和泛化性优于当前主流语义分割模型。 展开更多
关键词 遥感建筑提取 CNN-vit双分支编码器 三元注意力 语义细节融合 动态上采样
在线阅读 下载PDF
融合双阶段对齐协同脑图谱与ViT嵌入提炼的MCI高阶连接识别模型
7
作者 吴海锋 翁建明 曾玉 《控制与决策》 北大核心 2025年第12期3713-3724,共12页
针对功能磁共振成像(fMRI)中高阶功能连接建模与分类任务中维度膨胀、归一化缺失与跨阶协同弱化的挑战,提出一种微分几何驱动的结构分层化轻度认知障碍(MCI)识别模型.该模型融合双阶段对齐协同脑图谱(DAS-Connectome)与结构嵌入提炼层(S... 针对功能磁共振成像(fMRI)中高阶功能连接建模与分类任务中维度膨胀、归一化缺失与跨阶协同弱化的挑战,提出一种微分几何驱动的结构分层化轻度认知障碍(MCI)识别模型.该模型融合双阶段对齐协同脑图谱(DAS-Connectome)与结构嵌入提炼层(SERL).DAS-Connectome引入两级结构建模机制:一是通过流形对数映射实现归一化的几何推广,构建稳定的高阶神经依赖结构;二是执行结构映射增强,将高阶结构与原始低阶张量缩并耦合生成DAS-Connectome,从而提升结构表达的一致性与判别密度.SERL通过变分信息瓶颈的嵌入机制和预训练ViT(Vision Transformer)对DAS-Connectome进行低维表征提炼,最终将嵌入特征输入轻量级分类器完成MCI判别.实验表明,所提出框架在阿尔茨海默病神经影像学计划库的数据集上相较传统方法分类准确率最高提升16%,在小样本条件下展现出良好的稳定性与泛化能力. 展开更多
关键词 轻度认知障碍 高阶功能连接 特征降维 功能磁共振成像 vit
原文传递
优化ViT用于黑色素瘤分类:特征筛选与InfoNCE损失的结合
8
作者 黄金杰 马媛雪 《光学精密工程》 北大核心 2025年第16期2649-2660,共12页
针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键... 针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键特征并抑制冗余信息;其次,引入InfoNCE对比损失函数,联合交叉熵损失构建多目标优化框架,增强类间特征区分度;最后,在多头自注意力机制中嵌入关键特征引导机制,实现局部细节与全局语义的协同建模。在ISIC2018和ISIC2019数据集上的实验结果表明:改进模型分类准确率分别达到83.27%和80.17%,较基线ViT模型提升1.83%和0.49%;消融实验验证动态筛选模块减少18.7%冗余计算量,对比学习使类内特征相似度提升23.6%。所提方法显著提高了ViT模型对黑色素瘤的识别能力,分类精度与鲁棒性优于主流模型,为皮肤癌早期诊断提供了高精度、低冗余的自动化解决方案,具有一定的临床实用价值。 展开更多
关键词 图像分类 特征筛选 InfoNCE损失函数 vit模型
在线阅读 下载PDF
一种基于ViT的局部图像拷贝检测算法
9
作者 朱辰 陈于勋 +1 位作者 陈禹坤 王总辉 《信息安全学报》 2025年第6期86-96,共11页
近年来,随着图像编辑技术的不断发展,数字图像的知识产权保护形势日益严峻。为有效遏制图像内容的非法窃取、复制与篡改行为,切实保障用户的合法权益,图像拷贝检测作为内容审核体系的关键组成部分,其重要性不言而喻。其中,一种常见的规... 近年来,随着图像编辑技术的不断发展,数字图像的知识产权保护形势日益严峻。为有效遏制图像内容的非法窃取、复制与篡改行为,切实保障用户的合法权益,图像拷贝检测作为内容审核体系的关键组成部分,其重要性不言而喻。其中,一种常见的规避检测手段是攻击者将源图像的部分内容巧妙地植入目标图像中,形成“画中画”式的局部拷贝。针对这一挑战,本文提出了一种基于ViT的局部图像拷贝检测算法。该算法旨在利用ViT强大的局部特征提取能力,在原始全局特征的基础上提取出图像的局部特征,揭示图像间潜在的依赖关系,并通过重新排列相关图像的顺序,提高具有更高相似度的图像在检测结果中的排序,从而精准实现对图像局部信息的拷贝检测。本文与基于自监督描述符的图像拷贝检测算法(A Self-Supervised Descriptor for Image Copy Detection)相比,在DISC2021数据集上取得显著提升,局部拷贝图像识别准确率提高10%,μAP(Micro Average Precision)指标提高10%~15%。此外,本文还利用热力图进行了直观的定性分析,证实了ViT能够敏锐地捕捉到图像中存在局部拷贝的区域,进一步验证了算法的有效性。本文提出的基于ViT的局部图像拷贝检测重排序算法能对使用画中画图像增强方式的拷贝图像进行有效检测,并在DISC2021数据集上取得了优异成绩,拓展了数字图像取证领域研究的新思路。 展开更多
关键词 图像拷贝检测 vit 图像增强 重排序 热力图
在线阅读 下载PDF
基于ViT-EN复合模型的朱墨时序显微图像识别研究
10
作者 黄锐 翁宗州 谢小雪 《中国人民公安大学学报(自然科学版)》 2025年第4期9-20,共12页
朱墨时序鉴定作为文书鉴定的重要组成部分,其传统鉴定方法依赖于鉴定人的主观经验,在复杂案件中易出现结论可靠性不足和重复性差等问题。针对上述问题,提出一种基于深度学习模型的朱墨时序鉴定方法,实现了多场景下朱墨时序的快速鉴定。... 朱墨时序鉴定作为文书鉴定的重要组成部分,其传统鉴定方法依赖于鉴定人的主观经验,在复杂案件中易出现结论可靠性不足和重复性差等问题。针对上述问题,提出一种基于深度学习模型的朱墨时序鉴定方法,实现了多场景下朱墨时序的快速鉴定。该方法通过采集字迹与印文交叉、非交叉部位的立体显微特征图像,构建2种字迹与3种印章组合的6类数据集,按8∶2的比例随机划分训练集和验证集;结合Vision Transformer (ViT)的全局上下文的捕捉能力与EfficientNet (EN)的局部特征高效提取能力,自主构建出ViT-EN(Vision Transformer-Efficient Net)复合模型,以达到对朱墨时序显微图像的快速准确智能识别。结果表明,6类数据集的验证准确率分别达到99.00%、98.00%、99.00%、100.00%、99.00%、98.00%。该方法为朱墨时序鉴定提供了一种客观、高效、可量化的智能辅助手段。 展开更多
关键词 朱墨时序 vit-EN 立体显微特征 图像识别 物证技术
在线阅读 下载PDF
一种基于空洞注意力与可变形卷积的轻量级ViT模型
11
作者 李攀峰 《电脑编程技巧与维护》 2025年第11期158-161,共4页
ViT虽性能优越,但其二次计算复杂度带来的高计算和内存成本,限制了其在边缘设备上的应用。为此,提出了一种名为DADCN-ViT的轻量级ViT模型。实验结果显示,DADCN-ViT在CIFAR-100图像分类任务上达到了99.7%的准确率,比当前最佳模型高出3.6%... ViT虽性能优越,但其二次计算复杂度带来的高计算和内存成本,限制了其在边缘设备上的应用。为此,提出了一种名为DADCN-ViT的轻量级ViT模型。实验结果显示,DADCN-ViT在CIFAR-100图像分类任务上达到了99.7%的准确率,比当前最佳模型高出3.6%,同时模型参数量减少了约21倍,是所有对比模型中规模最小的。构建了以DADCN-ViT为骨干网的简单有效的绝缘子检测框架,取得全类平均正确率(mAP)为95.2%的优异成绩。 展开更多
关键词 轻量级vit模型 DADCN-vit架构 CIFAR-100数据集
在线阅读 下载PDF
基于ViT-B深度学习模型的口腔良恶性病变图像分类研究 被引量:2
12
作者 崔宇琛 谢元栋 +3 位作者 吴聿淼 牛凌霄 常路广达 朱宪春 《口腔医学研究》 北大核心 2025年第1期16-20,共5页
目的:基于深度学习算法,对ViT-B模型检测口腔良性和恶性病变图像的性能进行分析,旨在为临床医生早期发现和准确诊断口腔癌提供有效工具。方法:使用包含口腔良性和恶性病变图像的公共数据集,对数据进行预处理和数据增强,按7∶2∶1的比例... 目的:基于深度学习算法,对ViT-B模型检测口腔良性和恶性病变图像的性能进行分析,旨在为临床医生早期发现和准确诊断口腔癌提供有效工具。方法:使用包含口腔良性和恶性病变图像的公共数据集,对数据进行预处理和数据增强,按7∶2∶1的比例将数据随机划分为训练集、验证集和测试集。选取ViT-B、VGG16、ResNet101、DenseNet121和EfficientNetV25种深度学习模型,对模型进行训练和性能比较。通过外部数据对ViT-B模型的泛化能力进行评估,并基于注意力权重的可视化方法对ViT-B模型进行分析。结果:ViT-B在5种模型中分类性能最佳,受试者工作特征曲线下面积为0.9715,准确率为91.00%。该模型可以有效区分口腔良性和恶性病变图像,具有较强的泛化能力和临床实用性。结论:ViT-B模型在口腔良性和恶性病变图像识别中表现良好,可以为口腔癌的早期发现和准确诊断提供支持。 展开更多
关键词 口腔癌 口腔病变 深度学习 vit-B
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:14
13
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 Vision Transformer(vit) 深度学习 自注意力
在线阅读 下载PDF
基于Wave-ViT的改进多通道深度残差网络的电能质量扰动分类 被引量:1
14
作者 刘大鹏 罗嘉宾 +3 位作者 刘勇 穆勇 董彪 张淑清 《计量学报》 北大核心 2025年第5期629-637,共9页
提出一种基于小波变换视觉自注意力(Wave-ViT)模型的改进多通道深度残差网络的电能质量扰动分类方法。首先将一维时间序列电能质量扰动(PQDs)信号作为通道一的输入;再将一维PQDs信号通过格拉姆角场(GAF)映射成为二维图像作为通道二的输... 提出一种基于小波变换视觉自注意力(Wave-ViT)模型的改进多通道深度残差网络的电能质量扰动分类方法。首先将一维时间序列电能质量扰动(PQDs)信号作为通道一的输入;再将一维PQDs信号通过格拉姆角场(GAF)映射成为二维图像作为通道二的输入;利用Wave-ViT模块深层挖掘二维GAF图像信息,并作为通道三的输入。接着分别对3个通道进行深层次的特征提取,构造适用于PQDs分类的多通道网络框架。通过消融实验,证实多通道对网络收敛速度和分类精度有互补作用。进一步的噪声实验和对比试验表明该方法特征提取能力强,所需迭代次数少,且抗噪性能好,对16种扰动在随机噪声和无噪声环境下的识别率分别能达到99.81%和99.19%,为电能质量扰动识别提供了一种新的思路。 展开更多
关键词 电磁计量 电能质量扰动 Wave-vit 深度残差网络 消融实验 噪声实验 扰动识别
在线阅读 下载PDF
基于VITS的高性能歌声转换模型 被引量:1
15
作者 周柯汝 金伟 《现代信息科技》 2025年第12期129-133,140,共6页
歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流... 歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流为基础的多解耦特征约束的UVC(Ultra Singing Voice Conversion)模型,该模型以VIT模型为基础,通过结合ContentVec编码器和NSF-HIFI-GAN声码器,改进模型的输入和输出,极大地提高了转换音频的质量和流畅性,并具有较强的鲁棒性。 展开更多
关键词 歌声转换 vitS ContentVec编码器 NSF-HIFI-GAN声码器
在线阅读 下载PDF
融合全局与局部特征的两阶段ViT分心驾驶行为识别方法
16
作者 王腾 高尚兵 任刚 《中国图象图形学报》 北大核心 2025年第11期3617-3633,共17页
目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特... 目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特征的两阶段ViT分心驾驶行为识别方法。方法在第1阶段,为防止丢失先前层的信息,提出token信息补充模块,利用k层的class token来获得更全面的特征信息;在第2阶段,为解决特征复杂的图像识别问题,提出特征交互模块,通过交叉注意力机制和自注意力机制融合ViT全局特征和MobileNetV3局部特征。在提高识别准确率的基础上,提出两阶段注意力模块,用于缓解多头注意力可扩展性问题,从而进一步减少参数计算量。结果实验表明,在State Farm数据集和课题组自建的客运车辆分心驾驶行为数据集上,本文方法准确率分别达到99.69%和96.87%,较主干网络ViT-B_16分别提升1.86%和1.65%;相比于TransFG(Transformer architecture for fine-grained recognition)模型,准确率分别提升0.98%和1.04%,浮点数运算次数(floating point operations,FLOPs)分别降低26.87%和17.23%。两个数据集上的整体性能均优于前沿的识别方法。结论本文方法能够准确识别真实场景下的分心驾驶行为,具有更好的鲁棒性,为分类任务研究提供了新思路。 展开更多
关键词 智能交通 分心驾驶行为识别 视觉Transformer(vit) 注意力机制 特征融合
原文传递
融合Mobile Vit和倒置门控编解码的视网膜血管分割算法 被引量:1
17
作者 梁礼明 阳渊 +2 位作者 朱晨锟 何安军 吴健 《北京航空航天大学学报》 北大核心 2025年第3期712-723,共12页
针对视网膜血管分割时存在背景噪声干扰、边界纹理模糊和微细血管提取难等问题,提出一种融合Mobile Vit和倒置门控编解码的视网膜血管分割算法(FMVG-Net)。改进Mobile Vit模块,在编码部分实现双联合特征提取;利用多谱注意力模块,从频域... 针对视网膜血管分割时存在背景噪声干扰、边界纹理模糊和微细血管提取难等问题,提出一种融合Mobile Vit和倒置门控编解码的视网膜血管分割算法(FMVG-Net)。改进Mobile Vit模块,在编码部分实现双联合特征提取;利用多谱注意力模块,从频域维度减少图像特征信息缺失,精确分割血管前景像素;提出特征自适应融合模块,建立血管纹理上下文依赖关系,提高血管分割灵敏度;优化编解码结构,设计倒置门控编解码模块,进一步捕获空间信息与深层语义信息,提高视网膜血管图像分割精度。在公共数据集DRIVE、STARE和CHASE_DB1上对所提算法进行实验,特异性分别为0.9863、0.9897和0.9873,准确度分别为0.9709、0.9754和0.9760,敏感度分别为0.8109、0.8010和0.8079。仿真实验证明,所提网络对视网膜血管分割具有较好的分割效果,为眼科疾病的诊断提供了新窗口。 展开更多
关键词 视网膜血管 Mobile vit模块 离散余弦变换 倒置门控编解码模块 特征自适应融合
原文传递
基于时频表示与ViT的航天器姿态系统智能故障诊断方法
18
作者 李婷 高升 +1 位作者 张伟 张荣鹏 《上海航天(中英文)》 2025年第6期26-35,56,共11页
针对传统深度学习方法在复杂航天任务中存在的特征提取局限及故障诊断精度受限的问题,本文提出一种基于时频表示与Vision Transformer(TFViT)的故障诊断方法。该方法首先将原始信号转换为多通道时频表示图像(TFRs),以充分保留信号中的... 针对传统深度学习方法在复杂航天任务中存在的特征提取局限及故障诊断精度受限的问题,本文提出一种基于时频表示与Vision Transformer(TFViT)的故障诊断方法。该方法首先将原始信号转换为多通道时频表示图像(TFRs),以充分保留信号中的时频特征;在此基础上,通过优化TFViT模型的输入层与特征提取模块,进一步提高了模型对时频表示图像中全局依赖关系的捕捉能力,进而实现对不同时频区域特征的深度挖掘。在基于航天器半物理仿真平台构建的实验数据集上,通过系统实验确定了TFViT模型的最优超参数配置。实验结果表明:TFViT模型在故障诊断任务中展现出卓越性能,与多种先进深度学习方法的对比分析,充分验证了所提方法在诊断准确性、鲁棒性方面均具有显著优势。 展开更多
关键词 故障诊断 航天器姿态系统 特征提取 时频表示(TFR) Vision Transformer(vit)
在线阅读 下载PDF
船舶大型低速柴油机VIT机构研究 被引量:2
19
作者 刘建安 《船舶标准化工程师》 2014年第2期25-29,共5页
在船舶大型低速柴油机的管理维护过程中,其VIT机构较之于柴油机其他部件更易于出现复杂的管理状况,甚至发生设备故障,针对此现象,文章研究分析了船舶大型低速主动力柴油机的VIT机构功能调整、故障处理和维护管理技术等三个方面的难点问... 在船舶大型低速柴油机的管理维护过程中,其VIT机构较之于柴油机其他部件更易于出现复杂的管理状况,甚至发生设备故障,针对此现象,文章研究分析了船舶大型低速主动力柴油机的VIT机构功能调整、故障处理和维护管理技术等三个方面的难点问题,提出了相应的预防措施和解决方案,为广大同行提供借鉴。 展开更多
关键词 vit机构 最大爆发压力 vit系统起始点 vit系统临界点 功能调整 故障处理 维护管理
在线阅读 下载PDF
基于VIT网络的复合材料栓接结构挤压极限快速预测方法研究
20
作者 任宇 刘禹铭 +2 位作者 林清源 赵勇 程辉 《上海航天(中英文)》 2025年第2期121-134,共14页
针对复合材料栓接结构(CBJ)多源装配要素耦合作用下挤压极限预测难题及传统数值模拟效率低下等问题,提出一种基于Vision Transformer(VIT)框架的挤压极限快速预测方法。通过融合装配过程中几何形变参数与物理性能参数,构建多源装配参数... 针对复合材料栓接结构(CBJ)多源装配要素耦合作用下挤压极限预测难题及传统数值模拟效率低下等问题,提出一种基于Vision Transformer(VIT)框架的挤压极限快速预测方法。通过融合装配过程中几何形变参数与物理性能参数,构建多源装配参数空间与挤压极限的非线性映射模型。首先,针对复材栓接结构装配过程的几何参量和性能参量进行分析与建模;其次,创新开发基于VIT架构的CBJ-VIT深度学习网络,采用多头自注意力机制实现多模态装配数据特征融合;最后,以航天薄壁结构复合材料栓接装配体为研究对象进行了实例验证。实验表明:CBJ-VIT模型预测结果与有限元分析结果高度一致,单次预测耗时从传统数值模拟的12.0 h降至8.1 s。在定性和定量评价中,该模型相较传统非图像数据处理方法预测精度提升85.02%,较非VIT架构模型精度提高76.24%。 展开更多
关键词 复合材料 栓接结构 多源因素耦合 形性融合 Vision Transformer(vit)
在线阅读 下载PDF
上一页 1 2 26 下一页 到第
使用帮助 返回顶部