期刊文献+
共找到518篇文章
< 1 2 26 >
每页显示 20 50 100
基于重叠ViT的特征增强遥感图像目标检测
1
作者 张晴 王养柱 +3 位作者 邱华鑫 张小蔓 吴坤 李可 《空间控制技术与应用(中英文)》 北大核心 2026年第1期111-120,共10页
遥感图像场景范围广、目标尺度差异显著、背景复杂多样,且存在大量低对比度的小目标,给精准检测带来巨大挑战.提出一种基于重叠ViT的特征增强遥感图像目标检测方法(overlapped patches vision transformer detection,OLP-ViTDet).该方法... 遥感图像场景范围广、目标尺度差异显著、背景复杂多样,且存在大量低对比度的小目标,给精准检测带来巨大挑战.提出一种基于重叠ViT的特征增强遥感图像目标检测方法(overlapped patches vision transformer detection,OLP-ViTDet).该方法在ViT基础上引入重叠分块策略,构建重叠ViT捕捉跨块细粒度特征,通过额外的重叠图像块强化跨块特征关联,解决传统ViT不重叠分块所导致的信息割裂问题;结合简化特征金字塔结构,提高多尺度特征信息提取和融合效率;采用滑动窗口注意力机制,降低计算复杂度的同时,保留全局信息交互能力,有效提升低对比度小目标的检测精度.在DIOR数据集和NWPU VHR-10数据集上进行对比实验,实验结果表明OLP-ViTDet算法的平均检测精度mAP分别达到78.8%和96.4%,在小目标和复杂结构目标的检测精度上表现出显著优势.该方法显著提升了遥感图像目标检测精度,为空间任务中的目标识别提供了新思路. 展开更多
关键词 遥感图像 目标检测 vit 重叠分块 简化特征金字塔 滑动窗口注意力
在线阅读 下载PDF
基于GLF-ViT算法的地面侦察机器人多标签图像分类
2
作者 杨成山 王明 +1 位作者 郭东兵 赵爱军 《火力与指挥控制》 北大核心 2026年第2期168-173,共6页
现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强... 现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强局部特征表达,并结合全局特征实现跨尺度协同建模。在PASCAL VOC2012数据集上的实验表明,GLF-ViT算法能够有效融合全局与局部特征,在视觉特征提取方面表现出一定的优越性。 展开更多
关键词 多标签图像分类 vit模型 特征融合 自注意力机制 特征提取
在线阅读 下载PDF
LegoViT:边缘端视觉推理中ViT模型块粒度缩放技术
3
作者 周豪捷 吴晓宁 +6 位作者 高志强 韩锐 张青龙 刘驰 陈铮 赵玉 王硕 《计算机科学》 北大核心 2026年第4期269-276,共8页
近年来,ViT模型凭借其强大的图像理解能力被广泛部署于边缘侧视觉应用。在资源受限边缘端推理中,ViT模型需依据可用资源对其进行有效缩放来获取最优的推理精度-延迟平衡。然而,现有推理模型缩放技术往往仅能在整个模型粒度进行缩放,导... 近年来,ViT模型凭借其强大的图像理解能力被广泛部署于边缘侧视觉应用。在资源受限边缘端推理中,ViT模型需依据可用资源对其进行有效缩放来获取最优的推理精度-延迟平衡。然而,现有推理模型缩放技术往往仅能在整个模型粒度进行缩放,导致关键信息丢失,需消耗更多计算资源/推理延迟来获取同样的精度。对此,提出LegoViT方法,旨在从ViT模型前馈网络中识别出可缩放模型块,以支持运行时块粒度模型缩放。对比模型粒度缩放方法的测试结果表明,LegoViT使ViT模型内存占用降低22.37%,计算量减少21.1%,推理延迟平均缩短61.05%。 展开更多
关键词 边缘侧 vit 推理优化 块粒度缩放
在线阅读 下载PDF
基于改进ViT模型的抽水蓄能机组异常声音检测
4
作者 郭明 戴鸿清 +2 位作者 张志兵 孙波 许颜贺 《人民长江》 北大核心 2026年第3期240-247,共8页
针对抽水蓄能机组运行状态异常检测中工况变化频繁、故障声学信号样本少以及数据不平衡的问题,提出了一种基于改进Vision Transformer(ViT)模型的抽水蓄能机组异常声音检测方法。首先,通过梅尔频谱算法将一维声学信号转换为二维语谱图,... 针对抽水蓄能机组运行状态异常检测中工况变化频繁、故障声学信号样本少以及数据不平衡的问题,提出了一种基于改进Vision Transformer(ViT)模型的抽水蓄能机组异常声音检测方法。首先,通过梅尔频谱算法将一维声学信号转换为二维语谱图,增强故障样本的信息量;然后,将生成的语谱图输入至ViT网络中,利用自注意力层与图像特征的交互机制,学习多工况声学数据之间的不变特征;最后,通过所提出的领域提示和提示适配模块根据源域和目标域之间的特征相似性,预测目标域的机组状态信息。结果表明,所提方法在实测数据集上的平均准确率为90.0%,召回率为87.9%,F_(1)分数为0.887;在MIMII数据集上各项指标比其他方法平均提高8.7%,6.92%,4.52%。所提模型能够有效应对多工况和少样本情况下的异常检测任务。 展开更多
关键词 抽蓄机组 异常检测 领域泛化 vit模型 声学检测
在线阅读 下载PDF
基于改进ViT模型的电网关键线路智能预测方法
5
作者 祝欣宇 窦迅 +2 位作者 牛鹏艺 郭艳敏 石飞 《电力自动化设备》 北大核心 2026年第2期205-214,共10页
针对现有关键线路辨识方法在应对多源不确定性和复杂交易的准确性与适应性不足的问题,提出了一种基于改进视觉转换器(ViT)模型的电网关键线路智能预测方法。剖析了关键线路智能预测的原理,提出了考虑中长期交易和新能源不确定性的关键... 针对现有关键线路辨识方法在应对多源不确定性和复杂交易的准确性与适应性不足的问题,提出了一种基于改进视觉转换器(ViT)模型的电网关键线路智能预测方法。剖析了关键线路智能预测的原理,提出了考虑中长期交易和新能源不确定性的关键线路评价指标;采用多目标组合赋权方法,基于排序学习策略动态平衡主客观权重以优化排序目标;引入多尺度感知模块和上采样操作改进ViT模型,以增强对时序-指标数据的特征提取能力,通过通道扩展与空间适配机制提升其对全局依赖与多尺度特征的表征能力以实现关键线路预测。算例分析结果表明,该方法预测准确率达97.9%,在中长期交易场景下具备良好的有效性与适应性。 展开更多
关键词 中长期交易 关键线路 智能预测 改进vit模型 多尺度感知
在线阅读 下载PDF
基于ViT大模型的安检X光图像违禁品识别研究
6
作者 陈帅 范光涛 《山东工业技术》 2026年第1期77-83,共7页
当前主流X光安检图像识别基于卷积神经网络(CNN),但CNN的局部建模特性,使其在处理目标复杂堆叠、严重遮挡时,识别效果不佳。本文构建基于Vision Transformer(ViT)的安检图像识别方法,利用ViT多头自注意力机制,克服CNN感受视野有限的缺... 当前主流X光安检图像识别基于卷积神经网络(CNN),但CNN的局部建模特性,使其在处理目标复杂堆叠、严重遮挡时,识别效果不佳。本文构建基于Vision Transformer(ViT)的安检图像识别方法,利用ViT多头自注意力机制,克服CNN感受视野有限的缺陷。实验结果表明,本文所采用的ViT+FPN模型在目标检测任务上的平均精度(mAP@0.5)达到87.1%,尤其在识别Wrench(扳手)、Pliers(钳子)这两类容易堆叠违禁品场景下,性能提升更为显著。本研究为深度学习在复杂安检场景中的应用提供了新的思路和实验依据。 展开更多
关键词 vit X光图像 自注意力机制 违禁品识别
在线阅读 下载PDF
KPA-ViT:Key Part-Level Attention Vision Transformer for Foreign Body Classification on Coal Conveyor Belt
7
作者 Haoxuanye Ji Zhiliang Chen +3 位作者 Pengfei Jiang Ziyue Wang Ting Yu Wei Zhang 《Computers, Materials & Continua》 2026年第3期656-671,共16页
Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spa... Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spatial and semantic information.However,the performance of CNN-based methods remains limited in classification accuracy,primarily due to insufficient exploration of local image characteristics.Unlike CNNs,Vision Transformer(ViT)captures discriminative features by modeling relationships between local image patches.However,such methods typically require a large number of training samples to perform effectively.In the context of foreign body classification on coal conveyor belts,the limited availability of training samples hinders the full exploitation of Vision Transformer’s(ViT)capabilities.To address this issue,we propose an efficient approach,termed Key Part-level Attention Vision Transformer(KPA-ViT),which incorporates key local information into the transformer architecture to enrich the training information.It comprises three main components:a key-point detection module,a key local mining module,and an attention module.To extract key local regions,a key-point detection strategy is first employed to identify the positions of key points.Subsequently,the key local mining module extracts the relevant local features based on these detected points.Finally,an attention module composed of self-attention and cross-attention blocks is introduced to integrate global and key part-level information,thereby enhancing the model’s ability to learn discriminative features.Compared to recent transformer-based frameworks—such as ViT,Swin-Transformer,and EfficientViT—the proposed KPA-ViT achieves performance improvements of 9.3%,6.6%,and 2.8%,respectively,on the CUMT-BelT dataset,demonstrating its effectiveness. 展开更多
关键词 Foreign body classification global and part-level key information coal conveyor belt vision transformer(vit) self and cross attention
在线阅读 下载PDF
CNN-VIT双分支遥感影像建筑提取方法研究
8
作者 张彦芬 《地理空间信息》 2026年第1期1-6,共6页
针对现有模型提取遥感影像建筑目标时存在的提取结果数量缺失、形态不完整等问题,构建了一种结合卷积神经网络(CNN)与视觉转换器(VIT)的双分支编码器建筑提取模型。通过参数化重混排卷积单元搭建CNN分支,可变形自注意力转换器搭建VIT分... 针对现有模型提取遥感影像建筑目标时存在的提取结果数量缺失、形态不完整等问题,构建了一种结合卷积神经网络(CNN)与视觉转换器(VIT)的双分支编码器建筑提取模型。通过参数化重混排卷积单元搭建CNN分支,可变形自注意力转换器搭建VIT分支,在两组分支独立进行特征编码。在编码器与解码器间引入三元注意力重构的语义细节融合层,对多尺度特征图进行融合和负样本过滤。在解码器中,利用动态上采样单元对大尺寸特征图进行精密重建,并以广义Dice函数与焦点函数的加权组合计算训练损失。在MDD与WHU-Buliding(East Asia)数据集上的实验结果表明,该模型的F1-score达到91.57%与92.34%,比Swin-UNet模型提高了7.14%与6.51%,提取的建筑目标形态更真实完整,提取精度和泛化性优于当前主流语义分割模型。 展开更多
关键词 遥感建筑提取 CNN-vit双分支编码器 三元注意力 语义细节融合 动态上采样
在线阅读 下载PDF
融合双阶段对齐协同脑图谱与ViT嵌入提炼的MCI高阶连接识别模型
9
作者 吴海锋 翁建明 曾玉 《控制与决策》 北大核心 2025年第12期3713-3724,共12页
针对功能磁共振成像(fMRI)中高阶功能连接建模与分类任务中维度膨胀、归一化缺失与跨阶协同弱化的挑战,提出一种微分几何驱动的结构分层化轻度认知障碍(MCI)识别模型.该模型融合双阶段对齐协同脑图谱(DAS-Connectome)与结构嵌入提炼层(S... 针对功能磁共振成像(fMRI)中高阶功能连接建模与分类任务中维度膨胀、归一化缺失与跨阶协同弱化的挑战,提出一种微分几何驱动的结构分层化轻度认知障碍(MCI)识别模型.该模型融合双阶段对齐协同脑图谱(DAS-Connectome)与结构嵌入提炼层(SERL).DAS-Connectome引入两级结构建模机制:一是通过流形对数映射实现归一化的几何推广,构建稳定的高阶神经依赖结构;二是执行结构映射增强,将高阶结构与原始低阶张量缩并耦合生成DAS-Connectome,从而提升结构表达的一致性与判别密度.SERL通过变分信息瓶颈的嵌入机制和预训练ViT(Vision Transformer)对DAS-Connectome进行低维表征提炼,最终将嵌入特征输入轻量级分类器完成MCI判别.实验表明,所提出框架在阿尔茨海默病神经影像学计划库的数据集上相较传统方法分类准确率最高提升16%,在小样本条件下展现出良好的稳定性与泛化能力. 展开更多
关键词 轻度认知障碍 高阶功能连接 特征降维 功能磁共振成像 vit
原文传递
优化ViT用于黑色素瘤分类:特征筛选与InfoNCE损失的结合
10
作者 黄金杰 马媛雪 《光学精密工程》 北大核心 2025年第16期2649-2660,共12页
针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键... 针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键特征并抑制冗余信息;其次,引入InfoNCE对比损失函数,联合交叉熵损失构建多目标优化框架,增强类间特征区分度;最后,在多头自注意力机制中嵌入关键特征引导机制,实现局部细节与全局语义的协同建模。在ISIC2018和ISIC2019数据集上的实验结果表明:改进模型分类准确率分别达到83.27%和80.17%,较基线ViT模型提升1.83%和0.49%;消融实验验证动态筛选模块减少18.7%冗余计算量,对比学习使类内特征相似度提升23.6%。所提方法显著提高了ViT模型对黑色素瘤的识别能力,分类精度与鲁棒性优于主流模型,为皮肤癌早期诊断提供了高精度、低冗余的自动化解决方案,具有一定的临床实用价值。 展开更多
关键词 图像分类 特征筛选 InfoNCE损失函数 vit模型
在线阅读 下载PDF
一种基于ViT的局部图像拷贝检测算法
11
作者 朱辰 陈于勋 +1 位作者 陈禹坤 王总辉 《信息安全学报》 2025年第6期86-96,共11页
近年来,随着图像编辑技术的不断发展,数字图像的知识产权保护形势日益严峻。为有效遏制图像内容的非法窃取、复制与篡改行为,切实保障用户的合法权益,图像拷贝检测作为内容审核体系的关键组成部分,其重要性不言而喻。其中,一种常见的规... 近年来,随着图像编辑技术的不断发展,数字图像的知识产权保护形势日益严峻。为有效遏制图像内容的非法窃取、复制与篡改行为,切实保障用户的合法权益,图像拷贝检测作为内容审核体系的关键组成部分,其重要性不言而喻。其中,一种常见的规避检测手段是攻击者将源图像的部分内容巧妙地植入目标图像中,形成“画中画”式的局部拷贝。针对这一挑战,本文提出了一种基于ViT的局部图像拷贝检测算法。该算法旨在利用ViT强大的局部特征提取能力,在原始全局特征的基础上提取出图像的局部特征,揭示图像间潜在的依赖关系,并通过重新排列相关图像的顺序,提高具有更高相似度的图像在检测结果中的排序,从而精准实现对图像局部信息的拷贝检测。本文与基于自监督描述符的图像拷贝检测算法(A Self-Supervised Descriptor for Image Copy Detection)相比,在DISC2021数据集上取得显著提升,局部拷贝图像识别准确率提高10%,μAP(Micro Average Precision)指标提高10%~15%。此外,本文还利用热力图进行了直观的定性分析,证实了ViT能够敏锐地捕捉到图像中存在局部拷贝的区域,进一步验证了算法的有效性。本文提出的基于ViT的局部图像拷贝检测重排序算法能对使用画中画图像增强方式的拷贝图像进行有效检测,并在DISC2021数据集上取得了优异成绩,拓展了数字图像取证领域研究的新思路。 展开更多
关键词 图像拷贝检测 vit 图像增强 重排序 热力图
在线阅读 下载PDF
基于ViT-EN复合模型的朱墨时序显微图像识别研究
12
作者 黄锐 翁宗州 谢小雪 《中国人民公安大学学报(自然科学版)》 2025年第4期9-20,共12页
朱墨时序鉴定作为文书鉴定的重要组成部分,其传统鉴定方法依赖于鉴定人的主观经验,在复杂案件中易出现结论可靠性不足和重复性差等问题。针对上述问题,提出一种基于深度学习模型的朱墨时序鉴定方法,实现了多场景下朱墨时序的快速鉴定。... 朱墨时序鉴定作为文书鉴定的重要组成部分,其传统鉴定方法依赖于鉴定人的主观经验,在复杂案件中易出现结论可靠性不足和重复性差等问题。针对上述问题,提出一种基于深度学习模型的朱墨时序鉴定方法,实现了多场景下朱墨时序的快速鉴定。该方法通过采集字迹与印文交叉、非交叉部位的立体显微特征图像,构建2种字迹与3种印章组合的6类数据集,按8∶2的比例随机划分训练集和验证集;结合Vision Transformer (ViT)的全局上下文的捕捉能力与EfficientNet (EN)的局部特征高效提取能力,自主构建出ViT-EN(Vision Transformer-Efficient Net)复合模型,以达到对朱墨时序显微图像的快速准确智能识别。结果表明,6类数据集的验证准确率分别达到99.00%、98.00%、99.00%、100.00%、99.00%、98.00%。该方法为朱墨时序鉴定提供了一种客观、高效、可量化的智能辅助手段。 展开更多
关键词 朱墨时序 vit-EN 立体显微特征 图像识别 物证技术
在线阅读 下载PDF
一种基于空洞注意力与可变形卷积的轻量级ViT模型
13
作者 李攀峰 《电脑编程技巧与维护》 2025年第11期158-161,共4页
ViT虽性能优越,但其二次计算复杂度带来的高计算和内存成本,限制了其在边缘设备上的应用。为此,提出了一种名为DADCN-ViT的轻量级ViT模型。实验结果显示,DADCN-ViT在CIFAR-100图像分类任务上达到了99.7%的准确率,比当前最佳模型高出3.6%... ViT虽性能优越,但其二次计算复杂度带来的高计算和内存成本,限制了其在边缘设备上的应用。为此,提出了一种名为DADCN-ViT的轻量级ViT模型。实验结果显示,DADCN-ViT在CIFAR-100图像分类任务上达到了99.7%的准确率,比当前最佳模型高出3.6%,同时模型参数量减少了约21倍,是所有对比模型中规模最小的。构建了以DADCN-ViT为骨干网的简单有效的绝缘子检测框架,取得全类平均正确率(mAP)为95.2%的优异成绩。 展开更多
关键词 轻量级vit模型 DADCN-vit架构 CIFAR-100数据集
在线阅读 下载PDF
基于ViT-B深度学习模型的口腔良恶性病变图像分类研究 被引量:2
14
作者 崔宇琛 谢元栋 +3 位作者 吴聿淼 牛凌霄 常路广达 朱宪春 《口腔医学研究》 北大核心 2025年第1期16-20,共5页
目的:基于深度学习算法,对ViT-B模型检测口腔良性和恶性病变图像的性能进行分析,旨在为临床医生早期发现和准确诊断口腔癌提供有效工具。方法:使用包含口腔良性和恶性病变图像的公共数据集,对数据进行预处理和数据增强,按7∶2∶1的比例... 目的:基于深度学习算法,对ViT-B模型检测口腔良性和恶性病变图像的性能进行分析,旨在为临床医生早期发现和准确诊断口腔癌提供有效工具。方法:使用包含口腔良性和恶性病变图像的公共数据集,对数据进行预处理和数据增强,按7∶2∶1的比例将数据随机划分为训练集、验证集和测试集。选取ViT-B、VGG16、ResNet101、DenseNet121和EfficientNetV25种深度学习模型,对模型进行训练和性能比较。通过外部数据对ViT-B模型的泛化能力进行评估,并基于注意力权重的可视化方法对ViT-B模型进行分析。结果:ViT-B在5种模型中分类性能最佳,受试者工作特征曲线下面积为0.9715,准确率为91.00%。该模型可以有效区分口腔良性和恶性病变图像,具有较强的泛化能力和临床实用性。结论:ViT-B模型在口腔良性和恶性病变图像识别中表现良好,可以为口腔癌的早期发现和准确诊断提供支持。 展开更多
关键词 口腔癌 口腔病变 深度学习 vit-B
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:15
15
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 Vision Transformer(vit) 深度学习 自注意力
在线阅读 下载PDF
基于Wave-ViT的改进多通道深度残差网络的电能质量扰动分类 被引量:2
16
作者 刘大鹏 罗嘉宾 +3 位作者 刘勇 穆勇 董彪 张淑清 《计量学报》 北大核心 2025年第5期629-637,共9页
提出一种基于小波变换视觉自注意力(Wave-ViT)模型的改进多通道深度残差网络的电能质量扰动分类方法。首先将一维时间序列电能质量扰动(PQDs)信号作为通道一的输入;再将一维PQDs信号通过格拉姆角场(GAF)映射成为二维图像作为通道二的输... 提出一种基于小波变换视觉自注意力(Wave-ViT)模型的改进多通道深度残差网络的电能质量扰动分类方法。首先将一维时间序列电能质量扰动(PQDs)信号作为通道一的输入;再将一维PQDs信号通过格拉姆角场(GAF)映射成为二维图像作为通道二的输入;利用Wave-ViT模块深层挖掘二维GAF图像信息,并作为通道三的输入。接着分别对3个通道进行深层次的特征提取,构造适用于PQDs分类的多通道网络框架。通过消融实验,证实多通道对网络收敛速度和分类精度有互补作用。进一步的噪声实验和对比试验表明该方法特征提取能力强,所需迭代次数少,且抗噪性能好,对16种扰动在随机噪声和无噪声环境下的识别率分别能达到99.81%和99.19%,为电能质量扰动识别提供了一种新的思路。 展开更多
关键词 电磁计量 电能质量扰动 Wave-vit 深度残差网络 消融实验 噪声实验 扰动识别
在线阅读 下载PDF
基于VITS的高性能歌声转换模型 被引量:1
17
作者 周柯汝 金伟 《现代信息科技》 2025年第12期129-133,140,共6页
歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流... 歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流为基础的多解耦特征约束的UVC(Ultra Singing Voice Conversion)模型,该模型以VIT模型为基础,通过结合ContentVec编码器和NSF-HIFI-GAN声码器,改进模型的输入和输出,极大地提高了转换音频的质量和流畅性,并具有较强的鲁棒性。 展开更多
关键词 歌声转换 vitS ContentVec编码器 NSF-HIFI-GAN声码器
在线阅读 下载PDF
基于改进ViT的网络流量分类方法 被引量:1
18
作者 李道全 高洁 +1 位作者 聂若琳 胡一帆 《计算机工程与设计》 北大核心 2025年第2期431-437,共7页
目前网络流量分类方法中存在模型结构复杂、特征提取不足等问题,提出一种基于稀疏注意力的改进ViT(SA-ViT)网络流量分类模型。去除数据集中无关字段并转化为灰度图,划分为块序列输入编码器提取特征;引入Longformer稀疏注意力对Self-atte... 目前网络流量分类方法中存在模型结构复杂、特征提取不足等问题,提出一种基于稀疏注意力的改进ViT(SA-ViT)网络流量分类模型。去除数据集中无关字段并转化为灰度图,划分为块序列输入编码器提取特征;引入Longformer稀疏注意力对Self-attention进行优化,使其具有更高的局部与全局特征表达能力;通过对比图像相似度实现流量分类。通过网络公开数据集进行检测,其结果表明,所提算法在分类准确率、精确率以及F1分数等方面有较大提升,验证了该模型的科学性与可行性。 展开更多
关键词 流量分类 Vision Transformer(vit) 稀疏注意力 Longformer 编解码器 样本不均衡 灰度图
在线阅读 下载PDF
融合全局与局部特征的两阶段ViT分心驾驶行为识别方法
19
作者 王腾 高尚兵 任刚 《中国图象图形学报》 北大核心 2025年第11期3617-3633,共17页
目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特... 目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特征的两阶段ViT分心驾驶行为识别方法。方法在第1阶段,为防止丢失先前层的信息,提出token信息补充模块,利用k层的class token来获得更全面的特征信息;在第2阶段,为解决特征复杂的图像识别问题,提出特征交互模块,通过交叉注意力机制和自注意力机制融合ViT全局特征和MobileNetV3局部特征。在提高识别准确率的基础上,提出两阶段注意力模块,用于缓解多头注意力可扩展性问题,从而进一步减少参数计算量。结果实验表明,在State Farm数据集和课题组自建的客运车辆分心驾驶行为数据集上,本文方法准确率分别达到99.69%和96.87%,较主干网络ViT-B_16分别提升1.86%和1.65%;相比于TransFG(Transformer architecture for fine-grained recognition)模型,准确率分别提升0.98%和1.04%,浮点数运算次数(floating point operations,FLOPs)分别降低26.87%和17.23%。两个数据集上的整体性能均优于前沿的识别方法。结论本文方法能够准确识别真实场景下的分心驾驶行为,具有更好的鲁棒性,为分类任务研究提供了新思路。 展开更多
关键词 智能交通 分心驾驶行为识别 视觉Transformer(vit) 注意力机制 特征融合
原文传递
融合Mobile Vit和倒置门控编解码的视网膜血管分割算法 被引量:1
20
作者 梁礼明 阳渊 +2 位作者 朱晨锟 何安军 吴健 《北京航空航天大学学报》 北大核心 2025年第3期712-723,共12页
针对视网膜血管分割时存在背景噪声干扰、边界纹理模糊和微细血管提取难等问题,提出一种融合Mobile Vit和倒置门控编解码的视网膜血管分割算法(FMVG-Net)。改进Mobile Vit模块,在编码部分实现双联合特征提取;利用多谱注意力模块,从频域... 针对视网膜血管分割时存在背景噪声干扰、边界纹理模糊和微细血管提取难等问题,提出一种融合Mobile Vit和倒置门控编解码的视网膜血管分割算法(FMVG-Net)。改进Mobile Vit模块,在编码部分实现双联合特征提取;利用多谱注意力模块,从频域维度减少图像特征信息缺失,精确分割血管前景像素;提出特征自适应融合模块,建立血管纹理上下文依赖关系,提高血管分割灵敏度;优化编解码结构,设计倒置门控编解码模块,进一步捕获空间信息与深层语义信息,提高视网膜血管图像分割精度。在公共数据集DRIVE、STARE和CHASE_DB1上对所提算法进行实验,特异性分别为0.9863、0.9897和0.9873,准确度分别为0.9709、0.9754和0.9760,敏感度分别为0.8109、0.8010和0.8079。仿真实验证明,所提网络对视网膜血管分割具有较好的分割效果,为眼科疾病的诊断提供了新窗口。 展开更多
关键词 视网膜血管 Mobile vit模块 离散余弦变换 倒置门控编解码模块 特征自适应融合
原文传递
上一页 1 2 26 下一页 到第
使用帮助 返回顶部