期刊文献+
共找到310篇文章
< 1 2 16 >
每页显示 20 50 100
基于VITS的高性能歌声转换模型 被引量:1
1
作者 周柯汝 金伟 《现代信息科技》 2025年第12期129-133,140,共6页
歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流... 歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流为基础的多解耦特征约束的UVC(Ultra Singing Voice Conversion)模型,该模型以VIT模型为基础,通过结合ContentVec编码器和NSF-HIFI-GAN声码器,改进模型的输入和输出,极大地提高了转换音频的质量和流畅性,并具有较强的鲁棒性。 展开更多
关键词 歌声转换 vits ContentVec编码器 NSF-HIFI-GAN声码器
在线阅读 下载PDF
基于VITS和AIS融合数据的水上交通安全监管功能设计与应用 被引量:6
2
作者 张卫中 《中国水运(下半月)》 2019年第7期82-83,共2页
船舶身份识别与轨迹传感器(Vessel Identification and Track Sensor)简称VITS是江苏省地方海事局自主研发的一款船载终端,具有体积小、耗电低、信号持续稳定等特点,与AIS数据融合可以弥补各自的技术缺陷,在内河水上交通安全监管中实现... 船舶身份识别与轨迹传感器(Vessel Identification and Track Sensor)简称VITS是江苏省地方海事局自主研发的一款船载终端,具有体积小、耗电低、信号持续稳定等特点,与AIS数据融合可以弥补各自的技术缺陷,在内河水上交通安全监管中实现对船舶航行全方位、全时段、多角度的监测预警,在事中事后管理中创新监管水平,提升便民服务。 展开更多
关键词 vits AIS 融合 应用 安全监管
在线阅读 下载PDF
基于VITS模型的藏语康巴方言语音合成研究
3
作者 王嘉文 高定国 +1 位作者 尼琼 巴果 《电脑知识与技术》 2024年第4期8-10,15,共4页
藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合... 藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合成效果不理想。文章通过改进VITS模型,使其运用于藏语语音合成,在一个小规模的藏语康巴方言语料库上训练了VITS模型。实验结果表明,VITS模型可以很好地应用于藏语康巴方言的语音合成,不仅可以保持语音的自然度和清晰度,还可以准确地反映语音的声调和声母变化。 展开更多
关键词 vits 藏语 康巴方言 语音合成
在线阅读 下载PDF
基于VITS的内河船舶安全指数分析模型研究 被引量:1
4
作者 张卫中 郭亚中 《中国水运(下半月)》 2020年第9期41-43,共3页
船舶AIS数据在内河应用中易缺失,难以形成对内河船舶安全监管的数据支撑,考虑到内河船舶VITS数据中包含船舶标识码、位置、时间、航速和角度等信息,基于VITS的内河船舶数据建立了相邻指数和碰撞指数相融合的安全指数,结合实际的数据分析... 船舶AIS数据在内河应用中易缺失,难以形成对内河船舶安全监管的数据支撑,考虑到内河船舶VITS数据中包含船舶标识码、位置、时间、航速和角度等信息,基于VITS的内河船舶数据建立了相邻指数和碰撞指数相融合的安全指数,结合实际的数据分析,结果表明可形成安全态势,形成船舶运行态势的量化和可视化,并可有效支撑内河船舶运行的安全与管理决策。 展开更多
关键词 内河船舶 安全指数 vits
在线阅读 下载PDF
关键特征感知并行细粒度特征提取的密集行人检测
5
作者 齐向明 刘晓暄 王子键 《计算机工程与应用》 北大核心 2026年第1期297-306,共10页
针对密集行人检测中存在目标密集且相互遮挡问题,提出一种关键特征感知并行细粒度特征提取的密集行人检测算法。以YOLOv8n为基线网络,在vision Transformer中再次加入自注意力机制得到DS-ViT(dual search)深度感知全局关键特征,优化CBS... 针对密集行人检测中存在目标密集且相互遮挡问题,提出一种关键特征感知并行细粒度特征提取的密集行人检测算法。以YOLOv8n为基线网络,在vision Transformer中再次加入自注意力机制得到DS-ViT(dual search)深度感知全局关键特征,优化CBS使用3个3×3Conv,设计双支路加入空间注意力机制得到FE-Conv(feature enhance)增强空间和通道双重特征提取局部细粒度,DS-ViT与FE-Conv并行重构主干网络,增强多尺度特征提取能力;颈部网络输入端嵌入空间注意力机制,增强多层次特征融合;检测网络新增三个卷积层,删减20×20检测头,降低漏检和错检率。在自制数据集上做消融实验和对比实验,与基线网络对比,mAP、Precision、Recall、IoU和FPS分别提高5.4个百分点、4.9个百分点、6.4个百分点、6.2个百分点和6.2,Parameters值仅增加1×10^(5),表明该算法有良好表现。在公开数据集WiderPerson上做泛化实验,较基线网络平均检测精度提升1.6个百分点,表明该算法具备较好鲁棒性。 展开更多
关键词 密集行人检测 关键特征深度感知 细粒度特征双重提取 YOLOv8n 视觉变换器(ViT) CBS
在线阅读 下载PDF
基于重叠ViT的特征增强遥感图像目标检测
6
作者 张晴 王养柱 +3 位作者 邱华鑫 张小蔓 吴坤 李可 《空间控制技术与应用(中英文)》 北大核心 2026年第1期111-120,共10页
遥感图像场景范围广、目标尺度差异显著、背景复杂多样,且存在大量低对比度的小目标,给精准检测带来巨大挑战.提出一种基于重叠ViT的特征增强遥感图像目标检测方法(overlapped patches vision transformer detection,OLP-ViTDet).该方法... 遥感图像场景范围广、目标尺度差异显著、背景复杂多样,且存在大量低对比度的小目标,给精准检测带来巨大挑战.提出一种基于重叠ViT的特征增强遥感图像目标检测方法(overlapped patches vision transformer detection,OLP-ViTDet).该方法在ViT基础上引入重叠分块策略,构建重叠ViT捕捉跨块细粒度特征,通过额外的重叠图像块强化跨块特征关联,解决传统ViT不重叠分块所导致的信息割裂问题;结合简化特征金字塔结构,提高多尺度特征信息提取和融合效率;采用滑动窗口注意力机制,降低计算复杂度的同时,保留全局信息交互能力,有效提升低对比度小目标的检测精度.在DIOR数据集和NWPU VHR-10数据集上进行对比实验,实验结果表明OLP-ViTDet算法的平均检测精度mAP分别达到78.8%和96.4%,在小目标和复杂结构目标的检测精度上表现出显著优势.该方法显著提升了遥感图像目标检测精度,为空间任务中的目标识别提供了新思路. 展开更多
关键词 遥感图像 目标检测 VIT 重叠分块 简化特征金字塔 滑动窗口注意力
在线阅读 下载PDF
基于GLF-ViT算法的地面侦察机器人多标签图像分类
7
作者 杨成山 王明 +1 位作者 郭东兵 赵爱军 《火力与指挥控制》 北大核心 2026年第2期168-173,共6页
现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强... 现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强局部特征表达,并结合全局特征实现跨尺度协同建模。在PASCAL VOC2012数据集上的实验表明,GLF-ViT算法能够有效融合全局与局部特征,在视觉特征提取方面表现出一定的优越性。 展开更多
关键词 多标签图像分类 ViT模型 特征融合 自注意力机制 特征提取
在线阅读 下载PDF
基于Mask2Former的草莓状黄铁矿语义分割研究
8
作者 胡正浩 李红军 +3 位作者 戚晓婧 郑栋宇 常晓琳 陈安清 《电子设计工程》 2026年第3期40-44,共5页
草莓状黄铁矿作为古海洋氧化还原环境重建的重要指标,针对草莓状黄铁矿扫描电镜(SEM)图像背景同质化和目标边界模糊问题,该研究构建了一个草莓状黄铁矿语义分割数据集(PSS),并提出了融合ViT与ViM的改进型Mask2Former模型——ViTM-Mask2F... 草莓状黄铁矿作为古海洋氧化还原环境重建的重要指标,针对草莓状黄铁矿扫描电镜(SEM)图像背景同质化和目标边界模糊问题,该研究构建了一个草莓状黄铁矿语义分割数据集(PSS),并提出了融合ViT与ViM的改进型Mask2Former模型——ViTM-Mask2Former。通过ViT的全局注意力机制来捕获长距离依赖关系,结合ViM提取位置敏感的边缘特征,引入区域特征注意力模块(RFA)进行特征细化;通过引入特征融合模块,将区域特征和边缘特征有效结合。实验结果表明,改进模型在PSS测试集上mIoU达到78.07%,性能优于主流模型,有效满足了实际应用需求。 展开更多
关键词 草莓状黄铁矿 语义分割 矿物显微图像 VIT VIM
在线阅读 下载PDF
Detection of co-phasing error in segmented mirror based on extended Young’s interferometry combined with Vision Transformer
9
作者 LIU Yin-ling YAO Chi +3 位作者 OUYANG Shang-tao WAN Yi-rong CHEN Mo LI Bin 《中国光学(中英文)》 北大核心 2026年第1期205-218,共14页
Due to the inability of manufacturing a single monolithic mirror at the 10-meter scales,segmented mirrors have become indispensable tools in modern astronomical research.However,to match the imaging performance of the... Due to the inability of manufacturing a single monolithic mirror at the 10-meter scales,segmented mirrors have become indispensable tools in modern astronomical research.However,to match the imaging performance of the monolithic counterpart,the sub-mirrors must maintain precise co-phasing.Piston error critically degrades segmented mirror imaging quality,necessitating efficient and precise detection.To ad-dress the limitations that the conventional circular-aperture diffraction with two-wavelength algorithm is sus-ceptible to decentration errors,and the traditional convolutional neural networks(CNNs)struggle to capture global features under large-range piston errors due to their restricted local receptive fields,this paper pro-poses a method that integrates extended Young’s interference principles with a Vision Transformer(ViT)to detect piston error.By suppressing decentration error interference through two symmetrically arranged aper-tures and extending the measurement range to±7.95μm via a two-wavelength(589 nm/600 nm)algorithm.This approach exploits ViT’s self-attention mechanism to model global characteristics of interference fringes.Unlike CNNs constrained by local convolutional kernels,the ViT significantly improves sensitivity to inter-ferogram periodicity.The simulation results demonstrate that the proposed method achieves a measurement accuracy of 5 nm(0.0083λ0)across the range of±7.95μm,while maintaining an accuracy exceeding 95%in the presence of Gaussian noise(SNR≥15 dB),Poisson noise(λ≥9 photons/pixel),and sub-mirror gap er-ror(Egap≤0.2)interference.Moreover,the detection speed shows significant improvement compared to the cross-correlation algorithm.This study establishes an accurate,robust framework for segmented mirror error detection,advancing high-precision astronomical observation. 展开更多
关键词 segmented mirror co-phasing piston errors ViT Young’s interference principles
在线阅读 下载PDF
基于改进ViT模型的电网关键线路智能预测方法
10
作者 祝欣宇 窦迅 +2 位作者 牛鹏艺 郭艳敏 石飞 《电力自动化设备》 北大核心 2026年第2期205-214,共10页
针对现有关键线路辨识方法在应对多源不确定性和复杂交易的准确性与适应性不足的问题,提出了一种基于改进视觉转换器(ViT)模型的电网关键线路智能预测方法。剖析了关键线路智能预测的原理,提出了考虑中长期交易和新能源不确定性的关键... 针对现有关键线路辨识方法在应对多源不确定性和复杂交易的准确性与适应性不足的问题,提出了一种基于改进视觉转换器(ViT)模型的电网关键线路智能预测方法。剖析了关键线路智能预测的原理,提出了考虑中长期交易和新能源不确定性的关键线路评价指标;采用多目标组合赋权方法,基于排序学习策略动态平衡主客观权重以优化排序目标;引入多尺度感知模块和上采样操作改进ViT模型,以增强对时序-指标数据的特征提取能力,通过通道扩展与空间适配机制提升其对全局依赖与多尺度特征的表征能力以实现关键线路预测。算例分析结果表明,该方法预测准确率达97.9%,在中长期交易场景下具备良好的有效性与适应性。 展开更多
关键词 中长期交易 关键线路 智能预测 改进ViT模型 多尺度感知
在线阅读 下载PDF
基于ViT大模型的安检X光图像违禁品识别研究
11
作者 陈帅 范光涛 《山东工业技术》 2026年第1期77-83,共7页
当前主流X光安检图像识别基于卷积神经网络(CNN),但CNN的局部建模特性,使其在处理目标复杂堆叠、严重遮挡时,识别效果不佳。本文构建基于Vision Transformer(ViT)的安检图像识别方法,利用ViT多头自注意力机制,克服CNN感受视野有限的缺... 当前主流X光安检图像识别基于卷积神经网络(CNN),但CNN的局部建模特性,使其在处理目标复杂堆叠、严重遮挡时,识别效果不佳。本文构建基于Vision Transformer(ViT)的安检图像识别方法,利用ViT多头自注意力机制,克服CNN感受视野有限的缺陷。实验结果表明,本文所采用的ViT+FPN模型在目标检测任务上的平均精度(mAP@0.5)达到87.1%,尤其在识别Wrench(扳手)、Pliers(钳子)这两类容易堆叠违禁品场景下,性能提升更为显著。本研究为深度学习在复杂安检场景中的应用提供了新的思路和实验依据。 展开更多
关键词 VIT X光图像 自注意力机制 违禁品识别
在线阅读 下载PDF
KPA-ViT:Key Part-Level Attention Vision Transformer for Foreign Body Classification on Coal Conveyor Belt
12
作者 Haoxuanye Ji Zhiliang Chen +3 位作者 Pengfei Jiang Ziyue Wang Ting Yu Wei Zhang 《Computers, Materials & Continua》 2026年第3期656-671,共16页
Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spa... Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spatial and semantic information.However,the performance of CNN-based methods remains limited in classification accuracy,primarily due to insufficient exploration of local image characteristics.Unlike CNNs,Vision Transformer(ViT)captures discriminative features by modeling relationships between local image patches.However,such methods typically require a large number of training samples to perform effectively.In the context of foreign body classification on coal conveyor belts,the limited availability of training samples hinders the full exploitation of Vision Transformer’s(ViT)capabilities.To address this issue,we propose an efficient approach,termed Key Part-level Attention Vision Transformer(KPA-ViT),which incorporates key local information into the transformer architecture to enrich the training information.It comprises three main components:a key-point detection module,a key local mining module,and an attention module.To extract key local regions,a key-point detection strategy is first employed to identify the positions of key points.Subsequently,the key local mining module extracts the relevant local features based on these detected points.Finally,an attention module composed of self-attention and cross-attention blocks is introduced to integrate global and key part-level information,thereby enhancing the model’s ability to learn discriminative features.Compared to recent transformer-based frameworks—such as ViT,Swin-Transformer,and EfficientViT—the proposed KPA-ViT achieves performance improvements of 9.3%,6.6%,and 2.8%,respectively,on the CUMT-BelT dataset,demonstrating its effectiveness. 展开更多
关键词 Foreign body classification global and part-level key information coal conveyor belt vision transformer(ViT) self and cross attention
在线阅读 下载PDF
基于改进集合经验模态分解和强化视觉Transformer模型的风电机组故障预警 被引量:1
13
作者 许伯强 王彪 +1 位作者 孙丽玲 尹彦博 《电工技术学报》 北大核心 2025年第20期6537-6551,共15页
现有基于数据采集与监视控制系统(SCADA)数据的风电机组故障预警方法往往只针对风电机组的某一位置或者某一类型故障,无法对风电机组整体进行较为全面的预警。针对这一问题,该文提出了基于改进集合经验模态分解(EEMD)和强化的视觉转换器... 现有基于数据采集与监视控制系统(SCADA)数据的风电机组故障预警方法往往只针对风电机组的某一位置或者某一类型故障,无法对风电机组整体进行较为全面的预警。针对这一问题,该文提出了基于改进集合经验模态分解(EEMD)和强化的视觉转换器(ViT)模型的风电机组故障预警方法。首先,对EEMD算法进行改进,分解得到的数据包含不同时间尺度的特征信息,且使得分解过程中不发生信息泄露。采用改进的EEMD算法解构风电机组SCADA多维数据之后,构建反映风电机组实时状态的特征矩阵。然后,结合非对称卷积模块对ViT模型进行强化,并加入可变形注意力模块,在降低计算复杂度的同时使得模型可以充分捕捉不同维度与时间尺度的风电机组特征。最后,将特征矩阵输入强化的ViT模型以获得预测结果,与实际值对比得到残差矩阵,依此进行风电机组故障的预警。经风电机组实际运行SCADA数据验证,该文提出的风电机组故障预警方法准确有效,并可通过残差矩阵进一步辨识风电机组发生的故障类型。 展开更多
关键词 风电机组 数据采集与监视控制系统(SCADA)数据 故障预警 改进集合经验模态分解(EEMD) 强化ViT模型
在线阅读 下载PDF
采用ConvNeXt解码器和基频预测的低资源语音合成
14
作者 王猛 杨鉴 《浙江大学学报(工学版)》 北大核心 2025年第10期2186-2194,共9页
现有模型合成低资源语言的语音自然度低,为此提出改进模型.以VITS为基线模型,使用ConvNeXtV2模块替换原模型解码器中的转置卷积模块以降低混叠干扰,应用逆短时傅立叶变换(iSTFT)构建新的解码器以提升合成语音的自然流畅性.将帧级别的基... 现有模型合成低资源语言的语音自然度低,为此提出改进模型.以VITS为基线模型,使用ConvNeXtV2模块替换原模型解码器中的转置卷积模块以降低混叠干扰,应用逆短时傅立叶变换(iSTFT)构建新的解码器以提升合成语音的自然流畅性.将帧级别的基频预测器引入模型,离散化预测器输出并转换为高维向量,再与VITS中流模块的输出向量拼接后送入所构建解码器结构中.添加基频损失函数以捕捉和模拟声调.使用缅甸语、越南语和泰语数据集训练并评估所提改进模型.模型性能对比实验结果表明,所提改进模型的语音合成效果优于现有模型. 展开更多
关键词 语音合成 低资源语言 vits ConvNeXt 基频建模
在线阅读 下载PDF
融合多尺度特征和双分支并行的肺结节图像分割网络 被引量:1
15
作者 王超学 王磊 《计算机系统应用》 2025年第4期166-174,共9页
肺结节图像的准确分割对于肺癌的早期诊断具有重要意义,针对肺结节图像尺度多样、边缘模糊导致特征提取不充分和细节信息丢失问题,本文提出一种融合多尺度特征和双分支并行的肺结节图像分割网络RAVR-UNet.首先,针对U-Net网络在编码阶段... 肺结节图像的准确分割对于肺癌的早期诊断具有重要意义,针对肺结节图像尺度多样、边缘模糊导致特征提取不充分和细节信息丢失问题,本文提出一种融合多尺度特征和双分支并行的肺结节图像分割网络RAVR-UNet.首先,针对U-Net网络在编码阶段无法充分提取肺结节特征,采用双分支并行特征聚合网络提取肺结节图像中的特征信息,减少特征编码时的信息损失.其次,通过引入Agent_ViT模块,在保持线性计算的基础上,增强全局信息建模能力.然后,为恢复下采样期间丢失的肺结节空间信息,在解码阶段加入多尺度特征融合模块.最后,设计混合损失函数以缓解肺结节图像分割任务中正负样本不平衡问题.在LIDC-IDRI公开数据集上的实验结果表明,所提网络的相似系数、交并比分别达到93.15%、87.63%,优于主流肺结节分割算法且分割结果更接近真实值. 展开更多
关键词 肺结节图像分割 多尺度特征融合 U-Net VIT 代理注意力
在线阅读 下载PDF
图像语义分割方法概述
16
作者 蒋冬梅 彭成东 《电脑知识与技术》 2025年第12期90-94,共5页
图像语义分割旨在对图像中每个像素进行语义类别的预测。文章系统综述了传统图像语义分割算法,基于深度学习的以FCN、DeconvNet和HRNet为代表的经典CNN网络,以及基于视觉Transformer的ViTs和HVTs架构的语义分割网络,并分析了语义分割常... 图像语义分割旨在对图像中每个像素进行语义类别的预测。文章系统综述了传统图像语义分割算法,基于深度学习的以FCN、DeconvNet和HRNet为代表的经典CNN网络,以及基于视觉Transformer的ViTs和HVTs架构的语义分割网络,并分析了语义分割常用的公开数据集、模型评价指标及语义分割相关的研究趋势。 展开更多
关键词 语义分割 高分辨率分割 FCN DeconvNet HRNet vits HVTs
在线阅读 下载PDF
融合双阶段对齐协同脑图谱与ViT嵌入提炼的MCI高阶连接识别模型
17
作者 吴海锋 翁建明 曾玉 《控制与决策》 北大核心 2025年第12期3713-3724,共12页
针对功能磁共振成像(fMRI)中高阶功能连接建模与分类任务中维度膨胀、归一化缺失与跨阶协同弱化的挑战,提出一种微分几何驱动的结构分层化轻度认知障碍(MCI)识别模型.该模型融合双阶段对齐协同脑图谱(DAS-Connectome)与结构嵌入提炼层(S... 针对功能磁共振成像(fMRI)中高阶功能连接建模与分类任务中维度膨胀、归一化缺失与跨阶协同弱化的挑战,提出一种微分几何驱动的结构分层化轻度认知障碍(MCI)识别模型.该模型融合双阶段对齐协同脑图谱(DAS-Connectome)与结构嵌入提炼层(SERL).DAS-Connectome引入两级结构建模机制:一是通过流形对数映射实现归一化的几何推广,构建稳定的高阶神经依赖结构;二是执行结构映射增强,将高阶结构与原始低阶张量缩并耦合生成DAS-Connectome,从而提升结构表达的一致性与判别密度.SERL通过变分信息瓶颈的嵌入机制和预训练ViT(Vision Transformer)对DAS-Connectome进行低维表征提炼,最终将嵌入特征输入轻量级分类器完成MCI判别.实验表明,所提出框架在阿尔茨海默病神经影像学计划库的数据集上相较传统方法分类准确率最高提升16%,在小样本条件下展现出良好的稳定性与泛化能力. 展开更多
关键词 轻度认知障碍 高阶功能连接 特征降维 功能磁共振成像 VIT
原文传递
优化ViT用于黑色素瘤分类:特征筛选与InfoNCE损失的结合
18
作者 黄金杰 马媛雪 《光学精密工程》 北大核心 2025年第16期2649-2660,共12页
针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键... 针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键特征并抑制冗余信息;其次,引入InfoNCE对比损失函数,联合交叉熵损失构建多目标优化框架,增强类间特征区分度;最后,在多头自注意力机制中嵌入关键特征引导机制,实现局部细节与全局语义的协同建模。在ISIC2018和ISIC2019数据集上的实验结果表明:改进模型分类准确率分别达到83.27%和80.17%,较基线ViT模型提升1.83%和0.49%;消融实验验证动态筛选模块减少18.7%冗余计算量,对比学习使类内特征相似度提升23.6%。所提方法显著提高了ViT模型对黑色素瘤的识别能力,分类精度与鲁棒性优于主流模型,为皮肤癌早期诊断提供了高精度、低冗余的自动化解决方案,具有一定的临床实用价值。 展开更多
关键词 图像分类 特征筛选 InfoNCE损失函数 ViT模型
在线阅读 下载PDF
一种基于ViT的局部图像拷贝检测算法
19
作者 朱辰 陈于勋 +1 位作者 陈禹坤 王总辉 《信息安全学报》 2025年第6期86-96,共11页
近年来,随着图像编辑技术的不断发展,数字图像的知识产权保护形势日益严峻。为有效遏制图像内容的非法窃取、复制与篡改行为,切实保障用户的合法权益,图像拷贝检测作为内容审核体系的关键组成部分,其重要性不言而喻。其中,一种常见的规... 近年来,随着图像编辑技术的不断发展,数字图像的知识产权保护形势日益严峻。为有效遏制图像内容的非法窃取、复制与篡改行为,切实保障用户的合法权益,图像拷贝检测作为内容审核体系的关键组成部分,其重要性不言而喻。其中,一种常见的规避检测手段是攻击者将源图像的部分内容巧妙地植入目标图像中,形成“画中画”式的局部拷贝。针对这一挑战,本文提出了一种基于ViT的局部图像拷贝检测算法。该算法旨在利用ViT强大的局部特征提取能力,在原始全局特征的基础上提取出图像的局部特征,揭示图像间潜在的依赖关系,并通过重新排列相关图像的顺序,提高具有更高相似度的图像在检测结果中的排序,从而精准实现对图像局部信息的拷贝检测。本文与基于自监督描述符的图像拷贝检测算法(A Self-Supervised Descriptor for Image Copy Detection)相比,在DISC2021数据集上取得显著提升,局部拷贝图像识别准确率提高10%,μAP(Micro Average Precision)指标提高10%~15%。此外,本文还利用热力图进行了直观的定性分析,证实了ViT能够敏锐地捕捉到图像中存在局部拷贝的区域,进一步验证了算法的有效性。本文提出的基于ViT的局部图像拷贝检测重排序算法能对使用画中画图像增强方式的拷贝图像进行有效检测,并在DISC2021数据集上取得了优异成绩,拓展了数字图像取证领域研究的新思路。 展开更多
关键词 图像拷贝检测 VIT 图像增强 重排序 热力图
在线阅读 下载PDF
Vision Transformer模型在中医舌诊图像分类中的应用研究
20
作者 周坚和 王彩雄 +3 位作者 李炜 周晓玲 张丹璇 吴玉峰 《广西科技大学学报》 2025年第5期89-98,共10页
舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于... 舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于Vision Transformer(ViT)深度学习模型,通过预训练与微调策略优化特征提取能力,并结合数据增强技术解决类别分布不平衡问题。实验结果表明,该模型在6项关键舌象特征分类任务中,5项指标的准确率(苔色85.6%、瘀斑98.0%、质地99.6%、舌色96.6%、裂纹87.8%)显著优于现有CNN方法(如ResNet50对应准确率分别为78.0%、91.0%、92.0%、68.0%、80.1%),验证了该模型在突破传统性能瓶颈、提升中医临床智能诊断可靠性方面的有效性和应用潜力。 展开更多
关键词 舌诊 Vision Transformer(ViT) 深度学习 医学图像分类
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部