期刊文献+
共找到322篇文章
< 1 2 17 >
每页显示 20 50 100
基于VITS的高性能歌声转换模型 被引量:1
1
作者 周柯汝 金伟 《现代信息科技》 2025年第12期129-133,140,共6页
歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流... 歌声转换是将源歌唱者的声音转换为目标歌唱者的声音,但保留原有的内容和旋律。随着科技的发展,各种网络结构和模型相继提出,歌声转换的算法也变得多样化,但难免都会出现转换音频质量差、失真率高、音域缺失等问题。文章提出以高保真流为基础的多解耦特征约束的UVC(Ultra Singing Voice Conversion)模型,该模型以VIT模型为基础,通过结合ContentVec编码器和NSF-HIFI-GAN声码器,改进模型的输入和输出,极大地提高了转换音频的质量和流畅性,并具有较强的鲁棒性。 展开更多
关键词 歌声转换 vits ContentVec编码器 NSF-HIFI-GAN声码器
在线阅读 下载PDF
基于VITS和AIS融合数据的水上交通安全监管功能设计与应用 被引量:6
2
作者 张卫中 《中国水运(下半月)》 2019年第7期82-83,共2页
船舶身份识别与轨迹传感器(Vessel Identification and Track Sensor)简称VITS是江苏省地方海事局自主研发的一款船载终端,具有体积小、耗电低、信号持续稳定等特点,与AIS数据融合可以弥补各自的技术缺陷,在内河水上交通安全监管中实现... 船舶身份识别与轨迹传感器(Vessel Identification and Track Sensor)简称VITS是江苏省地方海事局自主研发的一款船载终端,具有体积小、耗电低、信号持续稳定等特点,与AIS数据融合可以弥补各自的技术缺陷,在内河水上交通安全监管中实现对船舶航行全方位、全时段、多角度的监测预警,在事中事后管理中创新监管水平,提升便民服务。 展开更多
关键词 vits AIS 融合 应用 安全监管
在线阅读 下载PDF
基于VITS模型的藏语康巴方言语音合成研究
3
作者 王嘉文 高定国 +1 位作者 尼琼 巴果 《电脑知识与技术》 2024年第4期8-10,15,共4页
藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合... 藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合成效果不理想。文章通过改进VITS模型,使其运用于藏语语音合成,在一个小规模的藏语康巴方言语料库上训练了VITS模型。实验结果表明,VITS模型可以很好地应用于藏语康巴方言的语音合成,不仅可以保持语音的自然度和清晰度,还可以准确地反映语音的声调和声母变化。 展开更多
关键词 vits 藏语 康巴方言 语音合成
在线阅读 下载PDF
基于VITS的内河船舶安全指数分析模型研究 被引量:1
4
作者 张卫中 郭亚中 《中国水运(下半月)》 2020年第9期41-43,共3页
船舶AIS数据在内河应用中易缺失,难以形成对内河船舶安全监管的数据支撑,考虑到内河船舶VITS数据中包含船舶标识码、位置、时间、航速和角度等信息,基于VITS的内河船舶数据建立了相邻指数和碰撞指数相融合的安全指数,结合实际的数据分析... 船舶AIS数据在内河应用中易缺失,难以形成对内河船舶安全监管的数据支撑,考虑到内河船舶VITS数据中包含船舶标识码、位置、时间、航速和角度等信息,基于VITS的内河船舶数据建立了相邻指数和碰撞指数相融合的安全指数,结合实际的数据分析,结果表明可形成安全态势,形成船舶运行态势的量化和可视化,并可有效支撑内河船舶运行的安全与管理决策。 展开更多
关键词 内河船舶 安全指数 vits
在线阅读 下载PDF
关键特征感知并行细粒度特征提取的密集行人检测
5
作者 齐向明 刘晓暄 王子键 《计算机工程与应用》 北大核心 2026年第1期297-306,共10页
针对密集行人检测中存在目标密集且相互遮挡问题,提出一种关键特征感知并行细粒度特征提取的密集行人检测算法。以YOLOv8n为基线网络,在vision Transformer中再次加入自注意力机制得到DS-ViT(dual search)深度感知全局关键特征,优化CBS... 针对密集行人检测中存在目标密集且相互遮挡问题,提出一种关键特征感知并行细粒度特征提取的密集行人检测算法。以YOLOv8n为基线网络,在vision Transformer中再次加入自注意力机制得到DS-ViT(dual search)深度感知全局关键特征,优化CBS使用3个3×3Conv,设计双支路加入空间注意力机制得到FE-Conv(feature enhance)增强空间和通道双重特征提取局部细粒度,DS-ViT与FE-Conv并行重构主干网络,增强多尺度特征提取能力;颈部网络输入端嵌入空间注意力机制,增强多层次特征融合;检测网络新增三个卷积层,删减20×20检测头,降低漏检和错检率。在自制数据集上做消融实验和对比实验,与基线网络对比,mAP、Precision、Recall、IoU和FPS分别提高5.4个百分点、4.9个百分点、6.4个百分点、6.2个百分点和6.2,Parameters值仅增加1×10^(5),表明该算法有良好表现。在公开数据集WiderPerson上做泛化实验,较基线网络平均检测精度提升1.6个百分点,表明该算法具备较好鲁棒性。 展开更多
关键词 密集行人检测 关键特征深度感知 细粒度特征双重提取 YOLOv8n 视觉变换器(ViT) CBS
在线阅读 下载PDF
基于重叠ViT的特征增强遥感图像目标检测
6
作者 张晴 王养柱 +3 位作者 邱华鑫 张小蔓 吴坤 李可 《空间控制技术与应用(中英文)》 北大核心 2026年第1期111-120,共10页
遥感图像场景范围广、目标尺度差异显著、背景复杂多样,且存在大量低对比度的小目标,给精准检测带来巨大挑战.提出一种基于重叠ViT的特征增强遥感图像目标检测方法(overlapped patches vision transformer detection,OLP-ViTDet).该方法... 遥感图像场景范围广、目标尺度差异显著、背景复杂多样,且存在大量低对比度的小目标,给精准检测带来巨大挑战.提出一种基于重叠ViT的特征增强遥感图像目标检测方法(overlapped patches vision transformer detection,OLP-ViTDet).该方法在ViT基础上引入重叠分块策略,构建重叠ViT捕捉跨块细粒度特征,通过额外的重叠图像块强化跨块特征关联,解决传统ViT不重叠分块所导致的信息割裂问题;结合简化特征金字塔结构,提高多尺度特征信息提取和融合效率;采用滑动窗口注意力机制,降低计算复杂度的同时,保留全局信息交互能力,有效提升低对比度小目标的检测精度.在DIOR数据集和NWPU VHR-10数据集上进行对比实验,实验结果表明OLP-ViTDet算法的平均检测精度mAP分别达到78.8%和96.4%,在小目标和复杂结构目标的检测精度上表现出显著优势.该方法显著提升了遥感图像目标检测精度,为空间任务中的目标识别提供了新思路. 展开更多
关键词 遥感图像 目标检测 VIT 重叠分块 简化特征金字塔 滑动窗口注意力
在线阅读 下载PDF
基于GLF-ViT算法的地面侦察机器人多标签图像分类
7
作者 杨成山 王明 +1 位作者 郭东兵 赵爱军 《火力与指挥控制》 北大核心 2026年第2期168-173,共6页
现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强... 现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强局部特征表达,并结合全局特征实现跨尺度协同建模。在PASCAL VOC2012数据集上的实验表明,GLF-ViT算法能够有效融合全局与局部特征,在视觉特征提取方面表现出一定的优越性。 展开更多
关键词 多标签图像分类 ViT模型 特征融合 自注意力机制 特征提取
在线阅读 下载PDF
LegoViT:边缘端视觉推理中ViT模型块粒度缩放技术
8
作者 周豪捷 吴晓宁 +6 位作者 高志强 韩锐 张青龙 刘驰 陈铮 赵玉 王硕 《计算机科学》 北大核心 2026年第4期269-276,共8页
近年来,ViT模型凭借其强大的图像理解能力被广泛部署于边缘侧视觉应用。在资源受限边缘端推理中,ViT模型需依据可用资源对其进行有效缩放来获取最优的推理精度-延迟平衡。然而,现有推理模型缩放技术往往仅能在整个模型粒度进行缩放,导... 近年来,ViT模型凭借其强大的图像理解能力被广泛部署于边缘侧视觉应用。在资源受限边缘端推理中,ViT模型需依据可用资源对其进行有效缩放来获取最优的推理精度-延迟平衡。然而,现有推理模型缩放技术往往仅能在整个模型粒度进行缩放,导致关键信息丢失,需消耗更多计算资源/推理延迟来获取同样的精度。对此,提出LegoViT方法,旨在从ViT模型前馈网络中识别出可缩放模型块,以支持运行时块粒度模型缩放。对比模型粒度缩放方法的测试结果表明,LegoViT使ViT模型内存占用降低22.37%,计算量减少21.1%,推理延迟平均缩短61.05%。 展开更多
关键词 边缘侧 VIT 推理优化 块粒度缩放
在线阅读 下载PDF
基于Mask2Former的草莓状黄铁矿语义分割研究
9
作者 胡正浩 李红军 +3 位作者 戚晓婧 郑栋宇 常晓琳 陈安清 《电子设计工程》 2026年第3期40-44,共5页
草莓状黄铁矿作为古海洋氧化还原环境重建的重要指标,针对草莓状黄铁矿扫描电镜(SEM)图像背景同质化和目标边界模糊问题,该研究构建了一个草莓状黄铁矿语义分割数据集(PSS),并提出了融合ViT与ViM的改进型Mask2Former模型——ViTM-Mask2F... 草莓状黄铁矿作为古海洋氧化还原环境重建的重要指标,针对草莓状黄铁矿扫描电镜(SEM)图像背景同质化和目标边界模糊问题,该研究构建了一个草莓状黄铁矿语义分割数据集(PSS),并提出了融合ViT与ViM的改进型Mask2Former模型——ViTM-Mask2Former。通过ViT的全局注意力机制来捕获长距离依赖关系,结合ViM提取位置敏感的边缘特征,引入区域特征注意力模块(RFA)进行特征细化;通过引入特征融合模块,将区域特征和边缘特征有效结合。实验结果表明,改进模型在PSS测试集上mIoU达到78.07%,性能优于主流模型,有效满足了实际应用需求。 展开更多
关键词 草莓状黄铁矿 语义分割 矿物显微图像 VIT VIM
在线阅读 下载PDF
Detection of co-phasing error in segmented mirror based on extended Young’s interferometry combined with Vision Transformer
10
作者 LIU Yin-ling YAO Chi +3 位作者 OUYANG Shang-tao WAN Yi-rong CHEN Mo LI Bin 《中国光学(中英文)》 北大核心 2026年第1期205-218,共14页
Due to the inability of manufacturing a single monolithic mirror at the 10-meter scales,segmented mirrors have become indispensable tools in modern astronomical research.However,to match the imaging performance of the... Due to the inability of manufacturing a single monolithic mirror at the 10-meter scales,segmented mirrors have become indispensable tools in modern astronomical research.However,to match the imaging performance of the monolithic counterpart,the sub-mirrors must maintain precise co-phasing.Piston error critically degrades segmented mirror imaging quality,necessitating efficient and precise detection.To ad-dress the limitations that the conventional circular-aperture diffraction with two-wavelength algorithm is sus-ceptible to decentration errors,and the traditional convolutional neural networks(CNNs)struggle to capture global features under large-range piston errors due to their restricted local receptive fields,this paper pro-poses a method that integrates extended Young’s interference principles with a Vision Transformer(ViT)to detect piston error.By suppressing decentration error interference through two symmetrically arranged aper-tures and extending the measurement range to±7.95μm via a two-wavelength(589 nm/600 nm)algorithm.This approach exploits ViT’s self-attention mechanism to model global characteristics of interference fringes.Unlike CNNs constrained by local convolutional kernels,the ViT significantly improves sensitivity to inter-ferogram periodicity.The simulation results demonstrate that the proposed method achieves a measurement accuracy of 5 nm(0.0083λ0)across the range of±7.95μm,while maintaining an accuracy exceeding 95%in the presence of Gaussian noise(SNR≥15 dB),Poisson noise(λ≥9 photons/pixel),and sub-mirror gap er-ror(Egap≤0.2)interference.Moreover,the detection speed shows significant improvement compared to the cross-correlation algorithm.This study establishes an accurate,robust framework for segmented mirror error detection,advancing high-precision astronomical observation. 展开更多
关键词 segmented mirror co-phasing piston errors ViT Young’s interference principles
在线阅读 下载PDF
基于改进ViT模型的抽水蓄能机组异常声音检测
11
作者 郭明 戴鸿清 +2 位作者 张志兵 孙波 许颜贺 《人民长江》 北大核心 2026年第3期240-247,共8页
针对抽水蓄能机组运行状态异常检测中工况变化频繁、故障声学信号样本少以及数据不平衡的问题,提出了一种基于改进Vision Transformer(ViT)模型的抽水蓄能机组异常声音检测方法。首先,通过梅尔频谱算法将一维声学信号转换为二维语谱图,... 针对抽水蓄能机组运行状态异常检测中工况变化频繁、故障声学信号样本少以及数据不平衡的问题,提出了一种基于改进Vision Transformer(ViT)模型的抽水蓄能机组异常声音检测方法。首先,通过梅尔频谱算法将一维声学信号转换为二维语谱图,增强故障样本的信息量;然后,将生成的语谱图输入至ViT网络中,利用自注意力层与图像特征的交互机制,学习多工况声学数据之间的不变特征;最后,通过所提出的领域提示和提示适配模块根据源域和目标域之间的特征相似性,预测目标域的机组状态信息。结果表明,所提方法在实测数据集上的平均准确率为90.0%,召回率为87.9%,F_(1)分数为0.887;在MIMII数据集上各项指标比其他方法平均提高8.7%,6.92%,4.52%。所提模型能够有效应对多工况和少样本情况下的异常检测任务。 展开更多
关键词 抽蓄机组 异常检测 领域泛化 ViT模型 声学检测
在线阅读 下载PDF
基于改进ViT模型的电网关键线路智能预测方法
12
作者 祝欣宇 窦迅 +2 位作者 牛鹏艺 郭艳敏 石飞 《电力自动化设备》 北大核心 2026年第2期205-214,共10页
针对现有关键线路辨识方法在应对多源不确定性和复杂交易的准确性与适应性不足的问题,提出了一种基于改进视觉转换器(ViT)模型的电网关键线路智能预测方法。剖析了关键线路智能预测的原理,提出了考虑中长期交易和新能源不确定性的关键... 针对现有关键线路辨识方法在应对多源不确定性和复杂交易的准确性与适应性不足的问题,提出了一种基于改进视觉转换器(ViT)模型的电网关键线路智能预测方法。剖析了关键线路智能预测的原理,提出了考虑中长期交易和新能源不确定性的关键线路评价指标;采用多目标组合赋权方法,基于排序学习策略动态平衡主客观权重以优化排序目标;引入多尺度感知模块和上采样操作改进ViT模型,以增强对时序-指标数据的特征提取能力,通过通道扩展与空间适配机制提升其对全局依赖与多尺度特征的表征能力以实现关键线路预测。算例分析结果表明,该方法预测准确率达97.9%,在中长期交易场景下具备良好的有效性与适应性。 展开更多
关键词 中长期交易 关键线路 智能预测 改进ViT模型 多尺度感知
在线阅读 下载PDF
A Hybrid Deep Learning Approach Using Vision Transformer and U-Net for Flood Segmentation
13
作者 Cyreneo Dofitas Jr Yong-Woon Kim Yung-Cheol Byun 《Computers, Materials & Continua》 2026年第2期1209-1227,共19页
Recent advances in deep learning have significantly improved flood detection and segmentation from aerial and satellite imagery.However,conventional convolutional neural networks(CNNs)often struggle in complex flood s... Recent advances in deep learning have significantly improved flood detection and segmentation from aerial and satellite imagery.However,conventional convolutional neural networks(CNNs)often struggle in complex flood scenarios involving reflections,occlusions,or indistinct boundaries due to limited contextual modeling.To address these challenges,we propose a hybrid flood segmentation framework that integrates a Vision Transformer(ViT)encoder with a U-Net decoder,enhanced by a novel Flood-Aware Refinement Block(FARB).The FARB module improves boundary delineation and suppresses noise by combining residual smoothing with spatial-channel attention mechanisms.We evaluate our model on a UAV-acquired flood imagery dataset,demonstrating that the proposed ViTUNet+FARB architecture outperforms existing CNN and Transformer-based models in terms of accuracy and mean Intersection over Union(mIoU).Detailed ablation studies further validate the contribution of each component,confirming that the FARB design significantly enhances segmentation quality.To its better performance and computational efficiency,the proposed framework is well-suited for flood monitoring and disaster response applications,particularly in resource-constrained environments. 展开更多
关键词 Flood detection vision transformer(ViT) U-Net segmentation image processing deep learning artificial intelligence
在线阅读 下载PDF
基于预训练Vision Transformer的白血病分类实验研究
14
作者 王晨霁 《科技与创新》 2026年第7期162-164,168,共4页
人工智能等技术的快速发展,推动临床医学研究迎来历史性变革。其中,人工智能在医学检验样本分析模块发挥显著作用,在医学辅助诊断领域展现极大潜力。通过人工智能模型对急性早幼粒细胞白血病与原始细胞白血病进行分类预测,基于预训练的V... 人工智能等技术的快速发展,推动临床医学研究迎来历史性变革。其中,人工智能在医学检验样本分析模块发挥显著作用,在医学辅助诊断领域展现极大潜力。通过人工智能模型对急性早幼粒细胞白血病与原始细胞白血病进行分类预测,基于预训练的ViT(Vision Transformer)模型,采用迁移学习策略对采集的3种血细胞血涂片样本进行深度学习,最终实现细胞图像样本类型的预测。在有限规模数据集条件下,实验取得理想结果,综合测试损失率低至0.007 2,准确率高达1.000 0。基于ViT模型的白血病细胞图像分类模型不仅在实验中表现出色,更具备良好的实际部署可行性与行业价值潜力,同时验证迁移学习方法在医学图像小样本场景下的可行性,为智能医疗发展提供坚实技术支撑。 展开更多
关键词 人工智能 ViT模型 白血病分类 智能医疗
在线阅读 下载PDF
基于ViT大模型的安检X光图像违禁品识别研究
15
作者 陈帅 范光涛 《山东工业技术》 2026年第1期77-83,共7页
当前主流X光安检图像识别基于卷积神经网络(CNN),但CNN的局部建模特性,使其在处理目标复杂堆叠、严重遮挡时,识别效果不佳。本文构建基于Vision Transformer(ViT)的安检图像识别方法,利用ViT多头自注意力机制,克服CNN感受视野有限的缺... 当前主流X光安检图像识别基于卷积神经网络(CNN),但CNN的局部建模特性,使其在处理目标复杂堆叠、严重遮挡时,识别效果不佳。本文构建基于Vision Transformer(ViT)的安检图像识别方法,利用ViT多头自注意力机制,克服CNN感受视野有限的缺陷。实验结果表明,本文所采用的ViT+FPN模型在目标检测任务上的平均精度(mAP@0.5)达到87.1%,尤其在识别Wrench(扳手)、Pliers(钳子)这两类容易堆叠违禁品场景下,性能提升更为显著。本研究为深度学习在复杂安检场景中的应用提供了新的思路和实验依据。 展开更多
关键词 VIT X光图像 自注意力机制 违禁品识别
在线阅读 下载PDF
KPA-ViT:Key Part-Level Attention Vision Transformer for Foreign Body Classification on Coal Conveyor Belt
16
作者 Haoxuanye Ji Zhiliang Chen +3 位作者 Pengfei Jiang Ziyue Wang Ting Yu Wei Zhang 《Computers, Materials & Continua》 2026年第3期656-671,共16页
Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spa... Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spatial and semantic information.However,the performance of CNN-based methods remains limited in classification accuracy,primarily due to insufficient exploration of local image characteristics.Unlike CNNs,Vision Transformer(ViT)captures discriminative features by modeling relationships between local image patches.However,such methods typically require a large number of training samples to perform effectively.In the context of foreign body classification on coal conveyor belts,the limited availability of training samples hinders the full exploitation of Vision Transformer’s(ViT)capabilities.To address this issue,we propose an efficient approach,termed Key Part-level Attention Vision Transformer(KPA-ViT),which incorporates key local information into the transformer architecture to enrich the training information.It comprises three main components:a key-point detection module,a key local mining module,and an attention module.To extract key local regions,a key-point detection strategy is first employed to identify the positions of key points.Subsequently,the key local mining module extracts the relevant local features based on these detected points.Finally,an attention module composed of self-attention and cross-attention blocks is introduced to integrate global and key part-level information,thereby enhancing the model’s ability to learn discriminative features.Compared to recent transformer-based frameworks—such as ViT,Swin-Transformer,and EfficientViT—the proposed KPA-ViT achieves performance improvements of 9.3%,6.6%,and 2.8%,respectively,on the CUMT-BelT dataset,demonstrating its effectiveness. 展开更多
关键词 Foreign body classification global and part-level key information coal conveyor belt vision transformer(ViT) self and cross attention
在线阅读 下载PDF
基于改进集合经验模态分解和强化视觉Transformer模型的风电机组故障预警 被引量:1
17
作者 许伯强 王彪 +1 位作者 孙丽玲 尹彦博 《电工技术学报》 北大核心 2025年第20期6537-6551,共15页
现有基于数据采集与监视控制系统(SCADA)数据的风电机组故障预警方法往往只针对风电机组的某一位置或者某一类型故障,无法对风电机组整体进行较为全面的预警。针对这一问题,该文提出了基于改进集合经验模态分解(EEMD)和强化的视觉转换器... 现有基于数据采集与监视控制系统(SCADA)数据的风电机组故障预警方法往往只针对风电机组的某一位置或者某一类型故障,无法对风电机组整体进行较为全面的预警。针对这一问题,该文提出了基于改进集合经验模态分解(EEMD)和强化的视觉转换器(ViT)模型的风电机组故障预警方法。首先,对EEMD算法进行改进,分解得到的数据包含不同时间尺度的特征信息,且使得分解过程中不发生信息泄露。采用改进的EEMD算法解构风电机组SCADA多维数据之后,构建反映风电机组实时状态的特征矩阵。然后,结合非对称卷积模块对ViT模型进行强化,并加入可变形注意力模块,在降低计算复杂度的同时使得模型可以充分捕捉不同维度与时间尺度的风电机组特征。最后,将特征矩阵输入强化的ViT模型以获得预测结果,与实际值对比得到残差矩阵,依此进行风电机组故障的预警。经风电机组实际运行SCADA数据验证,该文提出的风电机组故障预警方法准确有效,并可通过残差矩阵进一步辨识风电机组发生的故障类型。 展开更多
关键词 风电机组 数据采集与监视控制系统(SCADA)数据 故障预警 改进集合经验模态分解(EEMD) 强化ViT模型
在线阅读 下载PDF
采用ConvNeXt解码器和基频预测的低资源语音合成
18
作者 王猛 杨鉴 《浙江大学学报(工学版)》 北大核心 2025年第10期2186-2194,共9页
现有模型合成低资源语言的语音自然度低,为此提出改进模型.以VITS为基线模型,使用ConvNeXtV2模块替换原模型解码器中的转置卷积模块以降低混叠干扰,应用逆短时傅立叶变换(iSTFT)构建新的解码器以提升合成语音的自然流畅性.将帧级别的基... 现有模型合成低资源语言的语音自然度低,为此提出改进模型.以VITS为基线模型,使用ConvNeXtV2模块替换原模型解码器中的转置卷积模块以降低混叠干扰,应用逆短时傅立叶变换(iSTFT)构建新的解码器以提升合成语音的自然流畅性.将帧级别的基频预测器引入模型,离散化预测器输出并转换为高维向量,再与VITS中流模块的输出向量拼接后送入所构建解码器结构中.添加基频损失函数以捕捉和模拟声调.使用缅甸语、越南语和泰语数据集训练并评估所提改进模型.模型性能对比实验结果表明,所提改进模型的语音合成效果优于现有模型. 展开更多
关键词 语音合成 低资源语言 vits ConvNeXt 基频建模
在线阅读 下载PDF
融合多尺度特征和双分支并行的肺结节图像分割网络 被引量:2
19
作者 王超学 王磊 《计算机系统应用》 2025年第4期166-174,共9页
肺结节图像的准确分割对于肺癌的早期诊断具有重要意义,针对肺结节图像尺度多样、边缘模糊导致特征提取不充分和细节信息丢失问题,本文提出一种融合多尺度特征和双分支并行的肺结节图像分割网络RAVR-UNet.首先,针对U-Net网络在编码阶段... 肺结节图像的准确分割对于肺癌的早期诊断具有重要意义,针对肺结节图像尺度多样、边缘模糊导致特征提取不充分和细节信息丢失问题,本文提出一种融合多尺度特征和双分支并行的肺结节图像分割网络RAVR-UNet.首先,针对U-Net网络在编码阶段无法充分提取肺结节特征,采用双分支并行特征聚合网络提取肺结节图像中的特征信息,减少特征编码时的信息损失.其次,通过引入Agent_ViT模块,在保持线性计算的基础上,增强全局信息建模能力.然后,为恢复下采样期间丢失的肺结节空间信息,在解码阶段加入多尺度特征融合模块.最后,设计混合损失函数以缓解肺结节图像分割任务中正负样本不平衡问题.在LIDC-IDRI公开数据集上的实验结果表明,所提网络的相似系数、交并比分别达到93.15%、87.63%,优于主流肺结节分割算法且分割结果更接近真实值. 展开更多
关键词 肺结节图像分割 多尺度特征融合 U-Net VIT 代理注意力
在线阅读 下载PDF
图像语义分割方法概述
20
作者 蒋冬梅 彭成东 《电脑知识与技术》 2025年第12期90-94,共5页
图像语义分割旨在对图像中每个像素进行语义类别的预测。文章系统综述了传统图像语义分割算法,基于深度学习的以FCN、DeconvNet和HRNet为代表的经典CNN网络,以及基于视觉Transformer的ViTs和HVTs架构的语义分割网络,并分析了语义分割常... 图像语义分割旨在对图像中每个像素进行语义类别的预测。文章系统综述了传统图像语义分割算法,基于深度学习的以FCN、DeconvNet和HRNet为代表的经典CNN网络,以及基于视觉Transformer的ViTs和HVTs架构的语义分割网络,并分析了语义分割常用的公开数据集、模型评价指标及语义分割相关的研究趋势。 展开更多
关键词 语义分割 高分辨率分割 FCN DeconvNet HRNet vits HVTs
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部