期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于扩散模型的多源特征解耦语音转换模型
1
作者 张业东 文双兵 +2 位作者 谭寒钟 黄海峰 胡涛 《湖北民族大学学报(自然科学版)》 2026年第1期57-61,共5页
针对音色泄漏、韵律细节丢失以及生成语音自然度不足等问题,提出了基于扩散模型的多源特征解耦语音转换模型(multi-source feature decoupling voice conversion model based on diffusion models, MFD-VC)。该模型首先将语音分解为不... 针对音色泄漏、韵律细节丢失以及生成语音自然度不足等问题,提出了基于扩散模型的多源特征解耦语音转换模型(multi-source feature decoupling voice conversion model based on diffusion models, MFD-VC)。该模型首先将语音分解为不同属性的子空间并进行独立处理,实现多属性协同控制的高保真语音转换。接着,设计了风格编码器(style encoder, SE)从参考语音中提取说话人的音色表征,同时设计了内容特征编码器(content feature encoder, CFE)和波形网络编码器(wave network encoder, WN)分别处理内容信息和基频信息。最后,设计了一维多尺度融合(multi scale fusion 1 dimension, MSF1D)模块嵌入U型网络扩散模型(U network diffusion model, UNetDiff)中来增强跳跃连接的多尺度特征表达能力,从而生成细节更加丰富的梅尔频谱。结果表明,在利贝文字转语音(Librispeech for text-to-speech, LibriTTS)数据集上MFD-VC的等错误率仅为12.2%,相似度平均意见得分高达4.35。此外,在语音克隆工具包(voice cloning toolkit, VCTK)数据集上MFD-VC的等错误率也仅为15.2%,相似度平均意见得分也高达4.24。MFD-VC在音质、相似度与内容清晰度上均有较好的效果。 展开更多
关键词 语音转换 MFD-VC 扩散模型 波形网络 unetdiff
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部