-
题名基于扩散模型的多源特征解耦语音转换模型
- 1
-
-
作者
张业东
文双兵
谭寒钟
黄海峰
胡涛
-
机构
湖北民族大学智能科学与工程学院
湖北民族大学数学与统计学院
湖北民族大学硒食品营养与健康智能技术湖北省工程研究中心
-
出处
《湖北民族大学学报(自然科学版)》
2026年第1期57-61,共5页
-
基金
湖北省自然科学基金恩施创新发展联合基金(2025AFD161,2023AFD061)
湖北省高等学校优秀中青年科技创新团队计划项目(T2023013)
湖北民族大学研究生教育创新项目(MYK2025068)。
-
文摘
针对音色泄漏、韵律细节丢失以及生成语音自然度不足等问题,提出了基于扩散模型的多源特征解耦语音转换模型(multi-source feature decoupling voice conversion model based on diffusion models, MFD-VC)。该模型首先将语音分解为不同属性的子空间并进行独立处理,实现多属性协同控制的高保真语音转换。接着,设计了风格编码器(style encoder, SE)从参考语音中提取说话人的音色表征,同时设计了内容特征编码器(content feature encoder, CFE)和波形网络编码器(wave network encoder, WN)分别处理内容信息和基频信息。最后,设计了一维多尺度融合(multi scale fusion 1 dimension, MSF1D)模块嵌入U型网络扩散模型(U network diffusion model, UNetDiff)中来增强跳跃连接的多尺度特征表达能力,从而生成细节更加丰富的梅尔频谱。结果表明,在利贝文字转语音(Librispeech for text-to-speech, LibriTTS)数据集上MFD-VC的等错误率仅为12.2%,相似度平均意见得分高达4.35。此外,在语音克隆工具包(voice cloning toolkit, VCTK)数据集上MFD-VC的等错误率也仅为15.2%,相似度平均意见得分也高达4.24。MFD-VC在音质、相似度与内容清晰度上均有较好的效果。
-
关键词
语音转换
MFD-VC
扩散模型
波形网络
unetdiff
-
Keywords
voice conversion
MFD-VC
diffusion model
wave network
unetdiff
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-