期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于自注意力机制说话人编码器与SA-Decoder的语音克隆方法
1
作者
焦乐岩
朱欣娟
《计算机与现代化》
2025年第7期69-76,共8页
FreeVC模型在语音克隆技术领域表现出色。但是由于语音序列中包含复杂的语音特征变化和信息,例如音色、风格等,FreeVC模型中的Speaker Encoder模块只使用单一的LSTM网络难以准确地提取和表示说话人信息,这会导致模型处理语音序列的性能...
FreeVC模型在语音克隆技术领域表现出色。但是由于语音序列中包含复杂的语音特征变化和信息,例如音色、风格等,FreeVC模型中的Speaker Encoder模块只使用单一的LSTM网络难以准确地提取和表示说话人信息,这会导致模型处理语音序列的性能下降,影响声音转换质量和准确性。并且FreeVC模型使用传统的解码器,其中上采样(反卷积)操作细节丢失,导致重建还原的音频咬字细节会模糊不清,从而产生音频伪影。针对这些问题,本文提出一种基于自注意力机制的说话人编码器与SA-Decoder的语音克隆方法FreeVC-SA。该方法将说话人的梅尔谱作为输入,在LSTM网络上加入自注意力机制有助于模型更好地捕捉长距离依赖关系,更为准确地提取说话人的音色、风格等特征。使用SA-Decoder可以很好地解决局部感受野限制问题,使得重建生成的语音克隆效果更加真实、清晰。实验结果表明,与所有基线模型相比,FreeVC-SA语音克隆的自然度相似性和情感相似性均有明显提升,字错误率和字符错误率均有明显下降。
展开更多
关键词
语音克隆
说话人编码器
SA-Decoder
自注意力机制
freevc-sa
在线阅读
下载PDF
职称材料
题名
基于自注意力机制说话人编码器与SA-Decoder的语音克隆方法
1
作者
焦乐岩
朱欣娟
机构
西安工程大学计算机科学学院
出处
《计算机与现代化》
2025年第7期69-76,共8页
基金
陕西省重点研发计划项目(2024GX-YBXM-548)。
文摘
FreeVC模型在语音克隆技术领域表现出色。但是由于语音序列中包含复杂的语音特征变化和信息,例如音色、风格等,FreeVC模型中的Speaker Encoder模块只使用单一的LSTM网络难以准确地提取和表示说话人信息,这会导致模型处理语音序列的性能下降,影响声音转换质量和准确性。并且FreeVC模型使用传统的解码器,其中上采样(反卷积)操作细节丢失,导致重建还原的音频咬字细节会模糊不清,从而产生音频伪影。针对这些问题,本文提出一种基于自注意力机制的说话人编码器与SA-Decoder的语音克隆方法FreeVC-SA。该方法将说话人的梅尔谱作为输入,在LSTM网络上加入自注意力机制有助于模型更好地捕捉长距离依赖关系,更为准确地提取说话人的音色、风格等特征。使用SA-Decoder可以很好地解决局部感受野限制问题,使得重建生成的语音克隆效果更加真实、清晰。实验结果表明,与所有基线模型相比,FreeVC-SA语音克隆的自然度相似性和情感相似性均有明显提升,字错误率和字符错误率均有明显下降。
关键词
语音克隆
说话人编码器
SA-Decoder
自注意力机制
freevc-sa
Keywords
speech cloning
speaker encoder
SA-Decoder
self-attention mechanism
freevc-sa
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于自注意力机制说话人编码器与SA-Decoder的语音克隆方法
焦乐岩
朱欣娟
《计算机与现代化》
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部