基于注意力机制的端到端语音合成模型被引量：1

End-to-end Speech Synthesis Model Based on Attention Mechanism

下载PDF

导出

摘要随着语音合成应用场景不断扩展,对多人多情感语音合成的需求越来越大.在实际应用中经常需要合成具有特定风格的语音信号.为此提出一种基于注意力机制的端到端语音合成模型.首先设计了说话人编码模块,通过注意力机制提取语音信号中说话者的特征表示,结合数据集中性别、年龄等特征标签构建说话人特征库;其次设计风格编码模块,通过注意力机制为不同梅尔特征通道赋予不同关注程度和权重;然后使用K近邻构建虚拟说话人特征,实现在不提供说话人及真实数据的情境下,灵活组合不同说话人特征和风格特征,搭配合成出具有特定特征风格的声音.实验结果表明,该模型对比SV2TTS模型有较快的训练速度,能够合成具有特定风格的高质量的语音. With the continuous expansion of speech synthesis application scenarios,the demand for multi-speaker and multi-emotion speech synthesis is increasing.In practical applications,there is often a need to synthesize speech signals with specific styles.To address this,an end-to-end speech synthesis model based on the attention mechanism is proposed.First,a speaker encoding module is designed to extract speaker feature representations from speech signals using the attention mechanism,combined with dataset features such as gender and age labels to construct a speaker feature database.Second,a style encoding module is designed to assign different levels of attention and weights to different Mel feature channels using the attention mechanism.Then,virtual speaker features are constructed using K-nearest neighbors,allowing for the flexible combination of different speaker and style features to synthesize voice with specific characteristic styles,even without requiring real speaker data.Experimental results show that this model has a faster training speed compared to the SV2TTS model and can synthesize high-quality speech with specific styles.

作者耿盈朱欣娟 GENG Ying;ZHU Xin-Juan(College of Computer Science,Xi’an Polytechnic University,Xi’an 710600,China)

机构地区西安工程大学计算机科学学院

出处《计算机系统应用》 2025年第7期236-243,共8页 Computer Systems & Applications

基金陕西省重点研发计划(2024GX-YBXM-548)。

关键词语音合成说话人编码器语音风格注意力机制 speech synthesis speaker encoder speech style attention mechanism

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1豆子闻,李文书.基于神经网络和虚幻引擎的数字人客服系统[J].软件工程,2023,26(10):49-52. 被引量：3
2蒿晓阳,张鹏远.使用变分自编码器的自回归多说话人中文语音合成[J].声学学报,2022,47(3):405-416. 被引量：9
3尚影,韩超,吴克伟.基于分离对比学习的个性化语音合成[J].计算机工程与应用,2023,59(22):158-165. 被引量：4
4王志超,吴浩,李栋,刘益岑.基于非自回归模型中文语音合成系统研究与实现[J].计算机与数字工程,2023,51(2):325-330. 被引量：4

二级参考文献10

1凌震华,王仁华.基于统计声学模型的单元挑选语音合成算法[J].模式识别与人工智能,2008,21(3):280-284. 被引量：8
2范会敏,何鑫.中文语音合成系统的设计与实现[J].计算机系统应用,2017,26(2):73-77. 被引量：7
3智鹏鹏,杨鸿武,宋南.利用说话人自适应实现基于DNN的情感语音合成[J].重庆邮电大学学报（自然科学版）,2018,30(5):673-679. 被引量：4
4邱泽宇,屈丹,张连海.基于WaveNet的端到端语音合成方法[J].计算机应用,2019,39(5):1325-1329. 被引量：11
5王泓贤.基于虚幻引擎的3D动画创作研究与应用[J].文化产业,2020(20):10-11. 被引量：2
6无,蔡国鑫(整理).Audio2Face基于音频文件智能生成虚拟角色面部动画[J].现代电影技术,2021(9):60-61. 被引量：2
7刘宇杰,陈家豪,宋晖,周浩冉.基于Rasa的任务型对话系统设计与实现[J].现代计算机,2022,28(3):108-112. 被引量：2
8徐志航,陈博,张辉,俞凯.小数据下的音素级别说话人嵌入的语音合成自适应方法[J].计算机学报,2022,45(5):1003-1017. 被引量：13
9宋倩茜,马双.电商平台智能客服与人工客服的顾客感知价值对比研究[J].商展经济,2022(22):38-40. 被引量：2
10陈志刚,胡国平,王熙法.中文语音合成系统中的文本标准化方法[J].中文信息学报,2003,17(4):45-51. 被引量：9

共引文献15

1张丰艳,汤盛涵.机遇与风险:在人工智能与音乐产业之间[J].人民音乐,2023(11):78-82. 被引量：7
2尚增强,张鹏远,王丽.融合跨说话人韵律迁移的多语种文本到波形生成[J].声学学报,2024,49(1):171-180.
3刘堂亮.基于深度学习的实时语音交互系统的设计与优化[J].计算机应用文摘,2024,40(6):33-35.
4钟政,黄琳舒,曾炎麟,黎雪,黄驰.基于云计算技术的虚拟数字人算法研究[J].电子元器件与信息技术,2024,8(2):137-141. 被引量：3
5李文伟,郑永军,杨圣慧,江世界,赵航行,王慧,苏道毕力格,谭彧.音频技术在禽畜养殖与果蔬种植中的应用研究进展[J].农业工程学报,2024,40(7):34-49. 被引量：4
6唐咸荣,高瑞贞.联合CTC和Transformer的轮式移动机器人语音控制研究[J].中国测试,2024,50(6):117-123. 被引量：5
7贾瑞龙,潘保芝,王清辉,李岩,管耀,王欣茹.基于变分自编码器利用元素录井数据确定火成岩矿物含量的方法[J].测井技术,2024,48(4):407-415. 被引量：1
8高盛祥,杨元樟,王琳钦,莫尚斌,余正涛,董凌.面向域外说话人适应场景的多层级解耦个性化语音合成[J].广西师范大学学报（自然科学版）,2024,42(4):11-21. 被引量：1
9李红玲.变分自编码器在环境噪声消除中的应用研究[J].电声技术,2024,48(8):105-107.
10拉巴顿珠,官政先,德庆卓玛,张恒,珠杰.完全端到端的藏语语音合成方法[J].中文信息学报,2024,38(9):82-92. 被引量：1

同被引文献14

1黎莹.AI技术在播音主持人角色转型中的应用与影响[J].新闻传播,2024(18):109-111. 被引量：2
2韩柯,马少典.实时渲染技术在演出互动视觉效果制作中的应用研究——以北京冬奥会开幕式节目《致敬人民》为例[J].演艺科技,2022(S01):141-146. 被引量：2
3韩国颖,张科.AIGC营销:人机共生式营销模式推动数字营销向数智化跨越[J].企业经济,2024,43(2):111-124. 被引量：29
4高珅.语音合成技术对传统播音主持的影响及其发展路径[J].电视技术,2024,48(6):109-111. 被引量：4
5石凡,杨鉴.情感语音合成中的语义及韵律特征嵌入方法[J].信息技术,2024,48(7):26-33. 被引量：2
6许裕雄,李斌,谭舜泉,黄继武.语音深度伪造及其检测技术研究进展[J].中国图象图形学报,2024,29(8):2236-2268. 被引量：11
7刘笑微,肖婧澜,宋震.数字人技术在电影与数字内容领域的创新应用[J].现代电影技术,2024(9):33-40. 被引量：4
8宋宁.论人工智能技术赋能下虚拟主播的功能演进与实践路径[J].中国电视,2024(12):76-83. 被引量：9
9何川,陈矿.AI技术在影视创作生产中的应用与优化路径探索[J].现代电影技术,2025(5):70-76. 被引量：1
10沈涵,陈庆阳,张静.虚拟数字人拟人化对游客体验质量的影响研究[J].华中师范大学学报(自然科学版),2025,59(3):358-368. 被引量：1

引证文献1

1李晓辉.AI数字人视听表达策略的人机协同机制研究[J].现代电影技术,2025(11):41-47.

1孟令娟.“续论”理论指导下开展“读写评”活动的经验分享[J].语数外学习(高中版)(上),2025(4):78-79.
2沈悦,于淼.基于虚拟现实技术的动漫图像自动着色系统[J].黑龙江工业学院学报(综合版),2025,25(6):104-107.
3王国际,刘述波,方超.电力市场环境下虚拟电厂安全调度研究[J].山西电力,2025(4):1-5. 被引量：1
4石萌萌,任延凯,张迪,姚博彬,李艳波,武奇生.融合虚拟直射角度信息的智能车辆协作定位方法[J].物联网技术,2025,15(16):71-74.
5唐盼,温庆新.解弢《小说话》与现代“小说话”的跨视阈研究[J].江汉论坛,2025(7):99-106.
6沈伟,彭镭,徐小波,杨力,何迅,李松宇.仿真技术在机场行李处理系统不停航施工改造中的应用[J].物流技术与应用,2025,30(6):118-123.
7曹旸旸,赵雪莹.互动交际中“恐怕”的弱化话语责任功能[J].湖州师范学院学报,2025,47(7):99-108.

计算机系统应用

2025年第7期

浏览历史

内容加载中请稍等...

基于注意力机制的端到端语音合成模型被引量：1

参考文献4

二级参考文献10

共引文献15

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于注意力机制的端到端语音合成模型 被引量：1

参考文献4

二级参考文献10

共引文献15

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于注意力机制的端到端语音合成模型被引量：1