基于HMM的可训练中文语音合成被引量：17

HMM-based Trainable Speech Synthesis for Chinese

下载PDF

导出

摘要本文将基于HMM的可训练语音合成方法应用到中文语音合成。通过对HMM建模参数的合理选择和优化,并基于中文语音特性设计上下文属性集以及用于模型聚类的问题集,提高其建模和训练效果。从对比评测实验结果来看,98.5%的合成语音在改进后其音质得到改善。此外,针对合成语音节奏感不强的问题,提出了一种基于状态和声韵母单元的两层模型用于时长建模和预测,集外时长预测RMSE由29.56m s降为27.01m s。从最终的合成系统效果来看,合成语音整体稳定流畅,而且节奏感也比较强。由于合成系统所需的存贮量非常小,特别适合嵌入式应用。 In this paper, the HMM-based trainable speech synthesis was applied for Chinese application. The appropilate HMM parameters are selected and optimized, and the contextual features and corresponding question set for tree-based HMM clustering are designed by considering the characteristics of Chinese, to improve the effect of HMM modeling and training. From the evaluation results, the preference score of the synthetic speech after the above improvement is 98.5%. Furthermore, in order to improve the rhythm of synthetic speech, a two-level based model is introduced for duration modeling and prediction, and the duration prediction RMSE was improved from 29.56ms to 27. 01ms. From the evaluation results of the final system, the synthetic speech is stable, fluent and rhythmed. As the speech synthesis system only requires very small storage, it is specially fit for embedded application.

作者吴义坚王仁华

机构地区中国科学技术大学

出处《中文信息学报》 CSCD 北大核心 2006年第4期75-81,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60475015)

关键词计算机应用中文信息处理语音合成 HMM 可训练语音合成时长模型 computer application Chinese information processing speech synthesis HMM trainable TFS duration modeling

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1R.H.Wang,Qingfeng Liu,Deyu Xia,Towards A Chinese Text-To-Speech System With Higher Naturalness[A],In:Proc.of ICSLP[C].Sydney,1998,p2047-2050.
2R.H.Wang,Zhongke Ma,Wei Li,Donglai Zhu,A Corpus-Based Chinese Speech Synthesis with ContextualDependent Unit Selection[A].In:Proc.of ICSLP[C].Beijing,2000,p391 -394.
3L.R.Rabiner,A tutorial on hidden Markov models and selected applications in speech recognition.Proc.of IEEE,1989[J].vol.77,pp.257-286.
4R.E.Donovan and E.M.Eide,The IBM trainable speech synthesis system[A].In:Proc.of ICSLP[C].Sydney,1998,vol.5,pp.1703-1706.
5X.Huang,A.Acero,H.Hon,Y.Ju,J.Liu,S.Merdith,and M.Plumpe,Recent improvements on Microsoft's trainable text-to-speech system-Whistler[A].In:Proc.of ICASSP[C].Munich,1997,pp.959-962.
6T.masuko,K.Tokuda,T.Kobayashi,and S.Imai,Speech synthesis from HMMs using dynamic features[A].In:Proc.of ICASSP[C].Atlanta,1996,pp.389 -392.
7T.Yoshimura,K.Tokuda,T.Masuko,T.Kobayashi,and T.Kitamura,Simultaneous modeling of spectrum,pitch and duration in HMM-based speech synthesis[A].In:Proc.of Eurospeech[C].Budapest,1999,vol.5,pp.2347-2350.
8K.Tokuda,T.Masuko,N.Miyazaki,and T.Kobayashi,Hidden Markov models based on multi-space probability distribution for pitch pattern modeling.In:Proc.of ICASSP[C].Arizona,1999,pp.229-232.
9T.Yoshimura,K.Tokuda,T.Masuko,T.Kobayashi and T.Kitamura,Duration modeling in HMM-based speech synthesis system[A].In:Proc.of ICSLP[C].Sydney,1998,vol.2,pp.29-32.
10H.Kawahara,I.Masuda-Katsuse and A.deCheveigne,Restructuring speech representations using pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based FO extraction:possible role of a repetitive structure in sounds,Speech Communication[J].1999,vol.27,pp.187-207.

同被引文献163

1李永旭.人工智能技术在教育领域的应用分析[J].创新创业理论研究与实践,2020(6):150-151. 被引量：5
2井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：12
3黄南川,邓振杰,王嵬嵬,张皓健.语音合成技术的研究与发展[J].华北航天工业学院学报,2002,12(3):37-39. 被引量：17
4肖玮.使用SAPI实现语音识别与合成[J].现代计算机,2005,11(2):91-94. 被引量：4
5王海婴,赵玮.语音合成技术及应用[J].兰州石化职业技术学院学报,2005,5(1):28-30. 被引量：2
6刘皈阳,郝洁,郭代红,寇亚欣.662例住院患者用药的合理性分析[J].药物流行病学杂志,2005,14(4):233-235. 被引量：13
7周洁,赵力,邹采荣.情感语音合成的研究[J].电声技术,2005,29(10):57-59. 被引量：11
8任俊,黄丹丹,李志能.基于支撑向量机和小波的字符识别[J].浙江大学学报（工学版）,2005,39(12):2016-2020. 被引量：7
9陈路.浅谈TTS语音引擎的应用[J].泰州职业技术学院学报,2007,7(1):11-13. 被引量：2
10蔡莲红,崔丹丹,蔡锐.汉语普通话语音合成语料库TH-CoSS的建设和分析[J].中文信息学报,2007,21(2):94-99. 被引量：12

引证文献17

1凌震华,王仁华.基于统计声学模型的单元挑选语音合成算法[J].模式识别与人工智能,2008,21(3):280-284. 被引量：8
2王仁华,戴礼荣,凌震华,胡郁.基于统计建模的可训练单元挑选语音合成方法[J].科学通报,2009,54(8):1133-1138. 被引量：4
3姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,艾斯卡尔.艾木都拉.三音素模型的维吾尔语最佳文本选取算法[J].计算机工程与应用,2009,45(18):242-244. 被引量：5
4吕浩音.可训练文语转换系统的时长模型优化[J].计算机应用,2010,30(1):282-284. 被引量：2
5涂奇雄,梁维谦.基于HMM的语音合成系统的模型压缩[J].电声技术,2010,34(7):48-51. 被引量：1
6雷鸣,凌震华,戴礼荣.基于感知加权线谱对距离的最小生成误差语音合成模型训练方法[J].模式识别与人工智能,2010,23(4):572-579.
7卢恒,凌震华,雷鸣,戴礼荣,王仁华.基于最小生成误差的HMM模型聚类自动优化[J].模式识别与人工智能,2010,23(6):822-828. 被引量：1
8杨丽萍,陈明义,刘玉芳.基于语音合成的分布式大坝安全预警系统设计[J].仪表技术与传感器,2010(7):57-58.
9陈雁翔,龙润田.基于PAD情感模型的可训练语音合成研究[J].模式识别与人工智能,2013,26(11):1019-1025. 被引量：1
10赵建东,高光来,飞龙.基于HMM的蒙古语语音合成技术研究[J].计算机科学,2014,41(1):80-82. 被引量：6

二级引证文献41

1余希.我院门诊患者用药需求与药学服务新路径探讨[J].中医药管理杂志,2020,0(4):19-21. 被引量：3
2王娣.人工智能抢救濒危满语的研究与探索[J].边疆经济与文化,2022(11):49-53.
3焦玉,刘衍珩,王健,王静.基于习惯的人类动力学建模[J].科学通报,2010,55(11):1070-1076. 被引量：10
4刘明辉,杨帆,崔胜.基于W77E58无线语音智能门铃系统[J].自动化与仪表,2010,25(11):35-40. 被引量：5
5姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,艾斯卡尔.艾木都拉.维吾尔语多音词消歧混合方法[J].计算机工程与应用,2011,47(35):158-160.
6姑丽加玛丽·麦麦提艾力,艾斯卡尔·肉孜,艾斯卡尔·艾木都拉.多基元及韵律参数匹配的维吾尔语语音合成方法[J].计算机工程与应用,2012,48(2):116-118. 被引量：3
7张小燕,宿建军,薛化建,王磊.维吾尔语语音识别语料库中的OOV研究[J].计算机工程与设计,2012,33(2):772-776. 被引量：4
8陈洁,张雪英,孙颖.基于HMM的可训练情感语音合成研究[J].电声技术,2012,36(3):43-46. 被引量：5
9卡斯木江.卡迪尔,古丽娜尔.艾力,艾斯卡尔.艾木都拉.基于最小合成单元的维吾尔音库设计[J].通信技术,2012,45(4):83-85. 被引量：1
10尹金良,朱永利.支持向量机参数优化及其在变压器故障诊断中的应用[J].电测与仪表,2012,49(5):11-16. 被引量：32

1刘均.借助Excel XP让Microsoft Agent说中文[J].计算机应用,2003,23(z2):329-329. 被引量：2
2乔梁,陈欣,宋文强.NET平台下中文语音合成技术的研究与实践[J].电脑知识与技术,2010(01Z):337-338. 被引量：3
3我国智能语音相关标准正在研制[J].信息技术与标准化,2014(7):9-9.
4硬盘市场整体稳定令人满意[J].计算机应用文摘,2004(4):104-104.
5中国“有声电子邮件”研发成功[J].计算机信息,2001(12):12-13.
6杨军,王凤贵.基于Java Applet的数据库连接与查询技术[J].中国有线电视,2005(7):632-635.
7殷志祥,董亚非,许进.组合优化中的DNA计算[J].计算机工程与应用,2002,38(19):25-27. 被引量：6
8徐远纯,张海锋.中文语音合成中文档结构和文本规范化研究[J].福建电脑,2011,27(1):52-53.
9姚涵珍,郭志全,郑盛梓.动画精灵与中文语音合成关键技术的研究[J].工程图学学报,2004,25(2):182-185. 被引量：2
10智能语音相关标准正在研制[J].大众标准化,2014(7):61-61.

中文信息学报

2006年第4期

浏览历史

内容加载中请稍等...

基于HMM的可训练中文语音合成被引量：17

参考文献12

同被引文献163

引证文献17

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于HMM的可训练中文语音合成 被引量：17

参考文献12

同被引文献163

引证文献17

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于HMM的可训练中文语音合成被引量：17