短时傅里叶逆变换的苗语语声合成方法

Inverse short-time Fourier transform-based Hmong language speech synthesis method

下载PDF

导出

摘要少数民族语言的语声合成研究作为语声合成研究的一个重要方向,在人机交互领域备受关注。针对现有两阶段语声合成模型复杂度高、演算速度慢的问题,提出一种基于短时傅里叶逆变换的苗语语声合成方法。该方法根据语声特征提取的过程,减少过采样卷积的使用,以降低模型的复杂度,同时结合短时傅里叶逆变换进行语声波形相位和幅度谱的重建,实现从频域到时域的快速转换。此外,文中采用残差编码器对文本进行特征提取,以保留更多的输入文本信息。为了验证所提方法的有效性,以自建苗语语声语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的两阶段和单阶段模型进行对比分析。实验结果表明,所提方法在没有降低合成语声质量的同时提高了45倍的演算速度,且实时因子为0.01,满足实时应用要求;同时具有较强的鲁棒性,合成的词错误率仅为1.02%。 As an important area of speech synthesis research,the synthesis of minority languages has garnered significant attention in the field of human-computer interaction.In light of the challenges posed by the high complexity and slow inference speed of the existing two-stage speech synthesis model,a Hmong language speech synthesis method based on inverse short-time Fourier transform has been proposed.This technique diminishes the need for upsampling convolution in speech feature extraction,in order to simplify the model.At the same time,the phase and amplitude spectrum of speech waveform are restored by combining inverse short-time Fourier transform,which realizes fast conversion from frequency domain to time domain.Furthermore,the residual encoder is used to extract the features of the text to retain more input text information.In order to verify the effectiveness of the proposed method,the self-built Hmong speech corpus,HmongSpeech(download link:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm),is used as the benchmark dataset to compare with the typical two-stage and single-stage models.The experimental results show that the proposed method can improve the inference speed between 4 to 5 times without reducing the quality of synthesized speech and the real-time factor is 0.01,which meets the requirements of real-time application.At the same time,it has demonstrated a strong level of robustness,with a synthesized word error rate of only 1.02%.

作者蔡姗王林郭胜邹雪吴磊 CAI Shan;WANG Lin;GUO Sheng;ZOU Xue;WU Lei(College of Data Science and Information Engineering,Guizhou Minzu University,Guiyang 550025,China;Key Laboratory of Pattern Recognition and Intelligent System of Guizhou Province,Guiyang 550025,China)

机构地区贵州民族大学数据科学与信息工程学院贵州省模式识别与智能系统重点实验室

出处《应用声学》北大核心 2025年第2期339-349,共11页 Journal of Applied Acoustics

基金贵州省科技计划项目(黔科合基础-ZK[2023]一般143) 贵州省教育厅自然科学研究项目(黔教技[2023]061号,黔教技[2023]012号) 贵州省科技厅众创空间项目《黔民筑梦众创空间》(黔科合平台人才ZCKJ[2021]007)。

关键词苗语语声合成短时傅里叶逆变换演算速度残差编码器 Hmong language speech synthesis Inverse short-time Fourier transform Inference speed Residual encoder

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1杨琳,杨鉴,蔡浩然,刘聪.基于迁移学习的越南语语音合成[J].计算机科学,2023,50(8):118-124. 被引量：2
2刘瑞,康世胤,高光来,李劲东,飞龙.MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型[J].中文信息学报,2022,36(7):86-97. 被引量：6
3拉巴顿珠,珠杰,欧珠,尼玛.端到端的藏语语音合成方法[J].应用声学,2023,42(2):324-332. 被引量：6
4张学文,王林,冯夫健,谭棉,李学林.基于卷积神经网络的苗语孤立词语音识别[J].软件导刊,2022,21(2):21-26. 被引量：7
5李建文,王咿卜.函数拟合实现带声调的语音合成[J].计算机应用与软件,2022,39(9):193-200. 被引量：4
6王志超,吴浩,李栋,刘益岑.基于非自回归模型中文语音合成系统研究与实现[J].计算机与数字工程,2023,51(2):325-330. 被引量：4

二级参考文献33

1薛健,蔡莲红.一种基于声调规范模型的声调变换方法[J].计算机工程与应用,2005,41(10):40-43. 被引量：2
2宋刚,姚艳红.用于汉语单音节声调识别的基频轨迹拟合方法[J].计算机工程与应用,2008,44(29):239-240. 被引量：6
3韩清华,于洪志.基于HMM的安多藏语非特定人孤立词语音识别研究[J].软件导刊,2010,9(7):173-175. 被引量：9
4马效敏,郑文思,陈琪.自相关基频提取算法的MATLAB实现[J].西北民族大学学报（自然科学版）,2010,31(4):54-58. 被引量：8
5王硕,Robert Mannell,Philip Newall,董瑞娟,李靖,张华,陈雪清,韩德民.共振峰信息在汉语声调感知中的作用[J].中国耳鼻咽喉头颈外科,2012,19(1):8-11. 被引量：7
6徐利军.基于DTW的孤立词语音识别研究[J].软件导刊,2012,11(2):137-139. 被引量：6
7赵建东,高光来,飞龙.基于HMM的蒙古语语音合成技术研究[J].计算机科学,2014,41(1):80-82. 被引量：6
8刘霞,王运锋.基于最小二乘法的自动分段多项式曲线拟合方法研究[J].科学技术与工程,2014,22(3):55-58. 被引量：58
9曹梦霞,郑永果,郑尚新.基于归一化自相关的语音基频特征提取[J].信息技术与信息化,2014(2):49-51. 被引量：4
10易雪蓉,黄巍,胡迪,蒋怡.基于HMM的声调语音模型研究[J].武汉工程大学学报,2018,40(6):691-695. 被引量：2

共引文献20

1王咿卜,李建文,王术.基于数理方法的语音重构研究[J].商洛学院学报,2023,37(2):62-70.
2袁子林,张瑞,张彩霞,魏欢,巩海平.民族语言的语音识别研究[J].计算机应用文摘,2024,40(1):81-83.
3刘堂亮.基于深度学习的实时语音交互系统的设计与优化[J].计算机应用文摘,2024,40(6):33-35.
4王嘉文,高定国,尼琼,巴果.基于VITS模型的藏语康巴方言语音合成研究[J].电脑知识与技术,2024,20(4):8-10.
5陆旭,冉启斌.词向量距离计算反映的当代中文文献中汉语拼音知识图谱[J].语言政策与规划研究,2023(2):30-40.
6蔡姗,郭胜,王林.基于混合密度网络的苗语语音合成方法[J].软件导刊,2024,23(4):31-37.
7冯夫健,吴磊,谭棉,蔡姗,张学文,王林.苗语语音音节自适应切分算法[J].科学技术与工程,2024,24(14):5863-5871.
8韩西,梁凯,岳宇.基于音频匹配的藏语驱动视觉语音合成算法研究[J].吉林大学学报（信息科学版）,2024,42(3):509-515.
9王杰,秦董洪.低资源非自回归壮语语音合成[J].中央民族大学学报（自然科学版）,2024,33(2):40-47.
10蔡姗,王林,谭棉,郭胜,吴磊,王飞.基于子音节表征的苗语语音合成方法[J].科学技术与工程,2024,24(19):8176-8185. 被引量：1

1胡航烨,王蔚.汉语儿童情感语声合成[J].应用声学,2023,42(1):76-83.
2黄大金.《我言秋色胜春朝》小析[J].花木盆景,2025(1):65-65.
3侯文甫.文山苗语le^(44)的多功能性及语法化路径[J].文山学院学报,2025,38(1):66-75.
4黄金生.君生我未生,我生君已老《全唐诗》有哪些“遗珠”[J].国家人文历史,2025(1):16-23.
5欧阳振宇,粟时平,王海明,王红标,胡亚杰,阳潇枭.基于极值索引排序算法的MMC均压优化研究[J].电力电容器与无功补偿,2023,44(1):56-64. 被引量：4
6杨欣怡.榕江苗语反义词的不平衡性研究[J].现代语言学,2024,12(12):308-314.
7酒店及旅游管理博士学位D.HTM 亚洲特色全球视野[J].旅游学刊,2025,40(3).
8王嘉文,高定国,索朗曲珍.藏语语声识别声学模型建模单元研究[J].应用声学,2025,44(2):405-412. 被引量：1
9曹涤环.鸟语声声入诗来[J].林业与生态,2024(12):48-48.
10朱丹.少数民族濒危语言保护与传承——以土家语为例[J].炎黄地理,2025(2):173-175.

应用声学

2025年第2期

浏览历史

内容加载中请稍等...

短时傅里叶逆变换的苗语语声合成方法

参考文献6

二级参考文献33

共引文献20

相关作者

相关机构

相关主题

浏览历史