基于TDNN-FSMN的蒙古语语音识别技术研究被引量：6

Mongolian Speech Recognition Based on TDNN-FSMN

下载PDF

导出

摘要为了提高蒙古语语音识别性能,该文首先将时延神经网络融合前馈型序列记忆网络应用于蒙古语语音识别任务中,通过对长序列语音帧建模来充分挖掘上下文相关信息;此外研究了前馈型序列记忆网络"记忆"模块中历史信息和未来信息长度对模型的影响;最后分析了融合的网络结构中隐藏层个数及隐藏层节点数对声学模型性能的影响。实验结果表明,时延神经网络融合前馈型序列记忆网络相比深度神经网络、时延神经网络和前馈型序列记忆网络具有更好的性能,单词错误率与基线深度神经网络模型相比降低22.2%。 In order to improve Mongolian speech recognition,the Time Delay Neural Network（TDNN）and Feedforward Sequential Memory Network（FSMN）are combined to model the long sequence speech frames.In addition,we investigate the influence caused by the information from the preceding and the subsequent frames in the memory block over FSMN.We compare the performance of the TDNN-LSTM using different hidden layers and nodes.The results show that the fusion of TDNN and FSMN produces better performance than DNN,TDNN and FSMN,reducing the word error rate（WER）by 22.2% compared with the DNN baseline.

作者王勇和飞龙高光来 WANG Yonghe;BAO Feilong;GAO Guanglai(College of Computer Science,Inner Mongolia University,Hohhot,Inner Mongolia 010021,China)

机构地区内蒙古大学计算机学院

出处《中文信息学报》 CSCD 北大核心 2018年第9期28-34,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61563040 61773224) 内蒙古自然科学基金(2016ZD06)

关键词蒙古语语音识别时延神经网络前馈型序列记忆网络 Mongolian speech recognition Time Delay Neural Network Feed-forward Sequential Memory Network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1何珏,刘加.汉语连续语音中HMM模型状态数优化方法研究[J].中文信息学报,2006,20(6):83-88. 被引量：7
2飞龙,高光来,王宏伟.基于词干的蒙古语语音关键词检测方法的研究[J].中文信息学报,2016,30(1):124-128. 被引量：2
3肖云鹏,叶卫平.基于特征参数归一化的鲁棒语音识别方法综述[J].中文信息学报,2010,24(5):106-116. 被引量：9

二级参考文献47

1Y.F.Gong.Speech recognition in noisy environments:A survey[J].Speech Communication,1995,16:261-291.
2S.Boll.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1979,27(2):113-120.In:Proceedings of IEEE International Conference on Acoustics,Acoustics and Signal Processing.
3K.Paliwal and A.Basu.A speech enhancement method based on Kalman filtering[C]//Proceedings of 1987 IEEE International Conference on Acoustics,Acoustics and Signal Processing.Dallas,Texas,USA,1987:177-180.
4Y.Ephraim and H.L.Van Trees.A signal subspace approach for speech enhancement[C]//Proceedings of 1993 IEEE International Conference on Acoustics,Acoustics and Signal Processing.Minneapolis,MN,USA,1993:355-358.
5H.Lev-Ari,Y.Ephraim.Extension of the signal subspace speech enhancement approach to colored noise[J].IEEE Signal Processing Letters,2003,10(4):104-106.
6S.Furui.Cepstral analysis technique for automatic speaker verification[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1981,29(2):254-272.
7O.Viikki and K.Laurila.Cepstral Domain Segmental Feature Vector Normalization for Noise Robust Speech Recognition[J].Speech Communication,1998,25:133-147.
8A.de la Torre,A.M.Peinado,J.C.Segura et al.Histogram equalization of speech representation for robust speech recognition[J].IEEE Transactions on Acoustics,Speech and Signal Processing,2005,13(3):355-366.
9S.H.Lin,Y.M.Yeh,and B.Chen.A Comparative Study of HEQ for Robust speech recognition[J].International Journal of Computational Linguistics and Chinese Language Processing,2007,12(2):217-238.
10J.L.Gauvain and C.H.Lee.Maximum a posteriori estimation for multivariate Gaussian mixtureobservations of Markov chains[J].IEEE Transactions on Speech and Audio Processing,1994,2(2):291-298.

共引文献15

1常云,卢俊清,刘海红,娜日苏.蒙古语母语者蒙、英跨语言特征研究[J].前沿,2020(5):95-100.
2王青伟,马镯,崔琳,王立石,刘时雄,高霖.语音识别领域计算机程序或算法专利申请审查[J].电声技术,2012,36(S1):50-52. 被引量：1
3鄢志杰,胡郁,王仁华.一种基于区分性准则的模型结构优化方法[J].中文信息学报,2008,22(2):99-105. 被引量：1
4杨笔锋,张英杰.单状态基因克隆HMM语音训练算法[J].计算机工程与应用,2011,47(3):113-116. 被引量：1
5方凡泉,李心广,王桂珍,林江豪.语音质量客观评价方法研究及实现[J].广州大学学报（自然科学版）,2011,10(1):65-69. 被引量：4
6史国良,梁鹏,刘明宇.多重ANN/HMM混合模型在时序模式识别中的应用[J].哈尔滨师范大学自然科学学报,2011,27(6):53-55. 被引量：2
7齐欣,肖云鹏,叶卫平.普通话发音评估性能改进[J].中文信息学报,2013,27(3):48-55. 被引量：2
8刘葳,孙一鸣.一种改进的连续语音特征提取算法[J].长春理工大学学报（自然科学版）,2014,37(1):146-149. 被引量：1
9孙一鸣,刘葳,刘妍秀.基于动态阈值的MVN连续语音特征调整算法[J].长春理工大学学报（自然科学版）,2014,37(5):130-133.
10许金普,诸叶平.基于语音识别的农产品价格信息采集方法[J].中国农业科学,2015,48(3):449-459. 被引量：8

同被引文献38

1张林,刘先珊,阴和俊.基于时间序列的支持向量机在负荷预测中的应用[J].电网技术,2004,28(19):38-41. 被引量：38
2曲文龙,樊广佺,杨炳儒.基于支持向量机的复杂时间序列预测研究[J].计算机工程,2005,31(23):1-3. 被引量：33
3丁刚,钟诗胜.基于过程神经网络的时间序列预测及其应用研究[J].控制与决策,2006,21(9):1037-1041. 被引量：18
4梁志珊,王丽敏,付大鹏.应用混沌理论的电力系统短期负荷预测[J].控制与决策,1998,13(1):87-90. 被引量：31
5左志宇,毛罕平,张晓东,胡静,韩绿化,倪静.基于时序分析法的温室温度预测模型[J].农业机械学报,2010,41(11):173-177. 被引量：44
6方江晓,周晖,黄梅,T.S.Sidhu.基于统计聚类分析的短期风电功率预测[J].电力系统保护与控制,2011,39(11):67-73. 被引量：45
7唐舟进,任峰,彭涛,王文博.基于迭代误差补偿的混沌时间序列最小二乘支持向量机预测算法[J].物理学报,2014,63(5):70-79. 被引量：41
8张志刚,向双全,黄永强.物联网技术实时绘制固态酿酒发酵温度曲线在生产管理中的应用(一)[J].酿酒科技,2014(5):62-64. 被引量：6
9袁胜龙,郭武,戴礼荣.基于深层神经网络的藏语识别[J].模式识别与人工智能,2015,28(3):209-213. 被引量：15
10陈丙友,韩英,张鑫,杨宇,万清徽,陈建新.酒醅温度调控对清香型白酒发酵过程的影响[J].食品与发酵工业,2016,42(6):44-49. 被引量：45

引证文献6

1南措吉,才让卓玛,都格草.基于BLSTM和CTC的藏语语音识别[J].青海师范大学学报（自然科学版）,2019,35(4):26-33. 被引量：3
2余天阳.基于时延神经网络的酒醅温度时序预测[J].计算机与数字工程,2020,48(9):2121-2125. 被引量：2
3占善华,张永平.一种公共法律服务智能语音数据管理系统的设计[J].电子技术与软件工程,2021(1):190-191.
4刘志强,马志强,张晓旭,宝财吉拉呼,谢秀兰,朱方圆.IMUT-MC:一个针对蒙古语语音识别的语音语料库[J].中国科学数据（中英文网络版）,2022,7(2):71-83. 被引量：4
5霍伟明,徐浩.用于大词汇量语音识别的门控残差DFSMN声波模型[J].家电科技,2022(5):22-25. 被引量：3
6张济民,早克热·卡德尔,艾山·吾买尔,申云飞,汪烈军.基于改进Conformer的新闻领域端到端语音识别[J].中文信息学报,2024,38(4):156-164. 被引量：4

二级引证文献16

1仁曾卓玛,朱丽平.藏语方言语音合成数据集[J].中国科学数据（中英文网络版）,2022,7(2):20-29. 被引量：5
2王馨悦,周小天.基于人机交互增强算法的便携语言翻译机系统研究[J].自动化与仪器仪表,2023(4):220-224. 被引量：4
3祝田田,张力,杜成成,张保华.基于神经网络的白酒固态发酵中关键酸酯比预测与分析[J].食品工业,2023,44(10):143-148. 被引量：1
4袁子林,张瑞,张彩霞,魏欢,巩海平.民族语言的语音识别研究[J].计算机应用文摘,2024,40(1):81-83.
5王晓丹,谢先明,李活.基于改进DFSMN模型的语音交互服务系统设计[J].自动化与仪器仪表,2024(1):150-154.
6甄兆博,张晖.语音文本对齐技术构建蒙古语语音识别语料库研究[J].中央民族大学学报（自然科学版）,2024,33(1):12-19.
7王世刚,严瑾.基于改进DFSMN的非特定人语音识别模型[J].电声技术,2023,47(12):111-114.
8孙仪航,钟典余.数据驱动的人工智能方法在白酒行业中的应用研究进展[J].酿酒,2024,51(5):43-45. 被引量：2
9徐慧.语音识别技术在新闻编辑领域的应用与性能评估[J].中国传媒科技,2024(9):141-144. 被引量：1
10梁宏涛,刘家旭.一种基于CNN-DFSMN-CTC的语音识别模型[J].计算机与数字工程,2024,52(10):2984-2990. 被引量：2

1张琦,燕娜,王珂,赵培之.基于卷积神经网络的人脸识别研究[J].中国新通信,2018,20(18):13-13.
2Hui Min,Zhang Xingang,Zhang Meng,Yu Chao,Zhu Xiaowei.Modeling and linearizing broad-band power amplifier based on real and complex-valued hybrid time-delay neural network[J].Journal of Southeast University(English Edition),2018,34(2):139-146. 被引量：1
3贾美英.虚拟网络技术在学校计算机网络信息安全中的应用[J].通讯世界,2018,25(11):30-31. 被引量：3
4许宁,徐昌荣.改进型LSTM变形预测模型研究[J].江西理工大学学报,2018,39(5):45-51. 被引量：18
5王智超,张鹏远,潘接林,颜永红.连接时序分类准则声学建模方法优化[J].声学学报,2018,43(6):984-990. 被引量：3
6葛安琪.信息技术课堂过程性评价的探索及思考[J].新课程（小学）,2018,0(9):116-117.
7万燕.中美上市公司自愿披露盈利预测信息比较[J].财会研究,2018,0(9):56-60. 被引量：1
8朱莹,李焕茹,庾强,陈晓冬,魏锴,雒文涛,陈振华,陈利军.呼伦贝尔草原土壤养分及生物学特性对氮沉降的响应[J].应用生态学报,2018,29(10):3221-3228. 被引量：9
9汪子豪,秦其明,孙元亨,张添源,任华忠.基于BP神经网络的地表温度空间降尺度方法[J].遥感技术与应用,2018,33(5):793-802. 被引量：12
10刘霞娇,段亚峰,叶莹莹,肖霜霜,张伟,王克林.耕作扰动对喀斯特土壤可溶性有机质及其组分迁移淋失的影响[J].生态学报,2018,38(19):6981-6991. 被引量：18

中文信息学报

2018年第9期

浏览历史

内容加载中请稍等...

基于TDNN-FSMN的蒙古语语音识别技术研究被引量：6

参考文献3

二级参考文献47

共引文献15

同被引文献38

引证文献6

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于TDNN-FSMN的蒙古语语音识别技术研究 被引量：6

参考文献3

二级参考文献47

共引文献15

同被引文献38

引证文献6

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于TDNN-FSMN的蒙古语语音识别技术研究被引量：6