采用长短时记忆网络的低资源语音识别方法被引量：20

A Speech Recognition Method Using Long Short-Term Memory Network in Low Resources

下载PDF

导出

摘要针对低资源环境下由于标注训练数据不足、造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法采用长短时记忆网络构建声学模型,从特征提取、数据扩展及模型优化3个方面提高低资源语音识别性能。在特征提取方面,提取语言无关的高层稳健特征参数,降低声学模型对训练数据的依赖;在数据扩展方面,对已有标注数据进行语速扰动,对无标注数据进行自动识别,从而自动获取更多标注数据;在模型优化方面,通过序贯区分性训练技术提高模型对易混淆音素的区分能力,利用最小风险贝叶斯解码对多个系统进行融合,进一步提高识别性能。对OpenKWS16评测数据的实验结果表明,采用LSTMLRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%。 A speech recognition method using long short-term memory network in low resources（LSTM-LRASR method）is proposed to solve the problem that the recognition rate of an auto speech recognition system is declining due to the lack of transcripted training data in low resource environments.The method uses long short-term memory network to construct an acoustic model,and improves the low resource speech recognition performance from three aspects.These are feature extraction,data augmentation and model optimization.The feature extraction extracts language-independent high-level robustness parameters to reduce the dependence of acoustic model on training data.The data augmentation processes the transcripted data by speed perturbation,while the untranscripted data is recognized automatically,so that more transcripted data are created.The model optimization uses the sequential discriminating training technique to improve the ability of distinguishing phonemes,and the minimum Bayes-risk decoding is used to combine multiple systems and to further improve the recognition performance.The experimentalresults on the OpenKWS16 evaluation database show that the word error rate of the low resource speech recognition system built by the proposed LSTM-LRASR method is 29.9% lower than that of the baseline system,and the actual value weighted value increases by 60.3%.

作者舒帆屈丹张文林周利莉郭武 SHU Fan;QU Dan;ZHANG Wenlin;ZHOU Lili;GUO Wu(Institute of Information System Engineering,PLA Information Engineering University,Zhengzhou 450002, China;Institute of Information Science and Technology,University of Science and Technology of China, Hefei 230026, China)

机构地区解放军信息工程大学信息系统工程学院中国科学技术大学信息科学技术学院

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2017年第10期120-127,共8页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(61673395 61403415 61302107) 河南省自然科学基金资助项目(162300410331)

关键词语音识别低资源长短时记忆神经网络 speech recognition low resource long short-term memory neural network

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1陆梨花,张连海,陈琦.基于加权有限状态转换器的语音查询项检索技术[J].数据采集与处理,2015,30(2):390-398. 被引量：2
2吴蔚澜,蔡猛,田垚,杨晓昊,陈振锋,刘加,夏善红.低数据资源条件下基于Bottleneck特征与SGMM模型的语音识别系统[J].中国科学院大学学报（中英文）,2015,32(1):97-102. 被引量：9
3刘加,张卫强.低资源语音识别若干关键技术研究进展[J].数据采集与处理,2017,32(2):205-220. 被引量：8

二级参考文献39

1Cui X, Xue J, Dognin P L, et al. Acoustic modeling with bootstrap and restructuring for low-resoureed languages[ C ]// Interspeech. 2010:2 974-2 977.
2Vu N T, Sehlippe T, Kraus F, et al. Rapid bootstrapping of five eastern european languages using the rapid language adaptation toolkit[C] //tnterspeech. 2010: 865-868.
3Rabiner L R. A Tutorial on hidden markov models and selected applications in speech recognition[ J]. Proceedings of IEEE, 1989, 77(2) :257-286.
4Davis S, Mermclstein P. Comparison of parametric representations formonosyllable word recognition in continuously spoken sentences [ J ]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28 (4) : 357-366.
5Povey D, Burgct L, Agarwal M, et al. Subspaee Gaussian mixture models for speech recognition [ C ]//Acoustics Speech and Signal Processing (ICASSP) , 2010 IEEE International Conference on. IEEE, 2010:4 330-4 333.
6Povey D, Burget L, Agarwa M, et a. The subspace Gaussian mixture model: a structured model for speech recognition[ J]. Computer Speech and Language, 2011, 25 (2) :404-439.
7Dahl G, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large vocabulary speech recognition [ J ]. IEEE Trans on Audio, Speech and LanguageProcessing, 2012, 20( 1 ): 30-42,.
8Seide F, Li G, Yu D. Conversational speech transcription using context-dependent deep neural networks [ C ] // Interspeech. 2011 : 437-440.
9Normandin Y. Hidden Markov models, maximum mutual information estimation, and the speech recognition problem IDa. Canada: McGill University, 1991.
10He X D, Deng L, Chou W. Discriminative learning in sequential pattern recognition [ J ]. IEEE Signal Processing Magazine, 2008, 14 ( 1 ) : 14-36.

共引文献16

1陈蕾,赵霞,贾嫣,魏霖静.关于人的语音声调准确识别仿真[J].计算机仿真,2017,34(3):161-164. 被引量：2
2秦楚雄,张连海.基于DNN的低资源语音识别特征提取技术[J].自动化学报,2017,43(7):1208-1219. 被引量：25
3徐必伟,苏成利,杨微,曹江涛.基于DTW和EMD的孤立词语音识别研究[J].辽宁石油化工大学学报,2018,38(1):74-78. 被引量：2
4周虎,张承明,张仁堂,杨晓霞,陈岩.红枣黑变过程中主要成分连续变化模拟方法[J].科教导刊（电子版）,2018,0(15):284-285.
5叶硕,彭春堂,杜珍珍,贺娟.基于DTW的孤立词语音识别系统设计[J].长江大学学报（自然科学版）,2018,15(17):33-37. 被引量：5
6呼媛玲,寇媛媛.基于音素的英文发音自动评测系统设计[J].自动化与仪器仪表,2018,0(11):160-163.
7李山.智能家具语音识别精准度优化仿真[J].计算机仿真,2018,35(11):281-284. 被引量：5
8王艳芬.一种用于无线通信的数字语音识别系统设计[J].现代电子技术,2016,39(16):151-154. 被引量：3
9胡同,朱国华,黄力乾.智能规范执法系统的设计实现[J].电脑编程技巧与维护,2019(6):131-132.
10翁煜,冯宗伟,曹博海.人脸识别、车牌识别及智能语音分析在移动警务中的应用研究综述[J].科学与信息化,2019,0(24):37-40.

同被引文献142

1程玉胜,王易川,史广智,惠俊英.基于现代信号处理技术的舰船噪声信号DEMON分析[J].声学技术,2006,25(1):71-74. 被引量：22
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
3王学厚,韩璞,李岩,贾增周.基于PSO的RBF神经网络在热工系统辨识中的应用[J].华北电力大学学报（自然科学版）,2008,35(1):52-56. 被引量：4
4李启虎,李敏,杨秀庭.水下目标辐射噪声中单频信号分量的检测：理论分析[J].声学学报,2008,33(3):193-196. 被引量：59
5李启虎,李敏,杨秀庭.水下目标辐射噪声中单频信号分量的检测：数值仿真[J].声学学报,2008,33(4):289-293. 被引量：30
6詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008,14(9):43-45. 被引量：44
7吴国清,李靖,陈耀明,袁毅,陈岳.舰船噪声识别(Ⅰ)──总体框架、线谱分析和提取[J].声学学报,1998,23(5):394-400. 被引量：125
8吴国清,李靖,陈耀明,袁毅.舰船噪声识别(Ⅱ)──线谱稳定性和唯一性[J].声学学报,1999,24(1):7-11. 被引量：49
9毛李帆,姚建刚,金永顺,李文杰,关石磊,陈芳.中长期负荷预测的异常数据辨识与缺失数据处理[J].电网技术,2010,34(7):148-153. 被引量：46
10张亮,黄曙光,石昭祥,胡荣贵.基于LSTM型RNN的CAPTCHA识别方法[J].模式识别与人工智能,2011,24(1):40-47. 被引量：25

引证文献20

1宋宇,李治霖,程超.基于CNN-BILSTM的工业控制系统ARP攻击入侵检测方法[J].计算机应用研究,2020,37(S02):242-244. 被引量：15
2周虎,张承明,张仁堂,杨晓霞,陈岩.红枣黑变过程中主要成分连续变化模拟方法[J].科教导刊（电子版）,2018,0(15):284-285.
3牛群,刘志永,褚建川,王艳奎,吴根水.基于长短时记忆网络的仿真系统数据故障诊断方法[J].探测与控制学报,2019,41(5):25-29. 被引量：3
4王建永,廖丹,郭威,唐乐.多媒体网络语音模糊音调数据准确识别方法[J].电子设计工程,2019,27(21):50-53. 被引量：2
5全龙翔,阿不力克木·吾甫尔,马超,武江波.基于上下文敏感区块的模糊语音准确识别方法[J].电子设计工程,2020,28(1):32-35.
6杨志杰,张梅,李冠龙,黄昌达.基于长短时记忆元的语音智能识别系统设计[J].电子设计工程,2020,28(1):55-58. 被引量：4
7张少康,王超,田德艳,张小川.长短时记忆网络水下目标噪声智能识别方法[J].舰船科学技术,2019,41(23):181-185. 被引量：11
8俞建强,颜雁,刘葳,孙一鸣.基于改进门控单元神经网络的语音识别声学模型研究[J].长春理工大学学报（自然科学版）,2020,43(1):104-111. 被引量：1
9张瑞珍,韩跃平,张晓通.基于深度LSTM的端到端的语音识别[J].中北大学学报（自然科学版）,2020,41(3):244-248. 被引量：15
10孙昀昀,王连成.基于LSTM的钢铁工业地区母线短期负荷预测研究[J].山东电力技术,2020,47(8):33-37. 被引量：4

二级引证文献113

1葛海燕,左国华,高明发.^(131)I标记抗CEA单抗预防人结肠癌肝转移的实验研究[J].第三军医大学学报,2000,22(5):430-432. 被引量：5
2李杰,王雪可,刘力宾,马士豪.医保欺诈事件舆情传播的情感焦点与情感倾向演化研究--基于舆情客体视角[J].情报科学,2020,38(4):77-82. 被引量：8
3曹泽炎,郑静.基于Multi Focal损失函数的中文文本分类研究[J].杭州电子科技大学学报（自然科学版）,2020,40(3):51-56. 被引量：2
4孙靖超.基于优化深度双向自编码网络的舆情情感识别研究[J].情报杂志,2020,39(6):159-163. 被引量：8
5王川,石磊,代国明,刘素芳.基于社区治理模式下突发灾害的应对[J].灾害学,2020,35(3):42-45. 被引量：1
6任燕龙,谷建伟,崔文富,张以根.基于改进果蝇算法和长短期记忆神经网络的油田产量预测模型[J].科学技术与工程,2020,20(18):7245-7251. 被引量：19
7张瑜.基于多重卷积循环网络舆情分析方法的研究[J].电子设计工程,2020,28(18):92-96. 被引量：3
8崔博洋,王永林,王云,孙大平,王桦.基于长短期记忆神经网络的吸收塔pH值预测模型[J].华电技术,2020,42(9):32-36. 被引量：8
9满媛媛,刘佳宁.国内突发事件网络舆情研究进展[J].情报科学,2020,38(12):170-177. 被引量：14
10王楠,吕欣隆.COVID-19疫情下政务媒体情感传播特征及用户情感体验研究[J].情报探索,2021(2):8-16. 被引量：4

1ECONOMY[J].Beijing Review,2017,60(36):6-7.
2卞则康,王士同.基于相似度学习的多源迁移算法[J].控制与决策,2017,32(11):1941-1948. 被引量：11
3张凯,任维平,张仰森,尤建清.基于股民评论信息的股票预测方法研究[J].北京信息科技大学学报（自然科学版）,2017,32(5):67-71. 被引量：1
4林华晶,彭小英.集束化护理对脑卒中吞咽功能障碍患者临床效果观察[J].黑龙江医药,2016,29(4):812-814. 被引量：9
5陈勇勇,王振飞,张佳静.一种空管自动化系统间数据同步实现方法[J].无线互联科技,2017,14(22):41-44. 被引量：3
6张伟.做好小学英语入门教学的探讨[J].校园英语,2017,0(37):128-128.
7李静姝.高校微信订阅号新传播力评价模式的建立与应用[J].新闻研究导刊,2017,8(20):270-272.
8薛超,于宏志,王景彬.基于卷积神经网络的级联人脸检测[J].中国安防,2017(11):88-91. 被引量：2
9张爱英,倪崇嘉.资源稀缺蒙语语音识别研究[J].计算机科学,2017,44(10):318-322. 被引量：1
10王强,杜权,肖桐,朱靖波.基于Transfer和Triangulation融合的中介语统计机器翻译方法[J].中文信息学报,2017,31(4):36-43. 被引量：3

西安交通大学学报

2017年第10期

浏览历史

内容加载中请稍等...

采用长短时记忆网络的低资源语音识别方法被引量：20

参考文献3

二级参考文献39

共引文献16

同被引文献142

引证文献20

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

采用长短时记忆网络的低资源语音识别方法 被引量：20

参考文献3

二级参考文献39

共引文献16

同被引文献142

引证文献20

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

采用长短时记忆网络的低资源语音识别方法被引量：20