语音识别中声学模型研究综述被引量：6

Summary of Acoustic Models in Speech Recognition

下载PDF

导出

摘要智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。 Intelligent speech technology includes speech recognition,natural language processing and speech synthesis.Speech recognition is a key technology for human-computer interaction,and the acoustic model and language model are usually needed to establish for recognition system.The rise of neural network leads to a sharp increase in acoustic models.The combination of acoustic models based on neural network and traditional recognition models greatly promotes the development of speech recognition.As the front end of human-computer interaction,speech recognition has many research directions.In this study,we mainly summarize the current research status of acoustic models in three directions of text recognition,speaker recognition and emotion recognition,and make a detailed introduction of the evolution of speech recognition technology as far as possible,so as to provide valuable reference for the related research in the future.At the same time,we generalize and compare the main methods of speech recognition,introduce the advantages of the end-to-end speech recognition model,analyze the development trend and present the challenges in the current speech recognition tasks at the end.

作者叶硕褚钰王祎李田港 YE Shuo;CHU Yu;WANG Yi;LI Tian-gang(Wuhan Research Institute of Posts and Telecommunications,Wuhan 430000,China)

机构地区武汉邮电科学研究院

出处《计算机技术与发展》 2020年第3期181-186,共6页 Computer Technology and Development

基金 2018年度湖北省科学技术创新专项重大项目(2018AAA063)。

关键词语音识别声学模型神经网络深度学习 speech recognition acoustic model neural network deep learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：176
2荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
3胡青,刘本永.基于卷积神经网络的说话人识别算法[J].计算机应用,2016,36(A01):79-81. 被引量：13
4张晴晴,刘勇,潘接林,颜永红.基于卷积神经网络的连续语音识别[J].工程科学学报,2015,37(9):1212-1217. 被引量：72
5宋静,张雪英,孙颖,张卫.基于PAD情绪模型的情感语音识别[J].微电子学与计算机,2016,33(9):128-131. 被引量：10
6王海坤,潘嘉,刘聪.语音识别技术的研究进展与展望[J].电信科学,2018,34(2):1-11. 被引量：81
7刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930. 被引量：303
8张雪英,张婷,孙颖,张卫,畅江.情感语音数据库优化及PAD情感模型量化标注[J].太原理工大学学报,2017,48(3):469-474. 被引量：16

二级参考文献221

1栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
2杨莉莉,李燕,徐柏龄.汉语耳语音库的建立与听觉实验研究[J].南京大学学报（自然科学版）,2005,41(3):311-317. 被引量：13
3林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：24
4Yu H.The whisper is not helpful for treating hoarseness and recovering voice [J].Journal of the Central University for Nationalities, 1996,5(2): 163-166.
5Itoh T,Takeda K,Itakura F.Acoustic analysis and recognition of whispered speech[C]//Proc ICASSP,Orlando,Florida,USA,2002:389-392.
6Morris R W,CIements M A.Reconstruction of speech from whispers[J].Medical Engineering & Physics, 2002,24 (8): 515-520.
7Morris R W.Enhancement and reconition of whispered speech[D]. Geo a Institute of Technology,USA,2002.
8van Bezooijen R,Otto SA,Heenan TA. Recognition of vocal expressions of emotion:A three-nation study to identify universal characteristics[J].{H}JOURNAL OF CROSS-CULTURAL PSYCHOLOGY,1983,(04):387-406.
9Tolkmitt FJ,Scherer KR. Effect of experimentally induced stress on vocal parameters[J].Journal of Experimental Psychology Human Perception Performance,1986,(03):302-313.
10Cahn JE. The generation of affect in synthesized speech[J].Journal of the American Voice Input/Output Society,1990.1-19.

共引文献666

1郑成杰,郑之.基于最大分类器差异域适应方法的3维点云分类[J].信息与控制,2023,52(5):588-597. 被引量：4
2田琳,舒康安,黄远明,黄志生,孙谦,盛剑胜.发电商滥用市场力行为识别方法研究——基于朴素贝叶斯方法的分析[J].价格理论与实践,2021(5):43-48. 被引量：3
3张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
4白雄文,王红艳,孙宇,周炼赤.基于人工智能的自然语言处理技术分析[J].电子技术（上海）,2021(1):176-177. 被引量：6
5龚晗.深度学习与教育治理现代化:内涵、机遇、挑战及启示[J].中国多媒体与网络教学学报（电子版）,2020(15):65-67.
6李志忠,滕光辉.基于改进MFCC的家禽发声特征提取方法[J].农业工程学报,2008,24(11):202-205. 被引量：25
7刘建,鲁五一.基于频率掩蔽滤波的MFCC特征参数提取算法[J].仪器仪表用户,2009,16(2):120-122.
8鲁五一,吴德华,谢志明,刘建.基于听觉掩蔽效应的改进MFCC特征提取算法[J].信息化研究,2009,35(9):16-18. 被引量：3
9袁正午,肖旺辉.改进的混合MFCC语音识别算法研究[J].计算机工程与应用,2009,45(33):108-110. 被引量：19
10刘雅琴,智爱娟.几种语音识别特征参数的研究[J].计算机技术与发展,2009,19(12):67-70. 被引量：19

同被引文献43

1程美,王力华.医疗智能语音技术与应用综述[J].中国数字医学,2021,16(8):1-7. 被引量：11
2志东.鲁棒性语音识别技术研究综述[J].信息通信,2019,0(11):20-22. 被引量：2
3张利鹏,曹犟,徐明星,郑方.防止假冒者闯入说话人识别系统[J].清华大学学报（自然科学版）,2008,48(S1):699-703. 被引量：13
4成新民,曾毓敏,赵力.一种改进的AMDF求取语音基音的方法[J].微电子学与计算机,2005,22(11):162-164. 被引量：16
5于洪志,杨博,关白.藏文文本规范化技术的研究与实践[J].西北民族大学学报（自然科学版）,2006,27(1):43-47. 被引量：4
6张震,王化清.语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008,44(22):54-55. 被引量：29
7许棣华,王志坚.基于多任务学习的邮件过滤系统的研究[J].计算机技术与发展,2010,20(10):137-140. 被引量：4
8祖漪清.汉语连续语音数据库的语料设计[J].声学学报,1999,24(3):236-247. 被引量：17
9王志锋,贺前华,张雪源,罗海宇,苏卓生.基于信道模式噪声的录音回放攻击检测[J].华南理工大学学报（自然科学版）,2011,39(10):7-12. 被引量：15
10陈喜春.基于LD3320语音识别专用芯片实现的语音控制[J].电子技术（上海）,2011,38(11):20-21. 被引量：50

引证文献6

1梁力,莫晓毅,柯华强.基于语音识别技术的测试平台研究[J].科技视界,2020(31):17-18. 被引量：1
2王丰杰,贺丽丽,武忠.基于语音识别的智能台灯系统[J].运城学院学报,2020,38(6):36-39. 被引量：2
3柯宏宇,高奕宁,郝雪营,黄涛.基于信道信息的回放攻击检测研究[J].计算机技术与发展,2021,31(6):118-122.
4黄友鹏.关于人工智能中远场语音识别技术的探究[J].科学大众（科技创新）,2021(6):111-111.
5贡保加,才智杰,才让卓玛,彭毛扎西.一种藏语语音识别中数字文本规范方法[J].高原科学研究,2022,6(3):117-124. 被引量：3
6涂冲,金利英,王中任,刘海生,邹雨杰.语音识别技术及应用综述[J].数字技术与应用,2025,43(9):179-181.

二级引证文献6

1李素梅,侯秀丽.基于语音识别的智能晾衣系统设计[J].科学技术创新,2021(12):163-164. 被引量：3
2常东旭,吕鑫岳,王迎春,徐春燕,周小雨,郑体花.听觉代偿型听力辅助智能眼镜设计与推广[J].科技创新与应用,2024,14(27):33-36.
3王嘉文,高定国,索朗曲珍,尼琼.基于特征提示的跨语种语音识别模型[J].科学技术与工程,2024,24(24):10348-10355. 被引量：2
4田苗法.基于电流检测汽车智能语音车窗控制系统设计[J].常州工学院学报,2024,37(5):36-42.
5拉巴顿珠,扎西多吉,珠杰.藏语文本标准化方法[J].吉林大学学报(工学版),2024,54(12):3577-3588.
6拉巴顿珠,珠杰.藏语数词构造方法[J].计算机仿真,2025,42(1):296-301.

1孙林林.智能语音技术在小学英语教学中的应用[J].小学时代,2020,0(1):33-34. 被引量：4
2于镭,李涛涛.基于ROS的智能语音控制系统设计[J].电子测量技术,2019,42(23):35-39. 被引量：5
3朱飞虎,焦庆争.智能语音技术在广播产业中的四种应用[J].中国广播,2020,0(3):69-73. 被引量：2
4张雨涵.AI背景下电视节目主持人的职能重构分析[J].卫星电视与宽带多媒体,2020,0(1):86-87. 被引量：1
5李慧英,李延峰.帕金森病相关的情绪障碍[J].中国神经免疫学和神经病学杂志,2019,26(6):454-459. 被引量：11
6王飞,胡川,罗浩,汪鹏.医疗场景智能语音识别技术的应用研究[J].中国数字医学,2019,14(12):19-21. 被引量：25
7唐三立,程战战,钮毅,雷鸣.一种面向结构化文本图像识别的深度学习模型[J].杭州电子科技大学学报（自然科学版）,2020,40(2):45-51. 被引量：1
8郑伟龙,石振锋,吕宝粮.用异质迁移学习构建跨被试脑电情感模型[J].计算机学报,2020,43(2):177-189. 被引量：14
9唐琳.基于机器学习的文本倾向性分析特征选择研究[J].赤峰学院学报（自然科学版）,2020,36(1):36-38. 被引量：2
10王斌,付晓豹,张思卿,张宁博.基于物联网的家居控制系统设计[J].物联网技术,2020,10(2):83-85. 被引量：2

计算机技术与发展

2020年第3期

浏览历史

内容加载中请稍等...

语音识别中声学模型研究综述被引量：6

参考文献8

二级参考文献221

共引文献666

同被引文献43

引证文献6

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

语音识别中声学模型研究综述 被引量：6

参考文献8

二级参考文献221

共引文献666

同被引文献43

引证文献6

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

语音识别中声学模型研究综述被引量：6