基于GMM-UBM和GLDS-SVM的英文发音错误检测方法被引量：3

Automatic Mispronunciation Detection for English Learners by GMM-UBM and GLDS-SVM Methods

下载PDF

导出

摘要将语种和说话人识别的方法应用到英语发音错误检测系统,提出一种基于广义线性区分序列支持向量机(Generalized linear dis-criminant sequence based SVM,GLDS-SVM)的发音错误检测方法.主要创新点为:1)提出一种基于状态拼接的特征规整方案,增强SVM对发音特征的建模能力;2)提出一种基于多模型融合的模型训练策略,该策略可以更加充分地利用训练数据,并在一定程度上解决了由于真实发音错误数据缺乏造成的正负样本不均衡的问题;3)将GLDS-SVM与基于通用背景模型GMM(Universal background modelsbased GMM,GMM-UBM)的方法进行融合,以进一步提高发音检错性能.GLDS-SVM和GMM-UBM的融合系统在仿真测试集和真实测试集上的等错误率(Equal error rate,EER)分别达到9.92%和16.35%.同时,GLDS-SVM在模型占用空间和运算速度方面均比传统径向基函数(Radial basic function,RBF)核方法具有明显优势. The paper proposes an efficient generalized linear discriminant sequence based SVM （GLDS-SVM） based mispronunciation detection method. Firstly, in order to enhance the ability of describing pronunciation characteristics, we introduce an improved SVM feature normalization scheme based on state-concatenated operation. Then, we propose a novel multi-model strategy for model training to make full use of samples and solve the problem of data unbalance caused by lack of the actual mispronunciation corpus. Finally, we combine GLDS-SVM with universal background models based GMM （GMM-UBM） to further improve the performance. The fused system by these two methods achieves 9.92% and 16.35% in equal error rate （EER） for simulation set and real set, respectively. Meanwhile, GLDS-SVM processes a higher computation speed and smaller model size than traditional radial basic function （RBF） kernel.

作者李宏言黄申王士进梁家恩徐波

机构地区中国科学院自动化研究所数字内容技术研究中心中国科学院自动化研究所模式识别国家重点实验室

出处《自动化学报》 EI CSCD 北大核心 2010年第2期332-336,共5页 Acta Automatica Sinica

基金国家高技术研究发展计划(863计划)(2006AA010103)资助~~

关键词计算机辅助语言学习自动发音错误检测支持向量机特征规整多模型融合策略 Computer assisted language learning （CALL） automatic mispronunciation detection support vector machine （SVM） feature normalization multi-model fusion strategy

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献9

1Pan F P, Zhao Q W, Yan Y H. Mandarin vowel pronunciation quality evaluation by a novel formant classification method and its combination with traditional algorithms. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing. Las Vegas, USA: IEEE, 2008. 5061-5064.
2董滨,赵庆卫,颜永红.基于共振峰模式的汉语普通话中韵母发音水平客观测试方法的研究[J].声学学报,2007,32(2):122-128. 被引量：16
3Jiang J, Xu B. Exploring the automatic mispronunciation detection of confusable phones for Mandarin. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing. Taipei, China: IEEE, 2009. 4833-4836.
4Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 2000, 10(1-3): 19-41.
5Ganapathiraju A, Hamaker J E, Picone J. Applications of support vector machines to speech recognition. IEEE Transactions on Signal Processing, 2004, 52(8): 2348-2355.
6Lin H T, Lin C J, Weng R C. A note on Platt's probabilistic outputs for support vector machines. Machine Learning, 2007, 68(3): 267-276.
7Campbell W M, Campbell J P, Reynolds D A, Singer E, Torres-Carrasquillo P A. Support vector machines for speaker and language recognition. Computer Speech and Language, 2006, 20(2-3): 210-229.
8Kittler J, Hatef M, Robert P W, Jiri M. On combining classifters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(3): 226-239.
9Chang C C, Lin C J. LIBSVM: a library for support vector machines [Online], available: http://www.csie.ntu.edu.tw/ -cjlin/libsvm, September 11, 2007.

二级参考文献14

1吕萍,颜永红.基于回归分析的语音识别快速自适应算法[J].声学学报,2005,30(3):222-228. 被引量：4
2张家騄.汉语普通话区别特征系统[J].声学学报,2005,30(6):506-514. 被引量：28
3张家騄.听觉部位学说与频率差阈[J].声学学报,2006,31(2):97-100. 被引量：9
4张家騄.汉语普通话区别特征系统树状图[J].声学学报,2006,31(3):193-198. 被引量：17
5孟子厚.普通话单元音女声共振峰统计特性测量[J].声学学报,2006,31(3):199-202. 被引量：8
6鲍怀翘.普通话单元音的生理解释[J].中国语文,1984,2:45-45.
7Kim Y, Franco H, Neumeyer L. Automatic pronunciation scoring of specific phone segments for language instruction.in Proc. of EUROSPEECH 97, Rhodes, Greece: 649-652.
8Neumeyer L, FYanco H, Digalakis V, Weintraub M. Automatic scoring of pronunciation quality. Speech Communication, 2000; 30:83-93.
9Neumeyer L, Franco H, Weintraub M, Price P. Automatic text-independent pronunciation scoring of foreign language student speech. Proc. of ICSLP 96, 1996, Philadelphia,Pennsylvania: 1457-1460.
10Franco H, Abrash V, Precoda K, Bratt H, Rao R,Butzberger J. The SRI EduSpeak^TM System: Recognition and Pronunciation Scoring for Language Learning. Proceedings of INSTIL 2000, 2000, Dundee, Scotland: 121-125.

共引文献15

1魏明果.方言比较的特征提取与矩阵分析[J].学术问题研究,2009,0(1):75-78.
2陈克安,马苗,张燕妮,王娜,闫靓.汉语语境下的车辆噪声听觉属性评价与分析[J].声学学报,2008,33(4):348-353. 被引量：14
3马斌,郭莉莉,韩中华,戴敬.基于DSP的语音识别系统的研究与设计[J].微计算机信息,2008,24(23):197-199. 被引量：11
4葛凤培,潘复平,董滨,颜永红.汉语发音质量评估的实验研究[J].声学学报,2010,35(2):261-266. 被引量：12
5王孟杰,孟子厚.基于参数距离的汉语普通话韵母决策树[J].电声技术,2010,34(3):40-42. 被引量：1
6王聪.基于SOPC的混叠语音降噪方法[J].江南大学学报（自然科学版）,2011,10(2):183-187. 被引量：1
7王士进,李宏言,柯登峰,李鹏,高鹏,徐波.面向第二语言学习的口语大规模智能评估技术研究[J].中文信息学报,2011,25(6):142-148. 被引量：7
8汤霖,彭土有,尹俊勋.普通话水平客观测试中的韵母测试研究[J].湘潭大学自然科学学报,2012,34(1):95-100. 被引量：3
9芦世丹,崔荣一.发音相似的朝鲜语和汉语单元音辨识方法[J].中文信息学报,2013,27(2):112-117. 被引量：1
10沈晓丽,管燕平,蒋功达,俞鲁婷,周静.语前聋儿童人工耳蜗植入术后元音声调发声状况分析[J].中国康复理论与实践,2013,19(7):608-611. 被引量：4

同被引文献41

1王士进,孟猛,梁家恩,徐波.基于Multilingual的音素识别及其在语种识别中的应用[J].清华大学学报（自然科学版）,2008,48(S1):678-682. 被引量：2
2黄申,李宏言,王士进,梁家恩,徐波.辅助语音评分系统中一种流利度自动评分方法[J].清华大学学报（自然科学版）,2009(S1):1349-1355. 被引量：5
3胡伟湘,董宏辉,陶建华,黄泰翼.汉语朗读话语重音自动分类研究[J].中文信息学报,2005,19(6):78-83. 被引量：13
4邵艳秋,韩纪庆,刘挺,赵永贞.自然风格言语的汉语句重音自动判别研究[J].声学学报,2006,31(3):203-210. 被引量：17
5董滨,赵庆卫,颜永红.基于共振峰模式的汉语普通话中韵母发音水平客观测试方法的研究[J].声学学报,2007,32(2):122-128. 被引量：16
6李强,裘正定,孙冬梅,张延强.指横纹:一种新的生物身份特征[J].自动化学报,2007,33(6):596-601. 被引量：21
7Chao Y H, Tsai W H, Wang H M. Improving GMM- UBM speaker verification using discriminative feedback adaptation. Computer Speech and Language, 2009, 23(3): 376-388.
8Campbell W M, Campbell J P, Reynolds D A, Singer E, Torres-Carrasquillo P A. Support vector machines for speaker and language recognition. Computer Speech and Language, 2006, 20(2-3): 210-219.
9Hsu C, Chang C, Lin C. A practical guide to support vector classification [Online], available: http://www.csie.ntu.edu. tw/-cjlin/papers/guide/guide.pdf, Oct 28, 2011.
10Duda R, Hart P, Stork D. Pattern Classification (Second Edition). New York: John Wiley and Sons, 2001.

引证文献3

1王士进,李宏言,柯登峰,李鹏,高鹏,徐波.面向第二语言学习的口语大规模智能评估技术研究[J].中文信息学报,2011,25(6):142-148. 被引量：7
2刘镝,孙冬梅,裘正定.一种基于关系度量融合框架的说话人认证特征级融合算法[J].自动化学报,2011,37(12):1503-1513. 被引量：2
3赵云雪,张珑,郑世杰.基于子段拼接特征的汉语重音检测研究[J].计算机光盘软件与应用,2014,17(13):92-94.

二级引证文献9

1金立军,张达,段绍辉,姚森敬.基于图像色彩特征融合的绝缘子污秽等级检测[J].同济大学学报（自然科学版）,2014,42(10):1611-1617. 被引量：7
2金立军,张达.绝缘子污秽等级可见光图像识别方法研究[J].系统仿真学报,2014,26(9):2073-2078. 被引量：7
3彭恒利,李蕊.多面Rasch模型在口语主观性试题网上评阅中的应用研究[J].考试研究,2015,11(3):16-26. 被引量：3
4古力努尔.艾尔肯,艾斯卡尔.艾木都拉.规则和统计相结合的非汉语母语者声调分析[J].应用声学,2018,37(3):365-372. 被引量：1
5彭恒利.计算机自动评分技术在高利害考试中应用的前景分析[J].内蒙古教育,2019,0(2):4-6. 被引量：3
6王妍,彭恒利.汉语口语开放性试题计算机自动评分的效度验证[J].中国考试,2019,0(9):63-71. 被引量：3
7金艳,王伟,张晓艺,赵英华.大学英语四级口语考试自动评分效度初探[J].中国考试,2020(7):25-33. 被引量：14
8刘海清.多参量英语发音质量评价回归模型设计[J].海外英语,2021(20):12-14.
9东青.浅谈科学发声法在声乐教学中的重要性[J].明日风尚,2017(16):158-158. 被引量：2

1黄浩,王建明,哈力旦.阿布都热依木,吾守尔.斯拉木.自动发音错误检测中基于F_1值最大化的声学模型训练方法[J].声学学报,2013,38(6):751-758. 被引量：3
2黄浩,徐海华,王羡慧,吾守尔.斯拉木.自动发音错误检测中基于最大化F1值准则的区分性特征补偿训练算法[J].电子学报,2015,43(7):1294-1299. 被引量：8
3王玉林,郭帆,余敏.英语口语自动评分系统中发音错误的研究[J].计算机应用与软件,2013,30(6):214-217. 被引量：1
4张陈昊,郑方,王琳琳.基于多音素类模型的文本无关短语音说话人识别[J].清华大学学报（自然科学版）,2013,53(6):813-817. 被引量：1
5孟君,杨大利.说话人辨认中通用背景模型训练时长研究[J].北京信息科技大学学报（自然科学版）,2013,28(3):87-91. 被引量：4
6万济萍,肖云鹏,叶卫平.错音检测及其在语音教学中的应用综述[J].中文信息学报,2009,23(4):95-102. 被引量：4
7王文章,田绍槐,张如健.求最短区分序列(SDS)的并行算法[J].计算机学报,1990,13(1):69-74. 被引量：1
8鲁晓倩,关胜晓.基于VQ和GMM的实时声纹识别研究[J].计算机系统应用,2014,23(9):6-12. 被引量：3
9黄文娜,彭亚雄,贺松.基于VEMAP的说话人识别鲁棒性研究[J].电声技术,2016,40(11):44-47.
10霍春宝,张彩娟,赵红敏.基于GMM-UBM的说话人确认系统的研究[J].辽宁工业大学学报（自然科学版）,2012,32(2):98-101.

自动化学报

2010年第2期

浏览历史

内容加载中请稍等...

基于GMM-UBM和GLDS-SVM的英文发音错误检测方法被引量：3

参考文献9

二级参考文献14

共引文献15

同被引文献41

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于GMM-UBM和GLDS-SVM的英文发音错误检测方法 被引量：3

参考文献9

二级参考文献14

共引文献15

同被引文献41

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于GMM-UBM和GLDS-SVM的英文发音错误检测方法被引量：3