基于发音特征的音/视频双流语音识别模型被引量：1

Articulatory feature based on audio-visual speech recognition model

下载PDF

导出

摘要构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、视频单流DBN模型比较了在不同信噪比情况下的识别效果。结果表明,在低信噪比情况下,基于发音特征的音/视频双流语音识别模型表现出最好的识别性能,而且随着噪声的增加,其识别率下降的趋势比较平缓,表明该模型对噪声具有很强的鲁棒性,更适用于低信噪比环境下的语音识别。 This paper presented an articulatory feature （AF） -based multi-stream dynamic Bayesian networks （DBN） model （AF_AV_DBN） for audio visual speech recognition. Defined conditional probability of each node and degree of asynchrony between AFs, and carried out speech recognition experiments on an audio visual connected digit database. Comparing results with the other two single stream DBN models （audio-only model and video-only model） show that AF AV DBN performs the best when the signal-noise ratio on the audio stream is low. Moreover, the AF AV DBN model is more robust to noise, thus more suitable for speech recognition in noisy environments.

作者宋培岩蒋冬梅王风娜

机构地区西北工业大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2009年第7期2481-2483,共3页 Application Research of Computers

基金国家自然科学基金资助项目(60703104)

关键词动态贝叶斯网络发音特征音/视频语音识别 dynamic Bayesian network（ DBN） articulatory feature audio-visual speech recognition

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1LIVESCU K, CETIN O, HASEGAWA-JOHNSON M, et al. Articulatory feature-based methods for acoustic and audio-visual speech recognition: summary from the 2006 JHU Summer workshop [ C ]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing. 2007 : 621- 624.
2GOWDY J N, SUBRAMANYA A, BARTELS C. DBN based multistream models for audio-visual speech recognition [ C ]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing. 2004:993- 996.
3吴志勇,蔡莲红.基于动态贝叶斯网络的音视频双模态说话人识别[J].计算机研究与发展,2006,43(3):470-475. 被引量：11
4BILMES J. GMTK: the graphical models toolkit[ EB/OL]. [ 2006- 06-04]. http://ssli. ee. washington. edu/- bilmes/gmtk/doc. pdf.
5ZHOU Yi, GU Lie, ZHANG Hong-jiang. Bayesian tangent'shape model: estimating shape and pose parameters via Bayesian inference [ C ]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2003.
6BILMES J A, CHRIS B. Graphical model architectures for speech recognition [ J]. IEEE Signal Processing ,2005,22 (5) :89- 100.
7LIVESCU K, GIASS J. Feature-based pronunciation modeling with trainable asynchrony probabilities[ C]//Proc of International Conference on Spoken Language Processing. 2004.
8孙阿利,蒋冬梅,吕国云,Hichem Sahli,Werner Verhelst.基于动态贝叶斯网络的语音识别及音素切分研究[J].计算机应用研究,2007,24(10):104-106. 被引量：2

二级参考文献18

1C. C. Chibelushi, F. Deravi, J. S. D. Mason. A review of speech-based bimodal recognition, IEEE Trans. Multimedia,2002, 4(1): 23-37.
2S. Dupont, J. Luettin. Audiovisual .speech modeling for continuous speech reeognition, IEEE Trans. Multimedia, 2000, 2(3): 141-151.
3A. Nefian, Luhong Liang, Xiaobo Pi, et al. A coupled HMM for audio visual speech recognition. In: Int'l Conf. Acoustics, Speech and Signal Processing (ICASSP2002) . Piscataway, N J: IEEE Press, 2002. 2013-2016.
4A. Nefian, Luhong Liang, Tieyan Fu, et al. A Bayesian approach to audlo-visual speaker identification. Inz Proe. 4th Int'l Conf. Audio-and Video-based Biometrie Person Authentication(AVBPA2003). Berlin: Springer, 2003. 761-769.
5G. G, Zweig, Speech recognition with dynamic Bayesian networks: [Ph. D, dissertation]. Berkeley: U, C. Berkeley,1998.
6J. N. Gowdy, A. Subramanya, C. Bartels, et al. DBN based multi-stream models for audio visual speech recognition. In: Int'l Conf. Acoustics, Speech and Signal Processing (ICASSP2004).Piscataway, NJ: IEEE Press, 2004. 993-996.
7T. Chen, Audiovisual speech processing. IEEE Trans. Signal Processing, 2001, 18 ( 1 ) : 9-21.
8K. Murphy. The Bayes net toolbox for Matlab. http://www. ai. mit. edu/-- murphyk/Scftware/BNT/bnt, html, 2004-11 -22.
9ZWEIG G,RUSSELL S.Speech recognition with dynamic Bayesian networks[C]//Proc of the 15th Nat Conf Artificial Intelligence and 10th Innovative Applications of Artificial Intelligence Conf(AAAI-'98).1998:173-180.
10RUASSELL S,NOORVIG P.人工智能:一种现代方法.[M].中文版.北京:人民邮电出版社,2004:430-437.

共引文献11

1姚宏亮,王浩,汪荣贵,李俊照.多Agent动态影响图的近似计算方法[J].计算机研究与发展,2008,45(3):487-495. 被引量：4
2苗夺谦,王睿智,冉巍.基于动态贝叶斯网络的连续语音识别框架及其Token传递模型[J].计算机研究与发展,2008,45(11):1882-1891.
3张润梅,王浩,张佑生,姚宏亮,方长胜.基于内部结构MPoMDP模型的策略梯度学习算法[J].计算机工程与应用,2009,45(7):20-23. 被引量：1
4黄建明,方娇莉,王心平.大学课程贝叶斯网络模型研究[J].贵州大学学报（自然科学版）,2009,26(2):81-84.
5冷翠平,王双成,王辉.动态贝叶斯网络结构学习的依赖分析方法研究[J].计算机工程与应用,2011,47(3):51-53. 被引量：3
6梁维谦,原道德,丁玉国.大词表孤立词语音识别的快速搜索算法[J].清华大学学报（自然科学版）,2011,51(1):101-104. 被引量：1
7赵欢,王纲金,胡炼,彭秀娟.车载环境下基于样本熵的语音端点检测方法[J].计算机研究与发展,2011,48(3):471-476. 被引量：7
8王双成,裴瑱,毕玉江.经济周期转折点预测的动态贝叶斯网络分类器模型[J].管理工程学报,2011,25(2):173-177. 被引量：3
9冯璐,王路露,张磊,张华东.车载环境下的语音端点检测方法[J].测控技术,2016,35(3):39-41. 被引量：2
10李国法,陈耀昱,吕辰,陶达,曹东璞,成波.智能汽车决策中的驾驶行为语义解析关键技术[J].汽车安全与节能学报,2019,10(4):391-412. 被引量：8

同被引文献5

1相征,尹成俊.基于基音频能值和梅尔参数的语音识别设计与实现[J].计算机系统应用,2008,17(9):86-89. 被引量：3
2李安怀,荆继武.一种分布式无线局域网接入系统[J].计算机工程与设计,2007,28(1):62-65. 被引量：3
3马会丽,唐红,赵国锋.电话外呼系统的研究与实现[J].计算机应用,2007,27(9):2343-2345. 被引量：5
4李守轩,张华,刘继忠,杨武强,朱克华.基于SPCE061A的智能轮椅语音控制系统[J].计算机工程,2008,34(14):248-250. 被引量：6
5肖荣,吴英姿.多语言综合信息服务系统研究与设计[J].计算机工程,2009,35(2):263-264. 被引量：3

引证文献1

1戴国安.语音识别在汽车防盗中的设计与实现[J].中国西部科技,2011,10(13):27-29. 被引量：2

二级引证文献2

1曾杰,邹祥祥,王志平,陈琼.基于语音识别和GSM的门控系统设计[J].科技广场,2012(3):247-249. 被引量：1
2易群,李彩丽.基于单片机的语音录放硬件电路设计与研究[J].机电信息,2015(36):130-131. 被引量：3

1吴鹏,蒋冬梅,王风娜,Hichem SAHLI,Werner VERHELST.基于发音特征的音视频融合语音识别模型[J].计算机工程,2011,37(22):268-269. 被引量：2
2王风娜,蒋冬梅,宋培岩.结合发音特征的动态贝叶斯网络语音识别模型[J].计算机工程与应用,2009,45(8):178-181.
3朱小燕,王昱,徐伟.基于循环神经网络的语音识别模型[J].计算机学报,2001,24(2):213-218. 被引量：24
4荣蓉.一类基于概率神经网络的语音识别模型[J].山东理工大学学报（自然科学版）,2005,19(3):49-52. 被引量：1
5Q来A去MM电脑故障速查手册——一个摄像头同时进行多路视频聊天[J].计算机应用文摘,2005,21(3):119-119.
6笔记本电脑[J].新概念电脑,2004(9):100-100.
7DimRacker.想看我其实很简单[J].网友世界,2004(19):33-33.
8晁浩,宋成,彭维平.基于发音特征的声效相关鲁棒语音识别算法[J].计算机应用,2015,35(1):257-261. 被引量：8
9梁浩,杨光宇.基于连续隐马尔科夫的语音识别模型[J].无线互联科技,2013,10(6):56-57. 被引量：1
10晁浩,杨占磊,刘文举.汉语语音识别中融合发音信息的随机段模型研究[J].计算机应用研究,2014,31(11):3365-3368. 被引量：1

计算机应用研究

2009年第7期

浏览历史

内容加载中请稍等...

基于发音特征的音/视频双流语音识别模型被引量：1

参考文献8

二级参考文献18

共引文献11

同被引文献5

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于发音特征的音/视频双流语音识别模型 被引量：1

参考文献8

二级参考文献18

共引文献11

同被引文献5

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于发音特征的音/视频双流语音识别模型被引量：1