基于唇动的说话人识别技术

Speaker Recognition Technology Based on Lip Movement

下载PDF

导出

摘要针对说话人识别技术多基于语音的现状,文章提出了一种新颖的基于唇动的说话人识别技术。通过离散余弦变换,从说话人讲话时的图像序列提取那些既反映说话人嘴部生理特性也反映了说话人唇动的行为特性的视觉特征。基于这些特征,为说话人建立静态-动态混合模型,其中使用半连续隐马尔可夫模型为说话人建立动态模型。在一个小型的视觉语料库上,我们分别对说话人辨认系统和确认系统进行实现。对说话人辨认系统,其文本有关与文本无关模式的正确率分别达到了100%和99.7%;对说话人确认系统,文本有关与文本无关模式的等错误率分别为0.09%与0.33%。 For most of speaker recognition systems based on acoustic signals,a novel approach of speaker recognition technology based on lip movement is presented in this paper.By Discrete Cosine Transform,visual features is extracted from the talking image sequences,which represent both the physical characteristics of the speaker mouth and his lip movement behaviour trait.Based on these feantures,the static-dynmic models are constructed for the speakers,in which the dynmic model is based on SCHMM.We implement both speaker identification system and speaker verification system on a small visual database,and the accuracy of the text-dependent and the text-independent got to 100% and 99.7% for identification,respectively,and the ERR of both of them are 0.09% and 0.33% for speaker verification,separately.

作者刘庆辉姚鸿勋

机构地区哈尔滨工业大学计算科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2006年第12期85-88,共4页 Computer Engineering and Applications

关键词唇动说话人辨认说话人确认隐马尔可夫模型离散余弦变换 lip movement, speaker identification, speaker verification, HMM, DCT

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1姚鸿勋,高文,王瑞,郎咸波.视觉语言——唇读综述[J].电子学报,2001,29(2):239-246. 被引量：31
2J Luettin,N A Thacker,S W Beet.Speechreading Using Shape and Intensity Information[C].In:Proc Int Conf On Spoken Language Processing,1996
3J Luettin,N A Thacker,S W Beet.Speaker identification by lip-reading[C].In:Proceedings of the 4th Int conf on Spoken Language Processing (ICSLP'96),1996,1:62～65
4M Acheroy et al.Multi-modal person verification tools using speech and images[C].In:Proc Europ Conf On Multimedia Applications,Dervices and Techniques,1996
5姚鸿勋,高文,李静梅,吕雅娟,王瑞.用于口型识别的实时唇定位方法[J].软件学报,2000,11(8):1126-1132. 被引量：10
6N A Fox,R B Reilly.Audio-Visual Speaker Identification Based on the Use of Dynamic Audio and Visual Features[C].In:Proceedings of the 4th Int.Conf.on Audio-and Video-Based Biometric Person Authentication,AVBPA,Guildford,UK,2003:743～751
7S Lucey,T Chen.Improved audio-visual speaker recognition via the use of a hybrid combination strategy[C].In:Conf of Audio-and VideoBased Person Authentication(AVBPA),Guildford U K,2003
8L R Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[C].In:Proceedings of the IEEE,1989,77(2)

二级参考文献14

1王瑞.连续语音唇读识别的研究.哈尔滨工业大学计算机系博士论文开题报告[M].哈尔滨工业大学档案馆,1998..
2徐彦君.中文双语料语音识别关键技术研究：博士论文[M].北京:中科院语音所,1998..
3间濑健二.读唇[J].电子情报通信学会论文志,1990,73(6):796-803.
4Kin Manlam，Pattern Recognition，1996年，29卷，5期，771页
5Yao H，IEEE Fourth Int Conference on Signal Processing，1998年，912页
6徐彦君，博士学位论文，1998年
7王瑞，博士论文开题报告，1998年
8Liu M B，计算机学报，1998年，21卷，6期，527页
9Li N，http://www.cs.ucf.edu/～vision/papers/shah/97/NDS97 pdf，1997年
10Chiou G I，IEEE Trans Image Processing，1997年，6卷，8期，1192页

共引文献38

1荣传振,岳振军,贾永兴,王渊,杨宇.唇语识别关键技术研究进展[J].数据采集与处理,2012,27(S2):277-283. 被引量：4
2王志良,解仑,董平.情感计算数学模型的研究初探[J].计算机工程,2004,30(21):33-34. 被引量：8
3洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：8
4雷江华.看话训练在我国口语教学中的地位与作用[J].中国特殊教育,2005(4):36-41. 被引量：6
5鹿佳,姚鸿勋.改进AdaBoost对基于HMM的唇读系统识别率的提高[J].哈尔滨商业大学学报（自然科学版）,2005,21(5):604-607.
6李刚,王蒙军,林凌.采用非对称唇形轮廓模型提高汉语唇形识别效果[J].光学精密工程,2006,14(3):473-477. 被引量：5
7张百振,阮秋琦.积分投影预定位的变形模板提取嘴巴轮廓[J].计算机工程与应用,2006,42(35):178-180. 被引量：2
8李刚,王蒙军,林凌.面向残疾人的汉语可视语音数据库[J].中国生物医学工程学报,2007,26(3):355-360. 被引量：3
9陈蓉,姚鸿勋,洪晓鹏,万玉奇.视觉单通道唇读系统的有效性[J].计算机工程与应用,2007,43(20):28-30. 被引量：2
10万玉奇,姚鸿勋,洪晓鹏.唇读中基于像素的特征提取方法的研究[J].计算机工程与应用,2007,43(20):197-199. 被引量：3

1杨纪刚,华宇宁,赵雷.基于Labview平台的与文本有关的说话人辨认系统的实现[J].沈阳理工大学学报,2005,24(1):36-39. 被引量：1
2邱政权,江太辉.GMM/ANN混合说话人辨认模型[J].计算机工程与应用,2004,40(17):106-108. 被引量：1
3李强,彭益武.基于FPGA的GMM说话人辨认系统[J].广东交通职业技术学院学报,2014,13(2):42-46.
4刘雅琴,杜海明.基于矢量量化的说话人识别[J].洛阳师范学院学报,2005,24(5):69-71. 被引量：1
5林江云.说话人辨认中GMM模型的聚类优化研究[J].心智与计算,2008,0(1):27-32.
6王志兰.基于小波包分析和支持向量机的说话人识别[J].佳木斯大学学报（自然科学版）,2010,28(6):873-875.
7周娟,杨鼎才.基于GA-SVM的说话人辨认的参数优化[J].电子技术（上海）,2008,0(2):52-53. 被引量：2
8郑变红,陈平,胡圣明,龚晓洁.逆向工程中动静态结合辅助用例模型的恢复[J].计算机工程,2007,33(23):68-70.
9纪红,吴善培.半连续隐马尔可夫模型在孤立数字识别中的应用[J].北京邮电学院学报,1993,16(3):76-82. 被引量：1
10王炜,王波,王炳锡.一个新的基于融合的说话人确认系统及DSP的实时实现[J].信号处理,2004,20(6):586-589.

计算机工程与应用

2006年第12期

浏览历史

内容加载中请稍等...

基于唇动的说话人识别技术

参考文献8

二级参考文献14

共引文献38

相关作者

相关机构

相关主题

浏览历史