基于伽马通滤波器组的听觉特征提取算法研究被引量：30

An Auditory Feature Extraction Algorithm Based on γ-Tone Filter-Banks

下载PDF

导出

摘要本文从模拟人类听觉角度出发,给出了基于人耳耳蜗听觉模型的伽马通滤波器组模型,测试语音通过该滤波器组输出得到了高维听觉特征向量.经过主成分分析和离散余弦变换,分别得到了可用于表征说话人的伽马通系数和伽马通滤波器倒谱系数及其衍生特征.实验证明,与传统梅尔倒谱特征相比,采用本文提出特征的说话人识别系统在识别率及鲁棒性上均有明显提高. By means of emulating human auditory,gamma-Tone filter-banks models based on the auditory system in human cochlea are presented.The speech to be detected goes through the gamma-Tone filter-banks,thereby multi-dimension eigenvectors are obtained.By PCA（principal component analysis）and DCT（discrete cosine transform）,it is yielded to represent a speaker＇s gamma-Tone coefficients,gamma-Tone filter-banks cepstral coefficients respectively and their derivative features as well.Compared to the ordinary Mel-frequency cepstral coefficients,the speaker recognition system presented turns out to have better recognition rate and robustness characteristics.

作者王玥钱志鸿王雪程光明

机构地区吉林大学国家知识产权局

出处《电子学报》 EI CAS CSCD 北大核心 2010年第3期525-528,共4页 Acta Electronica Sinica

关键词语音信号处理伽马通滤波器听觉特征提取倒谱系数 speech signal processing gammatone filter auditory feature extraction cepstral coefficients

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献11

1S Furui. Digital Speech Processing, Synthesis, and Recognition [ M]. New York: Marcel Dekker, 2001.
2H Gish, M Schmidt. Text-independent speaker identification [ J]. IEEE Signal Proc, 1994,11 (4): 18 - 32.
3D A Reynolds, et al. The SuperSID project: Exploiting high- level information for high-accuracy speaker recognition [ A ]. International Conference on Acoustics, Speech, and Signal Processing[ C]. Hong Kong, China: IEEE, 2003.4:784 - 787.
4A Drygajlo,M El-Maliki. Speaker verification in noisy environments with combined spectral subtraction and missing feature theory [ A ]. IEEE International Conference on Acoustics, Speech, and Signal Processing[ C]. Seattle, USA: IEEE, 1998. 1 : 121 - 124.
5SHAO Y, WANG D L. Robust speaker recognition using binary time-frequency masks [ A ]. IEEE International Conference on Acoustics,Speech,and Signal Processing[ C]. Toulouse: IEEE, 2006.1:645-648.
6WNG L,KITAOKA N,NAKAGAWA S. Analysis of effect of compensation parameter estimation for CMN on speech/speaker recognition[ A]. 9th International Symposium on Signal Processing and Its Applications[ C]. Sharjah: IEEE, 2007.1 - 4.
7陈雪勤,赵鹤鸣.基于听觉模型的汉语耳语音声调检测[J].电子学报,2009,37(4):864-867. 被引量：5
8Z Wanfeng, Y Yingchun, W Zhaohui, S Lifeng. Experimental evaluation of a new speaker identification framework using PCA[ A]. IEEE. International Conference on Systems, Man and Cybernetics[C]. Washington, DC: IEEE., 2003.4147 - 4152.
9WU Xihong. A Chinese Speech Database for Speaker Recognition[ EB/OL]. http://nlpr-web. ia. ac. cn/englisb_/irds/chinese / sinobiometrics- pdf/wuxihong.pdf, 2002.
10D A Reynolds, R C Rose. Robust text-independent speaker identification using Gaussian mixture speaker models[ J].Proc IEEE. Trans Speech Audio Process, 1995,3 ( 1 ) : 72 - 83.

二级参考文献15

1LIXueli,XUBoling.Tone features in whispered Chinese[J].Progress in Natural Science:Materials International,2005,15(3):285-288. 被引量：5
2黄海,潘家强.基于Hilbert-Huang变换的基音周期提取方法[J].声学学报,2006,31(1):35-41. 被引量：11
3罗亚飞,鲍长春.基于DCT分带谱熵与信号分解的高精度基音检测算法[J].电子学报,2007,35(1):13-22. 被引量：5
4Morris R W. Enhancement and recognition of whispered speech [ D]. USA: Georgia Institute of Technology ,2002.
5Ito T, Takeda K. Analysis and recognition of whispered speech [ J] .Speech Communication, 2005,45(2) : 139 - 152.
6Meyer-eppler W. Realization of prosodic features in whispered speech [J]. Journal of Acoustical Society of America, 1957,29 (1) :104- 106.
7Martin Kloster Jenson. Recognition of word tones in whispered speech[ J]. Word, 1958,14:187 - 196.
8Man-gao. Tones in whispered Chinese: articulatory features and perceptual cues[ D ]. Thesis of Master, University of Victoria, Canada, 2002.
9Sachs M B, et al. Rate-place and temporal-place representations of vowels in the auditory nerve and anterovenlral cochlear nucleus[ J]. Journal of Phonetics, 1988,16:37 - 53.
10Patterson R. An efficient auditory filterbank based on the gammatone functions[R] .Annex B of the Svos Final Report: The auditory filter bank,APU Report No.2341,1988.

共引文献4

1王敏,赵鹤鸣.基于多带解调分析和瞬时频率估计的耳语音话者识别[J].声学学报,2010,35(4):471-476. 被引量：12
2陶智,赵鹤鸣,谈雪丹,顾济华,张晓俊,吴迪.采用扩展型双线性变换法将耳语音转换为正常语音的研究[J].声学学报,2012,37(6):651-658. 被引量：4
3TAO Zhi,ZHAO Heming,TAN Xuedan,GU Jihua,ZHANG Xiaojun,WU Di.Conversion from whispered speech to normal speech using the extended bilinear transformation method[J].Chinese Journal of Acoustics,2013,32(4):425-438. 被引量：1
4龚呈卉,赵鹤鸣,陶智,张庆芳.全局谱参数下的耳语说话人状态因子分析[J].声学学报,2014,39(2):281-288. 被引量：1

同被引文献187

1朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：5
2王伟,邓辉文.基于MFCC参数和VQ的说话人识别系统[J].仪器仪表学报,2006,27(z3):2253-2255. 被引量：30
3赵鹤鸣,葛良,陈雪勤,俞一彪.基于声音定位和听觉掩蔽效应的语音分离研究[J].电子学报,2005,33(1):158-160. 被引量：16
4汤渭霖.声呐目标回波的亮点模型[J].声学学报,1994,19(2):92-100. 被引量：149
5彭圆,王晟,王科俊,李雪耀,林良骥,林正青,王建文.感知线性预测在水下目标分类中的应用研究[J].声学学报,2006,31(2):146-150. 被引量：16
6肖哲.基于Matlab的RLS自适应语音噪声对消系统的设计与实现[J].长沙大学学报,2006,20(2):83-86. 被引量：4
7李朝晖,迟惠生.听觉外周计算模型研究进展[J].声学学报,2006,31(5):449-465. 被引量：22
8韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2008.
9JOHANNESMA P I M. The pre-response stimulus ensemble of neurons in the cochlear nucleus [C]. Proceedings of the Symposium on Hearing Theory, 1972:58-69.
10COOKE M P. Modeling auditory proeessing and organization[M]. Cambridge,U.K : Cambridge University Press, 1993.

引证文献30

1何朝霞,潘平.基于听觉模型的说话人语音特征提取[J].微型机与应用,2012,31(1):37-39. 被引量：2
2王磊,彭圆,林正青,蒋行海,牟林,张凤珍.听觉外周计算模型在水中目标分类识别中的应用[J].电子学报,2012,40(1):199-203. 被引量：21
3黄山奇,张连海,屈丹.一种基于人耳听觉感知和子带补偿滤波的鲁棒语言辨识特征参数提取算法[J].模式识别与人工智能,2012,25(1):166-171. 被引量：2
4胡峰松,曹孝玉.基于Gammatone滤波器组的听觉特征提取[J].计算机工程,2012,38(21):168-170. 被引量：30
5颜鑫,李应.利用抗噪幂归一化倒谱系数的鸟类声音识别[J].电子学报,2013,41(2):295-300. 被引量：18
6林琳,陈虹,陈建.基于鲁棒听觉特征的说话人识别[J].电子学报,2013,41(3):619-624. 被引量：11
7罗元,陈君,张毅.基于伽马啁啾滤波器组的听觉特征提取算法[J].信息与控制,2013,42(5):589-594. 被引量：2
8茅正冲,王正创,龚熙.一种低信噪比下的说话人识别算法研究[J].计算机应用与软件,2014,31(12):218-220. 被引量：3
9茅正冲,王正创,王丹.基于Gammatone滤波器组的说话人识别算法研究[J].计算机工程与应用,2015,51(1):200-203. 被引量：9
10茅正冲,王正创,黄芳.基于GFCC与RLS的说话人识别抗噪系统研究[J].计算机工程与应用,2015,51(10):215-218. 被引量：5

二级引证文献192

1吕坤朋,孙斌,赵玉晓.基于鸟鸣声及深度学习的鸟类识别方法研究[J].科技通报,2021,37(10):24-30. 被引量：6
2艾佳琪,左毅,刘君霞,贺培超,李铁山,陈俊龙.基于余弦相似度的动态语音特征提取算法[J].计算机应用研究,2020,37(S02):147-149. 被引量：14
3崔琳,王芷悦.基于LFBank与FBank混合特征的声纹识别研究[J].计算机科学,2022,49(S02):621-625. 被引量：7
4李炜,刘禹,李立刚,周亮,宋长山.基于自适应降噪的柱塞泵故障音频特征提取方法[J].国外电子测量技术,2023,42(1):1-6. 被引量：9
5岳倩倩,周萍,景新幸.基于非线性幂函数的听觉特征提取算法研究[J].微电子学与计算机,2015,32(6):163-166. 被引量：6
6芦世丹,崔荣一.发音相似的朝鲜语和汉语单元音辨识方法[J].中文信息学报,2013,27(2):112-117. 被引量：1
7周晓正,周骏拓.外周听觉系统对声音的表达[J].生物物理学报,2013,29(3):235-246.
8刘扬,张苗辉,郑逢斌.听觉选择性注意的认知神经机制与显著性计算模型[J].计算机科学,2013,40(6):283-287. 被引量：7
9罗元,陈君,张毅.基于伽马啁啾滤波器组的听觉特征提取算法[J].信息与控制,2013,42(5):589-594. 被引量：2
10钱思冲,向阳,肖小勇,王校青.基于Gammatone滤波器组的内燃机气缸盖振动特性研究[J].内燃机工程,2013,34(6):36-42. 被引量：4

1林海波,王可佳.一种新的听觉特征提取算法研究[J].南京邮电大学学报（自然科学版）,2017,37(2):27-32. 被引量：11
2岳倩倩,周萍,景新幸.基于非线性幂函数的听觉特征提取算法研究[J].微电子学与计算机,2015,32(6):163-166. 被引量：6
3南京玉马通信技术研究所[J].无线通信技术,2005,14(2):62-62.
4林宝成,黄志同.基于听觉模型的子波变换语音处理[J].数据采集与处理,1995,10(4):269-274. 被引量：3
5罗元,陈君,张毅.基于伽马啁啾滤波器组的听觉特征提取算法[J].信息与控制,2013,42(5):589-594. 被引量：2
6张小恒,谢文宾,李勇明.多类型语音特征进化选择算法[J].计算机工程与应用,2016,52(14):150-155.
7胡锦涛与奥巴马通电话称将推动气候变化会议成功[J].环境保护,2009,37(21):4-4.
8常冰.日本核能政策的挑战与对策[J].国外核新闻,2008(1):1-5.
9张亮,卞正中,高迎春,缪亚林.基于人类听觉的伪随机序列的信息隐藏技术[J].计算机工程,2004,30(22):19-20. 被引量：2
10熊冰峰,曾以成,谢小娟.一种改进的听觉特征参数应用于说话人识别[J].计算机应用,2016,36(A01):82-85. 被引量：6

电子学报

2010年第3期

浏览历史

内容加载中请稍等...

基于伽马通滤波器组的听觉特征提取算法研究被引量：30

参考文献11

二级参考文献15

共引文献4

同被引文献187

引证文献30

二级引证文献192

相关作者

相关机构

相关主题

浏览历史

基于伽马通滤波器组的听觉特征提取算法研究 被引量：30

参考文献11

二级参考文献15

共引文献4

同被引文献187

引证文献30

二级引证文献192

相关作者

相关机构

相关主题

浏览历史

基于伽马通滤波器组的听觉特征提取算法研究被引量：30