基于分类特征空间高斯混合模型和神经网络融合的说话人识别被引量：3

Speaker Identification Based on Classify Feature Sub-space Gaussian Mixture Model and Neural Net Fusion

下载PDF

导出

摘要该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合.在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。 In this paper, a speaker identification system is proposed based on classify Feature Sub-space Gaussian Mixture Model and Neural Net fusion (FS-GMM/NN).With clustering analysis of the feature vectors, the speaker's training feature vectors can be classified to some subsets and training classify Gaussian Mixture Models (GMM) with different mixtures according to the subset's feature vectors's number. Finally, the outputs of every classify GMM will be fused by Neural Net (NN). In the experiment of text-independent speaker identification of 100 speakers (male), the system based on FS-GMM/NN overmatch the Baseline Gaussian Mixture Model (B-GMM) in identification performance and noise robustness with fewer mixtures and shorter test speech. Moreover, the training of FS-GMM/NN is more effective.

作者黄伟戴蓓蒨李辉

机构地区中国科学技术大学电子科学与技术系

出处《电子与信息学报》 EI CSCD 北大核心 2004年第10期1607-1612,共6页 Journal of Electronics & Information Technology

基金国家自然科学基金项目(60272039) 安徽省自然科学基金项目(01042205)资助

关键词说话人识别分类特征空间高斯混合模型神经网络融合 Speaker identification Classified feature-subspace GMM Neural Net(NN)fusion

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Reynolds D A, Rose R C. Robust text-independent speaker identification using Gaussian mixture speaker models. IEEE Trans. on Speech Audio Process, 1995, 3(1): 72-83.
2Reynolds D A. Speaker identification and verification using Gaussian mixture speaker models.Speech Communication, 1995, 17(1-2): 91-108.
3Reynolds D A. Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 2000, 10(1-3): 19-41.
4Deller J R, Proakisa J G, Hansenm J H L. Discrete-Time Processing of Speech Signals. New York: Macmillan Publishing Company, 1993.
5Reynolds D A. Experimental evaluation of features for robust speaker identification. IEEE Trans.on Speech Audio Process, 1994, 2(4): 639-643.
6Chang E, Shi Y, Zhou J, Huang C. Speech lab in a box: A mandarin speech toolbox to jumpstart speech related research. in EUROSPEECH, Aalborg, Denmark, 2001: 192-199.

同被引文献24

1于德介,程军圣,杨宇.基于EMD和AR模型的滚动轴承故障诊断方法[J].振动工程学报,2004,17(3):332-335. 被引量：48
2吕勇,李友荣,徐金梧.延时矢量方差算法及其在齿轮故障识别中的应用[J].振动与冲击,2006,25(6):59-61. 被引量：11
3肖涵,李友荣,吕勇.四分位偏差分形维及其在齿轮故障识别中的应用[J].振动与冲击,2006,25(6):108-110. 被引量：2
4杨晓敏,何小海,吴炜,薛磊,陈默.基于高斯混合模型的车辆字符识别算法[J].光电子．激光,2007,18(4):487-490. 被引量：8
5Kanty H, Sehreiber T. Nonlinear time series analysis[M]. Cambridge: Cambridge University Press, 1997: 29-33.
6Indrebo K M, Povinelli R J, Johnson M T. Sub-banded reconstructed phase spaces for speech recognition [J]. Speech Communication, 2005, (48)7 : 760-774.
7Povinelli R J, Johnson M T, Lindgren A C. Time series classification using Gaussian mixture models of reconstructed phase spaces[J]. Knowledge and Data Engineering, 2004, 16(6): 779-783.
8Richard J Povinelli, Michael T Johnson, Andrew C Lindgren,et al. Speech recognition using reconstructed phase space features [J]. IEEE Transactions on Knowledg and Data Engineering, 2004,16 (6):779-783.
9Hideaki Shono,Peng C K, Goldberger A L, et al. A new method to determine a fractal dimension of nonstationary biological time-serial data[J]. Computers in Biology and Medicine, 2000, (30) : 237-245.
10杨超,李亦滔.基于信号预处理和Hilbert变换的滚动轴承故障诊断[J].华东交通大学,2012,29(4):1-4.

引证文献3

1肖涵,李友荣,吕勇.一种新的基于声信号的故障分类算法[J].测试技术学报,2008,22(1):66-69. 被引量：1
2肖涵,李友荣,吕勇.基于四分位偏差分形维与高斯混合模型的故障识别算法研究[J].振动工程学报,2008,21(1):79-83. 被引量：3
3龙铭,文章,黄文艺,周建民,周继慧.滚动轴承故障程度评估的AR-GMM方法[J].机械科学与技术,2016,35(8):1183-1188. 被引量：6

二级引证文献10

1李巍华,戴炳雄,张绍辉.基于小波包熵和高斯混合模型的轴承性能退化评估[J].振动与冲击,2013,32(21):35-40. 被引量：24
2褚青青,肖涵,吕勇,杨志武.基于多个无标度区多重分形理论的齿轮故障诊断[J].机械设计与制造,2016(1):5-7. 被引量：1
3吴彤,高彩霞,付子义.基于改进EEMD、KPCA与RBF结合的变负载下滚动轴承故障程度识别[J].制造业自动化,2018,40(8):63-67. 被引量：3
4曾小钦,侯正男,庄圣贤,廖仲篪,鄢文.基于LSSVM和GMM的风电机组传动系统故障预测研究[J].可再生能源,2019,37(10):1533-1538. 被引量：9
5王刚,肖黎,屈文忠.Lamb波高斯混合模型螺栓松动损伤检测[J].机械科学与技术,2020,39(4):493-500. 被引量：10
6房冠成,贾大鹏,刘毅飞,刘海涛.基于飞行参数数据挖掘的军机健康评估技术[J].航空学报,2020,41(6):289-299. 被引量：10
7陈世超,崔春雨,张华,马戈,朱凤华,商秀芹,熊刚.制造业生产过程中多源异构数据处理方法综述[J].大数据,2020,6(5):55-81. 被引量：25
8张龙,宋成洋,邹友军,洪闯,王朝兵.基于Renyi熵和K-medoids聚类的轴承性能退化评估[J].振动与冲击,2020,39(20):24-31. 被引量：20
9付国梓,吕勇.CEEMDAN和改进多尺度熵的声音信号故障诊断[J].机械设计与制造,2022(5):185-190. 被引量：12
10张海宾,肖涵,易灿灿,袁锐.基于KNN和深度高斯混合模型的边界过采样方法[J].数据分析与知识发现,2023,7(5):116-122. 被引量：2

1成新民,张迎,蒋云良.基于FVQMM的说话人识别[J].辽宁工程技术大学学报（自然科学版）,2007,26(5):719-722.
2张敏情,苏光伟,杨晓元.基于局部保持映射的图像隐密检测算法[J].计算机工程与应用,2009,45(33):162-164. 被引量：1
3王大伟,陈浩,王延杰.核典型相关分析的融合人脸识别算法[J].激光与红外,2009,39(11):1241-1245. 被引量：4
4姜涛,韩纪庆,郑铁然.基于高斯混合模型移动因子补偿的说话人识别方法[J].声学学报,2011,36(6):658-664. 被引量：3
5卢山,高峰,史广奎.并联型混合动力汽车的仿真研究[J].机电工程技术,2005,34(5):59-61. 被引量：3
6易平,冯文兰.基于MODIS数据的若尔盖草场植被覆盖时空变化分析[J].资源节约与环保,2014,29(5):97-97.
7朱宇轩.浅谈说话人识别方法[J].西部皮革,2016,38(10):19-19.
8朱学芳,黄奇,马仁配.基于语音识别的用户认证系统设计及其在电子商务中的应用[J].情报科学,2007,25(8):1223-1226. 被引量：3
9郑泽萍,王万良,郑建炜.基于保局部核RVM的说话人识别方法[J].计算机工程,2011,37(14):208-210. 被引量：1
10李万莉,余得水,甄彧,黄勇.自适应遗传小波网络在发动机故障诊断中的应用[J].中国工程机械学报,2010,8(2):194-198. 被引量：3

电子与信息学报

2004年第10期

浏览历史

内容加载中请稍等...

基于分类特征空间高斯混合模型和神经网络融合的说话人识别被引量：3

参考文献6

同被引文献24

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于分类特征空间高斯混合模型和神经网络融合的说话人识别 被引量：3

参考文献6

同被引文献24

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于分类特征空间高斯混合模型和神经网络融合的说话人识别被引量：3