综合非语境因素的语音数据分类与声学建模研究

Integrating non-context features in speech data classification and modeling

导出

摘要分别采用基于数据聚类和基于先验知识的两种研究方法,深入探讨了性别、口音、语速、信道等非语境因素对语音数据分类与建模的影响。为了综合考虑语境、非语境因素在统一框架下建模的问题,采用非语境因素扩展决策树方法。而对于这种方法生成的多套非语境因素相关的高精度声学模型,提出一种依据最大似然准则,动态组合生成测试人相关声学模型的算法。这种方法可以使系统相对误识率平均降低8％-10％。实验结果说明为非语境因素分类建模可以提高声学模型的建模能力,而且模型组合算法可以有效解决统一建模所带来的模型选择问题。 Effects of the non-context features, such as gender, speaker group identity, speaking rate and channel, for the classification and modeling of the speech data are studied based on data clustering and pre-classification knowledge methods. In order to incorporate non-context features with the context ones in the modeling process, generalized feature decision tree scheme is adopted and extended for the building of multiple high resolution acoustic models. Maximum likelihood model combination is then advanced to solve the subsequent model selection problem. Experimental results on two sets indicated that 8

作者丁鹏徐波

机构地区中国科学院自动化研究所模式识别国家重点实验室

出处《声学学报》 EI CSCD 北大核心 2004年第1期23-28,共6页 Acta Acustica

关键词数据聚类语音数据分类非语境因素声学建模最大似然准则误识率语音识别系统 Algorithms Classification (of information) Data handling Decision theory Models

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献18

1赵庆卫,王作英,陆大.汉语连续语音识别中上下文相关的识别单元(三音子)的研究[J].电子学报,1999,27(6):79-82. 被引量：4
2高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000,25(6):504-509. 被引量：20
3刘明宽,徐波,黄泰翼,胡伟湘.音节混淆字典及在汉语口音自适应中的应用研究[J].声学学报,2002,27(1):53-58. 被引量：4
4李春,王作英.汉语连续语音识别中一种新的音节间相关识别单元[J].声学学报,2003,28(2):187-191. 被引量：3
5丁鹏徐波.基于决策树的海量语音数据处理与建模[A]..第六届全国人机语音通讯会议[C].,2001.291-294.
6Gauvain J L, Lee C H. Maximum-a-posteriori estimation for multivariate Gaussian observations of Markov chains.IEEE Trans Speech Audio Processing, 1994; 2:291-298.
7Padmanabhan Met al. Speaker clustering and transformation for speaker adaptation in speech recognition systems.IEEE Trans Speech Audio Processing, 1998; 6:71-77.
8Gao Y, Padmanabhan M, Picheny M. Speaker adaptation based on pre-clustering training speakers. In: Proc of EUROSPEECH, 1997; 3:2091-2094.
9Reichl W, Chou W. Robust decision tree state tying for continuous speech recognition. In: Proc IEEE Trans Speech Audio Processing, 2000; 8:555-566.
10Reichl W, Chou W. A unified approach of incorporating general features in decision tree based eocoustic modeling.In: Proc ICASSP'99, Phoenix, AZ, 1999:573-576.

二级参考文献21

1林焘王理嘉.语音学教程[M].北京:北京大学出版社,..
2徐波张亮等.基于决策树方法的语境有关HMM建模.第八届全国声学学术会议[M].,1998.421-424.
3王作英曹洪.语音识别的改进隐含马尔可夫模型[J].863智能计算机系统主题学术会议,1988,12.
4计天颖.一种汉语连续语音识别的算法及其实现（博士学位论文）[M].清华大学电子工程系,1995,4..
5郭锦桴.综合语音学[M].福建:福建人民出版社,1992..
6Hwanq Mei Yuh，IEEE Trans SAP，1996年，4卷，6期，412页
7计天颖，博士学位论文，1995年
8Kai-FuLee，IEEE Trans ASSP，1990年，38卷，4期，509页
9工作英，863智能计算机系统主题学术会议，1988年
10Hwang Meiyuh，IEEE Trans Speech Audio Processing，1998年，4卷，6期，412页

共引文献26

1张宜.汉语语音识别技术的研究与发展[J].广西广播电视大学学报,2003,14(4):18-22. 被引量：3
2陈振标,徐波.基于子带能量特征的最优化语音端点检测算法研究[J].声学学报,2005,30(2):171-176. 被引量：22
3徐向华,朱杰,郭强.一种基于模糊聚类分析的异音混合共享模型[J].声学学报,2005,30(5):457-461.
4徐向华,朱杰,郭强.决策树结构对说话人自适应影响的研究[J].声学学报,2006,31(1):42-47. 被引量：3
5XU Xianghua,ZHU Jie,GUO Qiang.A fuzzy-clustering analysis based phonetic tied-mixture HMM[J].Chinese Journal of Acoustics,2005,24(4):347-353.
6周梁,高鹏,丁鹏,徐波.语音识别准确率与检索性能的关联性研究[J].中文信息学报,2006,20(3):99-104. 被引量：2
7徐向华,朱杰,郭强.语音识别中基于最小描述长度准则的决策树动态剪枝算法[J].声学学报,2006,31(4):370-376. 被引量：7
8崔朝阳,王建纲.广播电视语音识别现状与应用策略[J].计算机工程与应用,2007,43(23):181-183. 被引量：2
9陶梅,吾守尔.斯拉木,那斯尔江.吐尔逊.基于HTK的维吾尔语连续语音声学建模[J].中文信息学报,2008,22(5):56-59. 被引量：12
10曾定,刘加.基于模型融合的母语与非母语语音识别[J].电子测量技术,2009,32(6):81-83. 被引量：3

1王志飞,刘建辉.基于CATV网的VOD系统设计[J].电缆电视,2000(4):13-16.
2徐毓,李锋,金以慧.基于聚类融合的多目标跟踪算法[J].传感器技术,2002,21(7):31-34. 被引量：9
3电视[J].电子科技文摘,2000(9):64-66.
4肖利群.基于自适应级联匹配的云光纤海量数据疏导模型[J].激光杂志,2016,37(9):109-112. 被引量：5
5张子胤.一种支持Web Services动态组合的网络结构[J].广东通信技术,2008,28(11):5-8.
6刘洋,徐毓.基于观测值聚类的雷达数据融合[J].空军雷达学院学报,2002,16(3):38-39.
7赵鸿燕,鲁正雄,赵岚,成彩晶.长波光伏碲镉汞材料上的欧姆接触[J].红外技术,2005,27(3):260-262.
8高洪元,庞伟正.基于RBF神经网络多用户检测方法的设计[J].应用科技,2005,32(5):22-24. 被引量：2
9张一凯.基于数据仓库的移动通信系统反欺诈分析模型[J].硅谷,2008,1(21):32-33.
10龚晓洁,朱琦.衰落信道下基于支持向量机的调制识别方法[J].信号处理,2010,26(8):1234-1239. 被引量：7

声学学报

2004年第1期

浏览历史

内容加载中请稍等...

综合非语境因素的语音数据分类与声学建模研究

参考文献18

二级参考文献21

共引文献26

相关作者

相关机构

相关主题

浏览历史