期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
Stream Weight Training Based on MCE for Audio-Visual LVCSR 被引量:1
1
作者 刘鹏 王作英 《Tsinghua Science and Technology》 SCIE EI CAS 2005年第2期141-144,共4页
In this paper we address the problem of audio-visual speech recognition in the framework of the multi-stream hidden Markov model. Stream weight training based on minimum classification error criterion is dis... In this paper we address the problem of audio-visual speech recognition in the framework of the multi-stream hidden Markov model. Stream weight training based on minimum classification error criterion is discussed for use in large vocabulary continuous speech recognition (LVCSR). We present the lattice re- scoring and Viterbi approaches for calculating the loss function of continuous speech. The experimental re- sults show that in the case of clean audio, the system performance can be improved by 36.1% in relative word error rate reduction when using state-based stream weights trained by a Viterbi approach, compared to an audio only speech recognition system. Further experimental results demonstrate that our audio-visual LVCSR system provides significant enhancement of robustness in noisy environments. 展开更多
关键词 audio-visual speech recognition (AVSR) large vocabulary continuous speech recognition (lvcsr) discriminative training minimum classification error (MCE)
原文传递
基于决策树的藏语拉萨话三音子模型 被引量:5
2
作者 李冠宇 于洪志 +1 位作者 李永宏 马宁 《计算机工程与科学》 CSCD 北大核心 2013年第9期146-150,共5页
对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性。选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典。讨论了利用决策树建立三音子模型的几个... 对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性。选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典。讨论了利用决策树建立三音子模型的几个关键问题和基本算法,结合国际音标分类和经验知识,确定了38个藏语拉萨话音子类别集及相应的决策树问题集。建立了共20个发音人8 170句的训练语料,在HTK平台上建立和训练得到了基于决策树的藏语拉萨话三音子模型,并分析了不同隐马尔可夫模型状态数及高斯混合度下的识别结果,确定了一套藏语大词表连续语音识别的完整方案。 展开更多
关键词 藏语 拉萨话 大词表连续语音识别 隐马尔可夫模型 三音子模型
在线阅读 下载PDF
语音导航系统中的一种模糊检索算法 被引量:1
3
作者 孙艳庆 赵庆卫 颜永红 《微计算机应用》 2009年第12期38-45,共8页
基于车载的语音导航系统,尤其是针对大地名库中地名识别的任务需求。用LVCSR取代了较流行的基于语法的语音识别系统,以增强系统灵活性和处理能力。用一套模糊检索算法作为系统的后处理,提高地名识别的整句正确率。在普通的数万量级的地... 基于车载的语音导航系统,尤其是针对大地名库中地名识别的任务需求。用LVCSR取代了较流行的基于语法的语音识别系统,以增强系统灵活性和处理能力。用一套模糊检索算法作为系统的后处理,提高地名识别的整句正确率。在普通的数万量级的地名数据库中可以达到90%的地名识别正确率;即使增加到百万数量级,识别率也能保持在70%以上。目前支持中英文系统。 展开更多
关键词 语音地名导航 lvcsr 模糊检索
在线阅读 下载PDF
大词汇量连续语音识别探讨
4
作者 阮玲英 陈立万 《电脑与信息技术》 2007年第4期54-56,共3页
文章探讨了中文和英文的大词汇量连续语音识别,讨论了如何设计数据库进行不同识别技术的评测,采用何种评测方法,以及一些代表性的语音识别技术。
关键词 大词汇量连续语音识别 任务 评估
在线阅读 下载PDF
基于ANN/HMM混合模型汉语大词表连续语音识别系统 被引量:1
5
作者 蒋瑞 李海峰 马琳 《智能计算机与应用》 2012年第5期23-26,30,共5页
提出一种基于隐马尔可夫模型(Hidden Markov model,HMM)和人工神经网络(Artificial Neural Network,ANN)混合模型的汉语大词表连续语音识别系统。在混合模型系统中,多种模型协同工作。ANN负责建模音素发音物理特性,HMM联合语言学模型识... 提出一种基于隐马尔可夫模型(Hidden Markov model,HMM)和人工神经网络(Artificial Neural Network,ANN)混合模型的汉语大词表连续语音识别系统。在混合模型系统中,多种模型协同工作。ANN负责建模音素发音物理特性,HMM联合语言学模型识别待识语料。这样,混合模型系统能够结合HMM和ANN两种模型的优点:HMM对时间序列结构建模能力强;ANN的非线性预测能力强,建模能力强,鲁棒性,便于硬件实现。实验结果表明,HMM/ANN混合模型系统有效结合了两种模型的优点,提高了识别率。 展开更多
关键词 大词表连续语音识别 混合模型 隐马尔科夫模型 人工神经网络模型 多路径
在线阅读 下载PDF
维吾尔语大词汇语音识别系统识别单元研究 被引量:4
6
作者 努尔麦麦提.尤鲁瓦斯 吾守尔.斯拉木 热依曼.吐尔逊 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期149-152,共4页
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,... 维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。 展开更多
关键词 维吾尔语 大词汇 语音识别 识别单元
在线阅读 下载PDF
融合段长信息的中、英文语种辨识
7
作者 孙健 王作英 《模式识别与人工智能》 EI CSCD 北大核心 2006年第5期567-571,共5页
状态的段长信息反映语言发音变化速率的信息.不同语言的发音速率也存在着差异,因此状态的段长信息可以作为区分语种的信息之一.本文在建立基于段长分布的隐含 Markov 模型(DDBHMM)的音素识别系统和大词汇量连续语音识别(LVCSR)系统的基... 状态的段长信息反映语言发音变化速率的信息.不同语言的发音速率也存在着差异,因此状态的段长信息可以作为区分语种的信息之一.本文在建立基于段长分布的隐含 Markov 模型(DDBHMM)的音素识别系统和大词汇量连续语音识别(LVCSR)系统的基础上进行中、英文语种辨识,表明DDBHMM可以准确描述状态的段长信息,改善中、英文语种的辨识性能. 展开更多
关键词 语种辨识 基于段长分布的隐含Markov模型(DDBHMM) Gauss混合模型 连续音素识别 大词汇量连续语音识别(lvcsr)
原文传递
中文连续语音识别系统音素建模单元集的构建 被引量:2
8
作者 包叶波 胡郁 +3 位作者 刘聪 江辉 戴礼荣 刘庆峰 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第9期1288-1292,1297,共6页
在识别系统中,建模单元能够勾画一种语言的声学和语音学特性,因此对系统性能起到至关重要的作用。该文参照一些已在大词汇量连续语音识别系统(LVCSR)中取得较好效果的建模单元集,构建了新的音素建模单元集(Ne-wPS)。另外,根据NewPS中元... 在识别系统中,建模单元能够勾画一种语言的声学和语音学特性,因此对系统性能起到至关重要的作用。该文参照一些已在大词汇量连续语音识别系统(LVCSR)中取得较好效果的建模单元集,构建了新的音素建模单元集(Ne-wPS)。另外,根据NewPS中元音及其变体对前后接音素协同发音的影响,提出了基于扩展的元音三角图设计问题集(NewQS)的方法。实验表明:NewPS和NewQS结合的识别性能超越了传统的声韵母建模单元集;并且,建模单元数目大幅度的减少给系统后续模块的处理带来了便利。 展开更多
关键词 大词汇量连续语音识别 建模单元 元音三角图 问题集 主元音准则
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部