期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
Long Short-Term Memory Recurrent Neural Network-Based Acoustic Model Using Connectionist Temporal Classification on a Large-Scale Training Corpus 被引量:9
1
作者 Donghyun Lee Minkyu Lim +4 位作者 Hosung Park Yoseb Kang Jeong-Sik Park Gil-Jin Jang Ji-Hwan Kim 《China Communications》 SCIE CSCD 2017年第9期23-31,共9页
A Long Short-Term Memory(LSTM) Recurrent Neural Network(RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model(GMM). However, these models based on a hybrid method require a force... A Long Short-Term Memory(LSTM) Recurrent Neural Network(RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model(GMM). However, these models based on a hybrid method require a forced aligned Hidden Markov Model(HMM) state sequence obtained from the GMM-based acoustic model. Therefore, it requires a long computation time for training both the GMM-based acoustic model and a deep learning-based acoustic model. In order to solve this problem, an acoustic model using CTC algorithm is proposed. CTC algorithm does not require the GMM-based acoustic model because it does not use the forced aligned HMM state sequence. However, previous works on a LSTM RNN-based acoustic model using CTC used a small-scale training corpus. In this paper, the LSTM RNN-based acoustic model using CTC is trained on a large-scale training corpus and its performance is evaluated. The implemented acoustic model has a performance of 6.18% and 15.01% in terms of Word Error Rate(WER) for clean speech and noisy speech, respectively. This is similar to a performance of the acoustic model based on the hybrid method. 展开更多
关键词 acoustic model connectionisttemporal classification LARGE-SCALE trainingcorpus LONG SHORT-TERM memory recurrentneural network
在线阅读 下载PDF
基于改进LSTM-CTC的电网绿色基建档案智能识别方法 被引量:1
2
作者 陈然 程钊 +5 位作者 贺兰菲 周蠡 蔡杰 何峰 许小薇 张晓佳 《高压电器》 北大核心 2025年第5期141-149,共9页
随着社会对可持续发展的日益关注,电网绿色基建档案管理成为了电网实现节能减碳和数字化发展目标的重要推手,其中,档案管理的智能化识别是实现上述目标的关键步骤。针对线下收集电网基建档案内容的智能识别,文中提出一种基于改进长短期... 随着社会对可持续发展的日益关注,电网绿色基建档案管理成为了电网实现节能减碳和数字化发展目标的重要推手,其中,档案管理的智能化识别是实现上述目标的关键步骤。针对线下收集电网基建档案内容的智能识别,文中提出一种基于改进长短期记忆(long short⁃termmemory,LSTM)—连接时序分类(connectionist temporalclassification,CTC)的电网基建档案电子化智能识别方法。该方法首先提取电网基建档案的图像数据,然后将图像输入到LSTM网络提取电网基建档案图像中文本的序列特征,最后经过CTC损失函数计算得到最终的文本识别结果。同时,文中所提方法采用权重更新方法改进CTC损失函数从而提高模型的识别泛化度。仿真结果表明,文中所提基于改进LSTM⁃CTC的电网基建档案电子化智能识别方法能够显著提升电网基建档案的识别效率与精度。 展开更多
关键词 基建档案管理 智能识别 长短期记忆 连接时序分类
在线阅读 下载PDF
基于动态BLSTM和CTC的濒危语言语音识别研究 被引量:9
3
作者 于重重 陈运兵 +3 位作者 孙沁瑶 刘畅 徐世璇 尹蔚彬 《计算机应用研究》 CSCD 北大核心 2019年第11期3334-3337,共4页
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大... 针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大小根据训练模型作自适应调整,不仅能够加快收敛速度,而且能够提高模型的泛化性。通过修改网络层次与结构参数,并提取不同的语音特征进行模型对比,实验结果表明在两种濒危语言——吕苏语和土家语的数据集上均取得了较好的识别效果。 展开更多
关键词 濒危语言语音识别 端到端 动态双向长短时记忆网络 连接时序分类模型
在线阅读 下载PDF
基于DFCNN-CTC端到端的藏族学生普通话发音偏误检测 被引量:9
4
作者 甘振业 周世华 +1 位作者 曾浩 杨鸿武 《西北师范大学学报(自然科学版)》 CAS 北大核心 2020年第5期49-53,108,共6页
计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network,DFCNN)和链接时序分类(Connectionist tem... 计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network,DFCNN)和链接时序分类(Connectionist temporal classification,CTC)技术,建立了一种用于发音偏误检测和诊断任务的端到端语音识别方法.该方法不需要音位信息,也不需要强制对齐,以扩展声韵母为偏误基元,设计了64种偏误类型.实验结果表明,该方法能够有效地检测出错误发音,检测正确率为87.07%,错误拒绝率为7.83%,错误接收率为25.97%. 展开更多
关键词 发音偏误检测 卷积神经网络 链接时序分类 端到端
在线阅读 下载PDF
基于改进混合CTC/attention架构的端到端普通话语音识别 被引量:6
5
作者 杨鸿武 周刚 《西北师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期48-53,共6页
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进... 端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率. 展开更多
关键词 语音识别 链接时序分类 注意力机制 混合ctc/attention 端到端系统
在线阅读 下载PDF
混合CTC/Attention模型在普通话识别中的应用 被引量:1
6
作者 许鸿奎 张子枫 +3 位作者 卢江坤 周俊杰 胡文烨 姜彤彤 《计算机与现代化》 2022年第8期1-6,共6页
基于链接时序分类(Connectionist Temporal Classification,CTC)的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高。本文引入注意力机制(Attention)构成混合CTC/Attention端到端模型,采用多任务学习方式... 基于链接时序分类(Connectionist Temporal Classification,CTC)的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高。本文引入注意力机制(Attention)构成混合CTC/Attention端到端模型,采用多任务学习方式,充分发挥CTC的对齐优势和Attention机制的上下文建模优势。实验结果表明,当选取80维FBank特征和3维pitch特征作为声学特征,选择VGG-双向长短时记忆网络(VGG-Bidirectional long short-time memory,VGG-BiLSTM)作为编码器应用于中文普通话识别时,该模型与基于CTC的端到端模型相比,字错误率下降约6.1%,外接语言模型后,字错误率进一步下降0.3%;与传统基线模型相比,字错误率也有大幅度下降。 展开更多
关键词 语音识别 链接时序分类 注意力机制 端到端
在线阅读 下载PDF
混合CTC/attention架构端到端带口音普通话识别 被引量:12
7
作者 杨威 胡燕 《计算机应用研究》 CSCD 北大核心 2021年第3期755-759,共5页
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中... 针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。 展开更多
关键词 口音 混合ctc/attention的端到端模型 多头注意力 链接时序主义 语音识别
在线阅读 下载PDF
基于门控卷积网络与CTC的端到端语音识别 被引量:17
8
作者 杨德举 马良荔 +1 位作者 谭琳珊 裴晶晶 《计算机工程与设计》 北大核心 2020年第9期2650-2654,共5页
针对传统声学模型存在模型组件复杂且不能统一进行训练,数据必须进行预对齐的问题,提出基于一维门控卷积神经网络与CTC的中文端到端语音识别模型。通过堆叠多层一维卷积神经网络进行声学建模,提取包含上下文信息的高层抽象特征,融合门... 针对传统声学模型存在模型组件复杂且不能统一进行训练,数据必须进行预对齐的问题,提出基于一维门控卷积神经网络与CTC的中文端到端语音识别模型。通过堆叠多层一维卷积神经网络进行声学建模,提取包含上下文信息的高层抽象特征,融合门控线性单元减少梯度弥散,利用CTC算法实现以汉字字符作为建模基元的端到端训练和解码。在公开数据集上的实验结果表明,与基线模型相比,该模型语音识别性能有明显提升,字错误率降低了3.3%以上。 展开更多
关键词 语音识别 端到端 卷积神经网络 门控线性单元 链接时序分类
在线阅读 下载PDF
基于HOPE-CTC的端到端语音识别 被引量:3
9
作者 徐冬冬 蒋志翔 《计算机工程与设计》 北大核心 2021年第2期462-467,共6页
为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型。通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖... 为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型。通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖,在解码输出部分添加注意力机制,实现两种不同的端到端模型的融合。在中文数据集AISHELL-1上的实验结果表明,与传统识别模型相比,该改进端到端模型更适用于带噪语音的识别任务。 展开更多
关键词 联合优化正交投影和估计 连接时序分类 注意力机制 端到端模型 瓶颈特征
在线阅读 下载PDF
基于CTC模型的无分割文本验证码识别 被引量:8
10
作者 杜薇 周武能 《计算机与现代化》 2018年第9期48-51,共4页
验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库... 验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库生成数据集,简化验证码识别模型,统一语音识别和文本识别方法,实现端到端模型识别。本文提出的方法在较小训练集情况下有更优秀的性能。 展开更多
关键词 验证码识别 深度学习 长短期记忆网络 连接时序分类模型
在线阅读 下载PDF
TCN-Transformer-CTC的端到端语音识别 被引量:22
11
作者 谢旭康 陈戈 +1 位作者 孙俊 陈祺东 《计算机应用研究》 CSCD 北大核心 2022年第3期699-703,共5页
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经... 基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。 展开更多
关键词 端到端语音识别 TRANSFORMER 时序卷积神经网络 连接时序分类
在线阅读 下载PDF
使用Conformer增强的混合CTC/Attention端到端中文语音识别 被引量:11
12
作者 陈戈 谢旭康 +1 位作者 孙俊 陈祺东 《计算机工程与应用》 CSCD 北大核心 2023年第4期97-103,共7页
最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问... 最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer-LAS模型。由于Attention过于灵活的对齐方式,使得在嘈杂环境中的效果急剧下降,采用连接时序分类(connectionist temporal classification,CTC)辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出了效果更好的Conformer-LAS-CTC语音识别模型。在开源中文普通话Aishell-1数据集上对提出来的模型进行验证,实验结果表明,Conformer-LAS-CTC相对于采用的基线BLSTM-LAS和Transformer-LAS模型在测试集上的字错率分别相对降低了22.58%和48.76%,模型最终字错误率为4.54%。 展开更多
关键词 端到端 语音识别 CONFORMER LAS 连接时序分类
在线阅读 下载PDF
Joint CTC-Attention End-to-End Speech Recognition with a Triangle Recurrent Neural Net work Encoder 被引量:2
13
作者 ZHU Tao CHENG Chunling 《Journal of Shanghai Jiaotong university(Science)》 EI 2020年第1期70-75,共6页
Traditional speech recognition model based on deep neural network(DNN)and hidden Markov model(HMM)is a complex and multi-module system.In other words,optimization goals may differ between modules in traditional model.... Traditional speech recognition model based on deep neural network(DNN)and hidden Markov model(HMM)is a complex and multi-module system.In other words,optimization goals may differ between modules in traditional model.Besides,additional language resources are required,such as pronunciation dictionary and language model.To eliminate the drawbacks of traditional model,we hereby propose an end-to-end speech recognition method,where connectionist temporal classification(CTC)and attention are integrated for decoding.In our model,the complex modules are replaced by a single deep network.Our model mainly consists of encoder and decoder.The encoder is constructed by bidirectional long short-term memory(BLSTM)with a triangular structure for feature extraction.The decoder based on CTC-attention decoding utilizes advanced features extracted by shared encoder for training and decoding.The experimental results on the Vox Forge dataset indicate that end-to-end method is superior to basic CTC and attention-based encoder-decoder decoding,and the character error rate(CER)is reduced to 12.9%without using any language model. 展开更多
关键词 END-TO-END connectionist temporal classification(ctc) att ent ion speech recognition
原文传递
Continuous Sign Language Recognition Based on Spatial-Temporal Graph Attention Network 被引量:2
14
作者 Qi Guo Shujun Zhang Hui Li 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第3期1653-1670,共18页
Continuous sign language recognition(CSLR)is challenging due to the complexity of video background,hand gesture variability,and temporal modeling difficulties.This work proposes a CSLR method based on a spatialtempora... Continuous sign language recognition(CSLR)is challenging due to the complexity of video background,hand gesture variability,and temporal modeling difficulties.This work proposes a CSLR method based on a spatialtemporal graph attention network to focus on essential features of video series.The method considers local details of sign language movements by taking the information on joints and bones as inputs and constructing a spatialtemporal graph to reflect inter-frame relevance and physical connections between nodes.The graph-based multihead attention mechanism is utilized with adjacent matrix calculation for better local-feature exploration,and short-term motion correlation modeling is completed via a temporal convolutional network.We adopted BLSTM to learn the long-termdependence and connectionist temporal classification to align the word-level sequences.The proposed method achieves competitive results regarding word error rates(1.59%)on the Chinese Sign Language dataset and the mean Jaccard Index(65.78%)on the ChaLearn LAP Continuous Gesture Dataset. 展开更多
关键词 Continuous sign language recognition graph attention network bidirectional long short-term memory connectionist temporal classification
在线阅读 下载PDF
联合CTC和Transformer的轮式移动机器人语音控制研究 被引量:5
15
作者 唐咸荣 高瑞贞 《中国测试》 CAS 北大核心 2024年第6期117-123,共7页
针对人机交互过程中手动控制轮式移动机器人步骤繁琐且双手受到限制的问题,提出并实现基于深度学习算法的轮式移动机器人语音控制系统。系统选取树莓派4B开发板作为主控制器,科大讯飞6阵列语音模块作为语音采集器,STM32单片机作为底层... 针对人机交互过程中手动控制轮式移动机器人步骤繁琐且双手受到限制的问题,提出并实现基于深度学习算法的轮式移动机器人语音控制系统。系统选取树莓派4B开发板作为主控制器,科大讯飞6阵列语音模块作为语音采集器,STM32单片机作为底层轮式移动机器人的控制器。语音识别算法部分设计基于Transformer的端到端语音识别模型,并加入连续时序分类算法来辅助模型的训练,模型的收敛速度和鲁棒性都得到相应的提升。模型在AISHELL-1语音数据集上测试的字错率为5.57%,相对于Transformer单独训练,字错率相对下降5.1%。经过平台搭建和实验,实现轮式移动机器人根据用户语音指令完成相对应动作的目的,有利于提高工作效率和解放用户的双手。 展开更多
关键词 轮式移动机器人 语音控制 TRANSFORMER 连接时序分类
在线阅读 下载PDF
基于GRU-CTC混合模型的语音识别方法研究 被引量:2
16
作者 董家仁 刘广聪 《现代计算机》 2019年第26期13-16,共4页
传统的隐马尔科夫模型和循环神经网络在语音识别领域都获得很广泛的应用,但是随着数据量的剧增,其处理效率越来越无法满足人们需求,针对以上问题,通过对比应用于语音识别的三种模型,介绍一种基于门控循环单元GRU和连接时序分类CTC混合... 传统的隐马尔科夫模型和循环神经网络在语音识别领域都获得很广泛的应用,但是随着数据量的剧增,其处理效率越来越无法满足人们需求,针对以上问题,通过对比应用于语音识别的三种模型,介绍一种基于门控循环单元GRU和连接时序分类CTC混合模型的语音识别方法。GRU作为一种LSTM网络的变形,在结构上比LSTM要简单,效率也更高,而CTC在帧预测上的方便与高效也让识别效果有不小的提升,从实验对比结果来看,结合CTC的GRU模型不仅比传统的GMM-HMM模型正确率要高,与结合CTC的LSTM模型相比正确率和效率也有不小的提高。 展开更多
关键词 门控循环单元 连接时序分类 长短期记忆网络 语音识别
在线阅读 下载PDF
引入预训练表示混合矢量量化和CTC的语音转换
17
作者 王琳 黄浩 《计算机工程》 CAS CSCD 北大核心 2024年第4期313-320,共8页
预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型... 预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型。将预训练模型提取的SSPR作为端到端模型的输入,用于提高单次语音转换质量。如何有效地解耦内容表示和说话人表示成为语音转换中的关键问题。使用SSPR作为初步的内容信息,采用VQ从语音中解耦内容和说话人表示。然而,仅使用VQ只能将内容信息离散化,很难将纯粹的内容表示从语音中分离出来,为了进一步消除内容信息中说话人的不变信息,提出CTC损失指导内容编码器。CTC不仅作为辅助网络加快模型收敛,同时其额外的文本监督可以与VQ联合优化,实现性能互补,学习纯内容表示。说话人表示采用风格嵌入学习,2种表示作为系统的输入进行语音转换。在开源的CMU数据集和VCTK语料库对所提的方法进行评估,实验结果表明,该方法在客观上的梅尔倒谱失真(MCD)达到8.896 d B,在主观上的语音自然度平均意见分数(MOS)和说话人相似度MOS分别为3.29和3.22,均优于基线模型,此方法在语音转换的质量和说话人相似度上能够获得最佳性能。 展开更多
关键词 预训练表示 自监督学习 矢量量化 解耦 联结时序分类
在线阅读 下载PDF
基于CNN-GRU-CTC的藏族学生普通话发音偏误检测 被引量:1
18
作者 梁青青 周小燕 赵春艳 《兰州文理学院学报(自然科学版)》 2023年第5期47-51,共5页
为了提高藏族学生学习普通话的发音水平,根据普通话和藏语发音特点设计并录制了一个偏误语音语料库,并结合卷积神经网络(Convolutional Neural Network,CNN)、门控循环单元(Gated Recurrent Unit,GRU)技术和连接时序分类技术(Connection... 为了提高藏族学生学习普通话的发音水平,根据普通话和藏语发音特点设计并录制了一个偏误语音语料库,并结合卷积神经网络(Convolutional Neural Network,CNN)、门控循环单元(Gated Recurrent Unit,GRU)技术和连接时序分类技术(Connectionist Temporal Classification,CTC)搭建CNN-GRU-CTC声学模型,提出了一种发音偏误检测的方法.该方法将语音转换为一张图像作为输入,对完整的语谱图进行数据提取,利用深度全序列卷积神经网络进行建模,使用自动语音识别框架来进行发音偏误检测.实验结果表明:在该模型下,系统检测准确率为88.55%,错误拒绝率为7.16%,联合错误率为14.94%.该方法可以有效检测出错误发音,性能优于其他模型,可以用于检测和纠正藏族学生学习普通话时的错误发音,提高藏族学生的普通话发音水平. 展开更多
关键词 发音偏误检测 卷积神经网络 门控循环单元 连接时序分类
在线阅读 下载PDF
一种基于CNN/CTC的端到端普通话语音识别方法 被引量:3
19
作者 潘粤成 刘卓 +2 位作者 潘文豪 蔡典仑 韦政松 《现代信息科技》 2020年第5期65-68,共4页
为了实现离线状态较高正确率的中文普通话语音识别,提出一种基于深度全卷积神经网络CNN表征的语音识别系统的声学模型,将频谱图作为输入,在模型结构上参考了VGG模型。在输出端,该模型可以与连接时序分类完美结合,从而实现整个模型的端... 为了实现离线状态较高正确率的中文普通话语音识别,提出一种基于深度全卷积神经网络CNN表征的语音识别系统的声学模型,将频谱图作为输入,在模型结构上参考了VGG模型。在输出端,该模型可以与连接时序分类完美结合,从而实现整个模型的端到端训练,将声波信号转换成普通话拼音序列。语言模型则采用最大熵马尔可夫模型,将拼音序列转换为中文文本。实验表明,此算法在测试集上已经获得了80.82%的正确率。 展开更多
关键词 卷积神经网络 中文语音识别 连接时序分类 端到端系统
在线阅读 下载PDF
基于语音识别技术的智慧讲台设计
20
作者 屈亚磊 《电声技术》 2025年第9期79-82,共4页
针对传统讲台在教学效率与交互性方面的不足,提出一种基于语音识别技术的智慧讲台设计方案。通过构建语音信号预处理、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征提取、Transformer-连续时序分类(Connectionist Te... 针对传统讲台在教学效率与交互性方面的不足,提出一种基于语音识别技术的智慧讲台设计方案。通过构建语音信号预处理、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征提取、Transformer-连续时序分类(Connectionist Temporal Classification,CTC)声学模型及双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)语言模型后处理的完整识别链路,实现在高噪声、多说话人场景下的稳定语音识别。基于此,设计教师语音交互、学生辅助学习及课堂管理模块,并进行实验验证。结果表明,系统在25 dB与10 dB噪声条件下的识别准确率分别为95.2%与92.8%,端到端延迟控制在300 ms以内,具有良好的健壮性与实时性,可有效支撑智慧讲台的实际应用。 展开更多
关键词 语音识别 智慧讲台 Transformer-连续时序分类(ctc) 双向编码器表征法(BERT)语言模型
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部