期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于DFCNN-CTC端到端的藏族学生普通话发音偏误检测 被引量:9
1
作者 甘振业 周世华 +1 位作者 曾浩 杨鸿武 《西北师范大学学报(自然科学版)》 CAS 北大核心 2020年第5期49-53,108,共6页
计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network,DFCNN)和链接时序分类(Connectionist tem... 计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network,DFCNN)和链接时序分类(Connectionist temporal classification,CTC)技术,建立了一种用于发音偏误检测和诊断任务的端到端语音识别方法.该方法不需要音位信息,也不需要强制对齐,以扩展声韵母为偏误基元,设计了64种偏误类型.实验结果表明,该方法能够有效地检测出错误发音,检测正确率为87.07%,错误拒绝率为7.83%,错误接收率为25.97%. 展开更多
关键词 发音偏误检测 卷积神经网络 链接时序分类 端到端
在线阅读 下载PDF
基于改进混合CTC/attention架构的端到端普通话语音识别 被引量:6
2
作者 杨鸿武 周刚 《西北师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期48-53,共6页
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进... 端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率. 展开更多
关键词 语音识别 链接时序分类 注意力机制 混合ctc/attention 端到端系统
在线阅读 下载PDF
混合CTC/attention架构端到端带口音普通话识别 被引量:12
3
作者 杨威 胡燕 《计算机应用研究》 CSCD 北大核心 2021年第3期755-759,共5页
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中... 针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。 展开更多
关键词 口音 混合ctc/attention的端到端模型 多头注意力 链接时序主义 语音识别
在线阅读 下载PDF
Joint CTC-Attention End-to-End Speech Recognition with a Triangle Recurrent Neural Net work Encoder 被引量:2
4
作者 ZHU Tao CHENG Chunling 《Journal of Shanghai Jiaotong university(Science)》 EI 2020年第1期70-75,共6页
Traditional speech recognition model based on deep neural network(DNN)and hidden Markov model(HMM)is a complex and multi-module system.In other words,optimization goals may differ between modules in traditional model.... Traditional speech recognition model based on deep neural network(DNN)and hidden Markov model(HMM)is a complex and multi-module system.In other words,optimization goals may differ between modules in traditional model.Besides,additional language resources are required,such as pronunciation dictionary and language model.To eliminate the drawbacks of traditional model,we hereby propose an end-to-end speech recognition method,where connectionist temporal classification(CTC)and attention are integrated for decoding.In our model,the complex modules are replaced by a single deep network.Our model mainly consists of encoder and decoder.The encoder is constructed by bidirectional long short-term memory(BLSTM)with a triangular structure for feature extraction.The decoder based on CTC-attention decoding utilizes advanced features extracted by shared encoder for training and decoding.The experimental results on the Vox Forge dataset indicate that end-to-end method is superior to basic CTC and attention-based encoder-decoder decoding,and the character error rate(CER)is reduced to 12.9%without using any language model. 展开更多
关键词 END-TO-END connectionIST temporal classification(ctc) att ent ion speech recognition
原文传递
引入预训练表示混合矢量量化和CTC的语音转换
5
作者 王琳 黄浩 《计算机工程》 CAS CSCD 北大核心 2024年第4期313-320,共8页
预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型... 预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型。将预训练模型提取的SSPR作为端到端模型的输入,用于提高单次语音转换质量。如何有效地解耦内容表示和说话人表示成为语音转换中的关键问题。使用SSPR作为初步的内容信息,采用VQ从语音中解耦内容和说话人表示。然而,仅使用VQ只能将内容信息离散化,很难将纯粹的内容表示从语音中分离出来,为了进一步消除内容信息中说话人的不变信息,提出CTC损失指导内容编码器。CTC不仅作为辅助网络加快模型收敛,同时其额外的文本监督可以与VQ联合优化,实现性能互补,学习纯内容表示。说话人表示采用风格嵌入学习,2种表示作为系统的输入进行语音转换。在开源的CMU数据集和VCTK语料库对所提的方法进行评估,实验结果表明,该方法在客观上的梅尔倒谱失真(MCD)达到8.896 d B,在主观上的语音自然度平均意见分数(MOS)和说话人相似度MOS分别为3.29和3.22,均优于基线模型,此方法在语音转换的质量和说话人相似度上能够获得最佳性能。 展开更多
关键词 预训练表示 自监督学习 矢量量化 解耦 联结时序分类
在线阅读 下载PDF
基于CNN-GRU-CTC的藏族学生普通话发音偏误检测 被引量:1
6
作者 梁青青 周小燕 赵春艳 《兰州文理学院学报(自然科学版)》 2023年第5期47-51,共5页
为了提高藏族学生学习普通话的发音水平,根据普通话和藏语发音特点设计并录制了一个偏误语音语料库,并结合卷积神经网络(Convolutional Neural Network,CNN)、门控循环单元(Gated Recurrent Unit,GRU)技术和连接时序分类技术(Connection... 为了提高藏族学生学习普通话的发音水平,根据普通话和藏语发音特点设计并录制了一个偏误语音语料库,并结合卷积神经网络(Convolutional Neural Network,CNN)、门控循环单元(Gated Recurrent Unit,GRU)技术和连接时序分类技术(Connectionist Temporal Classification,CTC)搭建CNN-GRU-CTC声学模型,提出了一种发音偏误检测的方法.该方法将语音转换为一张图像作为输入,对完整的语谱图进行数据提取,利用深度全序列卷积神经网络进行建模,使用自动语音识别框架来进行发音偏误检测.实验结果表明:在该模型下,系统检测准确率为88.55%,错误拒绝率为7.16%,联合错误率为14.94%.该方法可以有效检测出错误发音,性能优于其他模型,可以用于检测和纠正藏族学生学习普通话时的错误发音,提高藏族学生的普通话发音水平. 展开更多
关键词 发音偏误检测 卷积神经网络 门控循环单元 连接时序分类
在线阅读 下载PDF
基于语音识别技术的智慧讲台设计
7
作者 屈亚磊 《电声技术》 2025年第9期79-82,共4页
针对传统讲台在教学效率与交互性方面的不足,提出一种基于语音识别技术的智慧讲台设计方案。通过构建语音信号预处理、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征提取、Transformer-连续时序分类(Connectionist Te... 针对传统讲台在教学效率与交互性方面的不足,提出一种基于语音识别技术的智慧讲台设计方案。通过构建语音信号预处理、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征提取、Transformer-连续时序分类(Connectionist Temporal Classification,CTC)声学模型及双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)语言模型后处理的完整识别链路,实现在高噪声、多说话人场景下的稳定语音识别。基于此,设计教师语音交互、学生辅助学习及课堂管理模块,并进行实验验证。结果表明,系统在25 dB与10 dB噪声条件下的识别准确率分别为95.2%与92.8%,端到端延迟控制在300 ms以内,具有良好的健壮性与实时性,可有效支撑智慧讲台的实际应用。 展开更多
关键词 语音识别 智慧讲台 Transformer-连续时序分类(ctc) 双向编码器表征法(BERT)语言模型
在线阅读 下载PDF
面向陕北方言的端到端语音识别模型研究
8
作者 于非凡 董立红 +1 位作者 秦昳 翟蒙恩 《计算机仿真》 2025年第4期257-263,共7页
为增强陕北方言识别率,对端到端语音识别技术进行研究,提出基于Conformer的端到端陕北方言语音识别模型。通过研究陕北方言语音特点及在煤矿行业中的使用特点,建立面向陕北煤矿行业的语料库;针对陕北方言和汉语声母韵母的发音差异,通过... 为增强陕北方言识别率,对端到端语音识别技术进行研究,提出基于Conformer的端到端陕北方言语音识别模型。通过研究陕北方言语音特点及在煤矿行业中的使用特点,建立面向陕北煤矿行业的语料库;针对陕北方言和汉语声母韵母的发音差异,通过对比不同特征提取技术在陕北方言识别中的性能,选取适合陕北方言的特征提取技术;设计预处理模块适应陕北方言语速快、多叠词等特点,提高陕北方言语音识别性能。针对Conformer解码器文本生成能力受限的问题,使用Transformer作为解码器;针对模型需大量计算资源的问题,引入CTC联合训练,实现模型的优化。实验结果表明,在面向陕北煤矿行业的自建语音数据集上,与其它主流模型相比,融合Conformer-Transformer-CTC的模型具有先进性。 展开更多
关键词 语音识别 陕北方言 煤矿行业 端到端 连接时序分类
在线阅读 下载PDF
中国盆地铀资源概述 被引量:34
9
作者 焦养泉 吴立群 +1 位作者 荣辉 张帆 《地球科学》 EI CAS CSCD 北大核心 2021年第8期2675-2696,共22页
近20多年来,我国在北方6大沉积盆地中陆续发现了系列大型和超大型砂岩型铀矿床,丰富的资源量昭示了沉积盆地是一个巨大的促使铀汇聚的化学反应器.然而,盆地中的铀矿床类型远不止于砂岩型一种,它们一并构成了宝贵的盆地铀资源.将在沉积... 近20多年来,我国在北方6大沉积盆地中陆续发现了系列大型和超大型砂岩型铀矿床,丰富的资源量昭示了沉积盆地是一个巨大的促使铀汇聚的化学反应器.然而,盆地中的铀矿床类型远不止于砂岩型一种,它们一并构成了宝贵的盆地铀资源.将在沉积盆地发展演化过程中,受沉积、成岩和构造作用制约而促使铀富集形成的系列铀矿床,统称为盆地铀资源.充分考虑铀成矿作用的关键制约要素和矿床形成的发育时序,将盆地铀资源划分为同沉积型、不整合型和成岩型三大类13个亚类型矿床.在盆山耦合的构造体制驱动下,铀的变价属性是铀大尺度循环(汇聚与分散)的基础,这使得各种铀矿床之间既具有成因联系又能相互转化.我国已探明盆地铀资源的矿床成因类型、时空分布和资源量规模极不均衡,但是北方砂岩型铀矿床和南方碳硅泥岩型铀矿床构成了盆地铀资源的主体,从而具有"一北一南"、"一陆一海"、"一新一老"的基本格局.目前,北方砂岩型铀矿是我国勘查和开发的重点,然而铀储层结构和物质成分的非均质性极大,地浸采铀技术亟需革新以适宜多数砂岩型铀矿床的开发.同时,需要在新地区、新层位发现更多新类型铀矿床,还需要依赖技术研发盘活已发现的以南方碳硅泥岩型铀矿床为代表的"超低孔渗"、"富有机质"、"深埋藏"的系列"呆矿". 展开更多
关键词 盆地铀资源 矿床分类 成因联系 时空分布格局 勘查开发潜力 矿床学
原文传递
基于双通路CNN的端到端语音识别研究 被引量:10
10
作者 胡黎 黄洪全 +2 位作者 梁超 宋悦阳 陈延明 《传感器与微系统》 CSCD 北大核心 2021年第11期69-72,83,共5页
传统的浅层卷积神经网络(CNN)语音识别模型通常使用单通路网络,导致特征提取不够充分,阻碍了语音识别精度的提升。针对这个问题,提出了双通路卷积神经网络(DPCNN),通过增大网络宽度获取更加丰富的语音特征。同时级联注意力(attention)... 传统的浅层卷积神经网络(CNN)语音识别模型通常使用单通路网络,导致特征提取不够充分,阻碍了语音识别精度的提升。针对这个问题,提出了双通路卷积神经网络(DPCNN),通过增大网络宽度获取更加丰富的语音特征。同时级联注意力(attention)和连接时序分类(CTC),削弱了CTC中的条件独立性约束,实现了DPCNN-Attention-CTC端到端语音识别模型,提高了语音识别的速度和精度。实验结果表明:DPCNN-Attention-CTC的错误率为22.9%,对比于单通路CNN-CTC,相对错误率降低了18.8%,验证了模型的有效性。 展开更多
关键词 卷积神经网络 双通路卷积神经网络 连接时序分类 语音识别
在线阅读 下载PDF
时域候选优化的时序动作检测 被引量:4
11
作者 熊成鑫 郭丹 刘学亮 《中国图象图形学报》 CSCD 北大核心 2020年第7期1447-1458,共12页
目的时序动作检测(temporal action detection)作为计算机视觉领域的一个热点课题,其目的是检测视频中动作发生的具体区间,并确定动作的类别。这一课题在现实生活中具有深远的实际意义。如何在长视频中快速定位且实现时序动作检测仍然... 目的时序动作检测(temporal action detection)作为计算机视觉领域的一个热点课题,其目的是检测视频中动作发生的具体区间,并确定动作的类别。这一课题在现实生活中具有深远的实际意义。如何在长视频中快速定位且实现时序动作检测仍然面临挑战。为此,本文致力于定位并优化动作发生时域的候选集,提出了时域候选区域优化的时序动作检测方法TPO(temporal proposal optimization)。方法采用卷积神经网络(convolutional neural network,CNN)和双向长短期记忆网络(bidirectional long short term memory,BLSTM)来捕捉视频的局部时序关联性和全局时序信息;并引入联级时序分类优化(connectionist temporal classification,CTC)方法,评估每个时序位置的边界概率和动作概率得分;最后,融合两者的概率得分曲线,优化时域候选区域候选并排序,最终实现时序上的动作检测。结果在Activity Net v1.3数据集上进行实验验证,TPO在各评价指标,如一定时域候选数量下的平均召回率AR@100(average recall@100),曲线下的面积AUC(area under a curve)和平均均值平均精度m AP(mean average precision)上分别达到74.66、66.32、30.5,而各阈值下的均值平均精度m AP@Io U(m AP@intersection over union)在阈值为0.75和0.95时也分别达到了30.73和8.22,与SSN(structured segment network)、TCN(temporal context network)、Prop-SSAD(single shot action detector for proposal)、CTAP(complementary temporal action proposal)和BSN(boundary sensitive network)等方法相比,TPO的所有性能指标均有提高。结论本文提出的模型兼顾了视频的全局时序信息和局部时序信息,使得预测的动作候选区域边界更为准确和灵活,同时也验证了候选区域的准确性能够有效提高时序动作检测的精确度。 展开更多
关键词 时序动作检测 时域候选区域 动作概率得分 级联时序分类 卷积神经网络 双向长短期记忆网络
原文传递
基于卷积神经网络和Transformer的手写体英文文本识别 被引量:4
12
作者 张显杰 张之明 《计算机应用》 CSCD 北大核心 2022年第8期2394-2400,共7页
手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和... 手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和Transformer的手写体英文文本识别模型。首先利用CNN从输入图像中提取特征,而后将特征输入到Transformer编码器中得到特征序列每一帧的预测,最后经过链接时序分类(CTC)解码器获得最终的预测结果。在公开的IAM(Institut für Angewandte Mathematik)手写体英文单词数据集上进行了大量的实验结果表明,该模型获得了3.60%的字符错误率(CER)和12.70%的单词错误率(WER),验证了所提模型的可行性。 展开更多
关键词 手写体英文文本识别 深度学习 卷积神经网络 TRANSFORMER 链接时序分类 注意力 无分割
在线阅读 下载PDF
基于改进TCN模型的野外运动目标分类 被引量:4
13
作者 范裕莹 李成娟 +1 位作者 易强 李宝清 《计算机工程》 CAS CSCD 北大核心 2021年第9期106-112,共7页
野外运动目标信号的背景噪声复杂,利用单模态声音信号进行野外目标分类识别率低且鲁棒性差。针对该问题,提出一种基于声震多模态融合的网络模型。借鉴DenseNet网络密集连接的思想改进时域卷积网络,从而对四通道声音信号和单通道震动信... 野外运动目标信号的背景噪声复杂,利用单模态声音信号进行野外目标分类识别率低且鲁棒性差。针对该问题,提出一种基于声震多模态融合的网络模型。借鉴DenseNet网络密集连接的思想改进时域卷积网络,从而对四通道声音信号和单通道震动信号进行深层次的特征提取,并将两种信号相互融合得到最终的目标分类结果。同时,使用带权重的损失函数解决因数据不均衡导致的泛化性能差的问题。实验结果表明,融合网络的识别准确率达到92.92%,较单模态输入网络提高了6.63%~9.46%,且该网络具有较强的鲁棒性。 展开更多
关键词 声震信号 多模态融合 时域卷积网络 密集连接 运动目标分类
在线阅读 下载PDF
Recent Progresses in Deep Learning Based Acoustic Models 被引量:11
14
作者 Dong Yu Jinyu Li 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2017年第3期396-409,共14页
In this paper,we summarize recent progresses made in deep learning based acoustic models and the motivation and insights behind the surveyed techniques.We first discuss models such as recurrent neural networks(RNNs) a... In this paper,we summarize recent progresses made in deep learning based acoustic models and the motivation and insights behind the surveyed techniques.We first discuss models such as recurrent neural networks(RNNs) and convolutional neural networks(CNNs) that can effectively exploit variablelength contextual information,and their various combination with other models.We then describe models that are optimized end-to-end and emphasize on feature representations learned jointly with the rest of the system,the connectionist temporal classification(CTC) criterion,and the attention-based sequenceto-sequence translation model.We further illustrate robustness issues in speech recognition systems,and discuss acoustic model adaptation,speech enhancement and separation,and robust training strategies.We also cover modeling techniques that lead to more efficient decoding and discuss possible future directions in acoustic model research. 展开更多
关键词 Attention model convolutional neural network(CNN) connectionist temporal classification(ctc) deep learning(DL) long short-term memory(LSTM) permutation invariant training speech adaptation speech processing speech recognition speech separation
在线阅读 下载PDF
基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统 被引量:17
15
作者 姚煜 RYAD Chellali 《计算机应用》 CSCD 北大核心 2018年第9期2495-2499,共5页
针对隐马尔可夫模型(HMM)在语音识别中存在的不合理条件假设,进一步研究循环神经网络的序列建模能力,提出了基于双向长短时记忆神经网络的声学模型构建方法,并将联结时序分类(CTC)训练准则成功地应用于该声学模型训练中,搭建出不依赖于... 针对隐马尔可夫模型(HMM)在语音识别中存在的不合理条件假设,进一步研究循环神经网络的序列建模能力,提出了基于双向长短时记忆神经网络的声学模型构建方法,并将联结时序分类(CTC)训练准则成功地应用于该声学模型训练中,搭建出不依赖于隐马尔可夫模型的端到端中文语音识别系统;同时设计了基于加权有限状态转换器(WFST)的语音解码方法,有效解决了发音词典和语言模型难以融入解码过程的问题。与传统GMM-HMM系统和混合DNN-HMM系统对比,实验结果显示该端到端系统不仅明显降低了识别错误率,而且大幅提高了语音解码速度,表明了该声学模型可以有效地增强模型区分度和优化系统结构。 展开更多
关键词 语音识别 长短时记忆神经网络 联结时序分类 加权有限状态转换器 端到端系统
在线阅读 下载PDF
基于深度学习的动态手势识别方法 被引量:10
16
作者 钟惠英 《电子测量技术》 2020年第2期128-132,共5页
为了提高动态手势的识别准确率,并避免动态手势的数据预分割和后输出处理过程,设计了一种融合卷积神经网络(CNN)和双向长短时记忆(BiLSTM),引入连接主义时间分类(CTC)作为损失函数的串联型网络模型。使用CTC训练网络来判断输入流中的类... 为了提高动态手势的识别准确率,并避免动态手势的数据预分割和后输出处理过程,设计了一种融合卷积神经网络(CNN)和双向长短时记忆(BiLSTM),引入连接主义时间分类(CTC)作为损失函数的串联型网络模型。使用CTC训练网络来判断输入流中的类标签,以完成动态手势的识别工作。在公开视频手势数据集Jester和通过Kinect自建的包含9个动态手势的数据集上进行了实验验证,结果表明提出的串联型融合网络模型在Jester上能得到较高的识别率,并且引入CTC算法用于手势识别领域是可行的,该方法高效且具有很高的识别率,对9个动态手势最好识别正确率可达98.11%。 展开更多
关键词 KINECT 手势识别 ctc(连接主义时间分类) BiLSTM(双向长短时记忆) 深度学习
原文传递
一种采用机器学习的氦语音识别方法
17
作者 李冬梅 李明 +1 位作者 郭莉莉 张士兵 《电讯技术》 北大核心 2022年第9期1215-1221,共7页
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛... 为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。 展开更多
关键词 氦语音 语音识别 机器学习 深度卷积神经网络(DCNN) 连接时序分类(ctc)
在线阅读 下载PDF
An Efficient Hybrid Model for Arabic Text Recognition
18
作者 Hicham Lamtougui Hicham El Moubtahij +1 位作者 Hassan Fouadi Khalid Satori 《Computers, Materials & Continua》 SCIE EI 2023年第2期2871-2888,共18页
In recent years,Deep Learning models have become indispensable in several fields such as computer vision,automatic object recognition,and automatic natural language processing.The implementation of a robust and effici... In recent years,Deep Learning models have become indispensable in several fields such as computer vision,automatic object recognition,and automatic natural language processing.The implementation of a robust and efficient handwritten text recognition system remains a challenge for the research community in this field,especially for the Arabic language,which,compared to other languages,has a dearth of published works.In this work,we presented an efficient and new system for offline Arabic handwritten text recognition.Our new approach is based on the combination of a Convolutional Neural Network(CNN)and a Bidirectional Long-Term Memory(BLSTM)followed by a Connectionist Temporal Classification layer(CTC).Moreover,during the training phase of the model,we introduce an algorithm of data augmentation to increase the quality of data.Our proposed approach can recognize Arabic handwritten texts without the need to segment the characters,thus overcoming several problems related to this point.To train and test(evaluate)our approach,we used two Arabic handwritten text recognition databases,which are IFN/ENIT and KHATT.The Experimental results show that our new approach,compared to other methods in the literature,gives better results. 展开更多
关键词 Deep learning arabic handwritten text recognition convolutional neural network(CNN) bidirectional long-term memory(BLSTM) connectionist temporal classification(ctc)
在线阅读 下载PDF
融合感兴趣区域时空特征的阿尔茨海默症分类任务
19
作者 李瑞 胡众义 +1 位作者 高礼彬 卢星进 《工业控制计算机》 2023年第5期81-82,86,共3页
传统的功能连接网络模型只提取功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)感兴趣区域(Regions Of Interest,ROIs)的时域特征,用于阿尔茨海默症(Alzheimer's Disease,AD)分类。该模型忽略了ROIs的空域特征,例如脑... 传统的功能连接网络模型只提取功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)感兴趣区域(Regions Of Interest,ROIs)的时域特征,用于阿尔茨海默症(Alzheimer's Disease,AD)分类。该模型忽略了ROIs的空域特征,例如脑区之间的两两相关性。不完整的时空特征直接影响阿尔茨海默症、晚期认知障碍(late Mild Cognitive Impairment,lMCI)、早期认知障碍(early Mild Cognitive Impairment,eMCI)和健康对照(Healthy Controls,HC)分类任务的精确度。提出使用动态相关系数核(称为DC-kernel)对空域特征进行动态获取,并与时域特征进行特征融合。实验结果表明,在AD、lMCI、eMCI和HC四分类任务中,较传统阿尔茨海默症的准确率有提高,为其它脑疾病的分类任务提供了一种新的思路。 展开更多
关键词 功能连接网络 感兴趣区域 动态相关系数核 时空特征融合 阿尔茨海默症 分类任务
在线阅读 下载PDF
基于改进DFSMN的非特定人语音识别模型
20
作者 王世刚 严瑾 《电声技术》 2023年第12期111-114,共4页
深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人... 深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人语音识别模型。该模型改进了DFSMN记忆模块大小和模块之间的连接方式,并结合连接时序分类(Connectionist Temporal Classification,CTC)端到端语音识别框架。实验结果表明,在相同条件下,该改进模型的参数量较之前减少了约1/10,在不同数据集上与几种常见语音识别模型相比,其语音识别字符错误率均最低,在识别准确率和模型训练效率方面具有一定的优越性。 展开更多
关键词 语音识别 深度前馈序列记忆网络(DFSMN) 非特定人 连接时序分类(ctc)
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部