期刊文献+
共找到117篇文章
< 1 2 6 >
每页显示 20 50 100
Long Short-Term Memory Recurrent Neural Network-Based Acoustic Model Using Connectionist Temporal Classification on a Large-Scale Training Corpus 被引量:9
1
作者 Donghyun Lee Minkyu Lim +4 位作者 Hosung Park Yoseb Kang Jeong-Sik Park Gil-Jin Jang Ji-Hwan Kim 《China Communications》 SCIE CSCD 2017年第9期23-31,共9页
A Long Short-Term Memory(LSTM) Recurrent Neural Network(RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model(GMM). However, these models based on a hybrid method require a force... A Long Short-Term Memory(LSTM) Recurrent Neural Network(RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model(GMM). However, these models based on a hybrid method require a forced aligned Hidden Markov Model(HMM) state sequence obtained from the GMM-based acoustic model. Therefore, it requires a long computation time for training both the GMM-based acoustic model and a deep learning-based acoustic model. In order to solve this problem, an acoustic model using CTC algorithm is proposed. CTC algorithm does not require the GMM-based acoustic model because it does not use the forced aligned HMM state sequence. However, previous works on a LSTM RNN-based acoustic model using CTC used a small-scale training corpus. In this paper, the LSTM RNN-based acoustic model using CTC is trained on a large-scale training corpus and its performance is evaluated. The implemented acoustic model has a performance of 6.18% and 15.01% in terms of Word Error Rate(WER) for clean speech and noisy speech, respectively. This is similar to a performance of the acoustic model based on the hybrid method. 展开更多
关键词 acoustic model connectionisttemporal classification LARGE-SCALE trainingcorpus LONG SHORT-TERM memory recurrentneural network
在线阅读 下载PDF
基于语音识别技术的智慧讲台设计
2
作者 屈亚磊 《电声技术》 2025年第9期79-82,共4页
针对传统讲台在教学效率与交互性方面的不足,提出一种基于语音识别技术的智慧讲台设计方案。通过构建语音信号预处理、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征提取、Transformer-连续时序分类(Connectionist Te... 针对传统讲台在教学效率与交互性方面的不足,提出一种基于语音识别技术的智慧讲台设计方案。通过构建语音信号预处理、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征提取、Transformer-连续时序分类(Connectionist Temporal Classification,CTC)声学模型及双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)语言模型后处理的完整识别链路,实现在高噪声、多说话人场景下的稳定语音识别。基于此,设计教师语音交互、学生辅助学习及课堂管理模块,并进行实验验证。结果表明,系统在25 dB与10 dB噪声条件下的识别准确率分别为95.2%与92.8%,端到端延迟控制在300 ms以内,具有良好的健壮性与实时性,可有效支撑智慧讲台的实际应用。 展开更多
关键词 语音识别 智慧讲台 Transformer-连续时序分类(CTC) 双向编码器表征法(BERT)语言模型
在线阅读 下载PDF
基于连接时序分类解码器的实时语音翻译方法
3
作者 张绍磊 冯洋 《计算机学报》 北大核心 2025年第5期1100-1115,共16页
实时场景中的跨语言沟通是全球化进程中的重要场景。实时语音翻译旨在通过计算机在说话者讲话的同时输出目标语言的翻译文本,在诸多实时场景中具有广泛的应用前景。当前的离线模型尽管拥有大规模参数,但其架构仍无法直接处理实时跨语言... 实时场景中的跨语言沟通是全球化进程中的重要场景。实时语音翻译旨在通过计算机在说话者讲话的同时输出目标语言的翻译文本,在诸多实时场景中具有广泛的应用前景。当前的离线模型尽管拥有大规模参数,但其架构仍无法直接处理实时跨语言沟通场景。在此背景下,实时语音翻译对于实时性的独有要求使得其在研究和应用上具备特定的必要性。与离线语音翻译相比,实时语音翻译更具挑战性,因为其需要额外制定读/写策略以控制模型在合适的时机开始翻译,从而在低延时下获得高质量翻译。理想情况下,实时语音翻译模型应在接收到相关语音后立即生成对应的目标文本,以确保高翻译质量和低延时。因此,建模源语音和目标文本之间的对齐是指导读/写策略的关键。基于此,本文提出了一种基于连接时序分类解码器的实时语音翻译方法。该方法通过连接时序分类技术插入空白标记和重复标记,实现语音和文本不等长序列间的对齐,并根据此对齐制定读/写策略来控制模型在接收到对应的语音之后开始翻译。在训练中引入连接时序分类损失能有效地将对齐学习与目标文本生成整合在统一的框架中,从而找到最佳的读/写策略。本文在两个实时语音翻译基准上对提出的方法进行了全面评估,结果表明提出的方法在实时语音翻译性能上超过了现有最佳方法。进一步的分析实验展示了该方法的有效性和优越性。 展开更多
关键词 实时翻译 语音翻译 机器翻译 连接时序分类 非自回归生成 对齐
在线阅读 下载PDF
基于改进LSTM-CTC的电网绿色基建档案智能识别方法 被引量:1
4
作者 陈然 程钊 +5 位作者 贺兰菲 周蠡 蔡杰 何峰 许小薇 张晓佳 《高压电器》 北大核心 2025年第5期141-149,共9页
随着社会对可持续发展的日益关注,电网绿色基建档案管理成为了电网实现节能减碳和数字化发展目标的重要推手,其中,档案管理的智能化识别是实现上述目标的关键步骤。针对线下收集电网基建档案内容的智能识别,文中提出一种基于改进长短期... 随着社会对可持续发展的日益关注,电网绿色基建档案管理成为了电网实现节能减碳和数字化发展目标的重要推手,其中,档案管理的智能化识别是实现上述目标的关键步骤。针对线下收集电网基建档案内容的智能识别,文中提出一种基于改进长短期记忆(long short⁃termmemory,LSTM)—连接时序分类(connectionist temporalclassification,CTC)的电网基建档案电子化智能识别方法。该方法首先提取电网基建档案的图像数据,然后将图像输入到LSTM网络提取电网基建档案图像中文本的序列特征,最后经过CTC损失函数计算得到最终的文本识别结果。同时,文中所提方法采用权重更新方法改进CTC损失函数从而提高模型的识别泛化度。仿真结果表明,文中所提基于改进LSTM⁃CTC的电网基建档案电子化智能识别方法能够显著提升电网基建档案的识别效率与精度。 展开更多
关键词 基建档案管理 智能识别 长短期记忆 连接时序分类
在线阅读 下载PDF
面向陕北方言的端到端语音识别模型研究
5
作者 于非凡 董立红 +1 位作者 秦昳 翟蒙恩 《计算机仿真》 2025年第4期257-263,共7页
为增强陕北方言识别率,对端到端语音识别技术进行研究,提出基于Conformer的端到端陕北方言语音识别模型。通过研究陕北方言语音特点及在煤矿行业中的使用特点,建立面向陕北煤矿行业的语料库;针对陕北方言和汉语声母韵母的发音差异,通过... 为增强陕北方言识别率,对端到端语音识别技术进行研究,提出基于Conformer的端到端陕北方言语音识别模型。通过研究陕北方言语音特点及在煤矿行业中的使用特点,建立面向陕北煤矿行业的语料库;针对陕北方言和汉语声母韵母的发音差异,通过对比不同特征提取技术在陕北方言识别中的性能,选取适合陕北方言的特征提取技术;设计预处理模块适应陕北方言语速快、多叠词等特点,提高陕北方言语音识别性能。针对Conformer解码器文本生成能力受限的问题,使用Transformer作为解码器;针对模型需大量计算资源的问题,引入CTC联合训练,实现模型的优化。实验结果表明,在面向陕北煤矿行业的自建语音数据集上,与其它主流模型相比,融合Conformer-Transformer-CTC的模型具有先进性。 展开更多
关键词 语音识别 陕北方言 煤矿行业 端到端 连接时序分类
在线阅读 下载PDF
基于连续语音识别技术的猪连续咳嗽声识别 被引量:26
6
作者 黎煊 赵建 +3 位作者 高云 刘望宏 雷明刚 谭鹤群 《农业工程学报》 EI CAS CSCD 北大核心 2019年第6期174-180,共7页
针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,B... 针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,BLSTM-CTC)构建猪声音声学模型,进行猪场环境猪连续咳嗽声识别的方法,以此进行猪早期呼吸道疾病的预警和判断。研究了体质量为75 kg左右长白猪单个咳嗽声样本的持续时间长度和能量大小的时域特征,构建了声音样本持续时间在0.24~0.74 s和能量大于40.15 V^2·s的阈值范围。在此阈值范围内,利用单参数双门限端点检测算法对基于多窗谱的心理声学语音增强算法处理后的30 h猪场声音进行检测,得到222段试验语料。将猪场环境下的声音分为猪咳嗽声和非猪咳嗽声,并以此作为声学模型建模单元,进行语料的标注。提取26维梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)作为试验语段特征参数。通过BLSTM网络学习猪连续声音的变化规律,并利用CTC实现了端到端的猪连续声音识别系统。5折交叉验证试验平均猪咳嗽声识别率达到92.40%,误识别率为3.55%,总识别率达到93.77%。同时,以数据集外1 h语料进行了算法应用测试,得到猪咳嗽声识别率为94.23%,误识别率为9.09%,总识别率为93.24%。表明基于连续语音识别技术的BLSTM-CTC猪咳嗽声识别模型是稳定可靠的。该研究可为生猪健康养殖过程中猪连续咳嗽声的识别和疾病判断提参考。 展开更多
关键词 信号处理 声音信号 识别 生猪产业 连续咳嗽声 双向长短时记忆网络-连接时序分类模型 声学模型
在线阅读 下载PDF
不对称品牌联盟对弱势品牌稀释研究:“攀龙附凤”还是“引火烧身”? 被引量:12
7
作者 郭锐 严良 +1 位作者 苏晨汀 周南 《中国软科学》 CSSCI 北大核心 2010年第2期132-141,共10页
本研究借助最小均方联结模型来解释和分析不对称品牌联盟对弱势品牌的稀释作用。同时,利用实验证明了该种稀释作用的存在,而且可以利用业务多元化和品牌互补性来调节或减缓该负面作用。该研究对中国日益盛行的国内和国际品牌联盟提出警... 本研究借助最小均方联结模型来解释和分析不对称品牌联盟对弱势品牌的稀释作用。同时,利用实验证明了该种稀释作用的存在,而且可以利用业务多元化和品牌互补性来调节或减缓该负面作用。该研究对中国日益盛行的国内和国际品牌联盟提出警示即中国品牌与国际品牌的联合可能由"攀龙附凤"的惊喜落到"引火烧身"的恶果。 展开更多
关键词 品牌联盟非对称性 品牌稀释 最小均方模型(LMS) 业务多元化 品牌互补性
在线阅读 下载PDF
决策的选择偏好研究述评 被引量:19
8
作者 李艾丽莎 张庆林 《心理科学进展》 CSSCI CSCD 北大核心 2006年第4期618-624,共7页
决策的选择偏好具有可变性。当前主要有三类不同取向的解释。第一类观点以效用概念为核心,分别讨论了评价模式和效用折扣对选择偏好的影响。第二类观点以心理表征概念为基础,分别提出了建构水平和表征差别对选择偏好的影响。第三类观点... 决策的选择偏好具有可变性。当前主要有三类不同取向的解释。第一类观点以效用概念为核心,分别讨论了评价模式和效用折扣对选择偏好的影响。第二类观点以心理表征概念为基础,分别提出了建构水平和表征差别对选择偏好的影响。第三类观点以联结和人工神经网络概念为要素,分别探讨了心理场距离和规避损失偏向对选择偏好的影响。 展开更多
关键词 决策 选择偏好 效用 心理表征 联结网络
在线阅读 下载PDF
他人知觉的个体构念动态交互模型 被引量:16
9
作者 崔诣晨 王沛 《心理科学进展》 CSSCI CSCD 北大核心 2018年第4期678-687,共10页
他人知觉的个体构念动态交互模型关注在感知他人时不同信息加工水平之间的互动模式,主张低阶加工(如对面孔、声音和肢体运动线索的加工)、类别化加工、刻板印象激活与高阶认知加工之间的交互作用所形成的动态系统对他人知觉起着调控作... 他人知觉的个体构念动态交互模型关注在感知他人时不同信息加工水平之间的互动模式,主张低阶加工(如对面孔、声音和肢体运动线索的加工)、类别化加工、刻板印象激活与高阶认知加工之间的交互作用所形成的动态系统对他人知觉起着调控作用。该动态系统包含提示水平、类别水平、刻板印象水平和高阶水平。由于各加工水平之间的交互作用,这一动态系统在神经网络、加工水平以及加工时间维度上形成了一个具有动态建构特征的循环联结网络,该网络对他人知觉产生动态交互效应。正是这种动态交互效应使得他人印象在个体构念中变得有意义、有秩序和可预测。未来研究应从社会文化与情境互动模式出发,利用内隐社会认知测量与认知神经科学方法,进一步探测个体构念动态交互效应的认知神经基础和社会动因,为他人知觉个体构念的动态建构提供更为坚实的理论与实证依据。 展开更多
关键词 他人知觉 个体构念 循环联结网络 社会类别 刻板印象
在线阅读 下载PDF
学习控制系统 被引量:6
10
作者 邓志东 张再兴 孙增圻 《信息与控制》 CSCD 北大核心 1996年第2期94-103,共10页
一般性地论述了学习控制的基本理论问题,给出了学习与学习控制系统的若干定义,探讨了学习控制与智能控制的关系.基于学习控制的发展历史与研究现状,将学习控制系统划分为基于模式识别的学习控制、异步自学习控制及连接主义的学习控制等... 一般性地论述了学习控制的基本理论问题,给出了学习与学习控制系统的若干定义,探讨了学习控制与智能控制的关系.基于学习控制的发展历史与研究现状,将学习控制系统划分为基于模式识别的学习控制、异步自学习控制及连接主义的学习控制等,并给出了有关的研究进展及存在的问题.最后指出,与模糊逻辑、专家系统的进一步结合,是学习控制系统发展的必然趋势. 展开更多
关键词 学习控制 智能控制 模糊逻辑 专家系统
在线阅读 下载PDF
汉字阅读的联结主义模型 被引量:9
11
作者 杨剑峰 舒华 《心理学报》 CSSCI CSCD 北大核心 2008年第5期516-522,共7页
汉字与英语词汇阅读受到相同统计属性的影响,表现出阅读加工的普遍性,汉字独特的形-音对应关系又体现出阅读的语言特异性。模型1建构与英文阅读模型完全相同的计算机模型,设计汉字的字形与语音表征方案,成功模拟出汉字阅读的规则性、一... 汉字与英语词汇阅读受到相同统计属性的影响,表现出阅读加工的普遍性,汉字独特的形-音对应关系又体现出阅读的语言特异性。模型1建构与英文阅读模型完全相同的计算机模型,设计汉字的字形与语音表征方案,成功模拟出汉字阅读的规则性、一致性效应及其与频率的交互作用,得到与行为实验相同的结果模式;模型2改变声旁独立成字时的字形表征,结果规则性效应消失。模拟结果一方面表明汉字与英语词汇阅读可能具有普遍的加工机制,都是对输入语料的形-音对应关系统计学习的结果;另一方面表明输入语料的不同统计属性可能是汉字阅读的语言特异性来源。 展开更多
关键词 汉字阅读 联结主义 规则性 一致性
在线阅读 下载PDF
基于动态BLSTM和CTC的濒危语言语音识别研究 被引量:9
12
作者 于重重 陈运兵 +3 位作者 孙沁瑶 刘畅 徐世璇 尹蔚彬 《计算机应用研究》 CSCD 北大核心 2019年第11期3334-3337,共4页
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大... 针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大小根据训练模型作自适应调整,不仅能够加快收敛速度,而且能够提高模型的泛化性。通过修改网络层次与结构参数,并提取不同的语音特征进行模型对比,实验结果表明在两种濒危语言——吕苏语和土家语的数据集上均取得了较好的识别效果。 展开更多
关键词 濒危语言语音识别 端到端 动态双向长短时记忆网络 连接时序分类模型
在线阅读 下载PDF
一种基于连接机制和时空经验的认知地图学习与导航方法(英文) 被引量:3
13
作者 刘娟 蔡自兴 涂春鸣 《控制理论与应用》 EI CAS CSCD 北大核心 2003年第2期161-167,共7页
提出了一种连接主义方法 ,利用移动机器人自身的时空经验 ,在缺乏全局坐标信息和环境先验模型的情况下 ,建立面向目标的认知地图 .在线形成的时序处理网络 (TSPN)可提供简洁的历史感知信息 ,以神经元激活特性保存空间知识 ,引导机器人运... 提出了一种连接主义方法 ,利用移动机器人自身的时空经验 ,在缺乏全局坐标信息和环境先验模型的情况下 ,建立面向目标的认知地图 .在线形成的时序处理网络 (TSPN)可提供简洁的历史感知信息 ,以神经元激活特性保存空间知识 ,引导机器人运动 .结合TSPN和反应式行为模块的导航系统可实现动态的路标及方向检测、路径学习和实时导航功能 .仿真和实际实验验证了系统的有效性和适应性 . 展开更多
关键词 移动机器人 仿真 认知地图学习 导航方法 连接机制 时空推理
在线阅读 下载PDF
获得性阅读障碍的“主要系统”假说 被引量:6
14
作者 王小娟 杨剑峰 舒华 《心理科学进展》 CSSCI CSCD 北大核心 2008年第6期868-873,共6页
认知神经心理学为阅读机制的探讨提供了大量的证据,认为不同阅读障碍是不同加工通道选择性受损的结果。近年来,基于联结主义的三角模型理论,研究者提出了主要系统假说(primary system hypothesis),认为阅读障碍是主要的认知系统(如视觉... 认知神经心理学为阅读机制的探讨提供了大量的证据,认为不同阅读障碍是不同加工通道选择性受损的结果。近年来,基于联结主义的三角模型理论,研究者提出了主要系统假说(primary system hypothesis),认为阅读障碍是主要的认知系统(如视觉、语义和语音系统)受损导致的:表层障碍是因为语义系统受损导致的阅读困难,语音和深层障碍是语音和语义系统同时受损时综合症状的连续体。该理论认为各主要系统可能同时是多个认知活动的加工成分,一个系统的受损会影响所有与之相关的认知过程,从而把阅读障碍与其它认知功能障碍联系起来。统一的主要系统受损下对各种获得性阅读障碍形成机制在文中得到详细的解释。 展开更多
关键词 联结主义 “主要系统”假说 表层障碍 语音障碍 深层障碍
在线阅读 下载PDF
心理表征及其特征 被引量:6
15
作者 王亚同 蒋艳菊 《河南大学学报(社会科学版)》 北大核心 2006年第3期165-170,共6页
认知科学的心理表征是有机体环境信息的载体,认知系统具有一种承载信息的内部状态,即中介状态。这种中介状态具有五种特征,即持久性、差异性、抽象性、具有成分结构和受规则控制。讨论心理表征的深层次问题对于说明各种认知能力非常重要。
关键词 认知心理学 心理表征 中介状态 认知系统 连结模型
在线阅读 下载PDF
Recent Progresses in Deep Learning Based Acoustic Models 被引量:11
16
作者 Dong Yu Jinyu Li 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2017年第3期396-409,共14页
In this paper,we summarize recent progresses made in deep learning based acoustic models and the motivation and insights behind the surveyed techniques.We first discuss models such as recurrent neural networks(RNNs) a... In this paper,we summarize recent progresses made in deep learning based acoustic models and the motivation and insights behind the surveyed techniques.We first discuss models such as recurrent neural networks(RNNs) and convolutional neural networks(CNNs) that can effectively exploit variablelength contextual information,and their various combination with other models.We then describe models that are optimized end-to-end and emphasize on feature representations learned jointly with the rest of the system,the connectionist temporal classification(CTC) criterion,and the attention-based sequenceto-sequence translation model.We further illustrate robustness issues in speech recognition systems,and discuss acoustic model adaptation,speech enhancement and separation,and robust training strategies.We also cover modeling techniques that lead to more efficient decoding and discuss possible future directions in acoustic model research. 展开更多
关键词 Attention model convolutional neural network(CNN) connectionist temporal classification(CTC) deep learning(DL) long short-term memory(LSTM) permutation invariant training speech adaptation speech processing speech recognition speech separation
在线阅读 下载PDF
人工语法学习模型述评 被引量:5
17
作者 郭秀艳 杨治良 《心理学探新》 CSSCI 2002年第1期21-26,共6页
述评了近年来影响较大的四个人工语法学习模型———THIYOS分类器系统、竞争组块模型、范例模型和联系者模型。它们都认为 ,人工语法学习所获得的知识中 ,一部分以规则、组块、总体类似性以及激活模式等形式到达意识层面 ,另一部分则残... 述评了近年来影响较大的四个人工语法学习模型———THIYOS分类器系统、竞争组块模型、范例模型和联系者模型。它们都认为 ,人工语法学习所获得的知识中 ,一部分以规则、组块、总体类似性以及激活模式等形式到达意识层面 ,另一部分则残存在力量模式中 ,确定什么内容适合到达意识层面 ;后者即为内隐知识。这四种模型各抒己见 ,各有特点 。 展开更多
关键词 人工语法 意识层面 学习模型 力量 内隐学习 模式 内隐知识 竞争 范例 规则
在线阅读 下载PDF
言语感知的联结主义模型 被引量:3
18
作者 崔刚 杨莉 《外语教学》 CSSCI 北大核心 2009年第5期1-4,9,共5页
言语感知是语言理解的起始阶段,是指听者把连续的语音辨认为单词的过程。本文主要针对联结主义心理语言学对于言语感知的相关研究进行综述与评价,包括语流的切分、音位的识别和单词的辨认三个部分,最后又对相关研究的发展趋势进行了简... 言语感知是语言理解的起始阶段,是指听者把连续的语音辨认为单词的过程。本文主要针对联结主义心理语言学对于言语感知的相关研究进行综述与评价,包括语流的切分、音位的识别和单词的辨认三个部分,最后又对相关研究的发展趋势进行了简要的讨论。 展开更多
关键词 言语感知 联结主义 模型
原文传递
用于岩体质量评价的神经网络专家系统 被引量:5
19
作者 冯夏庭 王泳嘉 《有色金属》 CSCD 1994年第4期1-7,共7页
应用人工神经网络理论,构造了一种面向岩体质量评价的具有直觉联想和推理功能的新型专家系统──神经网络专家系统RENNES。它采用神经网络实现专家直觉知识的获取、表示与推理、知识分布式存储与网络并行推理,因而系统容错性好... 应用人工神经网络理论,构造了一种面向岩体质量评价的具有直觉联想和推理功能的新型专家系统──神经网络专家系统RENNES。它采用神经网络实现专家直觉知识的获取、表示与推理、知识分布式存储与网络并行推理,因而系统容错性好、推理速度快、非线性动态处理与推广能力强、自学习功能强。 展开更多
关键词 直觉联想 神经网络专家系统 连接模型 岩体质量评价
在线阅读 下载PDF
基于链接时序分类的日语语音识别 被引量:3
20
作者 孙健 郭武 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2129-2133,共5页
目前,端到端的语音识别系统因其简洁性和高效性成为大规模连续语音识别的发展趋势.本文将基于链接时序分类的端到端技术应用到日语语音识别上,考虑到日语中平假名、片假名和日语汉字多种书写形式的特性,通过在日语数据集上的实验,探讨... 目前,端到端的语音识别系统因其简洁性和高效性成为大规模连续语音识别的发展趋势.本文将基于链接时序分类的端到端技术应用到日语语音识别上,考虑到日语中平假名、片假名和日语汉字多种书写形式的特性,通过在日语数据集上的实验,探讨了不同建模单元对识别性能的影响;进一步将音素信息应用到模型的初始网络训练中,改善语音识别系统性能,最终效果优于基于隐马尔可夫模型和双向长短时记忆网络的主流语音识别系统. 展开更多
关键词 语音识别 日语 链接时序分类 端到端
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部