期刊文献+
共找到121篇文章
< 1 2 7 >
每页显示 20 50 100
基于自注意力机制说话人编码器与SA-Decoder的语音克隆方法 被引量:1
1
作者 焦乐岩 朱欣娟 《计算机与现代化》 2025年第7期69-76,共8页
FreeVC模型在语音克隆技术领域表现出色。但是由于语音序列中包含复杂的语音特征变化和信息,例如音色、风格等,FreeVC模型中的Speaker Encoder模块只使用单一的LSTM网络难以准确地提取和表示说话人信息,这会导致模型处理语音序列的性能... FreeVC模型在语音克隆技术领域表现出色。但是由于语音序列中包含复杂的语音特征变化和信息,例如音色、风格等,FreeVC模型中的Speaker Encoder模块只使用单一的LSTM网络难以准确地提取和表示说话人信息,这会导致模型处理语音序列的性能下降,影响声音转换质量和准确性。并且FreeVC模型使用传统的解码器,其中上采样(反卷积)操作细节丢失,导致重建还原的音频咬字细节会模糊不清,从而产生音频伪影。针对这些问题,本文提出一种基于自注意力机制的说话人编码器与SA-Decoder的语音克隆方法FreeVC-SA。该方法将说话人的梅尔谱作为输入,在LSTM网络上加入自注意力机制有助于模型更好地捕捉长距离依赖关系,更为准确地提取说话人的音色、风格等特征。使用SA-Decoder可以很好地解决局部感受野限制问题,使得重建生成的语音克隆效果更加真实、清晰。实验结果表明,与所有基线模型相比,FreeVC-SA语音克隆的自然度相似性和情感相似性均有明显提升,字错误率和字符错误率均有明显下降。 展开更多
关键词 语音克隆 说话人编码器 SA-decoder 自注意力机制 FreeVC-SA
在线阅读 下载PDF
Realtime robust speech communication based on iterative joint source-channel decoding and demodulation algorithm for MELP vocoder
2
作者 彭坦 Cui Huijuan Tang Kun 《High Technology Letters》 EI CAS 2010年第2期111-116,共6页
Realtime speech communications require high efficient compression algorithms to encode speech signals. As the compressed speech parameters are highly sensitive to transmission errors, robust source and channel decodin... Realtime speech communications require high efficient compression algorithms to encode speech signals. As the compressed speech parameters are highly sensitive to transmission errors, robust source and channel decoding and demodulation schemes are both important and of practical use. In this paper, an it- erative joint souree-channel decoding and demodulation algorithm is proposed for mixed excited linear pre- diction (MELP) vocoder by both exploiting the residual redundancy and passing soft information through- out the receiver while introducing systematic global iteration process to further enhance the performance. Being fully compatible with existing transmitter structure, the proposed algorithm does not introduce addi- tional bandwidth expansion and transmission delay. Simulations show substantial error correcting perfor- mance and synthesized speech quality improvement over conventional separate designed systems in delay and bandwidth constraint channels by using the joint source-channel decoding and demodulation (JSCCM) algorithm. 展开更多
关键词 speech coding joint souree-channel coding and modulation (JSCCM) iterative decoding
在线阅读 下载PDF
基于掩码特征交叉预解网络的综采工作面语音分离方法
3
作者 王科平 姚凯濠 +2 位作者 杨艺 钱伟 王田 《工矿自动化》 北大核心 2026年第2期163-168,176,共7页
综采工作面复杂非平稳机械噪声严重干扰井下调度通信,现有基于时域音频分离网络(TasNet)架构(编码器−掩码网络−解码器)的语音分离方法生成的目标语音掩码易残留噪声与干扰语音成分,且抑制噪声时会损伤目标语音特征,导致语音分离精度下... 综采工作面复杂非平稳机械噪声严重干扰井下调度通信,现有基于时域音频分离网络(TasNet)架构(编码器−掩码网络−解码器)的语音分离方法生成的目标语音掩码易残留噪声与干扰语音成分,且抑制噪声时会损伤目标语音特征,导致语音分离精度下降。针对上述问题,提出一种基于掩码特征交叉预解网络的综采工作面语音分离方法。掩码特征交叉预解网络集成于TasNet的掩码网络之后,主要包含掩码特征提取模块与特征交叉预解模块:掩码特征提取模块通过拼接操作与卷积门控模块学习不同目标语音掩码中的噪声关联特征,生成噪声关联互补权重,利用该权重对目标语音掩码进行互补加权,实现噪声过滤;特征交叉预解模块对不同目标语音掩码特征进行交叉互补融合,挖掘目标语音掩码间的关联信息,再利用卷积门控与残差增强模块对掩码进行净化和补偿,避免微弱语音被掩盖,保护噪声抑制过程中可能被损伤的目标语音。实验结果表明,所提方法与卷积时域音频分离网络(Conv−TasNet)、双路径循环神经网络(DPRNN)、双路径Transformer网络(DPTNet)、全局注意力局部循环网络(GALR)等主流基于TasNet架构的语音分离方法相比,尺度不变信噪比改善值(SI−SNRi)分别提升了3.52,1.74,1.40,2.09 dB,信号失真比改善值(SDRi)分别提升了3.21,1.45,1.14,1.80 dB,且参数量较少;所提方法可基于内置神经网络处理单元(NPU)的嵌入式芯片部署,模块尺寸较小、算力消耗低,满足井下语音终端小型化、低功耗的工程应用需求。 展开更多
关键词 语音分离 综采工作面 掩码特征交叉预解网络 掩码特征提取 噪声抑制 调度通信
在线阅读 下载PDF
基于混合头注意力机制的Whisper语音识别方法
4
作者 张永梅 齐昊宇 郭奥 《北方工业大学学报》 2026年第1期25-35,共11页
随着信号处理技术和深度学习的快速发展,基于语音的应用已广泛服务于智能制造、智能家居等各个领域。语音识别作为人机交互中决定机器是否能理解对话意图的关键步骤,在语音应用中有着非常重要的研究价值。针对当前语音识别模型上下文高... 随着信号处理技术和深度学习的快速发展,基于语音的应用已广泛服务于智能制造、智能家居等各个领域。语音识别作为人机交互中决定机器是否能理解对话意图的关键步骤,在语音应用中有着非常重要的研究价值。针对当前语音识别模型上下文高层特征利用率低以及所使用的多头注意力机制存在冗余头影响推理效率的问题,本文提出混合头注意力机制改进的Whisper语音识别方法。首先,通过引入混合头注意力机制解决原模型中多头自注意力机制存在的无效注意力头问题,同时保留部分共享专家共享语言经验,增强上下文感知,提升语言基础知识的学习效率;然后,通过设置多个编码器单元逐步提取高层特征,有效增强了深层特征的表示能力,从而提升了语音识别中高级语义信息的识别精度;最后,选取RNN-T、SA-T、Masked-NAT和Speech Transformer等模型进行了对比实验,并与基线模型Whisper进行了消融实验对比。实验结果表明,在普通话和粤语两种语言数据集上,本文的方法降低了字错误率,提升了推理速度。 展开更多
关键词 语音识别 多头注意力 混合专家机制 端到端 语音编解码
在线阅读 下载PDF
言语想象脑电解码及神经可解释性研究
5
作者 税睿 赵瑞 张军鹏 《神经解剖学杂志》 北大核心 2026年第1期24-32,共9页
目的:为提升非侵入式脑机接口中言语想象任务的解码精度,本研究构建了一套基于多任务语言范式的脑电信号(EEG)识别框架。方法:采用公开发布的高密度言语想象EEG数据集。针对信号维度高与噪声干扰强的问题,分别在时域利用主成分分析(PCA... 目的:为提升非侵入式脑机接口中言语想象任务的解码精度,本研究构建了一套基于多任务语言范式的脑电信号(EEG)识别框架。方法:采用公开发布的高密度言语想象EEG数据集。针对信号维度高与噪声干扰强的问题,分别在时域利用主成分分析(PCA)进行特征降维,在频域采用共空间模式(CSP)提取判别性特征,并结合支持向量机(SVM)、随机森林(RF)与多层感知机(MLP)开展分类建模。结果:PCA-SVM组合在时域平均准确率达99%,CSP结合机器学习分类器在频域识别性能亦达到99%。结论:基于SHAP的可解释性分析揭示前额极及Broca区在语言加工中的主导作用。结果表明,该方法在复杂任务结构下具备较高的解码鲁棒性和良好的神经可解释性,为后续语言型脑机接口(BCI)系统和脑电语义建模相关研究提供方法学参考。 展开更多
关键词 脑电信号 脑机接口 支持向量机 主成分分析 共空间模式 言语解码
原文传递
基于时间同步递归注意力机制的编码器-解码器语音识别
6
作者 高亮 倪恒 《计算机应用与软件》 北大核心 2025年第10期198-205,共8页
为了保证语音识别的精度与实时性,提出一种基于时间同步递归注意力机制的编码器-解码器语音识别方法。引入无窗口注意机制,不需要多次训练从而节省模型准备时间;使用时间同步递归更新规则而不是基于核函数平滑器的公式来获得上下文向量... 为了保证语音识别的精度与实时性,提出一种基于时间同步递归注意力机制的编码器-解码器语音识别方法。引入无窗口注意机制,不需要多次训练从而节省模型准备时间;使用时间同步递归更新规则而不是基于核函数平滑器的公式来获得上下文向量,进一步通过调整与注意力端点决策相关的标量阈值来控制延迟和性能之间的权衡;通过实验验证该方法既保证了识别精度,也能够实现在线识别。 展开更多
关键词 语音识别 时间同步递归 注意力机制 编码器-解码器
在线阅读 下载PDF
融合双视角特征的两阶段脑控语音增强 被引量:1
7
作者 邱泽林 姚鼎鼎 李军锋 《声学学报》 北大核心 2025年第2期362-372,共11页
提出一种融合双视角特征的两阶段脑控语音增强方法。首先使用语音分离算法对混合语音进行分离,然后利用一种融合双视角特征的端到端语音增强模块进行听觉注意解码,并根据解码结果对所分离的语音进行选择性输出。该增强模块一方面提取脑... 提出一种融合双视角特征的两阶段脑控语音增强方法。首先使用语音分离算法对混合语音进行分离,然后利用一种融合双视角特征的端到端语音增强模块进行听觉注意解码,并根据解码结果对所分离的语音进行选择性输出。该增强模块一方面提取脑电信号中与语音能量变化等相关的动态特征,另一方面提取与说话人发声特性相关的静态特征,使混合语音能够更好地与脑电信号中的注意力信息相融合。由于增强模块仅被用于解码,与已有方法相比,所提方法在有效获取注意力信息的同时,降低了脑电信号对语音输出质量的负面影响。实验结果表明,在“2024稀疏脑辅助式语音增强挑战赛”数据集上,所提方法能够使目标语音的信号失真比提升18.08 dB,比已有方法高6.44 dB,且在使用较少脑电通道或较低信噪比的脑电信号时,仍能保持较高的语音输出质量。 展开更多
关键词 语音增强 听觉注意解码 脑电信号 神经网络
原文传递
改进Transformer解码器的端到端语音识别 被引量:1
8
作者 胡恒博 牛铜 何振华 《计算机应用》 北大核心 2025年第S1期95-100,共6页
Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进... Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进的Transformer解码器。将Transformer解码器中的2种注意力机制拆分为2个单独模块,再使用交叉注意力进行更高效的局部特征捕获。在开源中文普通话AISHELL-1数据集上的实验结果表明,使用能够捕获局部特征的编码器时,该解码器相较于Transformer解码器有着更好的识别效果。具体地,当编码器为Conformer时,字错误率(CER)降低了16.19%,且收敛速度更快,而在使用了连接时序分类(CTC)进行辅助解码后,CER降低了5.08%,最终的CER为4.67%。 展开更多
关键词 交叉注意力 Transformer解码器 Conformer编码器 语音识别 局部特征
在线阅读 下载PDF
基于多视角注意力的异构双分支解码单通道语音增强
9
作者 更藏措毛 黄鹤鸣 《计算机应用》 北大核心 2025年第10期3284-3293,共10页
针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous DualBranch with Multi-View)。该模... 针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous DualBranch with Multi-View)。该模型通过信息融合编码器(IFE)、时频残差Conformer(TFRC)模块、多视角注意力(MVA)模块和异构双分支解码器(HDBD)等机制,提升单通道语音增强的性能。首先,IFE联合处理振幅与复数特征,捕捉全局依赖和局部相关,生成紧凑的特征表示;其次,TFRC模块有效捕捉时间维度和频域维度上的相关性,同时降低计算复杂度;再次,MVA模块重构通道域和时频域信息,进一步增强模型对信息的多视角多层次的表征能力;最后,HDBD分别处理幅度特征和细化复数特征,解决幅度相位补偿问题,提升解码鲁棒性。实验结果表明,HDBMV在公开数据集VoiceBank+DEMAND、大数据集DNS Challenge 2020和自建的藏语数据集BodSpeDB上的语音质量感知评估(PESQ)分别达到了3.00、3.12和2.09,短时目标可理解度(STOI)分别达到了0.96、0.97和0.81。可见,HDBMV以最小的参数量和较高的计算效率获得了最佳的语音增强性能和较强的泛化能力。 展开更多
关键词 语音增强 编解码器 CONFORMER 注意力机制 复数特征
在线阅读 下载PDF
基于流的轻量化高质量文本到语音转换方法
10
作者 文连庆 陶冶 +2 位作者 田云龙 牛丽 孙宏霞 《计算机应用》 北大核心 2025年第10期3277-3283,共7页
非自回归的文本到语音(NAR-TTS)模型的发展使得快速且高质量的语音合成成为可能。然而,合成语音的韵律仍有待提升,且在文本单元与语音之间存在一对多的问题,导致难以生成具有丰富韵律且高质量的梅尔频谱。此外,现有的NAR-TTS模型中存在... 非自回归的文本到语音(NAR-TTS)模型的发展使得快速且高质量的语音合成成为可能。然而,合成语音的韵律仍有待提升,且在文本单元与语音之间存在一对多的问题,导致难以生成具有丰富韵律且高质量的梅尔频谱。此外,现有的NAR-TTS模型中存在大量冗余的神经网络。因此,提出一种基于流的轻量化高质量NAR-TTS方法——AirSpeech。首先,分析文本,得到不同粒度的语音特征编码;其次,采用基于注意力机制的技术对齐这些特征编码,从混合编码中提取韵律信息;在此过程中,利用长短距离注意力(LSRA)机制和单一网络技术使特征提取轻量化;最后,设计基于流的解码器,从而显著降低模型的参数量和峰值内存,并通过引入仿射耦合层(ACL),使解码出的梅尔频谱更细致和自然。实验结果表明,相较于BVAE-TTS和PortaSpeech方法,AirSpeech的结构相似性(SSIM)和平均意见得分(MOS)指标更优,能够兼顾合成语音的高质量和模型的轻量化。 展开更多
关键词 语音合成 多粒度特征提取 丰富韵律 流语音解码器 仿射耦合层 轻量化
在线阅读 下载PDF
非侵入性连续中文语言语义解码与重建
11
作者 马磊 崔文浩 +1 位作者 杨汶汶 王朝欣 《数据采集与处理》 北大核心 2025年第3期616-636,共21页
语言是沟通和认知的基础,大脑多功能区域通过复杂神经网络共同参与语言的感知、理解与生成,深入探索中文语义解码的神经机制对于中文脑机接口(Brain-computer interface,BCI)的研究意义重大。本研究旨在构建一种基于功能性磁共振成像(Fu... 语言是沟通和认知的基础,大脑多功能区域通过复杂神经网络共同参与语言的感知、理解与生成,深入探索中文语义解码的神经机制对于中文脑机接口(Brain-computer interface,BCI)的研究意义重大。本研究旨在构建一种基于功能性磁共振成像(Functional magnetic resonance imaging,fMRI)的长序列中文连续语义解码方法,称为中文长序列连续语义解码器(Chinese long-sequence continuous semantic decoder,CLCSD),通过信号处理流程和算法优化,实现连续中文语义的高效解码。CLCSD包含神经响应降维、编码模型、语速模型和束搜索解码模型4个部分。神经响应降维通过皮层重建、图像配准和脑区划定等方法,将4维脑响应数据降为2维矩阵。编码模型采用L2正则化回归(岭回归)建立刺激特征与脑响应之间的关系,通过自举法估计噪声协方差以增强泛化。语速模型采用与编码模型类似的思路,将脑响应特征映射到预测的语速。束搜索解码模型利用语言模型的先验概率和编码模型的似然概率,通过束搜索生成最可能的语义序列。CLCSD在公开数据集SMN4Lang上取得了0.674的BERTScore,高于其他长序列中文连续语义解码模型。本研究提出一种高效的长序列中文连续语义解码方法,为中文脑机接口技术的发展提供理论基础和方法参考。 展开更多
关键词 脑机接口 中文语义解码 岭回归 语速模型 束搜索
在线阅读 下载PDF
深度学习在解码大脑语音信息中的应用
12
作者 杨淑淇 谭颖 《西南民族大学学报(自然科学版)》 2025年第3期315-322,共8页
医疗保健和神经科学界长期致力于从大脑活动中解码语言信息.脑机接口在支持获得性脑损伤患者通过大脑信号重新与周围环境建立交流方面获得了突破性进展.然而,获取脑信号的方式无法长期地维持且提取到的脑信号中存在大量噪声,因此提高数... 医疗保健和神经科学界长期致力于从大脑活动中解码语言信息.脑机接口在支持获得性脑损伤患者通过大脑信号重新与周围环境建立交流方面获得了突破性进展.然而,获取脑信号的方式无法长期地维持且提取到的脑信号中存在大量噪声,因此提高数据的信噪比具有重要意义.近年来,人工智能在提取和汇聚大量原始数据特征方面展现出了卓越的性能.总结了一系列基于深度学习从人类大脑信号中解码语音的特征提取技术.首先对这些技术涉及的深度学习方法进行了介绍,接下来对这些技术的具体应用进行了列举,最后对如何更好将人工智能技术应用于解码大脑语音信息做出了展望. 展开更多
关键词 神经元解码 音频和语音处理 深度学习 计算认知科学
在线阅读 下载PDF
基于U-net的多尺度SLSTM注意力语音增强网络
13
作者 李威浩 何云鹏 高勇 《通信技术》 2025年第11期1187-1194,共8页
针对现有单通道语音增强模型参数量大、复杂噪声抑制能力不足的问题,提出了一种基于U-net的多尺度堆叠式LSTM(SLSTM)注意力语音增强网络(MSDU-Net)。该网络采用改进的细节增强卷积长短期记忆模块(DE_SLSTM),通过中心差分、角相位差分等... 针对现有单通道语音增强模型参数量大、复杂噪声抑制能力不足的问题,提出了一种基于U-net的多尺度堆叠式LSTM(SLSTM)注意力语音增强网络(MSDU-Net)。该网络采用改进的细节增强卷积长短期记忆模块(DE_SLSTM),通过中心差分、角相位差分等多向差分卷积增强特征表达能力,结合SLSTM优化时序建模。然后构建U形编解码架构实现时频域多尺度特征融合,并设计幅度和相位双分支解码器联合优化来进行频谱重建。在VoiceBank+DEMAND数据的测试集上,所提网络以790万参数量取得PESQ较高评分。此外,该模型在保持相对轻量化的同时,展现出不错的噪声抑制和语音保真能力。 展开更多
关键词 语音增强 神经网络 时频域 编码解码 堆叠LSTM U-net 注意力机制
在线阅读 下载PDF
Deep Learning-Based Lip-Reading for Vocal Impaired Patient Rehabilitation
14
作者 Chiara Innocente Matteo Boemio +6 位作者 Gianmarco Lorenzetti Ilaria Pulito Diego Romagnoli Valeria Saponaro Giorgia Marullo Luca Ulrich Enrico Vezzetti 《Computer Modeling in Engineering & Sciences》 2025年第5期1355-1379,共25页
Lip-reading technology,based on visual speech decoding and automatic speech recognition,offers a promising solution to overcoming communication barriers,particularly for individuals with temporary or permanent speech ... Lip-reading technology,based on visual speech decoding and automatic speech recognition,offers a promising solution to overcoming communication barriers,particularly for individuals with temporary or permanent speech impairments.However,most Visual Speech Recognition(VSR)research has primarily focused on the English language and general-purpose applications,limiting its practical applicability in medical and rehabilitative settings.This study introduces the first Deep Learning(DL)based lip-reading system for the Italian language designed to assist individuals with vocal cord pathologies in daily interactions,facilitating communication for patients recovering from vocal cord surgeries,whether temporarily or permanently impaired.To ensure relevance and effectiveness in real-world scenarios,a carefully curated vocabulary of twenty-five Italian words was selected,encompassing critical semantic fields such as Needs,Questions,Answers,Emergencies,Greetings,Requests,and Body Parts.These words were chosen to address both essential daily communication and urgent medical assistance requests.Our approach combines a spatiotemporal Convolutional Neural Network(CNN)with a bidirectional Long Short-Term Memory(BiLSTM)recurrent network,and a Connectionist Temporal Classification(CTC)loss function to recognize individual words,without requiring predefined words boundaries.The experimental results demonstrate the system’s robust performance in recognizing target words,reaching an average accuracy of 96.4%in individual word recognition,suggesting that the system is particularly well-suited for offering support in constrained clinical and caregiving environments,where quick and reliable communication is critical.In conclusion,the study highlights the importance of developing language-specific,application-driven VSR solutions,particularly for non-English languages with limited linguistic resources.By bridging the gap between deep learning-based lip-reading and real-world clinical needs,this research advances assistive communication technologies,paving the way for more inclusive and medically relevant applications of VSR in rehabilitation and healthcare. 展开更多
关键词 LIP-READING deep learning automatic speech recognition visual speech decoding 3D convolutional neural network
在线阅读 下载PDF
基于条件随机场(CRFs)的中文词性标注方法 被引量:58
15
作者 洪铭材 张阔 +1 位作者 唐杰 李涓子 《计算机科学》 CSCD 北大核心 2006年第10期148-151,155,共5页
本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标... 本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。 展开更多
关键词 词性标注 条件随机场 维特比解码
在线阅读 下载PDF
基于扩展N元文法模型的快速语言模型预测算法 被引量:5
16
作者 单煜翔 陈谐 +1 位作者 史永哲 刘加 《自动化学报》 EI CSCD 北大核心 2012年第10期1618-1626,共9页
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现... 针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~9倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度. 展开更多
关键词 语音识别 语言模型预测 N元文法模型 解码
在线阅读 下载PDF
汉语分词和词性标注一体化分析的方法研究 被引量:4
17
作者 付国宏 王平 王晓龙 《计算机应用研究》 CSCD 北大核心 2001年第7期24-26,共3页
提出了一种汉语文本切分和词性标注相融合的一体化分析的统计模型,并应用动态规划算法与A*解码算法相结合的二次搜索算法,实现了一个基于该模型的汉语词法分析器。初步的开放测试表明,该分析器的分词准确率和词性标注正确率分别可... 提出了一种汉语文本切分和词性标注相融合的一体化分析的统计模型,并应用动态规划算法与A*解码算法相结合的二次搜索算法,实现了一个基于该模型的汉语词法分析器。初步的开放测试表明,该分析器的分词准确率和词性标注正确率分别可达98.67%和95.49%。 展开更多
关键词 汉语分词 词性标注 A^*解码算法 一体化分析 自然语言处理
在线阅读 下载PDF
ADPCM语音解码合成输出系统的设计 被引量:5
18
作者 杨白 唐宁 +1 位作者 汪洋 屈星 《光通信研究》 北大核心 2009年第1期33-35,共3页
文章介绍了自适应差分脉冲编码调制(ADPCM)技术的编解码和脉冲宽度调制(PWM)技术的基本原理,研究在现场可编程门阵列(FPGA)上通过有限状态机方式实现ADPCM语音解码算法,利用PWM技术将解码后的数字语音信号转化为PWM波,以此直接驱动喇叭... 文章介绍了自适应差分脉冲编码调制(ADPCM)技术的编解码和脉冲宽度调制(PWM)技术的基本原理,研究在现场可编程门阵列(FPGA)上通过有限状态机方式实现ADPCM语音解码算法,利用PWM技术将解码后的数字语音信号转化为PWM波,以此直接驱动喇叭发出声音,输出的合成语音质量良好。 展开更多
关键词 现场可编程门阵列 自适应差分脉冲编码调制 语音解码器 脉冲宽度调制 状态机
在线阅读 下载PDF
基于G.729算法的新型语音通信系统的实现 被引量:10
19
作者 孙祥娥 汪忠德 《微计算机信息》 北大核心 2005年第4期152-153,共2页
在简单介绍G.729算法的编解码原理的基础上,介绍了如何用TMS320VC5402 DSP实现该算法。详细介绍了硬件的实现框图和软件实现的流图,文章的最后给出了实验结果并对其作了分析。
关键词 G.729算法 语音通信系统 TMS320VC5402 DSP实现 解码原理 软件实现 详细介绍 流图 框图 硬件
在线阅读 下载PDF
会话智能代理与语音自动识别 被引量:8
20
作者 冯志伟 詹宏伟 《外语学刊》 CSSCI 北大核心 2018年第1期13-23,共11页
本文从会话智能代理的角度,论述语音自动识别的原理和方法,分析特征提取阶段、声学建模阶段和解码阶段的基本原理,最后介绍语音识别研究的历史与现状。
关键词 智能代理 语音自动识别 特征抽取阶段 声学建模阶段 解码阶段
原文传递
上一页 1 2 7 下一页 到第
使用帮助 返回顶部