期刊文献+
共找到80篇文章
< 1 2 4 >
每页显示 20 50 100
Implementation of ITU-T G.729 Speech Codec in IP Telephony Gateway
1
作者 HUANG Yong feng,ZHANG Jiang ling National Storage System Lab, School of Computer, Huazhong University of Science & Technology, Wuhan 430074,China 《Wuhan University Journal of Natural Sciences》 CAS 2000年第2期159-163,共5页
ITU-T G. 729 is the primarily recommended speech codec by H. 323 standard. This paper describes how to implement G. 729 codec in IP telephony gateway, and goes deep into the programming skills on TMS320C6201 DSP and o... ITU-T G. 729 is the primarily recommended speech codec by H. 323 standard. This paper describes how to implement G. 729 codec in IP telephony gateway, and goes deep into the programming skills on TMS320C6201 DSP and optimizing methods of program code to reduce the speech processing delay time of G. 729 codec. Due to adopting these optimizing methods and programming skills, we have implemented a high-speed speech codec that can process concurrently 20 voice channels with single TMS320C6201 chip in IP telephony gateway. Finally, the paper analyzes the performance results of ITU-T G. 729 codec based on TMS320C6201. 展开更多
关键词 Key words ITU T G. 729 IP telephony gateway speech codec
在线阅读 下载PDF
Study of low bit rate speech codec algorithm in underwater acoustic communication 被引量:4
2
作者 XIAO Dong MO Fuyuan +2 位作者 CHEN Geng GUO Shengming MA Li 《Chinese Journal of Acoustics》 2013年第4期411-424,共14页
At medium or long distance (〉 10 kin) underwater acoustic speech communication, information transfer rate is constrained by the complicated, time varying channel and limited bandwidth. The bit rate of speech coding... At medium or long distance (〉 10 kin) underwater acoustic speech communication, information transfer rate is constrained by the complicated, time varying channel and limited bandwidth. The bit rate of speech coding is required to be as low as possible. The time delay of underwater acoustic wave propagation can be used for low bit rate speech coding. After investigating the Mixed Excitation Linear Prediction (MELP) standard and taking account of the auditory perceptual features, a variable and adjustable bit rate speech codec algorithm has been proposed, whose average bit rate is about 600 bps. The average Perceptual Evaluation of Speech Quality Mean Opinion Score (PESQ MOS) of synthesized speeches is about 2.8. It has been proved by the computer simulation and sea trial that the performance of the proposed algorithm is well and robust when bit error rate is no more than 10-3. The synthesized speech is vivid and intelligible, and keeps main individual characteristics of speaker. 展开更多
关键词 MELP Study of low bit rate speech codec algorithm in underwater acoustic communication RATE
原文传递
VALL-E R:利用单调对齐策略的鲁棒且高效零样本语音合成 被引量:1
3
作者 韩冰 钱彦旻 《信号处理》 北大核心 2025年第9期1537-1546,共10页
借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错... 借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错误、遗漏和重复等鲁棒性问题。为了解决上述问题,我们提出了VALL-E R,一个鲁棒且高效的零样本TTS系统,并以VALL-E为基础进行构建。具体而言,我们引入了一种音素单调对齐策略,通过约束声学标记与其对应的音素严格匹配,增强了音素与声学序列之间的映射关系,从而确保更精确的对齐。此外,我们采用编解码器合并的方法,在浅层量化层对离散码进行降采样,以减少解码计算量,同时保持语音输出的高质量。受益于这些策略,VALL-E R在音素可控性方面取得了显著提升,并通过逼近真实语音的词错误率展现了卓越的鲁棒性。此外,该系统仅需较少的自回归推理步骤,推理时间降低超过60%,极大提升了推理效率。 展开更多
关键词 零样本语音合成 单调对齐 合并编码 鲁棒性 高效性
在线阅读 下载PDF
基于梅尔谱与压缩激励加权量化的语音神经编解码方法
4
作者 周俊佐 易江燕 +2 位作者 陶建华 任勇 汪涛 《计算机研究与发展》 北大核心 2025年第11期2725-2736,共12页
目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法... 目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法旨在保持较高语音感知质量的同时降低计算代价,加快运行速度,从而减少时延.具体而言,采用梅尔谱特征作为输入,借助梅尔谱提取过程中时域压缩的性质,并结合低层卷积编码器以简化运算过程.此外,借鉴压缩激励网络思想,提取了编码器最后一层输出特征各维度的激励权重,将其作为量化器中计算码本距离时压缩特征各维度的权重系数,由此学习特征间的相关性并优化量化性能.在LibriTTS和VCTK数据集上的实验结果表明,该方法显著提升了编码器计算速度,且能在较低比特率时(≤3 Kbps)提升重建语音质量.以比特率1.5 Kbps时为例,编码计算实时率(real-time factor,RTF)最多可提升4.6倍.对于感知质量,以0.75 Kbps为例,短时客观可懂度(shorttime objective intelligibility,STOI)、虚拟语音质量客观评估(virtual speech quality objective listener,VISQOL)等客观指标相较基线平均可提升8.72%.此外,消融实验不仅表明压缩激励权重方法的优化效果与比特率呈反相关,而且发现Relu激活函数相较周期性质激活函数Snake而言,在语音感知质量相当的情况下,能大量加快运行速度. 展开更多
关键词 语音编解码 梅尔谱图 压缩激励网络 残差矢量量化 生成对抗网络
在线阅读 下载PDF
基于残差膨胀卷积与门控编解码网络的语音增强
5
作者 李珂 王雅静 +1 位作者 昝志辉 齐瑞洁 《电子测量与仪器学报》 北大核心 2025年第4期74-83,共10页
语音信号的时序依赖性特征和上下文信息在语音增强任务中至关重要,针对编解码网络对其捕获不充分导致增强效果差的问题,构建了一种非对称的残差膨胀卷积与门控编解码网络(RD-EGN),该网络包含编码器、中间层和解码器3部分。编码器设计了... 语音信号的时序依赖性特征和上下文信息在语音增强任务中至关重要,针对编解码网络对其捕获不充分导致增强效果差的问题,构建了一种非对称的残差膨胀卷积与门控编解码网络(RD-EGN),该网络包含编码器、中间层和解码器3部分。编码器设计了一种因果卷积层结构,以时序特征建模,捕获语音序列中不同层的特征,并保持语音信号的因果性;中间层设计了残差膨胀卷积网络(RDCN),融合膨胀卷积、残差连接和级联的扩张块使网络拥有更高的感受野,以跨层的方式传递信息并提取语音长时依赖性特征,在此基础上将RDCN与长短时记忆网络相结合,捕获更广泛的上下文信息;解码器引入门控机制,动态调整信息流的门控程度,获得更丰富的全局特征并重建增强语音。分别在TIMIT、UrbanSound8k、VoiceBank及NOISE92数据集上进行消融及性能对照,实验结果表明,RD-EGN相较于卷积循环网络(CRN)、自编码器卷积神经网络(AECNN)、膨胀-密集自动编码器(DDAEC)等具有较少的训练参数和较高的SSNR得分、主观评价指标(CSIG,CBAK和COVL)得分,并且在客观评价指标方面,语音质量客观评价指标(PESQ)提高了2.5%~7.1%,短时客观可懂度(STOI)提高了1%~5.3%,具有较为突出的增强性能与泛化能力。 展开更多
关键词 语音增强 深度学习 编解码网络 膨胀卷积 门控机制
原文传递
信息解耦式自监督预训练语音大模型
6
作者 王龙标 江宇 +2 位作者 王天锐 王晓宝 党建武 《中国图象图形学报》 北大核心 2025年第5期1272-1285,共14页
目的探讨了一种基于语音信息解耦策略的语音预训练大模型,利用海量无标注语音数据提取独立的语言信息、副语言信息和非语言信息,为下游的大语言模型和生成模型提供完备且可控的语音信息,推动言语交互系统的发展。方法提出了一种基于信... 目的探讨了一种基于语音信息解耦策略的语音预训练大模型,利用海量无标注语音数据提取独立的语言信息、副语言信息和非语言信息,为下游的大语言模型和生成模型提供完备且可控的语音信息,推动言语交互系统的发展。方法提出了一种基于信息解耦的自监督语音表征学习大模型,以高效解耦韵律、说话人及内容特征。在编码器风格的自监督预训练策略基础上,引入两个轻量化模块,增强韵律和说话人特征提取。同时为避免已提取的信息干扰内容信息的学习,模型通过残差机制将其从主分支中剔除,并采用语音掩码预测机制训练主分支,以优化深层特征在语言处理任务中的表现。通过结合多层特征并调整权重,模型能够获取适用于各类下游任务的特定特征。此外,提出的渐进式解码器优化了预训练大模型在语音生成任务中的适应性。结果实验结果表明,本文方法针对不同数量音频训练的两个版本模型(Base和Large)在多项任务中均表现优越。与HuBERT(speech processing universal performance benchmark)模型相比,Base版本在语音识别、说话人验证和情感识别任务中的准确率分别提升5.65%、13.02%和2.43%;Large版本分别提升2.53%、5.76%和1.78%。在情感音色转换任务中,相较于基线模型ConsistencyVC和wav2vec-vc,本文模型在说话人相似度、情感相似度、词错率和感知质量评分等指标上均有所提升,进一步验证了模型的有效性。结论通过将信息解耦思路融入自监督预训练特征提取大模型,有效提升了模型对语音信息的解析与重构能力,为言语交互大模型提供了新的研究视角与实用工具。本文开源代码地址:https://github.com/wangtianrui/ProgRE。 展开更多
关键词 信息解耦 自监督学习(SSL) 语音编解码 言语交互大模型 语音合成
原文传递
列车数字无线调度通信系统语音质量评价方法研究
7
作者 张驰 朱红 +1 位作者 孙亮 洪波 《铁道通信信号》 2025年第11期66-71,共6页
为确保列车数字无线调度通信中语音通话质量在实际工程建设中可评价,对列车数字无线调度通信系统(DRTD)中语音质量及验收过程中的评价方法展开研究。分析DRTD中端到端语音传输处理方式,对语音质量评价体系的适应性进行研究总结。针对端... 为确保列车数字无线调度通信中语音通话质量在实际工程建设中可评价,对列车数字无线调度通信系统(DRTD)中语音质量及验收过程中的评价方法展开研究。分析DRTD中端到端语音传输处理方式,对语音质量评价体系的适应性进行研究总结。针对端到端传输过程中有线侧与无线空口侧的信号传播过程,研究语音数据格式转换及编码方式。分析DRTD语音业务特点、语音质量评价涉及的关键参数,结合不同评价方法的适用场景,考虑到编码速率高压缩比造成的接收端信号与原始信号差异显著的特点,传统有参评价方法因依赖原始参考信号,其评价结果的参考性不足。据此,提出在工程验收中宜采用主观评价和无参评价相结合的方式。本研究成果可为工程设计和验收提供参考,为DRTD语音质量验收的标准化提供支撑。 展开更多
关键词 感知语音质量评价 语音流 平均意见分数 编解码器 评价体系 有参评价 无参评价
在线阅读 下载PDF
基于神经网络的低码率语音编码技术研究综述 被引量:2
8
作者 王晶 徐亮 +2 位作者 陈晓娇 谢湘 费泽松 《信号处理》 CSCD 北大核心 2024年第12期2261-2280,共20页
语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下... 语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下降,极大程度上影响了用户的听觉体验。随着人工智能技术的不断进步,深度神经网络模型在语音处理任务中的应用也日益广泛,其性能普遍远超传统方法。在语音编解码领域,近年来很多研究也开始关注如何将神经网络模块融入编解码器,以实现更高效的语音传输,旨在低码率下实现传统方案无法达到的性能,为无线或网络语音传输提供新的解决方案。本文对基于神经网络的低码率语音编解码算法进行全面的整理分析和分类汇总,详细介绍了使用传统方法与神经网络结合的混合式编解码器以及使用编码器-解码器联合训练的端到端编解码器的发展历程、原理、特点及评价指标,并总结了这些方法的优势与不足。最后,结合当前各类编解码器的发展状况,对低速率语音编解码器的未来进行展望。基于神经网络的低码率语音编码技术有望解决实际通话中传输带宽受限时通话质量不佳的问题,为实时语音通信的进一步发展提供有力支持,并为未来压缩编码的研究方向提供新的思路。 展开更多
关键词 语音编码 低码率 神经网络 混合式编码器 端到端编码器
在线阅读 下载PDF
结合残差与双注意力机制的U-Net语音增强方法 被引量:3
9
作者 许春冬 王磊 +2 位作者 胡菁兰 闵源 徐锦武 《计算机工程与设计》 北大核心 2024年第11期3383-3389,共7页
针对U-Net语音增强网络深层特征提取能力不足,以及编解码过程中特征信息丢失问题,提出一种结合残差与双注意力机制的DA-Res-Unet语音增强方法。将U-Net编解码部分设计为残差结构来深化网络,增强深层特征提取能力;在网络结构中构造双注... 针对U-Net语音增强网络深层特征提取能力不足,以及编解码过程中特征信息丢失问题,提出一种结合残差与双注意力机制的DA-Res-Unet语音增强方法。将U-Net编解码部分设计为残差结构来深化网络,增强深层特征提取能力;在网络结构中构造双注意力机制,减少时频特征提取中的细节信息丢失;在网络中融入空洞空间金字塔池化结构,在低参数量情况下融合不同尺度上下文背景信息,提高模型特征捕获能力。实验结果表明,DA-Res-Unet网络模型在可见噪声测试集上的PESQ、STOI和LSD这3种评测指标取得了不同程度的提升,在未知噪声测试集上具备一定优势。 展开更多
关键词 语音增强 深度学习 残差网络 特征提取 编解码结构 注意力机制 空洞空间池化金字塔
在线阅读 下载PDF
SMV语音编码算法及仿真 被引量:7
10
作者 宁更新 方敏群 韦岗 《计算机工程与应用》 CSCD 北大核心 2003年第29期84-86,共3页
介绍了第三代通信系统中的可选模式语音声码器(SMV)语音编码方式,简要描述了SMV的编、解码基本原理。并进行了该算法的定点C代码仿真,给出了算法的性能、计算复杂度及存储空间等仿真结果。
关键词 可选模式 多码皋激励预测 线性预测 语音编码
在线阅读 下载PDF
基于DSP的ITU-TG·729语音编解码实现 被引量:4
11
作者 洪景新 陈国伙 刘光增 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2004年第3期335-338,共4页
详细分析了ITU TG·729CS ACELP语音编解码算法的原理,针对算法特征及DSP体系结构特点,提出了一些有效的优化措施,在TITMS320VC5410DSP平台上实现了该算法的实时编解码.该系统的实现可应用于数字语音存储和网络多媒体通信系统等领域.
关键词 DSP ITU-TG·729 语音编码 语音解码 数字语音存储 CS-ACELP
在线阅读 下载PDF
基于LTE系统的VoIP自适应调度算法 被引量:4
12
作者 宁祥峰 张春业 +2 位作者 李婧卿 万伟 李仁波 《计算机工程》 CAS CSCD 北大核心 2011年第4期116-118,121,共4页
提出一种基于LTE系统的VoIP服务的自适应上行调度算法,该算法采用自适应多速率语音编码器,利用传统MAC通用报头中的2个比特将语音编码的模式告知eNB,eNB根据UE的语音状态转换和语音编码速率动态分配上行链路资源。从系统容量、吞吐量和... 提出一种基于LTE系统的VoIP服务的自适应上行调度算法,该算法采用自适应多速率语音编码器,利用传统MAC通用报头中的2个比特将语音编码的模式告知eNB,eNB根据UE的语音状态转换和语音编码速率动态分配上行链路资源。从系统容量、吞吐量和时延方面对比分析该算法和传统算法的性能。理论分析和仿真结果表明,在时延满足要求的前提下,该算法比传统算法具有更高的系统容量和吞吐量。 展开更多
关键词 LTE系统 上行调度算法 IP语音业务 自适应多速率语音编码器 MAC报头
在线阅读 下载PDF
G.729语音编码器定点DSP的实时实现 被引量:7
13
作者 胡仕兵 向敬成 翟义然 《电子科技大学学报》 EI CAS CSCD 北大核心 2003年第4期362-366,共5页
介绍了G.729语音编码器算法和定点数字信号处理芯片TMS320VC549,重点讨论了低速率语音编码器在TMS320VC549上实时实现过程中软、硬件设计中的关键技术。采用了定点数字信号处理器芯片实时实现G.729语音编解码算法,结果表明,得到了预期的... 介绍了G.729语音编码器算法和定点数字信号处理芯片TMS320VC549,重点讨论了低速率语音编码器在TMS320VC549上实时实现过程中软、硬件设计中的关键技术。采用了定点数字信号处理器芯片实时实现G.729语音编解码算法,结果表明,得到了预期的8 Kb/s的低码速率、较低的算法时延和极高的语音音质。 展开更多
关键词 G.729语音编码器 数字信号处理器 模块化功能设计 实时实现
在线阅读 下载PDF
基于码书关联网络的基音调制信息隐藏检测 被引量:6
14
作者 李松斌 贾已真 +1 位作者 付江云 戴琼兴 《计算机学报》 EI CSCD 北大核心 2014年第10期2107-2117,共11页
基音调制信息隐藏在进行基音预测时嵌入机密信息,可在低速率语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中相邻语音帧自适应码书的关联特性发生改变,文中以此为设计隐写分... 基音调制信息隐藏在进行基音预测时嵌入机密信息,可在低速率语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中相邻语音帧自适应码书的关联特性发生改变,文中以此为设计隐写分析算法的关键线索.为了量化该种关联特性,文中设计了码书关联网络模型并基于该模型得到了对隐写敏感的特征向量.最后,基于所得特征向量并结合SVM(Support Vector Machine,支持向量机)构建了隐写检测器.针对典型的低速率语音编码标准G.729以及G.723.1的实验表明,文中方法性能优于现有检测方法,实现了对基音调制信息隐藏的快速有效检测. 展开更多
关键词 隐写分析 低速率语音编码器 基音调制信息隐藏 码书关联网络 基音预测
在线阅读 下载PDF
基于DSP的G.729A编解码的实时实现 被引量:5
15
作者 周长林 肖赣峰 王玉东 《仪器仪表学报》 EI CAS CSCD 北大核心 2007年第10期1911-1915,共5页
针对实时语音信号的处理和应用,提出了基于可编程DSP芯片和算法的实现方案。分析G.729A编码和解码算法的实现原理,构建TMS320VC5416处理器和TLV320AIC23语音芯片相结合的语音处理硬件平台。通过设计系统应用软件,配置McBSP连接和数据传... 针对实时语音信号的处理和应用,提出了基于可编程DSP芯片和算法的实现方案。分析G.729A编码和解码算法的实现原理,构建TMS320VC5416处理器和TLV320AIC23语音芯片相结合的语音处理硬件平台。通过设计系统应用软件,配置McBSP连接和数据传输,控制音频信号转换处理,优化编写编解码算法程序。最后调试实现了音频信号采集、播放和语音数据编解码功能。实验结果表明该方法是有效和可行的。 展开更多
关键词 实时语音信号处理 G.729A语音编解码器 DSP处理器 AIC23 MCBSP
在线阅读 下载PDF
基于统计模型及SVM的低速率语音编码QIM隐写检测 被引量:4
16
作者 李松斌 黄永峰 卢记仓 《计算机学报》 EI CSCD 北大核心 2013年第6期1168-1176,共9页
QIM(Quantization Index Modulation,量化索引调制)隐写在标量或矢量量化时嵌入机密信息,可在语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中的音素分布特性发生改变,提出... QIM(Quantization Index Modulation,量化索引调制)隐写在标量或矢量量化时嵌入机密信息,可在语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中的音素分布特性发生改变,提出了音素向量空间模型和音素状态转移模型对音素分布特性进行了量化表示.基于所得量化特征并结合SVM(Support Vector Machine,支持向量机)构建了隐写检测器.针对典型的低速率语音编码标准G.729以及G.723.1的实验表明,文中方法性能远优于现有检测方法,实现了对QIM隐写的快速准确检测. 展开更多
关键词 QIM隐写 隐写检测 低速率语音编码器 音素分布特性
在线阅读 下载PDF
新型宽带语音编解码器AMR-WB的研究 被引量:6
17
作者 焦传斌 于保华 李治柱 《计算机仿真》 CSCD 2005年第1期150-152,159,共4页
该文介绍了一种应用于第三代移动通讯系统的编解码器 ,同时也是第一个可同时用于无线和有线应用的编解码器 ,该编解码器的语音带宽拓展为 5 0Hz到 70 0 0Hz,编码后语音的自然度很高 ,用在 3G移动通讯系统的多媒体服务、宽带包交换网络... 该文介绍了一种应用于第三代移动通讯系统的编解码器 ,同时也是第一个可同时用于无线和有线应用的编解码器 ,该编解码器的语音带宽拓展为 5 0Hz到 70 0 0Hz,编码后语音的自然度很高 ,用在 3G移动通讯系统的多媒体服务、宽带包交换网络、音频和视频会议等等。由于AMR -WB为一个全新的宽带编解码器 ,其标准在 2 0 0 1年 3月刚刚通过 ,国外对其的研究也属于起步阶段 ,还没有真正进入实用阶段。尤其在国内 ,至今尚未见到相关的研究。故对其进行全面的分析和深入的研究是必要的 。 展开更多
关键词 语音编码 共轭结构代数码激励线性预测 语音激活检测
在线阅读 下载PDF
ITU─T G.723.1双速率语音编解码器定点DSP实现 被引量:7
18
作者 王仁华 徐超 戴礼荣 《信号处理》 CSCD 1997年第3期199-206,共8页
ITU─TG.723.1是GSTN上多媒体通信标准H.324系列中语音编解码器.本文在简单介绍G.723.1编解码算法和定点数字信号处理芯片ADSP-2181后,着重介绍了这种低速率的语音编解码器在ADSP-2181上实现的硬、软件设计和在定点DSP芯片上实... ITU─TG.723.1是GSTN上多媒体通信标准H.324系列中语音编解码器.本文在简单介绍G.723.1编解码算法和定点数字信号处理芯片ADSP-2181后,着重介绍了这种低速率的语音编解码器在ADSP-2181上实现的硬、软件设计和在定点DSP芯片上实现该复杂算法的一些关键技术. 展开更多
关键词 语音编解码器 数字信号处理 DSP
在线阅读 下载PDF
低码率语音编码中过渡帧对合成语音的影响 被引量:2
19
作者 肖东 莫福源 +1 位作者 陈庚 马力 《应用声学》 CSCD 北大核心 2016年第1期77-83,共7页
过渡段对语音清晰度、可懂度和人耳听觉感知都起到不可忽视的作用。参数语音编码中,包含有过渡段的语音帧能否得到恰当处理,是决定其合成语音是否清晰可懂的关键。本文以混合激励线性预测编码为参考,将其中的语音帧划分为静音、清音、... 过渡段对语音清晰度、可懂度和人耳听觉感知都起到不可忽视的作用。参数语音编码中,包含有过渡段的语音帧能否得到恰当处理,是决定其合成语音是否清晰可懂的关键。本文以混合激励线性预测编码为参考,将其中的语音帧划分为静音、清音、浊音、过渡四大类后分别处理,在以往低码率语音编码(<1 kbps)工作基础上,比较了八种过渡帧划分方法对合成语音PESQ MOS的影响。经分析后发现:不同的过渡帧对PESQ MOS的贡献也不同。由清、静音向浊音变化的过渡帧的贡献最大;介于浊辅音与元音之间的过渡帧的贡献也不应被忽略。 展开更多
关键词 低码率语音编码 混合激励线性预测编码 过渡段
在线阅读 下载PDF
一种应用于音库压缩的低速率编解码方案 被引量:1
20
作者 周斌 双志伟 +1 位作者 王仁华 戴礼荣 《信号处理》 CSCD 2004年第6期650-654,共5页
传统的语音编解码器大多针对通信场合设计,无法很好的满足应用于语音合成中的音库压缩的要求。本文根据音库压缩的特点,提出了一种低码速率的编解码方案,其在3Kbps左右的码率下获得类似G.723.1在5.3Kbps下的效果,并具有解码端算法简单... 传统的语音编解码器大多针对通信场合设计,无法很好的满足应用于语音合成中的音库压缩的要求。本文根据音库压缩的特点,提出了一种低码速率的编解码方案,其在3Kbps左右的码率下获得类似G.723.1在5.3Kbps下的效果,并具有解码端算法简单的优点。作为技术原型,该方案可以广泛应用于各种场合下的语音合成系统,特别对资源受限情况下语音合成,具有重要的意义。 展开更多
关键词 音库 语音编解码器 压缩 语音合成系统 码率 G.723.1 速率 算法 低速 方案
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部