期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于X⁃codec探究不同特征下的语音生成效果
1
作者 何应来 《信息记录材料》 2025年第5期160-163,244,共5页
为探究X⁃codec对大语言模型音频生成性能的影响,本研究基于LibriSpeech数据集分析语料特征(时长、音色)对基于X⁃codec的大语言模型(large language model,LLM)在音频生成任务中的表现。相似性目标(similarity objective,Sim⁃O)得分和全... 为探究X⁃codec对大语言模型音频生成性能的影响,本研究基于LibriSpeech数据集分析语料特征(时长、音色)对基于X⁃codec的大语言模型(large language model,LLM)在音频生成任务中的表现。相似性目标(similarity objective,Sim⁃O)得分和全体平均意见得分(user test mean opinion score,UTMOS)指标测定结果表明:当语料时长超过10 s(即长语料)且音色为男声时,Sim⁃O得分和UTMOS在算术平均数上均显著高于相应特征分类中的其他组,同时在标准差上均显著低于相应特征分类中的其他组。因此,男声的长语料更有可能使应用了X⁃codec的LLM性能达到最佳状态。本研究结果可为优化音频编解码器设计提供理论支持。 展开更多
关键词 x⁃codec 大语言模型 相似性目标 全体平均意见得分
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部