为解决当前声纹识别领域中特征融合困难以及现有模型的表达能力不足的问题,提出了一种基于改进的Res2Net和改进的长短时记忆神经网络(Stacked Long Short-Term Memory,SLSTM),并结合MFCC、FBank和LFBank三种特征进行融合。首先,通过对...为解决当前声纹识别领域中特征融合困难以及现有模型的表达能力不足的问题,提出了一种基于改进的Res2Net和改进的长短时记忆神经网络(Stacked Long Short-Term Memory,SLSTM),并结合MFCC、FBank和LFBank三种特征进行融合。首先,通过对三种特征融合,全面捕捉声音的特性,并结合改进的Res2Net以更细粒化的工作方式对每个输入的特征获取多种不同尺度组合的特征表达,最后将提取的特征信息输入到堆叠长短时记忆神经网络处理序列问题,提升模型的表达能力。实验结果表明,所提出的方法在CN-Celeb数据集上的效果良好,等错误率与最小检测代价函数达到了2.89%和0.372 5,证明了本文所提方法的鲁棒性和准确性。展开更多
文摘为解决当前声纹识别领域中特征融合困难以及现有模型的表达能力不足的问题,提出了一种基于改进的Res2Net和改进的长短时记忆神经网络(Stacked Long Short-Term Memory,SLSTM),并结合MFCC、FBank和LFBank三种特征进行融合。首先,通过对三种特征融合,全面捕捉声音的特性,并结合改进的Res2Net以更细粒化的工作方式对每个输入的特征获取多种不同尺度组合的特征表达,最后将提取的特征信息输入到堆叠长短时记忆神经网络处理序列问题,提升模型的表达能力。实验结果表明,所提出的方法在CN-Celeb数据集上的效果良好,等错误率与最小检测代价函数达到了2.89%和0.372 5,证明了本文所提方法的鲁棒性和准确性。