针对音效生成中音频逼真度低、风格多样性欠缺的问题,提出了一种基于多频带注意力机制的生成对抗网络(generative adversarial network,GAN)模型。首先,采用多频带扩展模式提取不同采样率的音频特征,并引入RaHingeGAN(relativistic aver...针对音效生成中音频逼真度低、风格多样性欠缺的问题,提出了一种基于多频带注意力机制的生成对抗网络(generative adversarial network,GAN)模型。首先,采用多频带扩展模式提取不同采样率的音频特征,并引入RaHingeGAN(relativistic average hinge GAN)损失函数提高音频生成稳定性。其次,结合Transformer注意力机制增强谐波信息和频谱结构表达,并引入Alpha Dropout自适应正则层缓解过拟合。最后,设计音频风格迁移模块以增强风格可控性,在特征学习过程中,融合梅尔频率倒谱系数(Mel frequency cepstral coefficient,MFCC)、伽玛通频率倒谱系数(Gammatone frequency cepstrum coefficient,GFCC)及其多阶差分系数捕捉音频信号动态特征。实验表明,基于多频带注意力机制的GAN模型在音效逼真度、风格多样性和生成稳定性方面均优于现有模型,可有效提升音效生成质量。展开更多
文摘针对音效生成中音频逼真度低、风格多样性欠缺的问题,提出了一种基于多频带注意力机制的生成对抗网络(generative adversarial network,GAN)模型。首先,采用多频带扩展模式提取不同采样率的音频特征,并引入RaHingeGAN(relativistic average hinge GAN)损失函数提高音频生成稳定性。其次,结合Transformer注意力机制增强谐波信息和频谱结构表达,并引入Alpha Dropout自适应正则层缓解过拟合。最后,设计音频风格迁移模块以增强风格可控性,在特征学习过程中,融合梅尔频率倒谱系数(Mel frequency cepstral coefficient,MFCC)、伽玛通频率倒谱系数(Gammatone frequency cepstrum coefficient,GFCC)及其多阶差分系数捕捉音频信号动态特征。实验表明,基于多频带注意力机制的GAN模型在音效逼真度、风格多样性和生成稳定性方面均优于现有模型,可有效提升音效生成质量。