-
题名基于WavLM特征解相关的深度伪造语音检测方法
- 1
-
-
作者
王帅斌
易小伟
刘长军
苏小苏
曹纭
吕美杨
-
机构
中国科学院信息工程研究所
中国科学院大学网络空间安全学院
-
出处
《信息安全学报》
2025年第6期197-212,共16页
-
基金
国家自然科学基金项目(No.62272456)资助。
-
文摘
随着语音合成与转换技术的成熟及应用,高质量的伪造语音足以欺骗人类听觉感知和说话人验证系统,深度伪造语音技术的恶意利用对个人财产安全和社会稳定产生了严重的威胁。近年来,深度伪造语音检测研究受到了广泛关注,并且在特定数据集上获得了很好的检测效果。然而,已有检测方法在跨域的通用伪造特征提取方面存在局限性,以及语音特征之间存在统计相关性会误导模型学习到与语音检测任务无关的特征,导致模型在跨域场景下的性能严重下降。本文提出了一种基于WavLM特征解相关的深度伪造语音检测方法,该方法首先提出了一个基于自监督预训练WavLM模型和图注意力网络结合的WavLMAST模型,利用WavLM模型提取语音的声学层、内容层和语义层特征,再结合基于图注意力的后端网络进一步建模语音的自适应时频域特征,这种设计增强了模型对深度伪造语音中微妙伪影的表示能力。然后,通过动态调整训练样本的特征相关度权重对WavLMAST模型提取的多层特征解相关,使模型更关注与伪造语音检测任务相关的特征,从而提高其在跨域检测场景下的泛化能力。实验结果表明,本文方法在ASVspoof 2019 logical access(LA)和ASVspoof 2021 LA数据集上比最先进的Mixture of Experts方法的等错误率分别降低了40.5%和36.8%。
-
关键词
深度伪造语音
语音合成
伪造语音检测
泛化性
asvspoof数据集
-
Keywords
deepfake speech
speech synthesis
deepfake speech detection
generalization
asvspoof dataset
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
-