期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Wav2Vec2.0特征融合与联合损失的深度伪造语音检测方法 被引量:1
1
作者 陈飞飞 郭海燕 +2 位作者 郭延民 葛子瑞 陆华庆 《信号处理》 北大核心 2025年第9期1547-1557,共11页
语音预训练模型Wav2Vec2.0能够通过多个隐藏层提取丰富的多层嵌入特征,在深度伪造语音检测任务中表现出良好的性能。将Wav2Vec2.0各层特征进行融合,是进一步挖掘语音数据深层次表示的有效途径,而改进Wav2Vec2.0各层特征的融合方式则有... 语音预训练模型Wav2Vec2.0能够通过多个隐藏层提取丰富的多层嵌入特征,在深度伪造语音检测任务中表现出良好的性能。将Wav2Vec2.0各层特征进行融合,是进一步挖掘语音数据深层次表示的有效途径,而改进Wav2Vec2.0各层特征的融合方式则有望进一步提升深度伪造语音检测性能。鉴于此,本文基于Wav2Vec2.0深度伪造语音检测架构,提出引入卷积注意力模块(Convolutional Block Attention Module,CBAM)对Wav2Vec2.0各层嵌入特征进行融合,通过结合通道注意力和空间注意力的加权融合方式来自适应地增强关键特征,有效提升模型的特征提取能力。在此基础上,考虑到伪造语音类型复杂多样,不同类型的伪造语音在鉴别难度上可能存在显著差异,为避免模型在处理难鉴别样本时存在的偏倚,同时使得类内特征分布紧凑、类间特征分布疏远。本文提出联合交叉熵损失、中心损失和焦点损失,构造模型的整体损失函数,充分利用各类损失的优势来增强模型在多种伪造语音场景下的判别能力和泛化性能。在ASVspoof 2019 LA、ASVspoof 2021 LA、ASVspoof 2021 DF和CFAD数据集上的实验结果表明,所提出的方法在常用评价指标等错误率(equal error rate,EER)和最小串联检测代价函数(minimum tandem detection cost function,min t-DCF)均表现出色。尤其是在ASVspoof 2021 LA数据集上,相较于AASIST、ECAPA-TDNN、ResNet,以及采用Wav2Vec2.0进行前端特征提取的多种对比方案,本文方法显著优于所有对比方法。 展开更多
关键词 深度伪造语音检测 Wav2Vec2.0 特征融合 联合损失
在线阅读 下载PDF
融合通道-时间注意力和深度可分离卷积的欺骗语音检测
2
作者 冯嘉琪 王华朋 刘天赐 《科学技术与工程》 北大核心 2025年第22期9427-9435,共9页
自动说话人验证系统在应对日益逼真的深度伪造语音时,面临显著的欺骗攻击威胁。现有基于卷积神经网络的反欺骗模型在捕捉全局特征与应对未知类型语音伪造的泛化性能方面存在不足。为提升反欺骗检测效果,提出了一种融合通道-时间注意力... 自动说话人验证系统在应对日益逼真的深度伪造语音时,面临显著的欺骗攻击威胁。现有基于卷积神经网络的反欺骗模型在捕捉全局特征与应对未知类型语音伪造的泛化性能方面存在不足。为提升反欺骗检测效果,提出了一种融合通道-时间注意力机制与深度可分离卷积的网络模型CT-DSCNet。该模型在RawNet2基础上引入通道-时间注意力模块,增强对重要语音特征的关注,减少无关区域的干扰;同时采用深度可分离卷积残差块,优化计算效率与模型实时性。实验在AS-Vspoof2019、ASVspoof2021和FMFCC-A数据集上进行,结果显示CT-DSCNet在ASVspoof2019 LA测试集上的等错误率(equal error rate,EER)达到1.53%,较基线模型降低70.58%。在泛化能力方面相较其他模型也表现出色,在FMFCC-A评估集上的EER,较改进前模型相比提高了25.35%。实验验证了该方法在提升伪造语音检测性能和跨数据集适应性方面的有效性。 展开更多
关键词 深度伪造语音 注意力机制 深度可分离卷积 语音反欺骗
在线阅读 下载PDF
语音深度伪造及其检测技术研究进展 被引量:7
3
作者 许裕雄 李斌 +1 位作者 谭舜泉 黄继武 《中国图象图形学报》 CSCD 北大核心 2024年第8期2236-2268,共33页
语音深度伪造技术是利用深度学习方法进行合成或生成语音的技术。人工智能生成内容技术的快速迭代与优化,推动了语音深度伪造技术在伪造语音的自然度、逼真度和多样性等方面取得显著提升,同时也使得语音深度伪造检测技术面临着巨大挑战... 语音深度伪造技术是利用深度学习方法进行合成或生成语音的技术。人工智能生成内容技术的快速迭代与优化,推动了语音深度伪造技术在伪造语音的自然度、逼真度和多样性等方面取得显著提升,同时也使得语音深度伪造检测技术面临着巨大挑战。本文对语音深度伪造及其检测技术的研究进展进行全面梳理回顾。首先,介绍以语音合成(speech synthesis,SS)和语音转换(voice conversion,VC)为代表的伪造技术。然后,介绍语音深度伪造检测领域的常用数据集和相关评价指标。在此基础上,从数据增强、特征提取和优化以及学习机制等处理流程的角度对现有的语音深度伪造检测技术进行分类与深入分析。具体而言,从语音加噪、掩码增强、信道增强和压缩增强等数据增强的角度来分析不同增强方式对伪造检测技术性能的影响,从基于手工特征的伪造检测、基于混合特征的伪造检测、基于端到端的伪造检测和基于特征融合的伪造检测等特征提取和优化的角度对比分析各类方法的优缺点,从自监督学习、对抗训练和多任务学习等学习机制的角度对伪造检测技术的训练方式进行探讨。最后,总结分析语音深度伪造检测技术存在的挑战性问题,并对未来研究进行展望。本文汇总的相关数据集和代码可在https://github.com/media-sec-lab/Audio-Deepfake-Detection访问。 展开更多
关键词 语音深度伪造 语音深度伪造检测 语音合成(SS) 语音转换(VC) 人工智能生成内容(AIGC) 自监督学习 对抗训练
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部