-
题名基于卷积循环神经网络的语音逻辑攻击检测
被引量:4
- 1
-
-
作者
杨海涛
王华朋
楚宪腾
牛瑾琳
林暖辉
张琨瑶
-
机构
中国刑事警察学院公安信息技术与情报学院
广州市刑事科学技术研究所
-
出处
《科学技术与工程》
北大核心
2022年第18期7937-7944,共8页
-
基金
国家重点研发计划(2017YFC0821000)
广州市科技计划(2019030004)
司法部司法鉴定重点实验室(司法鉴定科学研究院)开放基金。
-
文摘
语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险。为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN。模型中卷积神经网络(convolutional neural network,CNN)部分可以进行下采样,循环神经网络(recurrent neural network,RNN)部分解决语音中的时序问题,深度神经网络(deep neural network,DNN)部分则实现分类功能。每种混合网络模型包含20层网络层。对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%。比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstral coefficients,MFCCs)特征及混合梅尔倒谱系数线性频率倒谱系数(linear frequency cepstral coefficient,LFCC)特征更适合此模型。
-
关键词
CNN-RNN-DNN
混合网络模型
混合声学特征
等错误率
asvspoof2019
-
Keywords
CNN-RNN-DNN
fusion model
fusion feature
EER
asvspoof2019
-
分类号
TN912.3
[电子电信—通信与信息系统]
TP391.4
[自动化与计算机技术—计算机应用技术]
-