基于深度学习的说话人确认方法研究现状及展望被引量：1

State of the Art and Prospects of Deep Learning⁃Based Speaker Verification

下载PDF

导出

摘要随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。 With the development of deep learning,speaker verification has made great progress.Compared with other biometric identification technologies,this technology has advantages of remote operation,low cost,easy human-computer interaction,etc.,thus it shows a wide range of application prospects in the fields of public security,criminal investigation,and financial services.A systematic overview of the development lineage of deep learning-based speaker verification techniques is provided.Firstly,the development history and research status of deep learning‑based speaker representation model are introduced in four aspects:Model input and structure,pooling layer,supervised loss function,and self-supervised learning and pre-training model.Then,the challenges faced by speaker verification are discussed,such as cross-domain mismatch problems like noise interference,channel mismatch and far-field speech,and the corresponding domain adaptation and domain generalization methods are outlined.Finally,the further research directions are presented.

作者李建琛韩纪庆 LI Jianchen;HAN Jiqing(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

机构地区哈尔滨工业大学计算机科学与技术学院

出处《数据采集与处理》 CSCD 北大核心 2024年第5期1062-1084,共23页 Journal of Data Acquisition and Processing

基金国家自然科学基金(62376071)。

关键词说话人识别说话人确认深度学习领域不匹配自监督学习 speaker recognition speaker verification deep learning domain mismatch self-supervised learning

分类号 TN912 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1张雄伟,张星昱,孙蒙,邹霞.说话人验证系统攻击方法的研究现状及展望[J].数据采集与处理,2021,36(5):831-849. 被引量：3
2张雄伟,李嘉康,孙蒙,郑琳琳.语音欺骗检测方法的研究现状及展望[J].数据采集与处理,2020,35(5):807-823. 被引量：15

二级参考文献2

1张雄伟,苗晓孔,曾歆,孙蒙,曹铁勇.语音转换技术研究现状及展望[J].数据采集与处理,2019,34(5):753-770. 被引量：10
2张雄伟,李嘉康,孙蒙,郑琳琳.语音欺骗检测方法的研究现状及展望[J].数据采集与处理,2020,35(5):807-823. 被引量：15

共引文献15

1张雄伟,张星昱,孙蒙,邹霞.说话人验证系统攻击方法的研究现状及展望[J].数据采集与处理,2021,36(5):831-849. 被引量：3
2杨海涛,王华朋,牛瑾琳,楚宪腾,林暖辉.融合LSTM-GRU网络的语音逻辑访问攻击检测[J].数据采集与处理,2022,37(2):396-404. 被引量：6
3甘海林,雷震春,杨印根.孪生Bi-LSTM模型在语音欺骗检测中的研究[J].小型微型计算机系统,2022,43(6):1265-1271. 被引量：4
4周晔,章坚武,程继承.面向复杂声学环境的伪装语音检测[J].传感技术学报,2022,35(10):1355-1362. 被引量：2
5郑榕,孟凡芹,王志宣.音频鉴伪检测与防御技术研究[J].警察技术,2023(1):17-22.
6夏玮江,彭海朋,李丽香.语音欺骗检测研究与分析[J].信息安全与通信保密,2023(3):21-35.
7杨玲,高勇.基于虚拟对抗训练的合成话音检测方法[J].通信技术,2023,56(4):425-433.
8张雄伟,葛晓义,孙蒙,宋宫琨琨,李莉.音频隐写方法综述:从传统到深度学习[J].数据采集与处理,2023,38(5):995-1016. 被引量：4
9钱建宇.基于知识蒸馏的说话人验证模型轻量化方案[J].电声技术,2024,48(7):28-31.
10许裕雄,李斌,谭舜泉,黄继武.语音深度伪造及其检测技术研究进展[J].中国图象图形学报,2024,29(8):2236-2268. 被引量：7

同被引文献6

1李云强,鲁庆宾,张凌晓.基于蓝牙的智能超速语音报警系统的设计[J].重庆理工大学学报（自然科学）,2019,33(7):140-144. 被引量：5
2马晓亮,安玲玲,邓从健,杜德泉,张国新.基于行业词表的自动语音转写后优化技术[J].华南理工大学学报（自然科学版）,2023,51(8):118-125. 被引量：5
3陆维晨.一种人工智能技术在语音新闻播报技术中的应用[J].兵工自动化,2024,43(3):26-29. 被引量：7
4李士宽,马晓红,张圆圆,张文谋,杨磊,吴书胜.基于边缘计算的多模态身份识别与会议记录方法[J].价值工程,2024,43(24):119-121. 被引量：2
5伍谷馨,胡异丁,杨栋.基于数据增强的深度学习声学场景分类算法[J].现代信息科技,2024,8(23):76-81. 被引量：2
6张翠玲,刘明星.短时语音的法庭自动说话人识别研究[J].中国人民公安大学学报(自然科学版),2025,31(2):100-108. 被引量：1

引证文献1

1吴卓恒,钟伟杰,黄宝华,魏晓强.面向交互智能平板的AI会议纪要产品设计与应用[J].现代信息科技,2025,9(23):64-68.

1和椿皓,常铁原,潘立冬.用于说话人识别的密集多分支时延神经网络[J].应用声学,2024,43(5):949-955.
2杨超.房建施工中后浇带施工技术的应用探析[J].门窗,2024(3):103-105.
3黄罕妮,冯超,邓凯.隧道式灭菌干燥机性能确认技术的研究[J].大众科技,2023,25(12):119-122. 被引量：1
4王成华,蒋雯霄,杨阳,李磊.一种虚拟试验架构下的舱段结构建模与承载破坏模拟技术[J].导弹与航天运载技术（中英文）,2024(2):74-79.
5姚欣烈,何晓燕,樊道庆,李文波,刘文佳,黄泽勉.基于顺控模式的隔离开关位置双确认技术研究与应用[J].中国设备工程,2024(S02):279-281. 被引量：2
6景坤,李晗,吕孟珍,归云玥,杨哲.大数据和人工智能助力生态环保类案件态势预警及技术研究[J].新潮电子,2024(9):31-33.
7祝兆鹏,朱林,宋先知,李永钊,张仕民,柯迪丽娅·帕力哈提,张诚恺,王超尘.机理约束下钻井机械钻速智能预测泛化方法[J].天然气工业,2024,44(9):179-189. 被引量：3
8王同军,蒋辉,尤明熙,解婉茹,魏子龙,杨飞,李平.基于模数驱动的高速铁路线路设备状态检测评估技术与实践[J].铁道运输与经济,2024,46(9):1-14. 被引量：5

数据采集与处理

2024年第5期

浏览历史

内容加载中请稍等...

基于深度学习的说话人确认方法研究现状及展望被引量：1

参考文献2

二级参考文献2

共引文献15

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度学习的说话人确认方法研究现状及展望 被引量：1

参考文献2

二级参考文献2

共引文献15

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度学习的说话人确认方法研究现状及展望被引量：1