融合空洞卷积与多尺度注意力的说话人确认

Speaker verification method based on dilated convolution and multi-scale attention mechanism

导出

摘要针对复杂语音环境下CAM++模型在特征提取与识别性能方面存在的不足,本文提出了一种融合空洞卷积与时频多尺度注意力机制的说话人确认模型TF-DCAM。该模型首先利用空洞残差卷积与时频重聚焦机制增强特征提取能力,提升对冗余信息的抑制效果;其次引入时频多尺度注意力模块,通过通道注意力与跨纬度交互机制提升模型对关键信息的感知能力;再通过自适应掩码时序卷积模块强化长时依赖建模;最后采用对比损失函数联合优化嵌入空间结构。实验在CN-Celeb数据集上表明,TF-DCAM在EER和minDCF上分别相较基线模型降低了14.98%和10.98%;在VoxCeleb1上亦展现出良好的跨语种泛化能力。结果证明所提方法在保证轻量化的同时显著提升了说话人确认性能与鲁棒性。 To address the limitations of the CAM++model in feature extraction and recognition performance under complex acoustic conditions,this paper proposes TF-DCAM,a speaker verification model integrating dilated convolution and temporal-frequency multi-scale attention mechanisms.The model enhances feature representation through dilated residual convolution and a time-frequency adaptive refocusing unit to suppress redundant information.A temporal-frequency multi-scale attention module is introduced to improve sensitivity to key information via channel attention and cross-dimensional interaction.An adaptive masking temporal convolution module is further incorporated to model long-term dependencies effectively.Finally,a combination of contrastive loss functions is applied to jointly optimize the speaker embedding space.Experiments conducted on the CN-Celeb dataset show that TF-DCAM reduces EER and minDCF by 14.98%and 10.98%respectively,compared with the baseline.The model also demonstrates strong cross-lingual generalization on the VoxCeleb1 dataset.Results indicate that the proposed method significantly improves speaker verification performance and robustness while maintaining model efficiency.

作者李嘉麒郑展恒曾庆宁王健 Li Jiaqi;Zheng Zhanheng;Zeng Qingning;Wang Jian(School of Information and Communication,Guilin University of Electronic Technology,Guilin 541004,China;Key Laboratory of Cognitive Radio and Information Processing,Ministry of Education,Guilin University of Electronic Technology,Guilin 541004,China)

机构地区桂林电子科技大学信息与通信学院桂林电子科技大学认知无线电与信息处理教育部重点实验室

出处《电子测量技术》北大核心 2025年第22期119-128,共10页 Electronic Measurement Technology

基金认知无线电与信息处理教育部重点实验室项目(CRKL230103)资助。

关键词深度学习说话人确认时频多尺度注意力空洞卷积对比损失函数 deep learning speaker verification temporal-frequency multi-scale attention dilated convolution contrastive loss

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献8

1毛文青,管业鹏.基于LPBMFCC的文本无关说话人识别[J].电子测量技术,2020,43(19):169-176. 被引量：2
2李沐原,张兰春,张博源.基于多尺度空洞融合注意力的车道线检测算法[J].电子测量技术,2024,47(23):84-92. 被引量：4
3郑展恒,曾庆宁,韦照川.基于DSP/BIOS的语音信号处理系统设计[J].桂林电子科技大学学报,2015,35(6):454-458. 被引量：1
4李苗苗,华才健,谢涛,薛青霞.融合多尺度特征及注意力机制的食品图像识别[J].电子测量技术,2024,47(18):164-171. 被引量：6
5贾林锋,吴黎明,温腾腾,廖禹韬,高梓皓.多尺度卷积的时频域语音分离方法研究[J].电子测量与仪器学报,2022,36(11):134-140. 被引量：4
6刘望生,刘艳梅.多特征优化下室内声源鲁棒跟踪算法[J].仪器仪表学报,2024,45(8):316-325. 被引量：2
7关健,王敏.基于深度神经网络和多元损失的说话人识别[J].电子测量技术,2019,42(5):39-43. 被引量：7
8杨亚萍,张敬源.整合类内差异与类间关联的隐喻感情预测[J].电子测量技术,2024,47(14):108-120. 被引量：1

二级参考文献60

1周道先,张吟龙,徐高飞,杨雨沱,梁炜.基于形变卷积和深层聚合网络的水下文物检测[J].仪器仪表学报,2023,44(11):185-195. 被引量：4
2李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：15
3侯艳丽,王娟.基于Efficientnet的红外目标检测算法[J].电子测量技术,2023,46(16):64-72. 被引量：1
4王蒙蒙,刘秀清,张衡,王春乐,贾小雪.基于双通道特征融合编解码网络的极化SAR图像分类[J].国外电子测量技术,2023,42(1):187-196. 被引量：3
5范学锋,吴成柯.基于DDK的TLV320AIC23型编解码器的驱动设计[J].国外电子元器件,2006(3):53-56. 被引量：2
6金朝辉.基于TMS320DM642驱动模型的驱动程序开发[J].单片机与嵌入式系统应用,2006,6(6):44-46. 被引量：2
7许艳,陈星.基于DSP/BIOS IOM模型的设备驱动程序开发[J].电子测量技术,2006,29(3):45-46. 被引量：4
8胡涛,刘颖娟.用类/微驱动模型开发DSP视频驱动程序[J].单片机与嵌入式系统应用,2007,7(5):15-17. 被引量：6
9贾涛,尚淑霞,高庆地.嵌入式系统DSP/BIOS设备驱动开发方法[J].可编程控制器与工厂自动化（PLC FA）,2008(10):95-97. 被引量：2
10齐敏,王玲,韩韬,刘辉.基于TMS320DM642的实时语音处理系统[J].电声技术,2009,33(1):65-67. 被引量：5

共引文献19

1邢月晗,郑岩.语音转录后文本的中文拼写纠错模型[J].电子测量技术,2023,46(6):57-61.
2张学祥,雷菊阳.基于DNN与基音周期的说话人识别[J].计算机与现代化,2020,0(1):122-126. 被引量：5
3曾春艳,马超峰,王志锋,朱栋梁,赵楠,王娟,刘聪.深度学习框架下说话人识别研究综述[J].计算机工程与应用,2020,56(7):8-16. 被引量：13
4项扬,殷锋,袁平.基于x-vector嵌入与BLSOM模型的声纹聚类系统[J].现代计算机,2020,26(9):3-7. 被引量：1
5周梦茜,唐志国,王泽瑞,曹智,何宁辉,刘博.基于声纹识别系统的局部放电超声信号识别研究[J].高压电器,2022,58(9):127-133. 被引量：20
6许春冬,汪雄,闵源.融合注意力机制的SimNet声音事件定位与检测算法[J].国外电子测量技术,2023,42(8):33-39. 被引量：1
7许春冬,黄乔月,王磊,徐锦武.融合动态场景感知和注意力机制的声学回声消除算法[J].信号处理,2024,40(2):396-405.
8万宇鹏,周远波,文捷,陈政,赵晶.基于神经网络的声学参数预测方法研究[J].中国测试,2024,50(2):167-171. 被引量：3
9杨亚萍,张敬源.整合类内差异与类间关联的隐喻感情预测[J].电子测量技术,2024,47(14):108-120. 被引量：1
10叶汉民,蒲立力,程小辉.基于双路时延神经网络的说话人及性别识别[J].桂林理工大学学报,2024,44(4):715-721.

1王广川,赵寿为.融合注意力机制的遥感图像目标检测[J].智能计算机与应用,2025,15(12):113-116.
2覃晓逸,励泽,刘东,李明.刻意伪装场景下的说话人确认[J].计算机工程与应用,2025,61(21):324-332.
3邓治文,张龙健,李锦辉,魏其武.基于双通道和注意力机制的多特征融合的文本情感分类模型[J].软件工程,2025,28(12):1-5.
4许娜,都书言,张博淳.基数约束优化问题的序列最优性条件[J].辽宁师范大学学报(自然科学版),2025,48(4):495-501.
5张开铖,吴林煌,林志坚.基于判别性聚类网络的端到端说话人日志系统[J].无线电通信技术,2026,52(1):197-204.

电子测量技术

2025年第22期

浏览历史

内容加载中请稍等...

融合空洞卷积与多尺度注意力的说话人确认

参考文献8

二级参考文献60

共引文献19

相关作者

相关机构

相关主题

浏览历史