-
题名基于ASP-SERes2Net的说话人识别算法
被引量:1
- 1
-
-
作者
令晓明
陈鸿雁
张小玉
张真
-
机构
兰州交通大学光电技术与智能控制教育部重点实验室
兰州交通大学国家绿色镀膜技术与装备工程技术研究中心
-
出处
《北京工业大学学报》
CAS
北大核心
2025年第1期42-50,共9页
-
基金
甘肃省自然科学基金资助项目(22JR5RA332)
甘肃省高等教育教学成果培育项目(2021)。
-
文摘
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。
-
关键词
说话人识别
梅尔语谱图
Res2Net
压缩激活(squeeze-and-excitation
SE)注意力模块
注意力统计池化(attention
statistics
pooling
ASP)
附加角裕度的Softmax(additive
angular
margin
Softmax
aam-softmax)
-
Keywords
speaker recognition
Mel spectrogram
Res2Net
squeeze-and-excitation(SE)attention module
attention statistics pooling(ASP)
additive angular margin Softmax(aam-softmax)
-
分类号
TN
[电子电信]
-
-
题名基于Conformer的实时多场景说话人识别模型
被引量:1
- 2
-
-
作者
宣茜
韩润萍
高静欣
-
机构
北京服装学院文理学院
北京服装学院服装艺术与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2024年第7期147-156,共10页
-
基金
北京市教委科技计划项目(KM202210012002)
北京服装学院2022年研究生科研创新项目(X2022-110)。
-
文摘
为解决在多场景(跨域、长时以及噪声干扰语音场景)下说话人确认系统性能较差的问题,提出了一种基于Conformer构建的、实时多场景鲁棒的说话人识别模型——PMS-Conformer。PMS-Conformer的设计灵感来自于先进的模型MFA-Conformer。PMS-Conformer对MFA-Conformer的声学特征提取器、网络组件和损失函数计算模块进行了改进,其具有新颖有效的声学特征提取器,以及鲁棒的、具有较强泛化能力的声纹嵌入码提取器。基于VoxCeleb1&2数据集实现了PMS-Conformer的训练;开展了PMS-Conformer与基线MFA-Conformer以及ECAPA-TDNN在说话人确认任务上的性能对比评估实验。实验结果表明在长语音SITW、跨域VoxMovies以及加噪处理的VoxCeleb-O测试集上,以PMS-Conformer构建的说话人确认系统的性能比用这两个基线构建的说话人确认系统更有竞争力;并且在声纹嵌入码提取器的可训练参数(Params)和推理速度(RTF)方面,PMS-Conformer明显优于ECAPA-TDNN。实验结果说明了PMS-Conformer在实时多场景下具有良好的性能。
-
关键词
说话人确认
MFA-Conformer
Sub-center
aam-softmax
声纹嵌入码
声学特征提取
-
Keywords
speaker verification
MFA-Conformer
Sub-center aam-softmax
speaker embedding
acoustic feature extraction
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于不确定性学习的文本无关的说话人确认方法
- 3
-
-
作者
张玉莲
姚姗姗
王超
畅江
-
机构
山西大学大数据科学与产业研究院
-
出处
《计算机应用》
CSCD
北大核心
2023年第12期3727-3732,共6页
-
基金
国家自然科学基金资助项目(61906115)
山西省青年科学基金资助项目(20210302124556)。
-
文摘
说话人确认任务旨在判断注册语音与测试语音是否属于同一说话人。针对说话人识别系统提取的声纹特征通常会受到与身份信息无关的因素干扰进而导致系统的准确性严重下降的问题,提出一种基于不确定性学习(UL)的文本无关的说话人确认(TISV)方法。首先,在说话人主干网络中引入不确定性同时学习声纹特征(均值)和话语数据的不确定性(方差),以建模语音数据集中的不确定性;其次,通过重采样技巧得到特征的分布表示;最后,在说话人分类损失中引入KL散度正则化约束噪声的分布,从而解决计算分类损失过程中的退化问题。实验结果表明,当训练集为VoxCeleb1和VoxCeleb2开发集时,与基于确定性方法的Thin ResNet34模型相比,所提方法的模型在VoxCeleb1-O测试集上的等错误率(EER)分别降低了9.9%和10.4%,最小检测代价函数(minDCF)分别降低了10.9%和4.5%。可见,所提方法在有噪声、无约束场景下的准确度有所提高。
-
关键词
说话人确认
数据不确定性
分布嵌入
aam-softmax
KL散度
-
Keywords
speaker verification
data uncertainty
distribution embedding
aam-softmax(Additive Angular Marginsoftmax)
KL(Kullback-Leibler)divergence
-
分类号
TN912.34
[电子电信—通信与信息系统]
TP391.42
[自动化与计算机技术—计算机应用技术]
-