-
题名基于深度学习的声纹识别的研究综述
被引量:1
- 1
-
-
作者
陈浩南
王坤赤
汤敏
-
机构
南通大学信息科学技术学院
-
出处
《智能计算机与应用》
2025年第4期132-138,共7页
-
基金
国家自然科学基金(62371261)
南通市科技计划基金(JC2023076)
+1 种基金
江苏省研究生科研与实践创新计划项目(KYCX24_3643)
农业重大技术协同推广计划项目(2024-ZYXT-11)。
-
文摘
声纹识别受到环境噪声、说话人的情绪状态、身体状况等因素影响。为了提高声纹识别的可靠性,利用特征学习的深度学习方法得到广泛关注。深度学习是基于深层神经网络模型和方法的机器学习,在众多领域都展现出了令人瞩目的应用潜力,例如语音识别、语音情感识别、语音分离等。本文聚焦于深度学习在声纹识别领域的应用研究。首先,概述声纹识别研究的基础知识,包括声纹特征提取、准确率的计算方法等。接着,探讨深度学习中基于CNN、RegNet、RNN的各种神经网络框架,并对其当前发展状况进行总结与分析。最后,还对声纹识别的未来发展趋势进行展望,包括语谱图实现和神经网络模型构建。目前,相较于传统的声纹识别,基于深度学习的声纹识别模型在识别准确率上已经获得显著提升,平均准确率能够达到90%以上。
-
关键词
声纹识别
语音特征提取
语谱图
深度学习
神经网络
-
Keywords
voiceprint recognition
speech feature extraction
spectrogram
deep learning
neural network
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于PCNN的语谱图特征提取在说话人识别中的应用
被引量:24
- 2
-
-
作者
马义德
袁敏
齐春亮
刘悦
刘映杰
-
机构
兰州大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第20期81-84,共4页
-
基金
甘肃省自然科学基金(编号:YS021-A22-00910)
兰州大学"985工程"一期第二批特色研究方向学科建设资助项目
-
文摘
该文首次提出了一种将有生物视觉依据的人工神经网络——脉冲耦合神经网络(PulseCoupledNeuralNetwork,以下简称为PCNN)用于说话人识别领域的语谱图特征提取的新方法。该方法将语谱图输入到PCNN后得到输出图像的时间序列及其熵序列作为说话人语音的特征,利用它的不变性实现说话人识别。实验结果表明,该方法可以快速有效地进行说话人识别。该文将PCNN引入到语音识别的应用研究中,开拓了信号处理中两个极为重要的部分———语音信号处理和图像信号处理结合的新领域,同时对于PCNN的理论研究和实际应用具有非常重要的现实意义。
-
关键词
脉冲耦合神经网络
说话人识别
语谱图
特征提取
时间序列
熵序列
-
Keywords
Pulse Coupled neural network,speaker recognition,spectrogram,feature extraction,time series,entropy series
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于神经网络的声场景数据声谱图提取方法
被引量:2
- 3
-
-
作者
韦娟
丁智恺
宁方立
-
机构
西安电子科技大学通信工程学院
西北工业大学机电学院
-
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2021年第12期3462-3469,共8页
-
基金
国家自然科学基金(52075441)
陕西省重点研发计划项目(2018GY-181,2020ZDLGY06-09)资助课题。
-
文摘
在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组。针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网络使声谱图自动适应声场景数据集。声谱图提取神经网络连接ResNet50作为声场景识别架构,在DCASE2019声场景数据集上进行训练与测试,实验结果表明该架构比传统模型有更高的识别率,能够有效调整频率曲线、滤波器幅值以及滤波器形状。
-
关键词
声场景分类
深度卷积神经网络
声谱图提取神经网络
梅尔频谱
-
Keywords
acoustic scene classificationcan(ASC)
deep convolutional neural network(DCNN)
spectrogram extraction neural network(senn)
Mel-spectrum
-
分类号
TN929.
[电子电信—通信与信息系统]
-
-
题名基于双重数据增强策略的音频分类方法
被引量:4
- 4
-
-
作者
周迅
张晓龙
-
机构
武汉科技大学计算机科学与技术学院
武汉科技大学大数据科学与工程研究院
武汉科技大学智能信息处理与实时工业系统湖北省重点实验室
-
出处
《武汉科技大学学报》
CAS
北大核心
2020年第2期155-160,共6页
-
基金
国家自然科学基金资助项目(U1803262,61702381).
-
文摘
卷积神经网络模型作为音频特征提取器具有较好的应用效果,但该类模型的训练过程对数据量要求比较高。针对这一问题,本文提出一种基于双重数据增强策略的音频分类方法。首先采用传统音频数据增强方法(旋转、调音、变调、加噪),并将增强后的数据转化为语谱图,再采用随机均值替换法进行谱图增强。在此基础上训练Inception_Resnet_V2神经网络模型作为音频特征提取器,最后训练随机森林模型作为分类器完成音频分类任务。实验结果表明,与已有方法相比,采用双重数据增强策略可明显提升音频分类精度,并且训练出的特征提取模型具有较强的泛化能力。
-
关键词
音频分类
双重数据增强
卷积神经网络
特征提取
随机森林
语谱图
-
Keywords
audio classification
double data augmentation
convolutional neural network
feature extraction
random forest
spectrogram
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CNN-BiLSTM的自动睡眠分期算法
被引量:4
- 5
-
-
作者
卢伊虹
吴礼祝
潘家辉
-
机构
华南师范大学软件学院
-
出处
《计算机系统应用》
2022年第4期180-187,共8页
-
基金
广东省重点研发计划(2018B030339001)
国家自然科学基金面上项目(62076103)
广东省自然科学基金面上项目(2019A1515011375)。
-
文摘
睡眠分期是睡眠数据分析的基础,针对目前睡眠分期存在的依赖人工提取、人工判别效率低、自动睡眠分期准确率不高等问题,本文研究模型是基于卷积神经网络和双向长短时记忆神经网络2个深度学习神经网络相结合的,利用脑电信号来进行自动睡眠分期的模型方法.算法能提取得到原始脑电信号的梅尔频谱,利用卷积神经网络和双向长短时记忆神经网络进行时频域的特征提取,卷积神经网络能够提取睡眠信号高级特征,双向长短时记忆神经网络结合睡眠数据不同时期的关联性,提高自动睡眠分期的准确率.实验结果表明,本文方法在Sleep-EDF数据集的3种状态睡眠分期任务中取得89.0%的平均准确率.与传统的基于统计规则的分期模型相比,本文模型的准确率更高,且简单高效,泛化性能更好.本文算法适用于非线性、不稳定、有幅度起伏变动的脑电信号,有效提高了自动睡眠分期模型结果的准确率,对现代睡眠医学、睡眠障碍等分析研究具有一定的实用价值.
-
关键词
睡眠分期
脑电信号
卷积神经网络
双向长短时记忆神经网络
梅尔频谱
深度学习
特征提取
-
Keywords
sleep staging
electroencephalogram(EEG)
convolutional neural network(CNN)
bidirectional long-short memory neural network(BiLSTM)
Mel spectrogram
deep learning
feature extraction
-
分类号
R318
[医药卫生—生物医学工程]
TN911.7
[电子电信—通信与信息系统]
TP183
[自动化与计算机技术—控制理论与控制工程]
-