期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
基于多粒度特征融合模型的多说话人声纹识别研究
1
作者 李娅 周斌 胡波 《中南民族大学学报(自然科学版)》 2026年第1期77-85,共9页
声纹识别是一种通过比对语音中的说话人特征来确认身份的技术.其流程包括从不定长的单人语音片段中提取声学特征,再由模型提取说话人特征,最后通过余弦相似度判断是否为同一说话人.多说话人声纹识别则需从包含多位说话人的音频中识别各... 声纹识别是一种通过比对语音中的说话人特征来确认身份的技术.其流程包括从不定长的单人语音片段中提取声学特征,再由模型提取说话人特征,最后通过余弦相似度判断是否为同一说话人.多说话人声纹识别则需从包含多位说话人的音频中识别各自身份,该任务的关键在于提取具判别力的说话人特征.为此提出了多粒度特征融合模型(MGFF-TDNN),在MGFF-TDNN中,首先使用二维深度可分离卷积模块(DSM)作为前端特征提取器,以增强时频域特征的建模.其次,为了实现多粒度特征融合,设计了多粒度融合结构(M-TDNN),采用时延神经网络和音素级特征池化来捕获不同粒度的信息.在VoxCeleb数据集上的实验表明:MGFF-TDNN模型在使用了更少的参数量(4.78M)和计算资源(1.49G的浮点计算量)的情况下,仍表现出良好的性能. 展开更多
关键词 声纹识别 多说话人 多粒度特征融合 深度可分离卷积
在线阅读 下载PDF
XBMU-AMDO31:藏语安多方言语音识别数据集
2
作者 谢晨宇 李冠宇 +2 位作者 马立克 孙倩 郭玉豪 《中国科学数据(中英文网络版)》 2026年第1期43-53,共11页
近年来,尽管语音识别技术在高资源语种(如英语、汉语)中取得显著进展,但针对藏语等低资源复杂音系语种的研究进展仍然缓慢。安多藏语作为低资源复杂音系语言,其语音识别面临数据稀缺与可用数据集质量和多样性不足的双重挑战。由于缺乏... 近年来,尽管语音识别技术在高资源语种(如英语、汉语)中取得显著进展,但针对藏语等低资源复杂音系语种的研究进展仍然缓慢。安多藏语作为低资源复杂音系语言,其语音识别面临数据稀缺与可用数据集质量和多样性不足的双重挑战。由于缺乏公开的数据集,相关研究面临着诸多限制。为此,本文构建并介绍了一个开源的藏语安多方言语音识别数据集。语音样本最初采集于中国甘肃省夏河地区,共收录了66位以藏语为母语者共31小时录音以及相应的转录文本,后续经过人工质检与标准化处理,确保了方言纯正性的以及数据的质量和一致性。本语音数据集的所有资源均已开放,目前已在多篇藏语语音识别相关论文或研究中被使用,得到业内专家的一致好评,更证明了数据集的质量。本数据集为藏语安多方言的高质量语音数据提供了重要补充,其复杂音系特性为跨语种迁移学习、小样本语音技术研究提供独特样本支持。 展开更多
关键词 语音识别 安多藏语数据集 多说话人 低资源
在线阅读 下载PDF
XBMU-bo-Lhasa31:藏语拉萨话语音识别数据集
3
作者 马立克 李冠宇 +2 位作者 谢晨宇 孙倩 郭玉豪 《中国科学数据(中英文网络版)》 2026年第1期31-42,共12页
藏语语音识别在藏语教育、新闻传播等领域具有重要应用价值。藏语拉萨话广泛使用于拉萨市及周边地区,由于地域等因素的影响,当前可用的藏语语音数据资源匮乏,高质量标注数据稀缺。为此,本研究构建了一个专业规范的藏语拉萨话语音识别数... 藏语语音识别在藏语教育、新闻传播等领域具有重要应用价值。藏语拉萨话广泛使用于拉萨市及周边地区,由于地域等因素的影响,当前可用的藏语语音数据资源匮乏,高质量标注数据稀缺。为此,本研究构建了一个专业规范的藏语拉萨话语音识别数据集。数据集使用自制录音软件实地录制,采集自51位说话人,总时长31.61小时,包含24,289条语音样本,平均每条时长4.68秒。数据内容主要选自新闻领域文本,确保语言规范性和领域代表性。为保障数据质量,实施了严格的质量控制流程:首先,对原始文本进行分句处理和人工校验;其次,在录音完成后,采用语音端点检测(VAD)技术筛选优质录音样本;最后,对文本中的非发音符号进行规范化处理,以提高语音识别的准确性。本数据集的建立为藏语语音识别研究提供了重要基础资源,对推动藏语语音识别技术发展具有积极意义。 展开更多
关键词 语音识别 藏语拉萨话 多说话人 语音语料库
在线阅读 下载PDF
基于通道门控的Res2Net说话人识别
4
作者 赵宏 游豪杰 王伟杰 《计算机应用与软件》 北大核心 2025年第12期185-190,共6页
针对当前说话人识别模型提取声纹特征辨识力较弱,无法精准地辨识说话人身份的问题,提出一种基于通道门控的Res2Net(CG-Res2Net)说话人识别算法。该算法通过Res2Net在一个残差块内建立层次化的残差连接,提高系统的声纹特征提取能力;在残... 针对当前说话人识别模型提取声纹特征辨识力较弱,无法精准地辨识说话人身份的问题,提出一种基于通道门控的Res2Net(CG-Res2Net)说话人识别算法。该算法通过Res2Net在一个残差块内建立层次化的残差连接,提高系统的声纹特征提取能力;在残差连接特征组之间采用通道门控机制,对声纹特征中重要通道和相对无用的通道分别赋予较高和较弱的权重。VoxCeleb1-test实验结果表明,CG-Res2Net的EER(Equal Error Rate)和minDCF(Minimum Detection Cost Function)两个评价指标优于Res2Net。相较于ResNet网络,EER和minDCF分别提升了38.05%和17.95%,相较于SE-Res2Net网络,EER和minDCF分别提升了17.5%和4.47%。 展开更多
关键词 说话人识别 残差连接 多尺度特征 通道门控 CG-Res2Net
在线阅读 下载PDF
融合空洞卷积与多尺度注意力的说话人确认
5
作者 李嘉麒 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第22期119-128,共10页
针对复杂语音环境下CAM++模型在特征提取与识别性能方面存在的不足,本文提出了一种融合空洞卷积与时频多尺度注意力机制的说话人确认模型TF-DCAM。该模型首先利用空洞残差卷积与时频重聚焦机制增强特征提取能力,提升对冗余信息的抑制效... 针对复杂语音环境下CAM++模型在特征提取与识别性能方面存在的不足,本文提出了一种融合空洞卷积与时频多尺度注意力机制的说话人确认模型TF-DCAM。该模型首先利用空洞残差卷积与时频重聚焦机制增强特征提取能力,提升对冗余信息的抑制效果;其次引入时频多尺度注意力模块,通过通道注意力与跨纬度交互机制提升模型对关键信息的感知能力;再通过自适应掩码时序卷积模块强化长时依赖建模;最后采用对比损失函数联合优化嵌入空间结构。实验在CN-Celeb数据集上表明,TF-DCAM在EER和minDCF上分别相较基线模型降低了14.98%和10.98%;在VoxCeleb1上亦展现出良好的跨语种泛化能力。结果证明所提方法在保证轻量化的同时显著提升了说话人确认性能与鲁棒性。 展开更多
关键词 深度学习 说话人确认 时频多尺度注意力 空洞卷积 对比损失函数
原文传递
基于ARM的多功能报警系统设计 被引量:1
6
作者 孙奎 高振天 徐振兴 《科技创新与应用》 2025年第33期92-94,99,共4页
该文介绍一种基于ARM的多功能报警系统设计与实现,提高不同装置运行状态的警示和指引作用。采用ARM的32位嵌入式核心处理器,控制RGB灯珠、蜂鸣器和扬声器组合式工作模式,利用串口通信更改系统的内部参数,使得多功能报警装置具备声光警... 该文介绍一种基于ARM的多功能报警系统设计与实现,提高不同装置运行状态的警示和指引作用。采用ARM的32位嵌入式核心处理器,控制RGB灯珠、蜂鸣器和扬声器组合式工作模式,利用串口通信更改系统的内部参数,使得多功能报警装置具备声光警示、语音引导等功能。通过对报警装置样机上进行功能等试验,得出该装置能够实现至少64种不同状态的警示,满足远程控制灯珠的亮闪、声音大小可调,实现对运行装置状态的多功能报警,对提高运行装置的安全性及智慧运维具有重要意义。 展开更多
关键词 嵌入式处理器 RGB灯珠 扬声器 多功能报警系统 蜂鸣器
在线阅读 下载PDF
基于fullRes2-SLSTM多特征融合的声纹识别
7
作者 杨正才 杨乘 《电脑与电信》 2025年第8期14-19,共6页
为解决当前声纹识别领域中特征融合困难以及现有模型的表达能力不足的问题,提出了一种基于改进的Res2Net和改进的长短时记忆神经网络(Stacked Long Short-Term Memory,SLSTM),并结合MFCC、FBank和LFBank三种特征进行融合。首先,通过对... 为解决当前声纹识别领域中特征融合困难以及现有模型的表达能力不足的问题,提出了一种基于改进的Res2Net和改进的长短时记忆神经网络(Stacked Long Short-Term Memory,SLSTM),并结合MFCC、FBank和LFBank三种特征进行融合。首先,通过对三种特征融合,全面捕捉声音的特性,并结合改进的Res2Net以更细粒化的工作方式对每个输入的特征获取多种不同尺度组合的特征表达,最后将提取的特征信息输入到堆叠长短时记忆神经网络处理序列问题,提升模型的表达能力。实验结果表明,所提出的方法在CN-Celeb数据集上的效果良好,等错误率与最小检测代价函数达到了2.89%和0.372 5,证明了本文所提方法的鲁棒性和准确性。 展开更多
关键词 声纹识别 混合特征 fullRes2Net SLSTM
在线阅读 下载PDF
复杂场景多目标人语声增强
8
作者 甘涛 梅海浪 +1 位作者 吴嘉鑫 何艳敏 《应用声学》 北大核心 2025年第6期1623-1630,共8页
在复杂噪声场景下进行多目标说话人的语声增强至今仍是一个挑战性任务。现有无监督增强方法效果不理想,有监督个性化增强方法也局限于具有参考语声的特定说话人场景。提出一种复杂场景多目标人语声增强方法,该方法在语声分段的基础上,... 在复杂噪声场景下进行多目标说话人的语声增强至今仍是一个挑战性任务。现有无监督增强方法效果不理想,有监督个性化增强方法也局限于具有参考语声的特定说话人场景。提出一种复杂场景多目标人语声增强方法,该方法在语声分段的基础上,对属于语声库中说话人的语声采用改进的个性化增强方法进行增强,对不属于语声库中说话人的语声采用无监督增强方法进行增强,从而结合了有监督和无监督两类增强方法的优点,达到了更好的语声增强效果。同时,利用增强过程中提取的背景噪声信息对无监督增强预训练模型进行微调,提高了模型对噪声的适应性。实验结果表明,该文方法对复杂噪声下多目标说话人的语声增强效果较现有方法有了显著的提高。 展开更多
关键词 复杂噪声场景 多目标说话人 语声增强
在线阅读 下载PDF
一种多尺度特征融合的声纹识别方法
9
作者 刘洋 何云鹏 高勇 《通信技术》 2025年第11期1195-1201,共7页
针对当前声纹识别中特征融合不充分、全局和局部特征协同不足的问题,提出了一种改进的网络架构MSR-ERes2Net。该模型以ERes2Net网络为基础,优化特征交互机制。首先改进特征融合模块(AFF),在模块内部嵌入3×3卷积层,以增强局部空间... 针对当前声纹识别中特征融合不充分、全局和局部特征协同不足的问题,提出了一种改进的网络架构MSR-ERes2Net。该模型以ERes2Net网络为基础,优化特征交互机制。首先改进特征融合模块(AFF),在模块内部嵌入3×3卷积层,以增强局部空间特征捕获能力,同时通过特征复用策略强化全局信息与局部信息的特征交互;其次设计空间通道协同注意力模块(SCSA),通过级联共享多语义空间注意力(SMSA)与渐进通道自注意力(PCSA),充分挖掘空间注意力和通道注意力的协同作用,有效缓解语义差异问题;最后在残差单元间引入矩形自校准模块(RCM),通过水平/垂直方向的全局上下文建模和带状卷积特征调整,提升说话人特征的表达能力。在CN-Celeb数据集上的实验表明,所提方法较基线模型实现了10.8%的等错误率(EER)相对下降和6.6%的最小代价检测函数(MinDCF)性能提升,验证了该架构在声纹识别任务中的有效性。 展开更多
关键词 声纹识别 深度学习 说话人识别 多尺度特征融合 空间通道协同注意力 特征校准 ERes2Net
在线阅读 下载PDF
基于人工智能的广播电视直播现场音效优化研究
10
作者 李锐 《电声技术》 2025年第12期102-104,共3页
针对广播电视直播现场音效处理中存在的声画同步难、环境噪声干扰、多声源混叠等技术难题,提出基于人工智能的音频处理优化方案。通过构建智能声像追踪系统、多说话人分离算法、自适应音频增强模型,智能优化广播电视直播现场音效。应用... 针对广播电视直播现场音效处理中存在的声画同步难、环境噪声干扰、多声源混叠等技术难题,提出基于人工智能的音频处理优化方案。通过构建智能声像追踪系统、多说话人分离算法、自适应音频增强模型,智能优化广播电视直播现场音效。应用结果表明,该系统科学控制了声画同步误差,提高了语音清晰度,为广播电视直播音质提升提供了有效的技术支撑。 展开更多
关键词 人工智能 直播音效 声像追踪 多说话人分离 自适应增强
在线阅读 下载PDF
基于层级注意力机制的Res2Net说话人确认算法
11
作者 胡鸿淋 熊淑华 《智能计算机与应用》 2025年第6期190-195,共6页
针对说话人确认任务中网络难以有效利用全局信息的问题,本文提出基于层级注意力机制的Res2Net说话人确认算法,通过融合多分辨率的层级输出结果,并依次经过通道注意力机制和空间注意力机制,确保可以有效提取出全局信息。此外,根据说话人... 针对说话人确认任务中网络难以有效利用全局信息的问题,本文提出基于层级注意力机制的Res2Net说话人确认算法,通过融合多分辨率的层级输出结果,并依次经过通道注意力机制和空间注意力机制,确保可以有效提取出全局信息。此外,根据说话人确认任务设计了与传统注意力机制不同的局部特征融合算法,提取出更细节的局部特征并有效保留上下文信息。实验结果表明,本文算法比基线系统在等错误率(EER)和最小检测代价函数(minDCF)上分别提高了41.7%和29.7%,与Res2Net的其他变体Res2Net-26w8s和ECAPA-TDNN对比,等错误率分别提高了39.3%和12.9%,最小检测代价函数分别提高了27.9%和16.5%,由此可见本文算法在说话人确认的任务上有更好的性能。 展开更多
关键词 说话人确认 深度学习 注意力机制 多分辨率
在线阅读 下载PDF
基于并行卷积和双重注意力机制的说话人识别 被引量:1
12
作者 陶佳佳 赵永钢 +2 位作者 华杭波 孔明 梁晓瑜 《微电子学与计算机》 2025年第1期1-8,共8页
为解决说话人识别面对多种场景造成性能变差的问题,提出了一种基于并行卷积和双重注意力机制的识别方法。该方法基于ECAPA-TDNN模型结构,对网络组件和损失函数计算模块进行了改进。首先,残差模块的改进是引入“分组”的思想,通过在残差... 为解决说话人识别面对多种场景造成性能变差的问题,提出了一种基于并行卷积和双重注意力机制的识别方法。该方法基于ECAPA-TDNN模型结构,对网络组件和损失函数计算模块进行了改进。首先,残差模块的改进是引入“分组”的思想,通过在残差块构建多分支并行连接,获取多层次特征。其次,注意力模块的改进是利用通道注意力和空间注意力两种机制,对特征的不同位置进行注意力加权,便于模型自适应地选择和强调特征,捕获全局特征和局部关键信息。然后,使用Sub-center loss函数计算损失,应对多变化特征。最后,在大型的中文多场景数据集CN-Celeb上评估模型的有效性并选取数据集的六种单一场景测试说话人识别系统。实验结果表明:与ResNet34模型和ECAPA-TDNN模型相比,EER分别降低了6.03%和5.57%,minDCF分别降低了7.31%和7.02%;6种单一场景测试结果的均值低于测试集结果,且在“drama”和“speech”场景下表现优异,EER最低仅有4.48%,minDCF最低为0.2322。说明该方法具有强大的优越性和适应性,能够针对不同场景进行有效识别,从而提高说话人识别准确率和鲁棒性。 展开更多
关键词 说话人识别 并行连接 注意力机制 多场景数据集
在线阅读 下载PDF
基于师生说话人确认技术的课堂交互分析
13
作者 温彦 张玉浩 +1 位作者 渠嘉威 于恩海 《软件导刊》 2025年第11期35-41,共7页
针对传统课堂交互分析依赖人工编码导致效率低下、主观性强等问题,提出了基于师生说话人确认技术的课堂交互分析方法。在中小学真实课堂场景中,该技术取得了91.8%的说话人身份确认准确率,成功实现了对话轮次转换、话语时长分布及课堂互... 针对传统课堂交互分析依赖人工编码导致效率低下、主观性强等问题,提出了基于师生说话人确认技术的课堂交互分析方法。在中小学真实课堂场景中,该技术取得了91.8%的说话人身份确认准确率,成功实现了对话轮次转换、话语时长分布及课堂互动模式等信息的自动化统计,并进行了多维可视化分析。这种方法显著提升了课堂诊断的客观性和教研效率,为教育数字化转型提供了关键技术支撑。 展开更多
关键词 课堂交互分析 说话人确认技术 多维可视化 教育数字化转型
在线阅读 下载PDF
基于MFCC和运动强度聚类初始化的多说话人识别 被引量:10
14
作者 曹洁 余丽珍 《计算机应用研究》 CSCD 北大核心 2012年第9期3295-3298,共4页
针对常用基于音频特征的多说话人聚类初始化方法精度不高这一问题,提出了一种基于视频信号的新方法。该方法通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择,有效提升了说话人初始类纯度。最后将该方法... 针对常用基于音频特征的多说话人聚类初始化方法精度不高这一问题,提出了一种基于视频信号的新方法。该方法通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,在整个会议集上该方法相比其他方法有了很大改善,较之线性初始化系统的错误识别率平均降低了19.436%,较之改进的线性初始化系统的错误识别率平均降低了16.618%。 展开更多
关键词 多说话人识别 聚类初始化 运动强度特征 运动强度初始化
在线阅读 下载PDF
改进的说话人聚类初始化和GMM的多说话人识别 被引量:6
15
作者 曹洁 余丽珍 《计算机应用研究》 CSCD 北大核心 2012年第2期590-593,共4页
针对多说话人聚类线性初始化方法精度较差的问题,提出了一种改进的聚类初始化方法。该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结... 针对多说话人聚类线性初始化方法精度较差的问题,提出了一种改进的聚类初始化方法。该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,所提方法使说话人平均类纯度(ACP)提高了48.51%,系统的错误识别率平均降低12.09%。 展开更多
关键词 多说话人识别 改进的聚类初始化 高斯混合模型 平均类纯度
在线阅读 下载PDF
在MATLAB环境下实现的语音识别 被引量:9
16
作者 龙银东 刘宇红 +1 位作者 敬岚 乔卫民 《微计算机信息》 北大核心 2007年第34期255-256,276,共3页
介绍了一种基于MATLAB的多个特定人连接词语音识别的方法,并提出了在进行端点检测时,引入平均的概念能进一步提高识别率。此设计是以LPCC系数、DTW算法为核心的基于图形界面的设计。通过大量的实验测试,表明该方法基本达到屏蔽外界环境... 介绍了一种基于MATLAB的多个特定人连接词语音识别的方法,并提出了在进行端点检测时,引入平均的概念能进一步提高识别率。此设计是以LPCC系数、DTW算法为核心的基于图形界面的设计。通过大量的实验测试,表明该方法基本达到屏蔽外界环境的影响,具有非常高的精度识别。 展开更多
关键词 语音识别 MATLAB 线性预测倒谱系数 动态时间弯折
在线阅读 下载PDF
改进的基于小波包变换的语音特征提取算法 被引量:4
17
作者 吴亮春 潘世永 +1 位作者 何金瑞 张东海 《计算机工程与应用》 CSCD 北大核心 2011年第5期210-212,共3页
针对语音信号的非平稳特性,传统的应用短时分析技术容易丢失信息的现状,提出了一种利用小波包变换的技术对语音信号的共振峰特征(FDWPT)进行提取的方法。对整个语音信号进行多分辨分析的小波包变换,这样可以得到每个频带的小波分解值,... 针对语音信号的非平稳特性,传统的应用短时分析技术容易丢失信息的现状,提出了一种利用小波包变换的技术对语音信号的共振峰特征(FDWPT)进行提取的方法。对整个语音信号进行多分辨分析的小波包变换,这样可以得到每个频带的小波分解值,结合共振峰的频率特性,选取适当的小波包分解结点,对这些结点建立共振峰参数,使用矢量量化模型进行识别,从而提高了说话人识别的效果。 展开更多
关键词 小波包变换 共振峰 多分辨分析 说话人识别
在线阅读 下载PDF
多说话人分离与目标说话人提取的研究现状与展望 被引量:2
18
作者 鲍长春 杨雪 《数据采集与处理》 CSCD 北大核心 2024年第5期1044-1061,共18页
语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起... 语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。 展开更多
关键词 语音分离 鸡尾酒会问题 多说话人分离 目标说话人提取 深度学习
在线阅读 下载PDF
说话人特征约束的多任务卷积网络语音增强 被引量:3
19
作者 龙华 张林濮 +1 位作者 邵玉斌 杜庆治 《小型微型计算机系统》 CSCD 北大核心 2021年第10期2178-2183,共6页
针对噪声干扰环境下的说话人识别问题,提出了一种基于多任务学习的语音增强方法作为说话人识别系统的前端.在卷积神经网络(CNN)的基础上,通过构建语音增强与说话人识别的融合网络多任务学习模型,同时在输入输出端拼接梅尔频谱倒谱系数(M... 针对噪声干扰环境下的说话人识别问题,提出了一种基于多任务学习的语音增强方法作为说话人识别系统的前端.在卷积神经网络(CNN)的基础上,通过构建语音增强与说话人识别的融合网络多任务学习模型,同时在输入输出端拼接梅尔频谱倒谱系数(MFCC)和基音周期特征作为辅助任务,以及利用同方差不确定性自适应调整损失权重.实验结果表明,相比只输入对数功率谱(LPS)的CNN以及DNN模型,加入辅助任务的CNN模型可以提高语音增强的表现.另外,语音增强与说话人识别任务的联合训练可以增强噪声干扰下的说话人识别效果,提高模型的鲁棒性. 展开更多
关键词 语音增强 多任务学习 说话人识别 卷积神经网络
在线阅读 下载PDF
基于SVM的多分类器融合算法在说话人识别中的应用 被引量:5
20
作者 王波 徐毅琼 李弼程 《计算机工程与设计》 CSCD 北大核心 2007年第12期2909-2910,2913,共3页
多分类器协同合作克服了单个分类器识别效果不理想,适用范围较窄或对使用环境要求较高的不足,并为研制更高性能的分类器,提供了解决问题的另一个途径。提出了一种基于SVM的多分类器说话人识别系统,该系统的识别框架基于多分类器的协同... 多分类器协同合作克服了单个分类器识别效果不理想,适用范围较窄或对使用环境要求较高的不足,并为研制更高性能的分类器,提供了解决问题的另一个途径。提出了一种基于SVM的多分类器说话人识别系统,该系统的识别框架基于多分类器的协同工作。该多分类器系统采用了ANN(artificial neural networks)、GMM(gaussian mixed model)分类器和子带结构分类器,参数选取包括MFCC(mel frequency cepstrum coefficient)、LPCC(linear prediction cepstrum coefficient)。多分类器融合采用SVM方法。本系统在超短波信道(15 db)的实际应用中达到94%的识别率。 展开更多
关键词 说话人识别 多分类器协同 子带结构分类器 分层识别 人工神经网络 混合高斯模型 支持向量机
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部