期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于数据增广的声学场景分类 被引量:2
1
作者 李源 马成男 +2 位作者 李关防 王强 张文武 《指挥控制与仿真》 2021年第1期60-64,共5页
声学场景分类是计算机听觉领域的热点方向之一,相比计算机视觉,特定场景下音频数据的收集和标注成本相对较高,如何利用有限的声学场景音频获得较高的分类准确率成为当前研究的重点内容。利用深度学习技术,结合轻量化网络模型mobilenetv... 声学场景分类是计算机听觉领域的热点方向之一,相比计算机视觉,特定场景下音频数据的收集和标注成本相对较高,如何利用有限的声学场景音频获得较高的分类准确率成为当前研究的重点内容。利用深度学习技术,结合轻量化网络模型mobilenetv2以及Mel声谱特征,基于城市场景分类数据集(urbansound8k)对三种数据增广技术SpecAugment、Mixup以及Cutmix进行全面的消融实验,结果表明:Cutmix增广技术将基线结果提升了0.71%,单独的Mixup以及SpecAugment增广技术对分类结果起抑制效果,SpecAugment结合Cutmix增广技术获得了最优的测试结果,分类准确率达到97.097%;其次对比最优方案下各类标签的F1分数和T-SNE降维分布图发现,二者具有很好的对应关系,表明T-SNE技术适用于Mel声谱特征的降维及分布观测。 展开更多
关键词 声学场景分类 数据增广 specaugment Mixup Cutmix
在线阅读 下载PDF
基于多尺度卷积和多头自注意力的语音情感识别模型 被引量:3
2
作者 钟善机 张学习 +2 位作者 陈楚嘉 高学秋 陶杰 《自动化与信息工程》 2024年第4期36-41,49,共7页
针对传统的卷积神经网络在语音情感识别中无法充分捕捉时域和频域细节信息的问题,提出一种基于多尺度卷积和多头自注意力(MCNN-MHA)的语音情感识别模型。首先,通过多尺度卷积神经网络在不同尺度下对输入进行卷积操作,获得不同时域和频... 针对传统的卷积神经网络在语音情感识别中无法充分捕捉时域和频域细节信息的问题,提出一种基于多尺度卷积和多头自注意力(MCNN-MHA)的语音情感识别模型。首先,通过多尺度卷积神经网络在不同尺度下对输入进行卷积操作,获得不同时域和频域上的特征;然后,引入多头自注意力机制自动学习语音信号中相关和重要的特征,并关注不同特征的子空间,增强重要特征的感知能力;最后,利用SpecAugment中的频域掩码和时域掩码来增强数据样本,提高模型的泛化性和鲁棒性。实验结果表明,MCNN-MHA模型在RAVDESS数据集上取得了90.35%的准确率。 展开更多
关键词 语音情感识别 多尺度卷积神经网络 多头自注意力机制 specaugment
在线阅读 下载PDF
基于数据增强的藏语拉萨方言语音识别研究
3
作者 巴果 高定国 尼琼 《电脑知识与技术》 2024年第35期1-5,共5页
藏语属于低资源语言,其语音识别模型的训练面临数据稀缺的挑战。为了解决这一问题,文章研究了数据增强技术在藏语拉萨方言语音识别中的应用。首先,文章比较了DeepSpeech2、Conformer和Squeezeformer等3种主流语音识别模型在藏语拉萨方... 藏语属于低资源语言,其语音识别模型的训练面临数据稀缺的挑战。为了解决这一问题,文章研究了数据增强技术在藏语拉萨方言语音识别中的应用。首先,文章比较了DeepSpeech2、Conformer和Squeezeformer等3种主流语音识别模型在藏语拉萨方言语音识别任务中的性能。随后,在表现最佳的Conformer模型上,对速度扰动、音量扰动、移动扰动、SpecAugment和SpecSubAugment等5种数据增强方法的效果进行了对比分析。实验结果表明,5种数据增强方法均能有效提升模型性能,其中SpecAugment方法表现最佳,将字符错误率(CER)降至13.1%。 展开更多
关键词 藏语拉萨方言 语音识别 数据增强 端到端模型 specaugment
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部