期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于VGGish-BiGRU的戏曲流派分类模型
1
作者 龚谊承 王晓雨 《电子设计工程》 2025年第17期7-11,17,共6页
音乐类型分类(MGC)任务有助于提升音乐产业的效益和用户体验,为了弘扬戏曲文化,戏曲流派的识别与分类是一项具有挑战性的任务。传统的音频分类算法依赖于手动提取特征,导致特征表达能力较弱,从而产生一定误差。该文将迁移学习与深度学... 音乐类型分类(MGC)任务有助于提升音乐产业的效益和用户体验,为了弘扬戏曲文化,戏曲流派的识别与分类是一项具有挑战性的任务。传统的音频分类算法依赖于手动提取特征,导致特征表达能力较弱,从而产生一定误差。该文将迁移学习与深度学习相结合,利用预训练VGGish模型提取戏曲特征结合BiGRU模型对所建立的戏曲数据集进行自动分类。实验结果表明,该方法在自建的包含8个剧种共1500首音乐的戏曲数据集上获得0.78的分类精度。为了验证模型的泛化能力,将所搭建的方法用于公共数据集GTZAN上,同样展现出较好的分类效果。与现有的基准模型相比,该方法在性能上提升3.5%~15%。 展开更多
关键词 戏曲分类 深度学习 频谱分析 vggish网络 双向门控循环单元 迁移学习
在线阅读 下载PDF
基于VGGish网络的音频信息情感智能识别算法 被引量:4
2
作者 张志超 李晓燕 《电子设计工程》 2022年第4期26-30,共5页
针对目前对于音频信息情感的研究较少以及对音频情感进行智能分析识别缺乏成熟技术的问题,文中提出了一种基于VGGish网络的音频信息情感智能识别算法。该算法通过VGGish网络提取音频信息的特征,利用降维可视化的方法不断调整不同情感音... 针对目前对于音频信息情感的研究较少以及对音频情感进行智能分析识别缺乏成熟技术的问题,文中提出了一种基于VGGish网络的音频信息情感智能识别算法。该算法通过VGGish网络提取音频信息的特征,利用降维可视化的方法不断调整不同情感音乐数据集分布,通过SVM和LSTM模型实现了音乐情感分类。算法测试结果表明,两种分类模型均能够对音频信息情感进行准确有效地分类,尤其是LSTM模型对于音频信息情感分类的平均准确率可达90.12%。 展开更多
关键词 vggish网络 卷积核 数据标注 数据转换 可视化 音频信息
在线阅读 下载PDF
基于文本和声学特征的双模态融合抑郁倾向识别算法 被引量:2
3
作者 赵健 崔骞 +1 位作者 石佳 刘岳 《计算机工程》 CAS CSCD 北大核心 2024年第11期49-58,共10页
在抑郁症诊断中,抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频,文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私,并且文本和音频均属于语言模态,相关性较强。针对抑郁倾向识别... 在抑郁症诊断中,抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频,文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私,并且文本和音频均属于语言模态,相关性较强。针对抑郁倾向识别中变长文本数据不易被分析以及手动提取音频特征存在局限性的问题,提出一种基于Transformer的融合网络优化方法。对于文本模态,使用卷积神经网络对文本进行特征提取,得到文本在不同尺度下的局部特征,然后引入Transformer模型来处理全局信息和长距离依赖。对于音频模态,为了降低手动提取音频特征对识别结果的影响,通过使用VGGish网络来自动提取音频特征,并将提取好的音频特征送入Transformer中。最后,为进一步增强文本和音频模态融合网络的识别性能,引入SE通道注意力机制,使模型能够自适应地调整各模态之间的权重分配,更有效地聚焦于关键特征。实验结果表明,双模态融合后的网络准确率达到92.7%,相比仅使用文本或音频模态,准确率分别提升2.9和4.9个百分点。 展开更多
关键词 Transformer模型 vggish网络 双模态融合 抑郁倾向识别 SE通道注意力机制 深度学习
在线阅读 下载PDF
基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法研究
4
作者 余星辰 彭程 +2 位作者 刘永涛 汪洋 崔玙晨 《华北科技学院学报》 2025年第6期18-25,共8页
针对煤矿瓦斯、煤尘爆炸声音识别精度和泛化程度不足的问题,提出了基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法。在煤矿重点监测区域部署矿用拾音器,实时捕捉煤矿设备运行和环境声音,利用VGGish网络对采集到的音频信号进行处理,提取... 针对煤矿瓦斯、煤尘爆炸声音识别精度和泛化程度不足的问题,提出了基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法。在煤矿重点监测区域部署矿用拾音器,实时捕捉煤矿设备运行和环境声音,利用VGGish网络对采集到的音频信号进行处理,提取声谱图作为声音表征,然后将其输入CNN,构建瓦斯和煤尘爆炸声音识别模型。对于待测声音信号,同样提取声谱图并输入训练好的模型进行分类。通过实验验证了该方法的有效性。首先,对瓦斯爆炸、煤尘爆炸、采煤机工作、掘进机工作、通风机工作声音进行了频谱图提取和分析,验证了频谱图提取方法的有效性和可靠性。声谱图对比实验表明,该声谱图提供了更准确和更丰富的声学特征,增大了爆炸和非爆炸声音的区分度,便于模型训练。实验结果表明,本文算法的平均识别率为97.87%,准确率为94.26%,召回率为100%,显著优于现有文献方法,验证了算法的有效性和鲁棒性。耗时测试结果表明,平均训练时间为46.4秒,平均识别时间为1.175秒,总平均持续时间为47.55秒。该算法在不同的训练集比例下保持较短的处理时间,表明所提算法具有优异的识别效率。 展开更多
关键词 瓦斯和煤尘爆炸 声音识别 vggish网络 声谱图 CNN
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部