期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于VGGish-BiGRU的戏曲流派分类模型
1
作者
龚谊承
王晓雨
《电子设计工程》
2025年第17期7-11,17,共6页
音乐类型分类(MGC)任务有助于提升音乐产业的效益和用户体验,为了弘扬戏曲文化,戏曲流派的识别与分类是一项具有挑战性的任务。传统的音频分类算法依赖于手动提取特征,导致特征表达能力较弱,从而产生一定误差。该文将迁移学习与深度学...
音乐类型分类(MGC)任务有助于提升音乐产业的效益和用户体验,为了弘扬戏曲文化,戏曲流派的识别与分类是一项具有挑战性的任务。传统的音频分类算法依赖于手动提取特征,导致特征表达能力较弱,从而产生一定误差。该文将迁移学习与深度学习相结合,利用预训练VGGish模型提取戏曲特征结合BiGRU模型对所建立的戏曲数据集进行自动分类。实验结果表明,该方法在自建的包含8个剧种共1500首音乐的戏曲数据集上获得0.78的分类精度。为了验证模型的泛化能力,将所搭建的方法用于公共数据集GTZAN上,同样展现出较好的分类效果。与现有的基准模型相比,该方法在性能上提升3.5%~15%。
展开更多
关键词
戏曲分类
深度学习
频谱分析
vggish
网络
双向门控循环单元
迁移学习
在线阅读
下载PDF
职称材料
基于VGGish网络的音频信息情感智能识别算法
被引量:
4
2
作者
张志超
李晓燕
《电子设计工程》
2022年第4期26-30,共5页
针对目前对于音频信息情感的研究较少以及对音频情感进行智能分析识别缺乏成熟技术的问题,文中提出了一种基于VGGish网络的音频信息情感智能识别算法。该算法通过VGGish网络提取音频信息的特征,利用降维可视化的方法不断调整不同情感音...
针对目前对于音频信息情感的研究较少以及对音频情感进行智能分析识别缺乏成熟技术的问题,文中提出了一种基于VGGish网络的音频信息情感智能识别算法。该算法通过VGGish网络提取音频信息的特征,利用降维可视化的方法不断调整不同情感音乐数据集分布,通过SVM和LSTM模型实现了音乐情感分类。算法测试结果表明,两种分类模型均能够对音频信息情感进行准确有效地分类,尤其是LSTM模型对于音频信息情感分类的平均准确率可达90.12%。
展开更多
关键词
vggish
网络
卷积核
数据标注
数据转换
可视化
音频信息
在线阅读
下载PDF
职称材料
基于文本和声学特征的双模态融合抑郁倾向识别算法
被引量:
2
3
作者
赵健
崔骞
+1 位作者
石佳
刘岳
《计算机工程》
CAS
CSCD
北大核心
2024年第11期49-58,共10页
在抑郁症诊断中,抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频,文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私,并且文本和音频均属于语言模态,相关性较强。针对抑郁倾向识别...
在抑郁症诊断中,抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频,文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私,并且文本和音频均属于语言模态,相关性较强。针对抑郁倾向识别中变长文本数据不易被分析以及手动提取音频特征存在局限性的问题,提出一种基于Transformer的融合网络优化方法。对于文本模态,使用卷积神经网络对文本进行特征提取,得到文本在不同尺度下的局部特征,然后引入Transformer模型来处理全局信息和长距离依赖。对于音频模态,为了降低手动提取音频特征对识别结果的影响,通过使用VGGish网络来自动提取音频特征,并将提取好的音频特征送入Transformer中。最后,为进一步增强文本和音频模态融合网络的识别性能,引入SE通道注意力机制,使模型能够自适应地调整各模态之间的权重分配,更有效地聚焦于关键特征。实验结果表明,双模态融合后的网络准确率达到92.7%,相比仅使用文本或音频模态,准确率分别提升2.9和4.9个百分点。
展开更多
关键词
Transformer模型
vggish
网络
双模态融合
抑郁倾向识别
SE通道注意力机制
深度学习
在线阅读
下载PDF
职称材料
基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法研究
4
作者
余星辰
彭程
+2 位作者
刘永涛
汪洋
崔玙晨
《华北科技学院学报》
2025年第6期18-25,共8页
针对煤矿瓦斯、煤尘爆炸声音识别精度和泛化程度不足的问题,提出了基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法。在煤矿重点监测区域部署矿用拾音器,实时捕捉煤矿设备运行和环境声音,利用VGGish网络对采集到的音频信号进行处理,提取...
针对煤矿瓦斯、煤尘爆炸声音识别精度和泛化程度不足的问题,提出了基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法。在煤矿重点监测区域部署矿用拾音器,实时捕捉煤矿设备运行和环境声音,利用VGGish网络对采集到的音频信号进行处理,提取声谱图作为声音表征,然后将其输入CNN,构建瓦斯和煤尘爆炸声音识别模型。对于待测声音信号,同样提取声谱图并输入训练好的模型进行分类。通过实验验证了该方法的有效性。首先,对瓦斯爆炸、煤尘爆炸、采煤机工作、掘进机工作、通风机工作声音进行了频谱图提取和分析,验证了频谱图提取方法的有效性和可靠性。声谱图对比实验表明,该声谱图提供了更准确和更丰富的声学特征,增大了爆炸和非爆炸声音的区分度,便于模型训练。实验结果表明,本文算法的平均识别率为97.87%,准确率为94.26%,召回率为100%,显著优于现有文献方法,验证了算法的有效性和鲁棒性。耗时测试结果表明,平均训练时间为46.4秒,平均识别时间为1.175秒,总平均持续时间为47.55秒。该算法在不同的训练集比例下保持较短的处理时间,表明所提算法具有优异的识别效率。
展开更多
关键词
瓦斯和煤尘爆炸
声音识别
vggish
网络
声谱图
CNN
在线阅读
下载PDF
职称材料
题名
基于VGGish-BiGRU的戏曲流派分类模型
1
作者
龚谊承
王晓雨
机构
武汉科技大学理学院
冶金工业过程系统科学湖北省重点实验室(武汉科技大学)
出处
《电子设计工程》
2025年第17期7-11,17,共6页
基金
国家自然科学基金项目(12171378)
冶金工业过程系统科学湖北省重点实验室项目(Y202105)
武汉科技大学本科教学研究项目(2022X002)。
文摘
音乐类型分类(MGC)任务有助于提升音乐产业的效益和用户体验,为了弘扬戏曲文化,戏曲流派的识别与分类是一项具有挑战性的任务。传统的音频分类算法依赖于手动提取特征,导致特征表达能力较弱,从而产生一定误差。该文将迁移学习与深度学习相结合,利用预训练VGGish模型提取戏曲特征结合BiGRU模型对所建立的戏曲数据集进行自动分类。实验结果表明,该方法在自建的包含8个剧种共1500首音乐的戏曲数据集上获得0.78的分类精度。为了验证模型的泛化能力,将所搭建的方法用于公共数据集GTZAN上,同样展现出较好的分类效果。与现有的基准模型相比,该方法在性能上提升3.5%~15%。
关键词
戏曲分类
深度学习
频谱分析
vggish
网络
双向门控循环单元
迁移学习
Keywords
opera classification
deep learning
spectrogram analysis
vggish network
Bidirectional Gated Recirculation Unit
transfer learning
分类号
TN981 [电子电信—信息与通信工程]
在线阅读
下载PDF
职称材料
题名
基于VGGish网络的音频信息情感智能识别算法
被引量:
4
2
作者
张志超
李晓燕
机构
延安大学鲁迅艺术学院
延安大学数学与计算机科学学院
出处
《电子设计工程》
2022年第4期26-30,共5页
基金
2020年度陕西省教育厅科学研究计划项目(20JK0982)。
文摘
针对目前对于音频信息情感的研究较少以及对音频情感进行智能分析识别缺乏成熟技术的问题,文中提出了一种基于VGGish网络的音频信息情感智能识别算法。该算法通过VGGish网络提取音频信息的特征,利用降维可视化的方法不断调整不同情感音乐数据集分布,通过SVM和LSTM模型实现了音乐情感分类。算法测试结果表明,两种分类模型均能够对音频信息情感进行准确有效地分类,尤其是LSTM模型对于音频信息情感分类的平均准确率可达90.12%。
关键词
vggish
网络
卷积核
数据标注
数据转换
可视化
音频信息
Keywords
vggish network
convolution kernel
data annotation
data conversion
visualization
audio information
分类号
TN971 [电子电信—信号与信息处理]
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于文本和声学特征的双模态融合抑郁倾向识别算法
被引量:
2
3
作者
赵健
崔骞
石佳
刘岳
机构
西北大学信息科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第11期49-58,共10页
基金
陕西省国际科技合作计划项目(2021KWZ-07)。
文摘
在抑郁症诊断中,抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频,文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私,并且文本和音频均属于语言模态,相关性较强。针对抑郁倾向识别中变长文本数据不易被分析以及手动提取音频特征存在局限性的问题,提出一种基于Transformer的融合网络优化方法。对于文本模态,使用卷积神经网络对文本进行特征提取,得到文本在不同尺度下的局部特征,然后引入Transformer模型来处理全局信息和长距离依赖。对于音频模态,为了降低手动提取音频特征对识别结果的影响,通过使用VGGish网络来自动提取音频特征,并将提取好的音频特征送入Transformer中。最后,为进一步增强文本和音频模态融合网络的识别性能,引入SE通道注意力机制,使模型能够自适应地调整各模态之间的权重分配,更有效地聚焦于关键特征。实验结果表明,双模态融合后的网络准确率达到92.7%,相比仅使用文本或音频模态,准确率分别提升2.9和4.9个百分点。
关键词
Transformer模型
vggish
网络
双模态融合
抑郁倾向识别
SE通道注意力机制
深度学习
Keywords
Transformer model
vggish network
bimodal fusion
depressive tendency recognition
SE channel attention mechanism
deep learning
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法研究
4
作者
余星辰
彭程
刘永涛
汪洋
崔玙晨
机构
华北科技学院信息与控制工程学院
出处
《华北科技学院学报》
2025年第6期18-25,共8页
基金
国家重点研发计划(2024YFB2908805)
中央高校基本科研费资助项目(3142024037)
+1 种基金
廊坊市科学技术研究与发展计划项目(2024011089)
华北科技学院2025年度校级教育教学研究项目(JY2025B34)。
文摘
针对煤矿瓦斯、煤尘爆炸声音识别精度和泛化程度不足的问题,提出了基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法。在煤矿重点监测区域部署矿用拾音器,实时捕捉煤矿设备运行和环境声音,利用VGGish网络对采集到的音频信号进行处理,提取声谱图作为声音表征,然后将其输入CNN,构建瓦斯和煤尘爆炸声音识别模型。对于待测声音信号,同样提取声谱图并输入训练好的模型进行分类。通过实验验证了该方法的有效性。首先,对瓦斯爆炸、煤尘爆炸、采煤机工作、掘进机工作、通风机工作声音进行了频谱图提取和分析,验证了频谱图提取方法的有效性和可靠性。声谱图对比实验表明,该声谱图提供了更准确和更丰富的声学特征,增大了爆炸和非爆炸声音的区分度,便于模型训练。实验结果表明,本文算法的平均识别率为97.87%,准确率为94.26%,召回率为100%,显著优于现有文献方法,验证了算法的有效性和鲁棒性。耗时测试结果表明,平均训练时间为46.4秒,平均识别时间为1.175秒,总平均持续时间为47.55秒。该算法在不同的训练集比例下保持较短的处理时间,表明所提算法具有优异的识别效率。
关键词
瓦斯和煤尘爆炸
声音识别
vggish
网络
声谱图
CNN
Keywords
gas and coal dust explosions
voice recognition
vggish network
spectrogram
CNN
分类号
TD76 [矿业工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于VGGish-BiGRU的戏曲流派分类模型
龚谊承
王晓雨
《电子设计工程》
2025
0
在线阅读
下载PDF
职称材料
2
基于VGGish网络的音频信息情感智能识别算法
张志超
李晓燕
《电子设计工程》
2022
4
在线阅读
下载PDF
职称材料
3
基于文本和声学特征的双模态融合抑郁倾向识别算法
赵健
崔骞
石佳
刘岳
《计算机工程》
CAS
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
4
基于VGG和CNN的煤矿瓦斯和煤尘爆炸声音识别方法研究
余星辰
彭程
刘永涛
汪洋
崔玙晨
《华北科技学院学报》
2025
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部