期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
Deep Scalogram Representations for Acoustic Scene Classification 被引量:5
1
作者 Zhao Ren Kun Qian +3 位作者 Zixing Zhang Vedhas Pandit Alice Baird Bjorn Schuller 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2018年第3期662-669,共8页
Spectrogram representations of acoustic scenes have achieved competitive performance for acoustic scene classification. Yet, the spectrogram alone does not take into account a substantial amount of time-frequency info... Spectrogram representations of acoustic scenes have achieved competitive performance for acoustic scene classification. Yet, the spectrogram alone does not take into account a substantial amount of time-frequency information. In this study, we present an approach for exploring the benefits of deep scalogram representations, extracted in segments from an audio stream. The approach presented firstly transforms the segmented acoustic scenes into bump and morse scalograms, as well as spectrograms; secondly, the spectrograms or scalograms are sent into pre-trained convolutional neural networks; thirdly,the features extracted from a subsequent fully connected layer are fed into(bidirectional) gated recurrent neural networks, which are followed by a single highway layer and a softmax layer;finally, predictions from these three systems are fused by a margin sampling value strategy. We then evaluate the proposed approach using the acoustic scene classification data set of 2017 IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events(DCASE). On the evaluation set, an accuracy of 64.0 % from bidirectional gated recurrent neural networks is obtained when fusing the spectrogram and the bump scalogram, which is an improvement on the 61.0 % baseline result provided by the DCASE 2017 organisers. This result shows that extracted bump scalograms are capable of improving the classification accuracy,when fusing with a spectrogram-based system. 展开更多
关键词 acoustic scene classification(asc) (bidirectional) gated recurrent neural networks((B) GRNNs) convolutional neural networks(CNNs) deep scalogram representation spectrogram representation
在线阅读 下载PDF
Shallow Convolutional Neural Networks for Acoustic Scene Classification 被引量:5
2
作者 LU Lu YANG Yuhong +2 位作者 JIANG Yuzhi AI Haojun TU Weiping 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2018年第2期178-184,共7页
Recently, deep neural networks, which include convolutional neural networks(CNNs), have been widely applied to acoustic scene classification(ASC). Motivated by the fact that some simplified CNNs have shown improve... Recently, deep neural networks, which include convolutional neural networks(CNNs), have been widely applied to acoustic scene classification(ASC). Motivated by the fact that some simplified CNNs have shown improvements over deep CNNs, such as Visual Geometry Group Net(VGG-Net), we have figured out how to simplify the VGG-Net style architecture to a shallow CNN with improved performance. Max pooling and batch normalization are also applied for better accuracy. With a series of controlled tests on detection and classification of acoustic scenes and events(DCASE) 2016 data sets, our shallow CNN achieves 6.7% improvement, and reduces time complexity to 5%, compared with the VGG-Net style CNN. 展开更多
关键词 acoustic scene classification convolutional neuralnetworks Mel-spectrogram
原文传递
TP-MobNet: A Two-pass Mobile Network for Low-complexity Classification of Acoustic Scene 被引量:1
3
作者 Soonshin Seo Junseok Oh +3 位作者 Eunsoo Cho Hosung Park Gyujin Kim Ji-Hwan Kim 《Computers, Materials & Continua》 SCIE EI 2022年第11期3291-3303,共13页
Acoustic scene classification(ASC)is a method of recognizing and classifying environments that employ acoustic signals.Various ASC approaches based on deep learning have been developed,with convolutional neural networ... Acoustic scene classification(ASC)is a method of recognizing and classifying environments that employ acoustic signals.Various ASC approaches based on deep learning have been developed,with convolutional neural networks(CNNs)proving to be the most reliable and commonly utilized in ASC systems due to their suitability for constructing lightweight models.When using ASC systems in the real world,model complexity and device robustness are essential considerations.In this paper,we propose a two-pass mobile network for low-complexity classification of the acoustic scene,named TP-MobNet.With inverse residuals and linear bottlenecks,TPMobNet is based on MobileNetV2,and following mobile blocks,coordinate attention and two-pass fusion approaches are utilized.The log-range dependencies and precise position information in feature maps can be trained via coordinate attention.By capturing more diverse feature resolutions at the network’s end sides,two-pass fusions can also train generalization.Also,the model size is reduced by applying weight quantization to the trained model.By adding weight quantization to the trained model,the model size is also lowered.The TAU Urban Acoustic Scenes 2020 Mobile development set was used for all of the experiments.It has been confirmed that the proposed model,with a model size of 219.6 kB,achieves an accuracy of 73.94%. 展开更多
关键词 acoustic scene classification LOW-COMPLEXITY device robustness two-pass mobile network coordinate attention weight quantization
在线阅读 下载PDF
基于跨模态注意力与门控融合的声场景分类
4
作者 韦娟 周惠文 宁方立 《系统工程与电子技术》 北大核心 2025年第11期3543-3550,共8页
针对声场景分类任务中模态间关联获取不充分、特征融合效率低等问题,提出一种基于跨模态注意力与门控融合的声场景分类模型。该模型通过跨模态注意力模块实现声学与视觉模态的双向交互,动态捕捉模态间关联;同时设计门控融合模块动态调... 针对声场景分类任务中模态间关联获取不充分、特征融合效率低等问题,提出一种基于跨模态注意力与门控融合的声场景分类模型。该模型通过跨模态注意力模块实现声学与视觉模态的双向交互,动态捕捉模态间关联;同时设计门控融合模块动态调整声学与视觉模态权重,实现特征的自适应融合,并引入残差增强与双路池化策略提升特征的鲁棒性;从准确率、帧率和模型参数量3个维度对所提模型与同任务下的其他方法进行评估。仿真结果表明,所提模型在保持较高准确率的同时,整体分类效果优于其他方法,证明了其有效性与实用性。 展开更多
关键词 声场景分类 跨模态注意力 动态门控 自适应融合
在线阅读 下载PDF
基于自适应多分支卷积的声学场景分类
5
作者 韦娟 何德华 宁方立 《系统工程与电子技术》 北大核心 2025年第10期3148-3154,共7页
针对声学场景分类任务中模型特征表达能力不充足的问题,提出一种基于自适应多分支卷积优化的网络架构。首先,使用多支路分别提取特征,再引入动态权重自适应改变权值平衡每个支路,提升特征感知能力。其次,考虑现有模型分类时忽略类与类... 针对声学场景分类任务中模型特征表达能力不充足的问题,提出一种基于自适应多分支卷积优化的网络架构。首先,使用多支路分别提取特征,再引入动态权重自适应改变权值平衡每个支路,提升特征感知能力。其次,考虑现有模型分类时忽略类与类之间的关系问题,引入粗粒度分类器辅助训练原分类模型,通过结果融合增强分类过程。在TUT2020移动开发数据集上进行训练与测试。实验结果表明,相较于优化前的算法,所提模型在准确率上提升了6.5%,证明所提方法可以有效提升整体分类效果。 展开更多
关键词 声学场景分类 卷积神经网络 自适应特征融合 层次结构
在线阅读 下载PDF
基于DMFCC与自注意力的声学场景分类识别
6
作者 李建平 李同康 +2 位作者 杨佳贺 杜星彤 孙美琪 《微型电脑应用》 2025年第12期32-35,共4页
针对声学场景分类准确率低的问题,提出一种基于动态梅尔频率倒谱系数(DMFCC)与自注意力机制的声学场景分类方法。DMFCC能够很好地兼顾声学特征的动态信息和静态信息,自注意力机制的引入可以更好地捕捉语境信息和提高特征的表达能力。与... 针对声学场景分类准确率低的问题,提出一种基于动态梅尔频率倒谱系数(DMFCC)与自注意力机制的声学场景分类方法。DMFCC能够很好地兼顾声学特征的动态信息和静态信息,自注意力机制的引入可以更好地捕捉语境信息和提高特征的表达能力。与其他常用方法进行比较实验,结果表明,基于DMFCC与自注意力机制的联合优化较之前提高了22%的准确率,证明了其有效性。 展开更多
关键词 声学场景分类 动态梅尔频率倒谱系数 自注意力 分类识别
在线阅读 下载PDF
基于摄动分解和S4模型的声学场景分类算法
7
作者 王炜欣 马建芬 +2 位作者 刘荣江 郭梦溪 菅傲群 《计算机工程与设计》 北大核心 2025年第5期1273-1280,共8页
针对在声音信号处理的过程中,经常缺乏对物理上的非线性声学特征提取的问题,根据声音传播的物理方程提出一种摄动分解的方法。声音信号作为一个较长的时间序列,使用神经网络进行学习表征时需要考虑其长距离的依赖性,而S4模型则刚好可以... 针对在声音信号处理的过程中,经常缺乏对物理上的非线性声学特征提取的问题,根据声音传播的物理方程提出一种摄动分解的方法。声音信号作为一个较长的时间序列,使用神经网络进行学习表征时需要考虑其长距离的依赖性,而S4模型则刚好可以完成这一任务。分析该方法在声学场景分类中的应用,在此基础上测试其在不同的参数设置下的效果。实验结果表明,该方法使分类准确率提升,说明了其有效性。 展开更多
关键词 声音信号处理 声学场景分类 非线性声学 摄动分解 状态空间模型 机器学习 深度学习
在线阅读 下载PDF
声景识音:数字化时代声学场景分类的探索与前沿 被引量:1
8
作者 庞鑫 葛凤培 李艳玲 《计算机工程》 北大核心 2025年第6期1-19,共19页
声学场景分类(ASC)旨在让计算机模拟人类听觉识别不同的声学环境,是计算机听觉领域中具有挑战性的任务之一。随着智能音频处理技术以及神经网络学习算法的快速进步,近年来ASC任务也涌现出一系列新算法和新技术。为了全面展示该领域的技... 声学场景分类(ASC)旨在让计算机模拟人类听觉识别不同的声学环境,是计算机听觉领域中具有挑战性的任务之一。随着智能音频处理技术以及神经网络学习算法的快速进步,近年来ASC任务也涌现出一系列新算法和新技术。为了全面展示该领域的技术发展脉络和演进过程,梳理了该领域的早期工作和近期发展,全面介绍了ASC任务。首先描述了ASC的应用场景和面临的挑战;其次详细介绍了ASC的主流框架,重点阐述了应用于此领域的深度学习算法;然后系统性地总结了ASC的前沿探索与延伸任务以及公开数据集;最后对ASC的发展趋势进行探讨与展望。 展开更多
关键词 声学场景分类 深度学习 音频分类 语音识别 数据增强
在线阅读 下载PDF
基于注意力的双层级并行声学场景分类方法
9
作者 杨雪同 夏秀渝 《应用声学》 北大核心 2025年第3期588-595,共8页
声学场景分类是计算机听觉任务之一,其通过对声频信号的分析,将声频分类为特定的场景类型。该技术可广泛应用于智能设备、声频监控等领域。声学场景自上而下可分为高层级场景,再细分为低层级场景。与直接针对低层级场景分类的方法不同,... 声学场景分类是计算机听觉任务之一,其通过对声频信号的分析,将声频分类为特定的场景类型。该技术可广泛应用于智能设备、声频监控等领域。声学场景自上而下可分为高层级场景,再细分为低层级场景。与直接针对低层级场景分类的方法不同,根据该层级关系提出一种基于注意力的双层级并行网络用于声学场景分类。首先基于残差网络构建并行的高低层级声学场景分类模型,从高层级分类模型间层特征中获取全局参考特征。然后根据全局参考特征和低层级分类模型特征间距离计算注意力权重,使低层级分类模型关注重要特征。最后利用增强推理层融合高低层级分类模型的输出。并行网络在DCASE2019任务1数据集上的准确率为89.5%,应用增强推理层后的准确率为90.1%,验证了所提网络模型和增强推理层的有效性。 展开更多
关键词 声学场景分类 残差网络 注意力 层级关系 增强推理
在线阅读 下载PDF
基于减小高频混响和RF-DRSN-EMA的声音事件分类方法
10
作者 曹毅 王彦雯 +2 位作者 李杰 郑植 孙浩 《华南理工大学学报(自然科学版)》 北大核心 2025年第7期70-79,共10页
针对现有声音事件分类方法分类准确率不高、泛化能力不强的问题,该文提出了一种基于减小高频混响和多尺度注意力的频域残差收缩网络(RF-DRSN-EMA)的声音事件分类方法。首先,根据减小声音混响的原理,提出了一种减小高频混响的方法,该方... 针对现有声音事件分类方法分类准确率不高、泛化能力不强的问题,该文提出了一种基于减小高频混响和多尺度注意力的频域残差收缩网络(RF-DRSN-EMA)的声音事件分类方法。首先,根据减小声音混响的原理,提出了一种减小高频混响的方法,该方法仅减小分离出音频中的高频段混响而保留其余频段的关键频率信息,以便在提升语音清晰度的同时尽可能地减小语音失真的影响。然后,以深度残差收缩网络为基础网络,结合改进的频域自校正算法和多尺度注意力模块,提出了多尺度注意力的频域残差收缩网络RF-DRSN-EMA;该网络采用RF自校正模块(其内部的长短距离残差结构能缓解特征坍塌),以实现频域信息的高效采集,并在单元的输出采用多尺度注意力模块,进一步关注单元在输出层的有效信息,以强化模型的表征能力。最后,基于数据集ESC-10、UrbanSound8K和DCASE2020 Task 1A开展了声音事件分类实验。结果表明:该文提出的减小高频混响的语音增强方法能有针对性地减小高频段混响等背景噪音的影响和消除冗余特征,音质损伤较小,从而具有更好的分类性能;RF-DRSN-EMA实现了网络中频域的典型特征去噪以及信息的高效采集,在3个数据集上的最佳分类准确率分别达到98.00%、93.42%、72.80%,从而验证了该方法的有效性和泛化性。 展开更多
关键词 声音事件分类 减小高频混响 频域残差收缩网络 多尺度注意力 语音增强
在线阅读 下载PDF
基于多特征融合的SVM声学场景分类算法研究 被引量:17
11
作者 赵薇 靳聪 +2 位作者 涂中文 SRIDHAR Krishnan 刘杉 《北京理工大学学报》 EI CAS CSCD 北大核心 2020年第1期69-75,共7页
针对DCASE2017挑战赛的声场环境数据集,提取梅尔频率倒谱系数(MFCC)、短时能量(SE)、声学事件似然特征(AELF)、静音时间(MT)特征,组成多特征融合矩阵,通过对比多种核函数和寻优算法,最终选取高斯径向基核函数(RK)建立支持向量机(SVM)模... 针对DCASE2017挑战赛的声场环境数据集,提取梅尔频率倒谱系数(MFCC)、短时能量(SE)、声学事件似然特征(AELF)、静音时间(MT)特征,组成多特征融合矩阵,通过对比多种核函数和寻优算法,最终选取高斯径向基核函数(RK)建立支持向量机(SVM)模型,采用交叉验证(CV)方法进行SVM参数寻优,对15种声学场景进行分类.实验结果表明,杂货店、办公室的分类准确性达到了90%以上,平均分类准确性达到71.11%,远高于挑战赛的基线系统61%的平均分类准确性. 展开更多
关键词 声学场景分类 支持向量机 参数寻优 特征融合
在线阅读 下载PDF
基于神经网络的声场景数据声谱图提取方法 被引量:2
12
作者 韦娟 丁智恺 宁方立 《系统工程与电子技术》 EI CSCD 北大核心 2021年第12期3462-3469,共8页
在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组。针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网... 在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组。针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网络使声谱图自动适应声场景数据集。声谱图提取神经网络连接ResNet50作为声场景识别架构,在DCASE2019声场景数据集上进行训练与测试,实验结果表明该架构比传统模型有更高的识别率,能够有效调整频率曲线、滤波器幅值以及滤波器形状。 展开更多
关键词 声场景分类 深度卷积神经网络 声谱图提取神经网络 梅尔频谱
在线阅读 下载PDF
CNN-XGBoost混合模型在音频场景分类中的应用 被引量:3
13
作者 杨立东 胡江涛 张壮壮 《小型微型计算机系统》 CSCD 北大核心 2021年第1期213-217,共5页
在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频... 在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频信号转换成梅尔声谱图,然后输入到卷积神经网络中完成抽象特征提取,最后利用极端梯度提升算法进行分类.为了评估模型的有效性,在城市音频场景UrbanSound8K数据集上进行分类性能测试,结果表明,该混合算法模型对音频场景的分类精确率可以达到89%,优于传统的神经网络算法模型,说明该混合模型对音频场景分类问题的有效性. 展开更多
关键词 音频场景分类 卷积神经网络 极端梯度提升 梅尔声谱图
在线阅读 下载PDF
时频图像特征用于声场景分类 被引量:1
14
作者 高敏 尹雪飞 陈克安 《声学技术》 CSCD 北大核心 2017年第5期399-404,共6页
为解决根据音频流识别声场景的问题,对音频信号进行恒Q变换,得到其时频表达图像,然后进行滤波平滑等处理,随之提取能够表述信号谱能量变化方向信息的梯度直方图特征,以及能够捕捉信号谱纹理信息的局部二值模式特征,输入具有线性核函数... 为解决根据音频流识别声场景的问题,对音频信号进行恒Q变换,得到其时频表达图像,然后进行滤波平滑等处理,随之提取能够表述信号谱能量变化方向信息的梯度直方图特征,以及能够捕捉信号谱纹理信息的局部二值模式特征,输入具有线性核函数的支持向量机分类器,对不同声场景数据进行分类实验。结果表明,相对于传统的时频域特征和梅尔频率倒谱系数特征,所提出的特征基本能够捕捉到给定声场景具有区分度的信息,所得分类率更高,且两者的互补作用使得联合特征分类效果达到最优,该方法为声信号特征提取贡献了一种新思路。 展开更多
关键词 声场景 恒Q变换 梯度直方图 局部二值模式
在线阅读 下载PDF
改进卷积神经网络的音频场景分类研究 被引量:6
15
作者 杨立东 张壮壮 《现代电子技术》 2021年第3期91-94,共4页
音频场景分类作为声学场景理解的关键环节,对机器感知复杂环境并做出智能选择有着非常重要的意义。针对音频场景分类性能提升这一问题,提出改进的基于卷积神经网络模型的音频场景分类方法。首先对音频数据重新采样,预处理后得到对数梅... 音频场景分类作为声学场景理解的关键环节,对机器感知复杂环境并做出智能选择有着非常重要的意义。针对音频场景分类性能提升这一问题,提出改进的基于卷积神经网络模型的音频场景分类方法。首先对音频数据重新采样,预处理后得到对数梅尔谱图,随后输入到改进的卷积神经网络模型,进行卷积和池化处理提取谱图的特征,由Softmax分类器对音频场景标签进行分类。实验最后在城市音频数据集上进行十折交叉验证,实验结果表明,所提模型比传统的卷积神经网络模型的分类准确率更高,准确率达到了80%。 展开更多
关键词 音频场景分类 卷积神经网络 Softmax分类器 特征提取 梅尔谱图 准确率
在线阅读 下载PDF
基于并行胶囊网络的声学场景分类 被引量:2
16
作者 杨立东 赵飞焱 《传感器与微系统》 CSCD 北大核心 2023年第12期155-159,共5页
为解决卷积神经网络(CNN)忽略音频特征之间的空间关系、丢失姿态特征和时序性特征的问题,提出了基于并行胶囊网络的声学场景分类模型,选用胶囊网络和双向门控循环单元弥补CNN的缺陷。首先,该模型通过提取音频对数梅尔能量谱特征;然后,... 为解决卷积神经网络(CNN)忽略音频特征之间的空间关系、丢失姿态特征和时序性特征的问题,提出了基于并行胶囊网络的声学场景分类模型,选用胶囊网络和双向门控循环单元弥补CNN的缺陷。首先,该模型通过提取音频对数梅尔能量谱特征;然后,结合各模块优点对音频特征处理;最后,根据场景特征完成分类。通过在“国际声学场景和事件检测及分类(DCASE)挑战赛2019”挑战任务1数据集下进行实验,在开发集和验证集上分别获得了71.1%和70.2%的准确率,优于基线系统的准确率,证明了该网络模型适用于声学场景分类任务。 展开更多
关键词 声学场景分类 胶囊网络 双向门控循环单元 并行神经网络 动态路由机制
在线阅读 下载PDF
神经网络的声场景自动分类方法 被引量:5
17
作者 梁腾 姜文宗 +2 位作者 王立 刘宝弟 王延江 《应用声学》 CSCD 北大核心 2022年第3期373-380,共8页
声场景探察和自动分类能帮助人类制定应对特定环境的正确策略,具有重要的研究价值。随着卷积神经网络的发展,出现了许多基于卷积神经网络的声场景分类方法。其中时频卷积神经网络(TS-CNN)采用了时频注意力模块,是目前声场景分类效果最... 声场景探察和自动分类能帮助人类制定应对特定环境的正确策略,具有重要的研究价值。随着卷积神经网络的发展,出现了许多基于卷积神经网络的声场景分类方法。其中时频卷积神经网络(TS-CNN)采用了时频注意力模块,是目前声场景分类效果最好的网络之一。为了在保持网络复杂度不变的前提下进一步提高网络的声场景分类性能,该文提出了一种基于协同学习的时频卷积神经网络模型(TSCNN-CL)。具体地说,该文首先建立了基于同构结构的辅助分支参与网络的训练。其次,提出了一种基于KL散度的协同损失函数,实现了分支与主干的知识协同,最后,在测试过程中,为了不增加推理计算量,该文提出的模型只使用主干网络预测结果。在ESC-10、ESC-50和UrbanSound8k数据集的综合实验表明,该模型分类效果要优于TS-CNN模型以及当前大部分的主流方法。 展开更多
关键词 声场景分类 时频卷积神经网络 协同学习 声信号处理
在线阅读 下载PDF
基于数字助听器声音场景分类的噪声抑制算法 被引量:4
18
作者 汪家冬 邹采荣 +1 位作者 蒋本聪 王青云 《数据采集与处理》 CSCD 北大核心 2017年第4期825-830,共6页
提出了一种基于声音场景分类的噪声抑制算法。算法使用调制滤波法对纯语音、纯噪音和含噪语音3种场景进行分类,并根据分类结果调整噪声抑制算法参数集,得到不同的抑制系数。本文方法在助听器测试系统中取得了良好的实验效果,场景分类正... 提出了一种基于声音场景分类的噪声抑制算法。算法使用调制滤波法对纯语音、纯噪音和含噪语音3种场景进行分类,并根据分类结果调整噪声抑制算法参数集,得到不同的抑制系数。本文方法在助听器测试系统中取得了良好的实验效果,场景分类正确率在95%以上。在不同噪声类型情况下,经过本文算法处理的输出语音信号取得了良好的信噪比和MOS评分的提升。本文算法可以有效地提高数字助听器输出语音质量。 展开更多
关键词 声音场景分类 调制滤波 噪声抑制 信噪比
在线阅读 下载PDF
基于数据增广的声学场景分类 被引量:2
19
作者 李源 马成男 +2 位作者 李关防 王强 张文武 《指挥控制与仿真》 2021年第1期60-64,共5页
声学场景分类是计算机听觉领域的热点方向之一,相比计算机视觉,特定场景下音频数据的收集和标注成本相对较高,如何利用有限的声学场景音频获得较高的分类准确率成为当前研究的重点内容。利用深度学习技术,结合轻量化网络模型mobilenetv... 声学场景分类是计算机听觉领域的热点方向之一,相比计算机视觉,特定场景下音频数据的收集和标注成本相对较高,如何利用有限的声学场景音频获得较高的分类准确率成为当前研究的重点内容。利用深度学习技术,结合轻量化网络模型mobilenetv2以及Mel声谱特征,基于城市场景分类数据集(urbansound8k)对三种数据增广技术SpecAugment、Mixup以及Cutmix进行全面的消融实验,结果表明:Cutmix增广技术将基线结果提升了0.71%,单独的Mixup以及SpecAugment增广技术对分类结果起抑制效果,SpecAugment结合Cutmix增广技术获得了最优的测试结果,分类准确率达到97.097%;其次对比最优方案下各类标签的F1分数和T-SNE降维分布图发现,二者具有很好的对应关系,表明T-SNE技术适用于Mel声谱特征的降维及分布观测。 展开更多
关键词 声学场景分类 数据增广 SpecAugment Mixup Cutmix
在线阅读 下载PDF
基于梅尔频谱分离和LSCNet的声学场景分类方法 被引量:8
20
作者 费鸿博 吴伟官 +1 位作者 李平 曹毅 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2022年第5期124-130,123,共8页
针对现有频谱分离方法进行声学场景分类研究时其分类准确率不高的问题,提出了一种基于梅尔频谱分离和长距离自校正卷积神经网络(long-distance self-calibration convolutional neural network,LSCNet)的声学场景分类方法。首先,介绍了... 针对现有频谱分离方法进行声学场景分类研究时其分类准确率不高的问题,提出了一种基于梅尔频谱分离和长距离自校正卷积神经网络(long-distance self-calibration convolutional neural network,LSCNet)的声学场景分类方法。首先,介绍了频谱的谐波打击源分离原理,提出了一种梅尔频谱分离算法,将梅尔频谱分离出谐波分量、打击源分量和残差分量;然后,结合自校正神经网络和残差增强机制,提出了一种长距离自校正卷积神经网络;该模型采用频域自校正算法以及长距离增强机制来保留特征图原始信息,通过残差增强机制和通道注意力增强机制加强了深层特征与浅层特征间的关联度,且结合多尺度特征融合模块,以进一步提取模型训练中输出层的有效信息,从而提高模型的分类准确率;最后,基于Urbansound8K和ESC-50数据集开展了声学场景分类实验。实验结果表明:梅尔频谱的残差分量能够针对性地减少背景噪音的影响,从而具有更好的分类性能,且LSCNet实现了对特征图中频域信息的关注,其最佳分类准确率分别达到90.1%和88%,验证了该方法的有效性。 展开更多
关键词 声学场景分类 梅尔频谱分离算法 长距离自校正卷积神经网络 频域自校正算法 多尺度特征融合
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部