期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
基于Log-Mel和深度卷积神经网络的复合故障诊断方法
1
作者 张堂莉 涂凤秒 +1 位作者 刘涛 杨随先 《机电技术》 2026年第1期36-43,共8页
高效准确的复合故障诊断对于确保列车安全稳定运行具有重要意义。目前,现有复合故障诊断方法大多是将复合故障视为一种新的故障类型,诊断模型训练往往需要大量的数据,对数据要求比较高。由于现实生产中能采集到的复合故障数据极少,文章... 高效准确的复合故障诊断对于确保列车安全稳定运行具有重要意义。目前,现有复合故障诊断方法大多是将复合故障视为一种新的故障类型,诊断模型训练往往需要大量的数据,对数据要求比较高。由于现实生产中能采集到的复合故障数据极少,文章提出了一种针对少样本的基于Log-Mel频谱和深度卷积神经网络的声信号复合故障诊断方法。首先,将声信号转换为Log-Mel频谱,通过设计的深度卷积神经网络对Log-Mel频谱进行故障特征提取,然后使用故障解耦分类器进行分类,并将复合故障解耦为多个单一故障的组合。通过不同预处理方法的对比试验验证,结果表明使用Log-Mel频谱进行故障诊断有更好的效果。文章还将所提方法与其他深度学习模型进行对比,结果表明:文章所提方法在训练集中有较少的单一故障和极少数的复合故障的情况下优于其他方法,有较高的复合故障诊断准确率。 展开更多
关键词 复合故障诊断 Log-mel频谱 深度卷积神经网络 故障解耦分类器 行星齿轮
在线阅读 下载PDF
基于改进EfficientNetV2的铝液泄漏声音识别与预警机制
2
作者 梁艳辉 温承杰 +2 位作者 闫军威 周璇 张洪涛 《华南理工大学学报(自然科学版)》 北大核心 2026年第2期38-51,共14页
铝液泄漏是导致铝加工深井铸造爆炸事故的直接原因。为解决实际工程中铝液泄漏判断方法滞后性强、准确率低和监测范围受限等问题,该文提出了基于改进EfficientNetV2的铝液泄漏声音识别方法。该方法通过声音特征判断铝液泄漏,以扩大监测... 铝液泄漏是导致铝加工深井铸造爆炸事故的直接原因。为解决实际工程中铝液泄漏判断方法滞后性强、准确率低和监测范围受限等问题,该文提出了基于改进EfficientNetV2的铝液泄漏声音识别方法。该方法通过声音特征判断铝液泄漏,以扩大监测范围;同时通过优化堆叠因子、引入高效通道注意力机制改进EfficientNetV2结构,以进一步提升识别速率与准确率。首先,利用拾音器采集不同场景下的声音数据,构建包含7类声音场景的声音数据库;然后,从声音信号中提取对数梅尔语谱图作为特征集,输入到改进的EfficientNetV2模型进行训练与验证,最终得到铝液泄漏声音识别模型。实验结果表明:改进的EfficientNetV2识别准确率达95.48%;与原始EfficientNetV2、ResNet、 RegNet及DenseNet相比,改进模型的浮点运算次数分别为上述模型的12.34%、8.64%、11.14%和10.80%,参数量分别为上述模型的11.37%、9.55%、15.95%和17.24%,CPU环境下每秒处理图像帧数分别为上述模型的6.53倍、6.14倍、4.41倍和8.00倍,说明改进的EfficientNetV2具有快速准确的识别性能。此外,基于该文提出的铝液泄漏声音识别方法,构建了铝液泄漏风险预警机制,并将该机制应用于铸造单元的实时风险监测。实践结果验证了所提识别方法与预警机制的有效性,可为铝加工深井铸造爆炸事故的预防提供技术参考。 展开更多
关键词 铝加工深井铸造 铝液泄漏 声音识别 风险预警 改进的EfficientNetV2 对数梅尔语谱图
在线阅读 下载PDF
基于多粒度声谱图的托辊异常状态检测方法
3
作者 党颖滢 曹现刚 +6 位作者 张鑫媛 李翔宇 毛怡文 樊红卫 董明 万翔 段雍 《工矿自动化》 北大核心 2026年第2期59-68,共10页
在井下复杂工况下,胶带摩擦与煤流冲击产生的机械噪声、风流扰动噪声及多设备耦合噪声相互叠加,导致托辊故障特征声纹极易被环境噪声掩盖;同时,托辊异常样本获取困难、标注成本高,使得基于传统监督学习的托辊异常状态检测方法难以有效... 在井下复杂工况下,胶带摩擦与煤流冲击产生的机械噪声、风流扰动噪声及多设备耦合噪声相互叠加,导致托辊故障特征声纹极易被环境噪声掩盖;同时,托辊异常样本获取困难、标注成本高,使得基于传统监督学习的托辊异常状态检测方法难以有效推广。针对上述问题,提出一种基于多粒度声谱图与注意力自编码器(MG-AAE)的无监督托辊异常状态检测方法,该方法仅利用正常工况托辊声音训练模型,无需故障标签。构建由Mel声谱图与Mel频率倒谱系数(MFCCs)组成的多粒度复合声谱特征,兼顾能量轮廓与细粒度声纹;在编码器中引入高斯差分金字塔(GDP)与多头注意力机制(MHA),通过多尺度建模与自适应加权融合,抑制稳态背景噪声并突出关键故障频带;以多维重构均方误差作为异常判据,实现托辊异常状态的自动识别。实验结果表明,在仅使用正常样本训练的前提下,MG-AAE模型在跨设备与真实工况评估中均展现出优异性能。基于MIMII数据集4类典型设备的评估显示,在0 dB强噪声工况下,MG-AAE模型的平均特征曲线下的面积(AUC)与局部AUC(pAUC)分别达到84.2%和70.4%,较自编码器模型提升7.3%和5.6%。在真实托辊数据上,AUC达95.47%,异常样本重构误差约为正常样本的1.40倍。说明该方法具有良好的跨设备泛化与低误报率特性,可为煤矿带式输送机托辊状态异常检测提供有效技术支撑。 展开更多
关键词 托辊 无监督异常检测 多粒度声谱图 mel声谱图 mel频率倒谱系数 自编码器 复合声学特征
在线阅读 下载PDF
基于多通道声发射信号融合的水电机组空化故障诊断
4
作者 肖龙 肖湘曲 +3 位作者 何志宏 师博威 徐恺 李超顺 《水利学报》 北大核心 2026年第2期293-305,共13页
针对水电机组空化故障因信号单一及噪声干扰而难以识别的问题,本文提出一种基于多通道声发射信号融合的水电机组空化故障诊断方法。首先,在水电机组空化模拟试验台采集空化试验的多通道声发射信号,将多通道声发射信号经数据压缩处理形... 针对水电机组空化故障因信号单一及噪声干扰而难以识别的问题,本文提出一种基于多通道声发射信号融合的水电机组空化故障诊断方法。首先,在水电机组空化模拟试验台采集空化试验的多通道声发射信号,将多通道声发射信号经数据压缩处理形成水电机组空化故障数据集;再将声发射信号变换成梅尔时频图,对频率进行加权处理,以去除高频信号中的噪声和突出低频信号中的特征;最后,结合卷积块注意力模块(CBAM)和D-S证据理论构建出基于决策级融合的多通道深度卷积神经网络模型,进行水电机组空化故障样本的训练和测试,得到故障诊断结果。结果表明,该方法能有效区分不同工况下的空化故障,与其他模型方法对比,具有较高的诊断精度和良好的抗噪能力,对实际中的水电机组空化故障诊断应用有较大参考作用。 展开更多
关键词 多通道信号融合 声发射信号 水电机组空化故障诊断 梅尔时频图 深度卷积神经网络
在线阅读 下载PDF
基于双低秩调整训练的船舶辐射噪声识别
5
作者 马治勋 汤宁 +1 位作者 李璇 郝程鹏 《水下无人系统学报》 2026年第1期47-56,共10页
针对深度学习模型在船舶辐射噪声识别中由数据短缺、域偏移导致的泛化能力受限问题,文中提出了一种权重-特征双低秩自适应迁移学习框架。该框架从模型权重和特征表达2个维度协同开展低秩优化:在权重空间,冻结预训练权重,通过轻量化低秩... 针对深度学习模型在船舶辐射噪声识别中由数据短缺、域偏移导致的泛化能力受限问题,文中提出了一种权重-特征双低秩自适应迁移学习框架。该框架从模型权重和特征表达2个维度协同开展低秩优化:在权重空间,冻结预训练权重,通过轻量化低秩权重调整(WLoRA)模块构建可学习低秩权重参数,以较少参数量完成权重微调,从而降低过拟合风险;在特征空间,基于船舶辐射噪声Mel时频谱的内在低秩结构,通过低秩特征调整(FLoRA)模块对特征进行压缩和重构,从而显式约束模型学习低秩特征。该框架充分考虑了Mel时频谱的固有低秩结构,深入挖掘预训练模型潜力,有效提升了迁移学习性能。通过在ShipsEar和Deepship公开数据集上的实验表明,相对于直接微调预训练模型,所提方法能够有效提升迁移学习在船舶辐射嗓声分类模型中的性能。进一步的消融实验验证了2个低秩模块的有效性。 展开更多
关键词 船舶辐射噪声 双低秩 迁移学习 mel时频谱
在线阅读 下载PDF
基于动态风车卷积和残差注意力的航空噪声识别方法
6
作者 郭二崇 原霞 +1 位作者 王玉帅 管鲁阳 《机械设计与制造工程》 2026年第4期79-85,共7页
针对复杂背景噪声下航空噪声识别困难的问题,提出一种基于动态风车卷积和残差注意力的航空噪声识别方法。该方法以Log-Mel频谱图为输入,通过动态风车卷积-残差注意力分支与Transformer分支协同分别提取局部时频特征与全局时序依赖关系,... 针对复杂背景噪声下航空噪声识别困难的问题,提出一种基于动态风车卷积和残差注意力的航空噪声识别方法。该方法以Log-Mel频谱图为输入,通过动态风车卷积-残差注意力分支与Transformer分支协同分别提取局部时频特征与全局时序依赖关系,经自适应融合机制实现特征高效融合,完成对航空噪声的识别和分类。基于机场周边实地采集的航空噪声及城市环境噪声构建数据集,将所提方法与8种主流识别方法及3种代表性双分支网络进行对比实验,并通过消融实验验证各核心模块有效性。实验结果表明,该方法在准确率(99.52%)、精确率(99.78%)及F1分数(99.84%)上均优于对比方法,能有效感知噪声时变特性、抑制背景干扰,可为航空噪声实时监测与精准溯源提供可靠技术支撑。 展开更多
关键词 航空噪声识别 动态风车卷积 残差注意力机制 Log-mel频谱图
在线阅读 下载PDF
基于Mel声谱图与改进SEResNet的鱼类行为识别 被引量:7
7
作者 杨雨欣 于红 +3 位作者 杨宗轶 涂万 张鑫 林远山 《渔业现代化》 CSCD 北大核心 2024年第1期56-63,共8页
养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造... 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了3.23%;相比PANNS-CNN14、ECAPA-TDNN及MFCC+ResNet等先进声音识别模型,TAP-SEResNet在准确率上分别提升了5.32%、2.80%和1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。 展开更多
关键词 鱼类行为识别 被动水声信号 mel声谱图 SEResNet
在线阅读 下载PDF
基于Mel-GADF与ConvNeXt-T的变压器铁心松动故障诊断方法 被引量:11
8
作者 万可力 马宏忠 +1 位作者 崔佳嘉 王健 《电力自动化设备》 EI CSCD 北大核心 2024年第3期217-224,共8页
为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经... 为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经过格拉姆角场(GAF)变换得到格拉姆角和场(GASF)与GADF这2种时频谱图;生成Mel-GASF与Mel-GADF这2种特征融合的时频谱图来弥补Mel时频谱图的低频缺失问题;将3种时频谱图放入ConvNeXt-T网络进行训练对比,选出效果最佳的诊断模型。以型号为S13-M-200/10的变压器为对象进行空载试验,对不同铁心松动程度下的声纹信号进行分析,分析结果表明,将Mel-GADF作为特征时频谱图结合ConvNeXt-T网络,可将测试集准确率从传统Mel时频谱图的98.273%提升至99.500%,提升了1.227个百分点。 展开更多
关键词 变压器 铁心松动 mel时频谱图 格拉姆角场 卷积神经网络 迁移学习
在线阅读 下载PDF
基于Mel频谱图和CNN的电网涉鸟故障鸟声识别 被引量:12
9
作者 邱志斌 卢祖文 +1 位作者 王海祥 况燕军 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第2期129-136,共8页
为了提高电网渉鸟故障防治的针对性,提出了一种基于Mel频谱图和卷积神经网络(CNN)的鸟声识别方法。建立常见渉鸟故障对应的40类代表性鸟种的鸣声样本集,对鸟鸣信号进行分帧、加窗与降噪等预处理,计算每帧信号在各个Mel滤波器中的能量,... 为了提高电网渉鸟故障防治的针对性,提出了一种基于Mel频谱图和卷积神经网络(CNN)的鸟声识别方法。建立常见渉鸟故障对应的40类代表性鸟种的鸣声样本集,对鸟鸣信号进行分帧、加窗与降噪等预处理,计算每帧信号在各个Mel滤波器中的能量,根据能量大小与颜色深浅的映射关系提取鸟鸣信号的Mel频谱图。以电网涉鸟故障相关鸟种的Mel频谱图作为输入,通过CNN反复执行卷积-池化过程提取Mel频谱图特征,并进行多次迭代训练调整网络内部参数,得到最优模型用于鸟种识别。算例结果表明,40类鸟种的识别准确率达96.1%,识别效果优于其他迁移学习模型。文中研究结果可为输电线路运维人员正确识别相关鸟种、开展渉鸟故障差异化防治提供参考。 展开更多
关键词 输电线路 涉鸟故障 鸟种识别 mel频谱图 降噪 卷积神经网络
在线阅读 下载PDF
基于变压器声纹Mel语谱图-ResNet的铁心松动故障诊断 被引量:9
10
作者 何萍 李勇 +3 位作者 陈寿龙 许洪华 朱雷 王凌燕 《电机与控制应用》 2022年第9期75-80,共6页
为实现变压器铁心松动故障的识别,提出基于变压器声纹的ResNet卷积神经网络(CNN)用作铁心松动故障的识别,分别比较了相同卷积神经网络ResNet在交叉熵损失函数(SE-ResNet-Dense)和特征表达的角度空间中最大化分类界限的加性角度裕度损失... 为实现变压器铁心松动故障的识别,提出基于变压器声纹的ResNet卷积神经网络(CNN)用作铁心松动故障的识别,分别比较了相同卷积神经网络ResNet在交叉熵损失函数(SE-ResNet-Dense)和特征表达的角度空间中最大化分类界限的加性角度裕度损失函数(SE-ResNet-ArcLoss)不同表现效果。通过变压器空载试验采集变压器铁心在额定预紧力、松动20%、松动40%时的噪声信号,通过离散傅里叶变换将采集的声纹信号生成时频矩阵,并使用Mel滤波器对时频矩阵降维生成尺寸大大缩小的Mel-语谱图。将采集的噪声信号制作成数据集后输入到两种模型中训练,最终测试集在模型SE-ResNet-Dense上的预测结果为90.753%,在模型SE-ResNet-ArcLoss上的预测结果为97.541%。结果验证SE-ResNet-ArcLoss最适用于变压器铁心松动故障识别。 展开更多
关键词 变压器声纹 铁心松动故障 mel语谱图 卷积神经网络 故障识别
在线阅读 下载PDF
基于改进EfficientNet的煤矸音频分类方法 被引量:2
11
作者 宋庆军 焦守悦 +2 位作者 姜海燕 宋庆辉 郝文超 《工矿自动化》 北大核心 2025年第1期138-144,共7页
针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特... 针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特征。选择EfficientNet-B0作为骨干网络,并对其进行以下改进:将原有的多尺度通道注意力模块换成卷积块注意力模块,得到卷积注意力特征融合(CAFF)模块,通过网络自学习为不同空间位置的特征分配不同的权重信息,生成新的有效特征;在原有的MBConv模块中并行嵌入频域通道注意力(FCA)模块,加强特征图的表达能力,从而提高整个网络的性能。实验结果表明:引入CAFF模块后,模型准确率提升了0.61%,F1得分提升了0.52%,且模型收敛更快,说明CAFF模块有效提升了模型对频谱特征的捕捉能力;引入FCA模块后,准确率提升了0.45%,F1得分提升了0.62%,说明模块的叠加可以进一步提高模型的泛化能力和处理复杂特征的能力;改进EfficientNe模型的准确率为91.90%,标准差为0.108,显著优于同类对比音频分类模型。 展开更多
关键词 综放开采 煤矸识别 音频特征提取 EfficientNet mel频谱特征 Gammatone倒谱系数 注意力机制
在线阅读 下载PDF
基于梅尔频谱图和残差神经网络的中国传统乐器声音分类方法研究
12
作者 陈彬 牛磊 《安徽水利水电职业技术学院学报》 2025年第5期38-44,共7页
文章提出一种结合梅尔频谱图与残差神经网络(ResNet)的方法用于中国传统乐器声音的分类。通过将乐器声音片段转换为梅尔频谱图,再利用ResNet对频谱图进行特征提取和分类训练,取得了良好的识别精度。利用频谱图在音频信号处理中的时频局... 文章提出一种结合梅尔频谱图与残差神经网络(ResNet)的方法用于中国传统乐器声音的分类。通过将乐器声音片段转换为梅尔频谱图,再利用ResNet对频谱图进行特征提取和分类训练,取得了良好的识别精度。利用频谱图在音频信号处理中的时频局部化特性以及ResNet在图像识别中的层次特征学习能力,提升了乐器声音分类的准确性和效率。该方法在验证集上的分类准确率达到了87%,具有良好的泛化能力。 展开更多
关键词 梅尔频谱图 残差神经网络 中国传统乐器 声音分类
在线阅读 下载PDF
Spectrotemporal Deep Learning for Heart Sound Classification under Clinical Noise Conditions
13
作者 Akbare Yaqub Muhammad Sadiq Orakzai +3 位作者 Muhammad Farrukh Qureshi Zohaib Mushtaq Imran Siddique Taha Radwan 《Computer Modeling in Engineering & Sciences》 2025年第11期2503-2533,共31页
Cardiovascular diseases(CVDs)are the leading cause of mortality worldwide,necessitating efficient diagnostic tools.This study develops and validates a deep learning framework for phonocardiogram(PCG)classification,foc... Cardiovascular diseases(CVDs)are the leading cause of mortality worldwide,necessitating efficient diagnostic tools.This study develops and validates a deep learning framework for phonocardiogram(PCG)classification,focusing on model generalizability and robustness.Initially,a ResNet-18 model was trained on the PhysioNet 2016 dataset,achieving high accuracy.To assess real-world viability,we conducted extensive external validation on the HLS-CMDS dataset.We performed four key experiments:(1)Fine-tuning the PhysioNet-trained model for binary(Normal/Abnormal)classification on HLS-CMDS,achieving 88%accuracy.(2)Fine-tuning the same model for multiclass classification(Normal,Murmur,Extra Sound,Rhythm Disorder),which yielded 86%accuracy.(3)Retraining a ResNet-18 model with ImageNet weights directly on the HLS-CMDS data,which improved multi-class accuracy to 89%,demonstrating the benefit of domain-specific feature learning on the target dataset.(4)A novel stress test evaluating the retrained model on computationally separated heart sounds from mixed heart-lung recordings,which revealed a significant performance drop to 41%accuracy.This highlights the model’s sensitivity to signal processing artifacts.Our findings underscore the importance of external validation and demonstrate that while deep learning models can generalize across datasets,their performance is heavily influenced by training strategy and their robustness to preprocessing artifacts remains a critical challenge for clinical deployment. 展开更多
关键词 PHONOCARDIOGRAM deep learning mel spectrogram convolutional neural networks signal processing signal-to-noise ratio noise robustness
在线阅读 下载PDF
基于改进MobileNetV3的笼养蛋鸡声音分类识别方法 被引量:4
14
作者 衡一帆 盛哲雅 +3 位作者 严煜 谷月 周昊博 王树才 《农业机械学报》 北大核心 2025年第4期427-435,共9页
为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋... 为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋声以及鸣唱声,经过声音预处理将一维声音信号转化为三维梅尔频谱图,建立了包括8541幅梅尔频谱图的蛋鸡声音数据集。通过在MobileNetV3中引入高效通道注意力(Efficient channel attention,ECA)模块,提高了笼养蛋鸡声音分类准确率。试验结果表明,MobileNetV3-ECA模型准确率、召回率、精确率以及F1分数分别达到95.25%、95.16%、95.02%、95.08%,相比原始模型分别提高1.99、2.08、2.00、2.04个百分点。通过与分别引入坐标注意力(Coordinate attention,CA)、卷积块注意力模块(Convolutional block attention module,CBAM)的模型对比,引入ECA模块后模型准确率分别提高2.11、2.03个百分点,其他指标同样有更明显的提高。与ShuffleNetV2、DesNet121和EfficientNetV2模型相比,MobileNetV3-ECA准确率分别提高1.99、2.03、2.50个百分点。本文提出的基于MobileNetV3-ECA的蛋鸡声音分类识别方法,能够有效且准确地实现对包括热应激声在内的不同种类蛋鸡声音分类识别,为蛋鸡规模化养殖中的自动化、智能化声音检测提供了算法支持,为禽舍巡检机器人功能优化提供了参考,同时为规模化笼养蛋鸡热应激预警开辟了思路。 展开更多
关键词 笼养蛋鸡 声音分类 MobileNetV3 高效通道注意力 梅尔频谱图 卷积神经网络
在线阅读 下载PDF
融合动态卷积和注意力机制的多层感知机语音情感识别 被引量:4
15
作者 张雨萌 张欣 +1 位作者 高谋 赵虎林 《计算机科学与探索》 北大核心 2025年第4期1065-1075,共11页
语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息... 语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息利用效率。将输入的语音信号转化为梅尔频谱图,捕捉信号细节变化,更贴切地反映人类对声音的感知,为后续特征提取奠定了基础。通过词元化处理将梅尔频谱图转化为词元,降低了数据的复杂性。借助动态卷积与分离注意力机制高效提取关键的时频特征。一方面,动态卷积能够适应不同时间和频率上的尺度变化,优化了特征捕捉效率;另一方面,分离注意力机制增强了模型对关键信息的聚焦能力,有效提升了模型对特征的表达能力。结合动态卷积与分离注意力机制的优势,该模型能够更加充分地提取关键声学特征,从而实现了更高效、更精准的情感识别。在RAVDESS、EmoDB和CASIA三个语音情感数据库上的测试显示,模型识别准确率显著优于现有技术,达到86.11%、95.33%和82.92%。这验证了模型在复杂情感识别任务的高效性和准确性,以及动态卷积和注意力机制的有效性。 展开更多
关键词 语音情感识别 梅尔频谱图 多层感知机 动态卷积 注意力机制
在线阅读 下载PDF
基于ASP-SERes2Net的说话人识别算法 被引量:1
16
作者 令晓明 陈鸿雁 +1 位作者 张小玉 张真 《北京工业大学学报》 CAS 北大核心 2025年第1期42-50,共9页
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(sq... 为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。 展开更多
关键词 说话人识别 梅尔语谱图 Res2Net 压缩激活(squeeze-and-excitation SE)注意力模块 注意力统计池化(attention statistics pooling ASP) 附加角裕度的Softmax(additive angular margin Softmax AAM-Softmax)
在线阅读 下载PDF
基于改进残差网络的罗氏沼虾发声信号分类方法 被引量:1
17
作者 曹正良 蒋千庆 +4 位作者 姜珊 王子贤 李钊丞 靳雨雪 胡庆松 《水产学报》 北大核心 2025年第7期204-214,共11页
【目的】水产养殖中虾类行为的精准识别对饲料投喂优化和疾病预防管理具有重要意义。针对传统光学监测方法在复杂养殖环境中的局限性,从被动声学监测角度,针对虾类在复杂养殖环境中传统光学监测方法的局限性。【方法】本研究结合被动声... 【目的】水产养殖中虾类行为的精准识别对饲料投喂优化和疾病预防管理具有重要意义。针对传统光学监测方法在复杂养殖环境中的局限性,从被动声学监测角度,针对虾类在复杂养殖环境中传统光学监测方法的局限性。【方法】本研究结合被动声学技术获取罗氏沼虾的不同行为发声信息,提出了一种基于深度学习的罗氏沼虾行为分类方法。通过采集摄食、移动及打斗三种行为的发声信号,将其转换为Mel频谱图作为数据集,并比较了CNN、ResNet18和VGG16神经网络模型分类效果。【结果】ResNet18的识别准确率(97.67%)优于VGG16和CNN;在引入批量归一化(Batch Normalization,BN)算法后,BN-ResNet18的识别准确率提升至99.00%,较原始ResNet18提高了1.33%。此外,BNResNet18在14.0~44.1 kHz频段内表现出最优的分类性能,进一步证明了残差连接与BN模块的协同优化能够有效提升模型性能。【结论】BN-ResNet18在复杂行为发声信号特征建模分类中展现出较高的准确性和稳健性。本研究为基于虾类行为发声信号的监测识别提供了技术支持,对水产养殖的智能化研发具有潜在应用价值。 展开更多
关键词 罗氏沼虾 mel频谱图 神经网络 批量归一化 发声信号
原文传递
基于数据增强的多输出分类旋转机械复合故障诊断 被引量:2
18
作者 毛荣珍 米洁 +1 位作者 甄真 周海龙 《北京信息科技大学学报(自然科学版)》 2025年第1期94-102,共9页
针对旋转机械复合故障诊断技术特征提取效果不佳、准确率较低且泛化能力不足的问题,提出了一种基于复合故障数据增强的多输出卷积神经网络(convolutional neural network,CNN)复合故障诊断模型。首先,为解决复合故障数据匮乏问题,利用... 针对旋转机械复合故障诊断技术特征提取效果不佳、准确率较低且泛化能力不足的问题,提出了一种基于复合故障数据增强的多输出卷积神经网络(convolutional neural network,CNN)复合故障诊断模型。首先,为解决复合故障数据匮乏问题,利用实验或现场采集的单故障数据,通过组合拟合生成复合故障数据,提出一种使用单故障数据拟合复合故障数据的方法;其次,将拟合后的复合故障数据与单故障数据一同进行数据预处理,并用于多输出CNN复合故障诊断模型的训练;最后,将训练后的模型用于实际工况数据,实现复合故障的解耦与诊断。使用东南大学数据集和里约热内卢联邦大学数据集验证了所提模型的有效性和可行性。实验结果表明,该模型能够提升特征提取效果,实现复合故障解耦、输出故障类型,提升了复合故障诊断准确率。 展开更多
关键词 旋转机械 复合故障诊断 梅尔频谱 卷积神经网络 数据增强
在线阅读 下载PDF
基于梅尔谱与压缩激励加权量化的语音神经编解码方法
19
作者 周俊佐 易江燕 +2 位作者 陶建华 任勇 汪涛 《计算机研究与发展》 北大核心 2025年第11期2725-2736,共12页
目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法... 目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法旨在保持较高语音感知质量的同时降低计算代价,加快运行速度,从而减少时延.具体而言,采用梅尔谱特征作为输入,借助梅尔谱提取过程中时域压缩的性质,并结合低层卷积编码器以简化运算过程.此外,借鉴压缩激励网络思想,提取了编码器最后一层输出特征各维度的激励权重,将其作为量化器中计算码本距离时压缩特征各维度的权重系数,由此学习特征间的相关性并优化量化性能.在LibriTTS和VCTK数据集上的实验结果表明,该方法显著提升了编码器计算速度,且能在较低比特率时(≤3 Kbps)提升重建语音质量.以比特率1.5 Kbps时为例,编码计算实时率(real-time factor,RTF)最多可提升4.6倍.对于感知质量,以0.75 Kbps为例,短时客观可懂度(shorttime objective intelligibility,STOI)、虚拟语音质量客观评估(virtual speech quality objective listener,VISQOL)等客观指标相较基线平均可提升8.72%.此外,消融实验不仅表明压缩激励权重方法的优化效果与比特率呈反相关,而且发现Relu激活函数相较周期性质激活函数Snake而言,在语音感知质量相当的情况下,能大量加快运行速度. 展开更多
关键词 语音编解码 梅尔谱图 压缩激励网络 残差矢量量化 生成对抗网络
在线阅读 下载PDF
基于改进波噪比与卷积神经网络的钢轨波磨声纹识别 被引量:3
20
作者 刘力 周近 +2 位作者 袁英强 吕彦朋 戴泽宇 《现代城市轨道交通》 2025年第6期100-107,共8页
针对当前智能诊断模型在钢轨波磨识别中准确率低以及难以去除钢轨信号中无关噪声的问题,文章提出一种基于改进波噪比(Improved Corrugation-noise Ratio,ICR)的自适应降噪方法,并结合卷积神经网络(Convolutional Neural Network,CNN)构... 针对当前智能诊断模型在钢轨波磨识别中准确率低以及难以去除钢轨信号中无关噪声的问题,文章提出一种基于改进波噪比(Improved Corrugation-noise Ratio,ICR)的自适应降噪方法,并结合卷积神经网络(Convolutional Neural Network,CNN)构建钢轨波磨识别框架。首先根据噪声和钢轨波磨在频域的分布特点,利用短时傅里叶变换的能量分布计算出时域信号权重系数,对钢轨信号进行加权处理,实现自适应降噪。然后采用梅尔谱的声纹提取方法结合CNN对降噪后的信号进行训练,以最大化分类准确率。实验结果表明,提出的ICR自适应降噪方法可有效降低钢轨声学信号中的无关噪声,并显著提升CNN对钢轨波磨的识别准确率。通过北京地铁某线路的实测数据验证,该方法可有效识别钢轨波磨,识别准确率稳定在97.62%左右,基本满足钢轨波磨识别的实际需求。 展开更多
关键词 地铁 钢轨波磨 卷积神经网络 梅尔谱 改进波噪比
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部