期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
基于改进EfficientNetV2的铝液泄漏声音识别与预警机制
1
作者 梁艳辉 温承杰 +2 位作者 闫军威 周璇 张洪涛 《华南理工大学学报(自然科学版)》 北大核心 2026年第2期38-51,共14页
铝液泄漏是导致铝加工深井铸造爆炸事故的直接原因。为解决实际工程中铝液泄漏判断方法滞后性强、准确率低和监测范围受限等问题,该文提出了基于改进EfficientNetV2的铝液泄漏声音识别方法。该方法通过声音特征判断铝液泄漏,以扩大监测... 铝液泄漏是导致铝加工深井铸造爆炸事故的直接原因。为解决实际工程中铝液泄漏判断方法滞后性强、准确率低和监测范围受限等问题,该文提出了基于改进EfficientNetV2的铝液泄漏声音识别方法。该方法通过声音特征判断铝液泄漏,以扩大监测范围;同时通过优化堆叠因子、引入高效通道注意力机制改进EfficientNetV2结构,以进一步提升识别速率与准确率。首先,利用拾音器采集不同场景下的声音数据,构建包含7类声音场景的声音数据库;然后,从声音信号中提取对数梅尔语谱图作为特征集,输入到改进的EfficientNetV2模型进行训练与验证,最终得到铝液泄漏声音识别模型。实验结果表明:改进的EfficientNetV2识别准确率达95.48%;与原始EfficientNetV2、ResNet、 RegNet及DenseNet相比,改进模型的浮点运算次数分别为上述模型的12.34%、8.64%、11.14%和10.80%,参数量分别为上述模型的11.37%、9.55%、15.95%和17.24%,CPU环境下每秒处理图像帧数分别为上述模型的6.53倍、6.14倍、4.41倍和8.00倍,说明改进的EfficientNetV2具有快速准确的识别性能。此外,基于该文提出的铝液泄漏声音识别方法,构建了铝液泄漏风险预警机制,并将该机制应用于铸造单元的实时风险监测。实践结果验证了所提识别方法与预警机制的有效性,可为铝加工深井铸造爆炸事故的预防提供技术参考。 展开更多
关键词 铝加工深井铸造 铝液泄漏 声音识别 风险预警 改进的EfficientNetV2 对数梅尔语谱图
在线阅读 下载PDF
基于多通道声发射信号融合的水电机组空化故障诊断
2
作者 肖龙 肖湘曲 +3 位作者 何志宏 师博威 徐恺 李超顺 《水利学报》 北大核心 2026年第2期293-305,共13页
针对水电机组空化故障因信号单一及噪声干扰而难以识别的问题,本文提出一种基于多通道声发射信号融合的水电机组空化故障诊断方法。首先,在水电机组空化模拟试验台采集空化试验的多通道声发射信号,将多通道声发射信号经数据压缩处理形... 针对水电机组空化故障因信号单一及噪声干扰而难以识别的问题,本文提出一种基于多通道声发射信号融合的水电机组空化故障诊断方法。首先,在水电机组空化模拟试验台采集空化试验的多通道声发射信号,将多通道声发射信号经数据压缩处理形成水电机组空化故障数据集;再将声发射信号变换成梅尔时频图,对频率进行加权处理,以去除高频信号中的噪声和突出低频信号中的特征;最后,结合卷积块注意力模块(CBAM)和D-S证据理论构建出基于决策级融合的多通道深度卷积神经网络模型,进行水电机组空化故障样本的训练和测试,得到故障诊断结果。结果表明,该方法能有效区分不同工况下的空化故障,与其他模型方法对比,具有较高的诊断精度和良好的抗噪能力,对实际中的水电机组空化故障诊断应用有较大参考作用。 展开更多
关键词 多通道信号融合 声发射信号 水电机组空化故障诊断 梅尔时频图 深度卷积神经网络
在线阅读 下载PDF
基于双低秩调整训练的船舶辐射噪声识别
3
作者 马治勋 汤宁 +1 位作者 李璇 郝程鹏 《水下无人系统学报》 2026年第1期47-56,共10页
针对深度学习模型在船舶辐射噪声识别中由数据短缺、域偏移导致的泛化能力受限问题,文中提出了一种权重-特征双低秩自适应迁移学习框架。该框架从模型权重和特征表达2个维度协同开展低秩优化:在权重空间,冻结预训练权重,通过轻量化低秩... 针对深度学习模型在船舶辐射噪声识别中由数据短缺、域偏移导致的泛化能力受限问题,文中提出了一种权重-特征双低秩自适应迁移学习框架。该框架从模型权重和特征表达2个维度协同开展低秩优化:在权重空间,冻结预训练权重,通过轻量化低秩权重调整(WLoRA)模块构建可学习低秩权重参数,以较少参数量完成权重微调,从而降低过拟合风险;在特征空间,基于船舶辐射噪声Mel时频谱的内在低秩结构,通过低秩特征调整(FLoRA)模块对特征进行压缩和重构,从而显式约束模型学习低秩特征。该框架充分考虑了Mel时频谱的固有低秩结构,深入挖掘预训练模型潜力,有效提升了迁移学习性能。通过在ShipsEar和Deepship公开数据集上的实验表明,相对于直接微调预训练模型,所提方法能够有效提升迁移学习在船舶辐射嗓声分类模型中的性能。进一步的消融实验验证了2个低秩模块的有效性。 展开更多
关键词 船舶辐射噪声 双低秩 迁移学习 mel时频谱
在线阅读 下载PDF
基于Mel声谱图与改进SEResNet的鱼类行为识别 被引量:7
4
作者 杨雨欣 于红 +3 位作者 杨宗轶 涂万 张鑫 林远山 《渔业现代化》 CSCD 北大核心 2024年第1期56-63,共8页
养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造... 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了3.23%;相比PANNS-CNN14、ECAPA-TDNN及MFCC+ResNet等先进声音识别模型,TAP-SEResNet在准确率上分别提升了5.32%、2.80%和1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。 展开更多
关键词 鱼类行为识别 被动水声信号 mel声谱图 SEResNet
在线阅读 下载PDF
基于Mel-GADF与ConvNeXt-T的变压器铁心松动故障诊断方法 被引量:9
5
作者 万可力 马宏忠 +1 位作者 崔佳嘉 王健 《电力自动化设备》 EI CSCD 北大核心 2024年第3期217-224,共8页
为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经... 为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经过格拉姆角场(GAF)变换得到格拉姆角和场(GASF)与GADF这2种时频谱图;生成Mel-GASF与Mel-GADF这2种特征融合的时频谱图来弥补Mel时频谱图的低频缺失问题;将3种时频谱图放入ConvNeXt-T网络进行训练对比,选出效果最佳的诊断模型。以型号为S13-M-200/10的变压器为对象进行空载试验,对不同铁心松动程度下的声纹信号进行分析,分析结果表明,将Mel-GADF作为特征时频谱图结合ConvNeXt-T网络,可将测试集准确率从传统Mel时频谱图的98.273%提升至99.500%,提升了1.227个百分点。 展开更多
关键词 变压器 铁心松动 mel时频谱图 格拉姆角场 卷积神经网络 迁移学习
在线阅读 下载PDF
基于Mel频谱图和CNN的电网涉鸟故障鸟声识别 被引量:11
6
作者 邱志斌 卢祖文 +1 位作者 王海祥 况燕军 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第2期129-136,共8页
为了提高电网渉鸟故障防治的针对性,提出了一种基于Mel频谱图和卷积神经网络(CNN)的鸟声识别方法。建立常见渉鸟故障对应的40类代表性鸟种的鸣声样本集,对鸟鸣信号进行分帧、加窗与降噪等预处理,计算每帧信号在各个Mel滤波器中的能量,... 为了提高电网渉鸟故障防治的针对性,提出了一种基于Mel频谱图和卷积神经网络(CNN)的鸟声识别方法。建立常见渉鸟故障对应的40类代表性鸟种的鸣声样本集,对鸟鸣信号进行分帧、加窗与降噪等预处理,计算每帧信号在各个Mel滤波器中的能量,根据能量大小与颜色深浅的映射关系提取鸟鸣信号的Mel频谱图。以电网涉鸟故障相关鸟种的Mel频谱图作为输入,通过CNN反复执行卷积-池化过程提取Mel频谱图特征,并进行多次迭代训练调整网络内部参数,得到最优模型用于鸟种识别。算例结果表明,40类鸟种的识别准确率达96.1%,识别效果优于其他迁移学习模型。文中研究结果可为输电线路运维人员正确识别相关鸟种、开展渉鸟故障差异化防治提供参考。 展开更多
关键词 输电线路 涉鸟故障 鸟种识别 mel频谱图 降噪 卷积神经网络
在线阅读 下载PDF
基于变压器声纹Mel语谱图-ResNet的铁心松动故障诊断 被引量:9
7
作者 何萍 李勇 +3 位作者 陈寿龙 许洪华 朱雷 王凌燕 《电机与控制应用》 2022年第9期75-80,共6页
为实现变压器铁心松动故障的识别,提出基于变压器声纹的ResNet卷积神经网络(CNN)用作铁心松动故障的识别,分别比较了相同卷积神经网络ResNet在交叉熵损失函数(SE-ResNet-Dense)和特征表达的角度空间中最大化分类界限的加性角度裕度损失... 为实现变压器铁心松动故障的识别,提出基于变压器声纹的ResNet卷积神经网络(CNN)用作铁心松动故障的识别,分别比较了相同卷积神经网络ResNet在交叉熵损失函数(SE-ResNet-Dense)和特征表达的角度空间中最大化分类界限的加性角度裕度损失函数(SE-ResNet-ArcLoss)不同表现效果。通过变压器空载试验采集变压器铁心在额定预紧力、松动20%、松动40%时的噪声信号,通过离散傅里叶变换将采集的声纹信号生成时频矩阵,并使用Mel滤波器对时频矩阵降维生成尺寸大大缩小的Mel-语谱图。将采集的噪声信号制作成数据集后输入到两种模型中训练,最终测试集在模型SE-ResNet-Dense上的预测结果为90.753%,在模型SE-ResNet-ArcLoss上的预测结果为97.541%。结果验证SE-ResNet-ArcLoss最适用于变压器铁心松动故障识别。 展开更多
关键词 变压器声纹 铁心松动故障 mel语谱图 卷积神经网络 故障识别
在线阅读 下载PDF
基于改进EfficientNet的煤矸音频分类方法 被引量:1
8
作者 宋庆军 焦守悦 +2 位作者 姜海燕 宋庆辉 郝文超 《工矿自动化》 北大核心 2025年第1期138-144,共7页
针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特... 针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特征。选择EfficientNet-B0作为骨干网络,并对其进行以下改进:将原有的多尺度通道注意力模块换成卷积块注意力模块,得到卷积注意力特征融合(CAFF)模块,通过网络自学习为不同空间位置的特征分配不同的权重信息,生成新的有效特征;在原有的MBConv模块中并行嵌入频域通道注意力(FCA)模块,加强特征图的表达能力,从而提高整个网络的性能。实验结果表明:引入CAFF模块后,模型准确率提升了0.61%,F1得分提升了0.52%,且模型收敛更快,说明CAFF模块有效提升了模型对频谱特征的捕捉能力;引入FCA模块后,准确率提升了0.45%,F1得分提升了0.62%,说明模块的叠加可以进一步提高模型的泛化能力和处理复杂特征的能力;改进EfficientNe模型的准确率为91.90%,标准差为0.108,显著优于同类对比音频分类模型。 展开更多
关键词 综放开采 煤矸识别 音频特征提取 EfficientNet mel频谱特征 Gammatone倒谱系数 注意力机制
在线阅读 下载PDF
基于梅尔频谱图和残差神经网络的中国传统乐器声音分类方法研究
9
作者 陈彬 牛磊 《安徽水利水电职业技术学院学报》 2025年第5期38-44,共7页
文章提出一种结合梅尔频谱图与残差神经网络(ResNet)的方法用于中国传统乐器声音的分类。通过将乐器声音片段转换为梅尔频谱图,再利用ResNet对频谱图进行特征提取和分类训练,取得了良好的识别精度。利用频谱图在音频信号处理中的时频局... 文章提出一种结合梅尔频谱图与残差神经网络(ResNet)的方法用于中国传统乐器声音的分类。通过将乐器声音片段转换为梅尔频谱图,再利用ResNet对频谱图进行特征提取和分类训练,取得了良好的识别精度。利用频谱图在音频信号处理中的时频局部化特性以及ResNet在图像识别中的层次特征学习能力,提升了乐器声音分类的准确性和效率。该方法在验证集上的分类准确率达到了87%,具有良好的泛化能力。 展开更多
关键词 梅尔频谱图 残差神经网络 中国传统乐器 声音分类
在线阅读 下载PDF
Spectrotemporal Deep Learning for Heart Sound Classification under Clinical Noise Conditions
10
作者 Akbare Yaqub Muhammad Sadiq Orakzai +3 位作者 Muhammad Farrukh Qureshi Zohaib Mushtaq Imran Siddique Taha Radwan 《Computer Modeling in Engineering & Sciences》 2025年第11期2503-2533,共31页
Cardiovascular diseases(CVDs)are the leading cause of mortality worldwide,necessitating efficient diagnostic tools.This study develops and validates a deep learning framework for phonocardiogram(PCG)classification,foc... Cardiovascular diseases(CVDs)are the leading cause of mortality worldwide,necessitating efficient diagnostic tools.This study develops and validates a deep learning framework for phonocardiogram(PCG)classification,focusing on model generalizability and robustness.Initially,a ResNet-18 model was trained on the PhysioNet 2016 dataset,achieving high accuracy.To assess real-world viability,we conducted extensive external validation on the HLS-CMDS dataset.We performed four key experiments:(1)Fine-tuning the PhysioNet-trained model for binary(Normal/Abnormal)classification on HLS-CMDS,achieving 88%accuracy.(2)Fine-tuning the same model for multiclass classification(Normal,Murmur,Extra Sound,Rhythm Disorder),which yielded 86%accuracy.(3)Retraining a ResNet-18 model with ImageNet weights directly on the HLS-CMDS data,which improved multi-class accuracy to 89%,demonstrating the benefit of domain-specific feature learning on the target dataset.(4)A novel stress test evaluating the retrained model on computationally separated heart sounds from mixed heart-lung recordings,which revealed a significant performance drop to 41%accuracy.This highlights the model’s sensitivity to signal processing artifacts.Our findings underscore the importance of external validation and demonstrate that while deep learning models can generalize across datasets,their performance is heavily influenced by training strategy and their robustness to preprocessing artifacts remains a critical challenge for clinical deployment. 展开更多
关键词 PHONOCARDIOGRAM deep learning mel spectrogram convolutional neural networks signal processing signal-to-noise ratio noise robustness
在线阅读 下载PDF
基于改进MobileNetV3的笼养蛋鸡声音分类识别方法 被引量:3
11
作者 衡一帆 盛哲雅 +3 位作者 严煜 谷月 周昊博 王树才 《农业机械学报》 北大核心 2025年第4期427-435,共9页
为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋... 为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋声以及鸣唱声,经过声音预处理将一维声音信号转化为三维梅尔频谱图,建立了包括8541幅梅尔频谱图的蛋鸡声音数据集。通过在MobileNetV3中引入高效通道注意力(Efficient channel attention,ECA)模块,提高了笼养蛋鸡声音分类准确率。试验结果表明,MobileNetV3-ECA模型准确率、召回率、精确率以及F1分数分别达到95.25%、95.16%、95.02%、95.08%,相比原始模型分别提高1.99、2.08、2.00、2.04个百分点。通过与分别引入坐标注意力(Coordinate attention,CA)、卷积块注意力模块(Convolutional block attention module,CBAM)的模型对比,引入ECA模块后模型准确率分别提高2.11、2.03个百分点,其他指标同样有更明显的提高。与ShuffleNetV2、DesNet121和EfficientNetV2模型相比,MobileNetV3-ECA准确率分别提高1.99、2.03、2.50个百分点。本文提出的基于MobileNetV3-ECA的蛋鸡声音分类识别方法,能够有效且准确地实现对包括热应激声在内的不同种类蛋鸡声音分类识别,为蛋鸡规模化养殖中的自动化、智能化声音检测提供了算法支持,为禽舍巡检机器人功能优化提供了参考,同时为规模化笼养蛋鸡热应激预警开辟了思路。 展开更多
关键词 笼养蛋鸡 声音分类 MobileNetV3 高效通道注意力 梅尔频谱图 卷积神经网络
在线阅读 下载PDF
基于ASP-SERes2Net的说话人识别算法 被引量:1
12
作者 令晓明 陈鸿雁 +1 位作者 张小玉 张真 《北京工业大学学报》 CAS 北大核心 2025年第1期42-50,共9页
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(sq... 为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。 展开更多
关键词 说话人识别 梅尔语谱图 Res2Net 压缩激活(squeeze-and-excitation SE)注意力模块 注意力统计池化(attention statistics pooling ASP) 附加角裕度的Softmax(additive angular margin Softmax AAM-Softmax)
在线阅读 下载PDF
融合动态卷积和注意力机制的多层感知机语音情感识别 被引量:2
13
作者 张雨萌 张欣 +1 位作者 高谋 赵虎林 《计算机科学与探索》 北大核心 2025年第4期1065-1075,共11页
语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息... 语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息利用效率。将输入的语音信号转化为梅尔频谱图,捕捉信号细节变化,更贴切地反映人类对声音的感知,为后续特征提取奠定了基础。通过词元化处理将梅尔频谱图转化为词元,降低了数据的复杂性。借助动态卷积与分离注意力机制高效提取关键的时频特征。一方面,动态卷积能够适应不同时间和频率上的尺度变化,优化了特征捕捉效率;另一方面,分离注意力机制增强了模型对关键信息的聚焦能力,有效提升了模型对特征的表达能力。结合动态卷积与分离注意力机制的优势,该模型能够更加充分地提取关键声学特征,从而实现了更高效、更精准的情感识别。在RAVDESS、EmoDB和CASIA三个语音情感数据库上的测试显示,模型识别准确率显著优于现有技术,达到86.11%、95.33%和82.92%。这验证了模型在复杂情感识别任务的高效性和准确性,以及动态卷积和注意力机制的有效性。 展开更多
关键词 语音情感识别 梅尔频谱图 多层感知机 动态卷积 注意力机制
在线阅读 下载PDF
基于改进残差网络的罗氏沼虾发声信号分类方法 被引量:1
14
作者 曹正良 蒋千庆 +4 位作者 姜珊 王子贤 李钊丞 靳雨雪 胡庆松 《水产学报》 北大核心 2025年第7期204-214,共11页
【目的】水产养殖中虾类行为的精准识别对饲料投喂优化和疾病预防管理具有重要意义。针对传统光学监测方法在复杂养殖环境中的局限性,从被动声学监测角度,针对虾类在复杂养殖环境中传统光学监测方法的局限性。【方法】本研究结合被动声... 【目的】水产养殖中虾类行为的精准识别对饲料投喂优化和疾病预防管理具有重要意义。针对传统光学监测方法在复杂养殖环境中的局限性,从被动声学监测角度,针对虾类在复杂养殖环境中传统光学监测方法的局限性。【方法】本研究结合被动声学技术获取罗氏沼虾的不同行为发声信息,提出了一种基于深度学习的罗氏沼虾行为分类方法。通过采集摄食、移动及打斗三种行为的发声信号,将其转换为Mel频谱图作为数据集,并比较了CNN、ResNet18和VGG16神经网络模型分类效果。【结果】ResNet18的识别准确率(97.67%)优于VGG16和CNN;在引入批量归一化(Batch Normalization,BN)算法后,BN-ResNet18的识别准确率提升至99.00%,较原始ResNet18提高了1.33%。此外,BNResNet18在14.0~44.1 kHz频段内表现出最优的分类性能,进一步证明了残差连接与BN模块的协同优化能够有效提升模型性能。【结论】BN-ResNet18在复杂行为发声信号特征建模分类中展现出较高的准确性和稳健性。本研究为基于虾类行为发声信号的监测识别提供了技术支持,对水产养殖的智能化研发具有潜在应用价值。 展开更多
关键词 罗氏沼虾 mel频谱图 神经网络 批量归一化 发声信号
原文传递
基于梅尔谱与压缩激励加权量化的语音神经编解码方法
15
作者 周俊佐 易江燕 +2 位作者 陶建华 任勇 汪涛 《计算机研究与发展》 北大核心 2025年第11期2725-2736,共12页
目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法... 目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法旨在保持较高语音感知质量的同时降低计算代价,加快运行速度,从而减少时延.具体而言,采用梅尔谱特征作为输入,借助梅尔谱提取过程中时域压缩的性质,并结合低层卷积编码器以简化运算过程.此外,借鉴压缩激励网络思想,提取了编码器最后一层输出特征各维度的激励权重,将其作为量化器中计算码本距离时压缩特征各维度的权重系数,由此学习特征间的相关性并优化量化性能.在LibriTTS和VCTK数据集上的实验结果表明,该方法显著提升了编码器计算速度,且能在较低比特率时(≤3 Kbps)提升重建语音质量.以比特率1.5 Kbps时为例,编码计算实时率(real-time factor,RTF)最多可提升4.6倍.对于感知质量,以0.75 Kbps为例,短时客观可懂度(shorttime objective intelligibility,STOI)、虚拟语音质量客观评估(virtual speech quality objective listener,VISQOL)等客观指标相较基线平均可提升8.72%.此外,消融实验不仅表明压缩激励权重方法的优化效果与比特率呈反相关,而且发现Relu激活函数相较周期性质激活函数Snake而言,在语音感知质量相当的情况下,能大量加快运行速度. 展开更多
关键词 语音编解码 梅尔谱图 压缩激励网络 残差矢量量化 生成对抗网络
在线阅读 下载PDF
基于数据增强的多输出分类旋转机械复合故障诊断 被引量:1
16
作者 毛荣珍 米洁 +1 位作者 甄真 周海龙 《北京信息科技大学学报(自然科学版)》 2025年第1期94-102,共9页
针对旋转机械复合故障诊断技术特征提取效果不佳、准确率较低且泛化能力不足的问题,提出了一种基于复合故障数据增强的多输出卷积神经网络(convolutional neural network,CNN)复合故障诊断模型。首先,为解决复合故障数据匮乏问题,利用... 针对旋转机械复合故障诊断技术特征提取效果不佳、准确率较低且泛化能力不足的问题,提出了一种基于复合故障数据增强的多输出卷积神经网络(convolutional neural network,CNN)复合故障诊断模型。首先,为解决复合故障数据匮乏问题,利用实验或现场采集的单故障数据,通过组合拟合生成复合故障数据,提出一种使用单故障数据拟合复合故障数据的方法;其次,将拟合后的复合故障数据与单故障数据一同进行数据预处理,并用于多输出CNN复合故障诊断模型的训练;最后,将训练后的模型用于实际工况数据,实现复合故障的解耦与诊断。使用东南大学数据集和里约热内卢联邦大学数据集验证了所提模型的有效性和可行性。实验结果表明,该模型能够提升特征提取效果,实现复合故障解耦、输出故障类型,提升了复合故障诊断准确率。 展开更多
关键词 旋转机械 复合故障诊断 梅尔频谱 卷积神经网络 数据增强
在线阅读 下载PDF
基于改进波噪比与卷积神经网络的钢轨波磨声纹识别 被引量:2
17
作者 刘力 周近 +2 位作者 袁英强 吕彦朋 戴泽宇 《现代城市轨道交通》 2025年第6期100-107,共8页
针对当前智能诊断模型在钢轨波磨识别中准确率低以及难以去除钢轨信号中无关噪声的问题,文章提出一种基于改进波噪比(Improved Corrugation-noise Ratio,ICR)的自适应降噪方法,并结合卷积神经网络(Convolutional Neural Network,CNN)构... 针对当前智能诊断模型在钢轨波磨识别中准确率低以及难以去除钢轨信号中无关噪声的问题,文章提出一种基于改进波噪比(Improved Corrugation-noise Ratio,ICR)的自适应降噪方法,并结合卷积神经网络(Convolutional Neural Network,CNN)构建钢轨波磨识别框架。首先根据噪声和钢轨波磨在频域的分布特点,利用短时傅里叶变换的能量分布计算出时域信号权重系数,对钢轨信号进行加权处理,实现自适应降噪。然后采用梅尔谱的声纹提取方法结合CNN对降噪后的信号进行训练,以最大化分类准确率。实验结果表明,提出的ICR自适应降噪方法可有效降低钢轨声学信号中的无关噪声,并显著提升CNN对钢轨波磨的识别准确率。通过北京地铁某线路的实测数据验证,该方法可有效识别钢轨波磨,识别准确率稳定在97.62%左右,基本满足钢轨波磨识别的实际需求。 展开更多
关键词 地铁 钢轨波磨 卷积神经网络 梅尔谱 改进波噪比
在线阅读 下载PDF
基于集成学习的水下目标被动识别方法
18
作者 汤航 樊书宏 《舰船科学技术》 北大核心 2025年第12期111-116,共6页
对于被动声呐接收到的水声信号,将信号的时域波形转化为时频谱图和梅尔谱图后,可采用神经网络和集成学习的方法,将信号识别转换为图像识别问题。利用多种卷积神经网络对信号谱图进行训练学习,并通过堆叠法(Stacking)将单网络结构作为初... 对于被动声呐接收到的水声信号,将信号的时域波形转化为时频谱图和梅尔谱图后,可采用神经网络和集成学习的方法,将信号识别转换为图像识别问题。利用多种卷积神经网络对信号谱图进行训练学习,并通过堆叠法(Stacking)将单网络结构作为初级学习器构建多网络集成模型,可进一步提高目标识别准确率。利用DeepShips数据集进行目标识别仿真验证,结果表明,多网络集成模型在四分类数据集上的识别准确率可达100%,能够有效提高被动声呐的目标识别能力,对水下目标智能探测和识别具有参考价值。 展开更多
关键词 水下目标识别 梅尔语谱图 集成学习
在线阅读 下载PDF
基于跨用户语音域适应网络的抑郁症检测
19
作者 吴伟 马龙华 赵祥红 《电子科技》 2025年第1期88-94,共7页
由于抑郁症的检测方式主观性较强,因此使用用户语音诊断抑郁症已成为一种较具有潜力的辅助方式,但不同用户的语音信号存在差异。文中提出了一个跨用户语音域适应网络(Cross User Audio Domain Adaptation Network,CUADAN)来检测抑郁症... 由于抑郁症的检测方式主观性较强,因此使用用户语音诊断抑郁症已成为一种较具有潜力的辅助方式,但不同用户的语音信号存在差异。文中提出了一个跨用户语音域适应网络(Cross User Audio Domain Adaptation Network,CUADAN)来检测抑郁症。从语音中提取可视化的梅尔频谱,利用CUADAN模型的特征提取器从梅尔频谱中获取更深层次的抑郁特征。由于源域和目标域中包含不同健康用户和抑郁用户的语音特征,因此利用CUADAN模型的域分类器在不同用户数据之间进行域适应,从而通过已有分类器对未知用户进行检测。实验结果表明,CUADAN模型的抑郁症检测准确率更高,其平均准确率达到81.0±2.4%。因此,CUADAN模型可以有效削弱不同用户语音之间的差异性,提高跨用户抑郁症检测的准确率。 展开更多
关键词 域适应 抑郁症检测 CUADAN 语音 跨用户 梅尔频谱 特征提取 削弱差异性
在线阅读 下载PDF
基于生成对抗学习的变压器声纹异常检测研究
20
作者 卞楠 《自动化应用》 2025年第19期119-121,126,共4页
针对变压器异常声纹样本数量少,有监督声纹异常诊断方法应用受限的问题,提出一种基于自编码生成对抗的无监督变压器声纹异常检测模型。首先,为获取原始变压器音频样本的时间-频率特征,将原始变压器音频转换为梅尔语谱图。随后,构建生成... 针对变压器异常声纹样本数量少,有监督声纹异常诊断方法应用受限的问题,提出一种基于自编码生成对抗的无监督变压器声纹异常检测模型。首先,为获取原始变压器音频样本的时间-频率特征,将原始变压器音频转换为梅尔语谱图。随后,构建生成对抗网络(GAN)框架下的声纹异常检测模型,该模型通过生成器学习正常状态语谱图的特征分布,并利用判别器区分生成样本与真实样本。在训练过程中,模型通过优化生成器和判别器的对抗损失,学习正常样本的特征表示,并计算输入样本在潜在空间中的异常得分。在检测阶段,根据输入样本的异常得分是否超过预设阈值实现变压器异常声纹检测。所研究的方法在变压器声纹数据集上实现了94.08%的检测精度和100%的检测召回率,证明了该方法的有效性。 展开更多
关键词 电力变压器 声纹检测 异常诊断 时间-频率特征 梅尔语谱图
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部