期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进EfficientNet的煤矸音频分类方法 被引量:1
1
作者 宋庆军 焦守悦 +2 位作者 姜海燕 宋庆辉 郝文超 《工矿自动化》 北大核心 2025年第1期138-144,共7页
针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特... 针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特征。选择EfficientNet-B0作为骨干网络,并对其进行以下改进:将原有的多尺度通道注意力模块换成卷积块注意力模块,得到卷积注意力特征融合(CAFF)模块,通过网络自学习为不同空间位置的特征分配不同的权重信息,生成新的有效特征;在原有的MBConv模块中并行嵌入频域通道注意力(FCA)模块,加强特征图的表达能力,从而提高整个网络的性能。实验结果表明:引入CAFF模块后,模型准确率提升了0.61%,F1得分提升了0.52%,且模型收敛更快,说明CAFF模块有效提升了模型对频谱特征的捕捉能力;引入FCA模块后,准确率提升了0.45%,F1得分提升了0.62%,说明模块的叠加可以进一步提高模型的泛化能力和处理复杂特征的能力;改进EfficientNe模型的准确率为91.90%,标准差为0.108,显著优于同类对比音频分类模型。 展开更多
关键词 综放开采 煤矸识别 音频特征提取 EfficientNet Mel频谱特征 Gammatone倒谱系数 注意力机制
在线阅读 下载PDF
基于改进MobileNetV3的笼养蛋鸡声音分类识别方法 被引量:3
2
作者 衡一帆 盛哲雅 +3 位作者 严煜 谷月 周昊博 王树才 《农业机械学报》 北大核心 2025年第4期427-435,共9页
为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋... 为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋声以及鸣唱声,经过声音预处理将一维声音信号转化为三维梅尔频谱图,建立了包括8541幅梅尔频谱图的蛋鸡声音数据集。通过在MobileNetV3中引入高效通道注意力(Efficient channel attention,ECA)模块,提高了笼养蛋鸡声音分类准确率。试验结果表明,MobileNetV3-ECA模型准确率、召回率、精确率以及F1分数分别达到95.25%、95.16%、95.02%、95.08%,相比原始模型分别提高1.99、2.08、2.00、2.04个百分点。通过与分别引入坐标注意力(Coordinate attention,CA)、卷积块注意力模块(Convolutional block attention module,CBAM)的模型对比,引入ECA模块后模型准确率分别提高2.11、2.03个百分点,其他指标同样有更明显的提高。与ShuffleNetV2、DesNet121和EfficientNetV2模型相比,MobileNetV3-ECA准确率分别提高1.99、2.03、2.50个百分点。本文提出的基于MobileNetV3-ECA的蛋鸡声音分类识别方法,能够有效且准确地实现对包括热应激声在内的不同种类蛋鸡声音分类识别,为蛋鸡规模化养殖中的自动化、智能化声音检测提供了算法支持,为禽舍巡检机器人功能优化提供了参考,同时为规模化笼养蛋鸡热应激预警开辟了思路。 展开更多
关键词 笼养蛋鸡 声音分类 MobileNetV3 高效通道注意力 梅尔频谱图 卷积神经网络
在线阅读 下载PDF
基于ASP-SERes2Net的说话人识别算法 被引量:1
3
作者 令晓明 陈鸿雁 +1 位作者 张小玉 张真 《北京工业大学学报》 CAS 北大核心 2025年第1期42-50,共9页
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(sq... 为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。 展开更多
关键词 说话人识别 梅尔语谱图 Res2Net 压缩激活(squeeze-and-excitation SE)注意力模块 注意力统计池化(attention statistics pooling ASP) 附加角裕度的Softmax(additive angular margin Softmax AAM-Softmax)
在线阅读 下载PDF
基于改进残差网络的罗氏沼虾发声信号分类方法 被引量:1
4
作者 曹正良 蒋千庆 +4 位作者 姜珊 王子贤 李钊丞 靳雨雪 胡庆松 《水产学报》 北大核心 2025年第7期204-214,共11页
【目的】水产养殖中虾类行为的精准识别对饲料投喂优化和疾病预防管理具有重要意义。针对传统光学监测方法在复杂养殖环境中的局限性,从被动声学监测角度,针对虾类在复杂养殖环境中传统光学监测方法的局限性。【方法】本研究结合被动声... 【目的】水产养殖中虾类行为的精准识别对饲料投喂优化和疾病预防管理具有重要意义。针对传统光学监测方法在复杂养殖环境中的局限性,从被动声学监测角度,针对虾类在复杂养殖环境中传统光学监测方法的局限性。【方法】本研究结合被动声学技术获取罗氏沼虾的不同行为发声信息,提出了一种基于深度学习的罗氏沼虾行为分类方法。通过采集摄食、移动及打斗三种行为的发声信号,将其转换为Mel频谱图作为数据集,并比较了CNN、ResNet18和VGG16神经网络模型分类效果。【结果】ResNet18的识别准确率(97.67%)优于VGG16和CNN;在引入批量归一化(Batch Normalization,BN)算法后,BN-ResNet18的识别准确率提升至99.00%,较原始ResNet18提高了1.33%。此外,BNResNet18在14.0~44.1 kHz频段内表现出最优的分类性能,进一步证明了残差连接与BN模块的协同优化能够有效提升模型性能。【结论】BN-ResNet18在复杂行为发声信号特征建模分类中展现出较高的准确性和稳健性。本研究为基于虾类行为发声信号的监测识别提供了技术支持,对水产养殖的智能化研发具有潜在应用价值。 展开更多
关键词 罗氏沼虾 Mel频谱图 神经网络 批量归一化 发声信号
原文传递
融合动态卷积和注意力机制的多层感知机语音情感识别 被引量:1
5
作者 张雨萌 张欣 +1 位作者 高谋 赵虎林 《计算机科学与探索》 北大核心 2025年第4期1065-1075,共11页
语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息... 语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息利用效率。将输入的语音信号转化为梅尔频谱图,捕捉信号细节变化,更贴切地反映人类对声音的感知,为后续特征提取奠定了基础。通过词元化处理将梅尔频谱图转化为词元,降低了数据的复杂性。借助动态卷积与分离注意力机制高效提取关键的时频特征。一方面,动态卷积能够适应不同时间和频率上的尺度变化,优化了特征捕捉效率;另一方面,分离注意力机制增强了模型对关键信息的聚焦能力,有效提升了模型对特征的表达能力。结合动态卷积与分离注意力机制的优势,该模型能够更加充分地提取关键声学特征,从而实现了更高效、更精准的情感识别。在RAVDESS、EmoDB和CASIA三个语音情感数据库上的测试显示,模型识别准确率显著优于现有技术,达到86.11%、95.33%和82.92%。这验证了模型在复杂情感识别任务的高效性和准确性,以及动态卷积和注意力机制的有效性。 展开更多
关键词 语音情感识别 梅尔频谱图 多层感知机 动态卷积 注意力机制
在线阅读 下载PDF
基于梅尔谱与压缩激励加权量化的语音神经编解码方法
6
作者 周俊佐 易江燕 +2 位作者 陶建华 任勇 汪涛 《计算机研究与发展》 北大核心 2025年第11期2725-2736,共12页
目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法... 目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法旨在保持较高语音感知质量的同时降低计算代价,加快运行速度,从而减少时延.具体而言,采用梅尔谱特征作为输入,借助梅尔谱提取过程中时域压缩的性质,并结合低层卷积编码器以简化运算过程.此外,借鉴压缩激励网络思想,提取了编码器最后一层输出特征各维度的激励权重,将其作为量化器中计算码本距离时压缩特征各维度的权重系数,由此学习特征间的相关性并优化量化性能.在LibriTTS和VCTK数据集上的实验结果表明,该方法显著提升了编码器计算速度,且能在较低比特率时(≤3 Kbps)提升重建语音质量.以比特率1.5 Kbps时为例,编码计算实时率(real-time factor,RTF)最多可提升4.6倍.对于感知质量,以0.75 Kbps为例,短时客观可懂度(shorttime objective intelligibility,STOI)、虚拟语音质量客观评估(virtual speech quality objective listener,VISQOL)等客观指标相较基线平均可提升8.72%.此外,消融实验不仅表明压缩激励权重方法的优化效果与比特率呈反相关,而且发现Relu激活函数相较周期性质激活函数Snake而言,在语音感知质量相当的情况下,能大量加快运行速度. 展开更多
关键词 语音编解码 梅尔谱图 压缩激励网络 残差矢量量化 生成对抗网络
在线阅读 下载PDF
基于改进波噪比与卷积神经网络的钢轨波磨声纹识别 被引量:1
7
作者 刘力 周近 +2 位作者 袁英强 吕彦朋 戴泽宇 《现代城市轨道交通》 2025年第6期100-107,共8页
针对当前智能诊断模型在钢轨波磨识别中准确率低以及难以去除钢轨信号中无关噪声的问题,文章提出一种基于改进波噪比(Improved Corrugation-noise Ratio,ICR)的自适应降噪方法,并结合卷积神经网络(Convolutional Neural Network,CNN)构... 针对当前智能诊断模型在钢轨波磨识别中准确率低以及难以去除钢轨信号中无关噪声的问题,文章提出一种基于改进波噪比(Improved Corrugation-noise Ratio,ICR)的自适应降噪方法,并结合卷积神经网络(Convolutional Neural Network,CNN)构建钢轨波磨识别框架。首先根据噪声和钢轨波磨在频域的分布特点,利用短时傅里叶变换的能量分布计算出时域信号权重系数,对钢轨信号进行加权处理,实现自适应降噪。然后采用梅尔谱的声纹提取方法结合CNN对降噪后的信号进行训练,以最大化分类准确率。实验结果表明,提出的ICR自适应降噪方法可有效降低钢轨声学信号中的无关噪声,并显著提升CNN对钢轨波磨的识别准确率。通过北京地铁某线路的实测数据验证,该方法可有效识别钢轨波磨,识别准确率稳定在97.62%左右,基本满足钢轨波磨识别的实际需求。 展开更多
关键词 地铁 钢轨波磨 卷积神经网络 梅尔谱 改进波噪比
在线阅读 下载PDF
基于数据增强的多输出分类旋转机械复合故障诊断
8
作者 毛荣珍 米洁 +1 位作者 甄真 周海龙 《北京信息科技大学学报(自然科学版)》 2025年第1期94-102,共9页
针对旋转机械复合故障诊断技术特征提取效果不佳、准确率较低且泛化能力不足的问题,提出了一种基于复合故障数据增强的多输出卷积神经网络(convolutional neural network,CNN)复合故障诊断模型。首先,为解决复合故障数据匮乏问题,利用... 针对旋转机械复合故障诊断技术特征提取效果不佳、准确率较低且泛化能力不足的问题,提出了一种基于复合故障数据增强的多输出卷积神经网络(convolutional neural network,CNN)复合故障诊断模型。首先,为解决复合故障数据匮乏问题,利用实验或现场采集的单故障数据,通过组合拟合生成复合故障数据,提出一种使用单故障数据拟合复合故障数据的方法;其次,将拟合后的复合故障数据与单故障数据一同进行数据预处理,并用于多输出CNN复合故障诊断模型的训练;最后,将训练后的模型用于实际工况数据,实现复合故障的解耦与诊断。使用东南大学数据集和里约热内卢联邦大学数据集验证了所提模型的有效性和可行性。实验结果表明,该模型能够提升特征提取效果,实现复合故障解耦、输出故障类型,提升了复合故障诊断准确率。 展开更多
关键词 旋转机械 复合故障诊断 梅尔频谱 卷积神经网络 数据增强
在线阅读 下载PDF
基于集成学习的水下目标被动识别方法
9
作者 汤航 樊书宏 《舰船科学技术》 北大核心 2025年第12期111-116,共6页
对于被动声呐接收到的水声信号,将信号的时域波形转化为时频谱图和梅尔谱图后,可采用神经网络和集成学习的方法,将信号识别转换为图像识别问题。利用多种卷积神经网络对信号谱图进行训练学习,并通过堆叠法(Stacking)将单网络结构作为初... 对于被动声呐接收到的水声信号,将信号的时域波形转化为时频谱图和梅尔谱图后,可采用神经网络和集成学习的方法,将信号识别转换为图像识别问题。利用多种卷积神经网络对信号谱图进行训练学习,并通过堆叠法(Stacking)将单网络结构作为初级学习器构建多网络集成模型,可进一步提高目标识别准确率。利用DeepShips数据集进行目标识别仿真验证,结果表明,多网络集成模型在四分类数据集上的识别准确率可达100%,能够有效提高被动声呐的目标识别能力,对水下目标智能探测和识别具有参考价值。 展开更多
关键词 水下目标识别 梅尔语谱图 集成学习
在线阅读 下载PDF
基于跨用户语音域适应网络的抑郁症检测
10
作者 吴伟 马龙华 赵祥红 《电子科技》 2025年第1期88-94,共7页
由于抑郁症的检测方式主观性较强,因此使用用户语音诊断抑郁症已成为一种较具有潜力的辅助方式,但不同用户的语音信号存在差异。文中提出了一个跨用户语音域适应网络(Cross User Audio Domain Adaptation Network,CUADAN)来检测抑郁症... 由于抑郁症的检测方式主观性较强,因此使用用户语音诊断抑郁症已成为一种较具有潜力的辅助方式,但不同用户的语音信号存在差异。文中提出了一个跨用户语音域适应网络(Cross User Audio Domain Adaptation Network,CUADAN)来检测抑郁症。从语音中提取可视化的梅尔频谱,利用CUADAN模型的特征提取器从梅尔频谱中获取更深层次的抑郁特征。由于源域和目标域中包含不同健康用户和抑郁用户的语音特征,因此利用CUADAN模型的域分类器在不同用户数据之间进行域适应,从而通过已有分类器对未知用户进行检测。实验结果表明,CUADAN模型的抑郁症检测准确率更高,其平均准确率达到81.0±2.4%。因此,CUADAN模型可以有效削弱不同用户语音之间的差异性,提高跨用户抑郁症检测的准确率。 展开更多
关键词 域适应 抑郁症检测 CUADAN 语音 跨用户 梅尔频谱 特征提取 削弱差异性
在线阅读 下载PDF
基于生成对抗学习的变压器声纹异常检测研究
11
作者 卞楠 《自动化应用》 2025年第19期119-121,126,共4页
针对变压器异常声纹样本数量少,有监督声纹异常诊断方法应用受限的问题,提出一种基于自编码生成对抗的无监督变压器声纹异常检测模型。首先,为获取原始变压器音频样本的时间-频率特征,将原始变压器音频转换为梅尔语谱图。随后,构建生成... 针对变压器异常声纹样本数量少,有监督声纹异常诊断方法应用受限的问题,提出一种基于自编码生成对抗的无监督变压器声纹异常检测模型。首先,为获取原始变压器音频样本的时间-频率特征,将原始变压器音频转换为梅尔语谱图。随后,构建生成对抗网络(GAN)框架下的声纹异常检测模型,该模型通过生成器学习正常状态语谱图的特征分布,并利用判别器区分生成样本与真实样本。在训练过程中,模型通过优化生成器和判别器的对抗损失,学习正常样本的特征表示,并计算输入样本在潜在空间中的异常得分。在检测阶段,根据输入样本的异常得分是否超过预设阈值实现变压器异常声纹检测。所研究的方法在变压器声纹数据集上实现了94.08%的检测精度和100%的检测召回率,证明了该方法的有效性。 展开更多
关键词 电力变压器 声纹检测 异常诊断 时间-频率特征 梅尔语谱图
在线阅读 下载PDF
基于时序聚合残差网络的局部放电识别
12
作者 李德方 《电工技术》 2025年第19期250-254,258,共6页
传统的局部放电检测方法在高电压系统中存在成本高和实时性差的问题,为此提出了一种结合多尺度频谱图与残差神经网络(ResNet)的方法。通过融合梅尔频谱图和逆梅尔频谱图将原始超声波信号转换为声谱图,以增强频谱特征的提取能力。结合改... 传统的局部放电检测方法在高电压系统中存在成本高和实时性差的问题,为此提出了一种结合多尺度频谱图与残差神经网络(ResNet)的方法。通过融合梅尔频谱图和逆梅尔频谱图将原始超声波信号转换为声谱图,以增强频谱特征的提取能力。结合改进的T-SEResNet模型与T-Pooling池化层,有效处理复杂噪声并捕捉多尺度特征,提高了信号检测与分类的精度。实验结果表明,该方法在识别准确率和模型鲁棒性方面均优于传统算法,识别率超过95%,且计算效率高。 展开更多
关键词 局放检测 融合梅尔频谱 时序聚合 残差网络
在线阅读 下载PDF
采用混合域注意力机制的无人机识别方法 被引量:8
13
作者 薛珊 卫立炜 +1 位作者 顾宸瑜 吕琼莹 《西安交通大学学报》 EI CAS CSCD 北大核心 2022年第10期141-150,共10页
针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(... 针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(ECSANet)的无人机识别方法。首先,建立民用的9大类无人机声音数据集,提取数据集的对数梅尔谱图及其动态特征;其次,为了网络参数量少,避免过拟合,设计了基于分组卷积、通道混洗和残差结构的通道混洗多尺度分组卷积网络(MSSGNet);然后,为了能更多、更有效地提取无人机声音特征,设计了通道空间混合域注意力机制模块(ECSA);最后,将ECSA模块插入MSSGNet网络构成改进的通道空间混合域注意力机制的多尺度分组卷积网络(ECSANet),形成新型声音识别无人机的方法。运用设计的ECSANet网络对自建的民用无人机声音数据集和Urbansound8K环境声音数据集进行了声音识别,识别结果表明:与ResNet18、ResNet34、ResNeXt18和MobileNetV2等基准网络相比,MSSGNet网络参数更少,识别准确率更高,达到了95.1%;ECSA模块可以插入多种网络,在不增加很多参数的情况下令网络模型的识别准确率获得提升,在无人机等声音分类任务上具有很好的效果;与MSSGNet网络相比,改进的ECSANet网络识别准确率能达到95.9%,提高了0.8%,表明了该网络在识别小样本无人机方面的优越性和可行性。 展开更多
关键词 无人机 声音识别 对数梅尔谱图 神经网络 混合域注意力机制
在线阅读 下载PDF
基于域泛化的无监督机器设备异常声检测 被引量:6
14
作者 章林柯 许艳武 余永升 《海军工程大学学报》 CAS 北大核心 2023年第6期52-56,70,共6页
在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题... 在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题,提出了基于域泛化技术的无监督机器异常声音检测方法。首先,将声信号的对数梅尔谱图输入深度学习神经网络模型,结合域混合方法和坐标注意力机制模块,提高系统域泛化能力和异常识别性能;然后,在DCASE开源数据集上进行实验,与两种基线评估系统的AUC和pAUC得分进行对比。结果表明,所提出的方法在域泛化条件下的异常检测性能得到明显提升。 展开更多
关键词 无监督深度学习 异常声音检测 域泛化 对数梅尔谱图
在线阅读 下载PDF
基于稀疏轻量卷积神经网络的管道泄漏检测 被引量:7
15
作者 刘杰 朱正伟 《电子测量技术》 北大核心 2022年第19期131-135,共5页
针对传统供水管网泄漏检测问题,本文提出了一种基于稀疏轻量卷积神经网络的管道泄漏检测算法。首先通过声音传感器采集管道泄漏的声音信号,经过立体声转换、重采样、长度对齐等预处理操作后,将其转换成梅尔频谱图。然后,构建一种稀疏轻... 针对传统供水管网泄漏检测问题,本文提出了一种基于稀疏轻量卷积神经网络的管道泄漏检测算法。首先通过声音传感器采集管道泄漏的声音信号,经过立体声转换、重采样、长度对齐等预处理操作后,将其转换成梅尔频谱图。然后,构建一种稀疏轻量化的卷积神经网络模型来对梅尔频谱图进行特征抽取和泄漏检测。针对声音特征图的稀疏和时延性质,本文采用Inception网络结构来进行提高模型的特征抽取能力。此外,因为该模型需要被部署到边缘侧,因此设计了一种基于SqueezeNet的轻量化卷积神经网络模型来减少模型的参数,降低模型复杂度。实验结果表明,提出的管道泄漏检测算法在保证复杂度较低的同时具有较高的识别准确率。 展开更多
关键词 管道泄漏检测 卷积神经网络 梅尔频谱图 稀疏特征
原文传递
鸟鸣叫声特征提取方法的研究 被引量:3
16
作者 伟利国 张小超 吴文彪 《辽宁师范大学学报(自然科学版)》 CAS 2010年第1期108-111,共4页
鸟鸣叫声的研究和分析方法对开展鸟类学工作有极其重要的作用.通过对鸟鸣叫声进行功率谱分析、声谱分析、Mel倒谱分析和主成分分析,从而对鸟鸣叫声特征参数进行提取,为鸟鸣叫声的个体识别以及鸣叫声与鸟类行为的关系研究提供了有力的技... 鸟鸣叫声的研究和分析方法对开展鸟类学工作有极其重要的作用.通过对鸟鸣叫声进行功率谱分析、声谱分析、Mel倒谱分析和主成分分析,从而对鸟鸣叫声特征参数进行提取,为鸟鸣叫声的个体识别以及鸣叫声与鸟类行为的关系研究提供了有力的技术支持. 展开更多
关键词 鸟鸣声 声谱 Mel倒谱 主成分分析
在线阅读 下载PDF
基于改进残差网络的低空无人机声音识别方法 被引量:3
17
作者 薛珊 卫立炜 +2 位作者 顾宸瑜 孟宪宇 贾冰 《长春理工大学学报(自然科学版)》 2022年第4期100-107,共8页
“黑飞”无人机的泛滥给人们的生活带来了极大威胁。抵制“黑飞”无人机的首要任务是识别它。针对低空无人机识别问题,设计了一种基于改进残差网络的无人机声音识别方法。首先,采集低空无人机声音数据并进行预处理,建立数据集;其次,研... “黑飞”无人机的泛滥给人们的生活带来了极大威胁。抵制“黑飞”无人机的首要任务是识别它。针对低空无人机识别问题,设计了一种基于改进残差网络的无人机声音识别方法。首先,采集低空无人机声音数据并进行预处理,建立数据集;其次,研究并比较了梅尔频率倒谱系数(MFCC)、对数梅尔谱图(Log-Mel)及其一阶差分等音频特征;然后,设计了基于残差块改进的神经网络(IRBNet);最后,运用设计的IRBNet以及CNN-1、CNN-2、ResNet和IRBNet-1等基准网络对无人机进行识别实验。实验结果表明,IRBNet的识别准确率为97.45%,与其他基准网络相比,准确率更高;设计的IRBNet具有识别无人机的可行性和有效性。 展开更多
关键词 无人机 声音识别 特征提取 对数梅尔谱图 卷积神经网络
在线阅读 下载PDF
Shallow Convolutional Neural Networks for Acoustic Scene Classification 被引量:5
18
作者 LU Lu YANG Yuhong +2 位作者 JIANG Yuzhi AI Haojun TU Weiping 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2018年第2期178-184,共7页
Recently, deep neural networks, which include convolutional neural networks(CNNs), have been widely applied to acoustic scene classification(ASC). Motivated by the fact that some simplified CNNs have shown improve... Recently, deep neural networks, which include convolutional neural networks(CNNs), have been widely applied to acoustic scene classification(ASC). Motivated by the fact that some simplified CNNs have shown improvements over deep CNNs, such as Visual Geometry Group Net(VGG-Net), we have figured out how to simplify the VGG-Net style architecture to a shallow CNN with improved performance. Max pooling and batch normalization are also applied for better accuracy. With a series of controlled tests on detection and classification of acoustic scenes and events(DCASE) 2016 data sets, our shallow CNN achieves 6.7% improvement, and reduces time complexity to 5%, compared with the VGG-Net style CNN. 展开更多
关键词 acoustic scene classification convolutional neuralnetworks mel-spectrogram
原文传递
基于多模态特征的音乐情感多任务识别研究 被引量:8
19
作者 王昊 刘渊晨 +1 位作者 赵萌 裘靖文 《现代情报》 CSSCI 2022年第11期61-75,共15页
[目的/意义]情感是目前在线音乐平台常用的资源组织与检索方式之一,利用特征融合对歌单、歌曲的情感分类进行探索研究,能够优化音乐资源的管理与利用效果,更好地满足网民对音乐文化生活的需求。[方法/过程]本文引入Hevner音乐情感模型... [目的/意义]情感是目前在线音乐平台常用的资源组织与检索方式之一,利用特征融合对歌单、歌曲的情感分类进行探索研究,能够优化音乐资源的管理与利用效果,更好地满足网民对音乐文化生活的需求。[方法/过程]本文引入Hevner音乐情感模型构建情感词典,利用词典信息、歌单名称、歌单介绍对大粒度歌单情感进行分类;通过预训练模型语义表示、音频信号处理等方法,融合歌词与音频多模态特征对小粒度歌曲情感进行识别。[结果/结论]情感词典的引入有效提升歌单情感分类精度,人工预处理能够帮助算法更好地学习数据特征;歌曲的文本与音频中均含有丰富的情感信息,多模态融合模型在歌曲情感识别中表现最优。 展开更多
关键词 网易云音乐 歌单情感分类 音乐情感分类 梅尔声谱图 多模态融合
在线阅读 下载PDF
基于频谱增强和卷积宽度学习的音乐流派分类 被引量:3
20
作者 刘万军 李雨萌 曲海成 《计算机系统应用》 2023年第10期85-95,共11页
针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅... 针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅尔频谱图作为CNNBLS的输入,同时将指数线性单元函数(ELU)融合进CNNBLS的卷积层,以增强其分类精度.相较于其他机器学习网络框架,CNNBLS能用少量的训练时间获得较高的分类精度.此外,CNNBLS可以对增量数据进行快速学习.实验结果表明:无增量模型CNNBLS在训练400首音乐数据可获得90.06%的分类准确率,增量模型Incremental-CNNBLS在增加400首训练数据后可达91.53%的分类准确率. 展开更多
关键词 梅尔频谱 宽度学习 语音增强 音乐流派分类 指数线性单元函数(ELU)
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部