期刊文献+
共找到59篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进EfficientNet的煤矸音频分类方法 被引量:1
1
作者 宋庆军 焦守悦 +2 位作者 姜海燕 宋庆辉 郝文超 《工矿自动化》 北大核心 2025年第1期138-144,共7页
针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特... 针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特征。选择EfficientNet-B0作为骨干网络,并对其进行以下改进:将原有的多尺度通道注意力模块换成卷积块注意力模块,得到卷积注意力特征融合(CAFF)模块,通过网络自学习为不同空间位置的特征分配不同的权重信息,生成新的有效特征;在原有的MBConv模块中并行嵌入频域通道注意力(FCA)模块,加强特征图的表达能力,从而提高整个网络的性能。实验结果表明:引入CAFF模块后,模型准确率提升了0.61%,F1得分提升了0.52%,且模型收敛更快,说明CAFF模块有效提升了模型对频谱特征的捕捉能力;引入FCA模块后,准确率提升了0.45%,F1得分提升了0.62%,说明模块的叠加可以进一步提高模型的泛化能力和处理复杂特征的能力;改进EfficientNe模型的准确率为91.90%,标准差为0.108,显著优于同类对比音频分类模型。 展开更多
关键词 综放开采 煤矸识别 音频特征提取 EfficientNet Mel频谱特征 Gammatone倒谱系数 注意力机制
在线阅读 下载PDF
基于ASP-SERes2Net的说话人识别算法 被引量:1
2
作者 令晓明 陈鸿雁 +1 位作者 张小玉 张真 《北京工业大学学报》 CAS 北大核心 2025年第1期42-50,共9页
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(sq... 为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。 展开更多
关键词 说话人识别 梅尔语谱图 Res2Net 压缩激活(squeeze-and-excitation SE)注意力模块 注意力统计池化(attention statistics pooling ASP) 附加角裕度的Softmax(additive angular margin Softmax AAM-Softmax)
在线阅读 下载PDF
基于改进MobileNetV3的笼养蛋鸡声音分类识别方法 被引量:2
3
作者 衡一帆 盛哲雅 +3 位作者 严煜 谷月 周昊博 王树才 《农业机械学报》 北大核心 2025年第4期427-435,共9页
为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋... 为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋声以及鸣唱声,经过声音预处理将一维声音信号转化为三维梅尔频谱图,建立了包括8541幅梅尔频谱图的蛋鸡声音数据集。通过在MobileNetV3中引入高效通道注意力(Efficient channel attention,ECA)模块,提高了笼养蛋鸡声音分类准确率。试验结果表明,MobileNetV3-ECA模型准确率、召回率、精确率以及F1分数分别达到95.25%、95.16%、95.02%、95.08%,相比原始模型分别提高1.99、2.08、2.00、2.04个百分点。通过与分别引入坐标注意力(Coordinate attention,CA)、卷积块注意力模块(Convolutional block attention module,CBAM)的模型对比,引入ECA模块后模型准确率分别提高2.11、2.03个百分点,其他指标同样有更明显的提高。与ShuffleNetV2、DesNet121和EfficientNetV2模型相比,MobileNetV3-ECA准确率分别提高1.99、2.03、2.50个百分点。本文提出的基于MobileNetV3-ECA的蛋鸡声音分类识别方法,能够有效且准确地实现对包括热应激声在内的不同种类蛋鸡声音分类识别,为蛋鸡规模化养殖中的自动化、智能化声音检测提供了算法支持,为禽舍巡检机器人功能优化提供了参考,同时为规模化笼养蛋鸡热应激预警开辟了思路。 展开更多
关键词 笼养蛋鸡 声音分类 MobileNetV3 高效通道注意力 梅尔频谱图 卷积神经网络
在线阅读 下载PDF
基于改进残差网络的罗氏沼虾发声信号分类方法 被引量:1
4
作者 曹正良 蒋千庆 +4 位作者 姜珊 王子贤 李钊丞 靳雨雪 胡庆松 《水产学报》 北大核心 2025年第7期204-214,共11页
【目的】水产养殖中虾类行为的精准识别对饲料投喂优化和疾病预防管理具有重要意义。针对传统光学监测方法在复杂养殖环境中的局限性,从被动声学监测角度,针对虾类在复杂养殖环境中传统光学监测方法的局限性。【方法】本研究结合被动声... 【目的】水产养殖中虾类行为的精准识别对饲料投喂优化和疾病预防管理具有重要意义。针对传统光学监测方法在复杂养殖环境中的局限性,从被动声学监测角度,针对虾类在复杂养殖环境中传统光学监测方法的局限性。【方法】本研究结合被动声学技术获取罗氏沼虾的不同行为发声信息,提出了一种基于深度学习的罗氏沼虾行为分类方法。通过采集摄食、移动及打斗三种行为的发声信号,将其转换为Mel频谱图作为数据集,并比较了CNN、ResNet18和VGG16神经网络模型分类效果。【结果】ResNet18的识别准确率(97.67%)优于VGG16和CNN;在引入批量归一化(Batch Normalization,BN)算法后,BN-ResNet18的识别准确率提升至99.00%,较原始ResNet18提高了1.33%。此外,BNResNet18在14.0~44.1 kHz频段内表现出最优的分类性能,进一步证明了残差连接与BN模块的协同优化能够有效提升模型性能。【结论】BN-ResNet18在复杂行为发声信号特征建模分类中展现出较高的准确性和稳健性。本研究为基于虾类行为发声信号的监测识别提供了技术支持,对水产养殖的智能化研发具有潜在应用价值。 展开更多
关键词 罗氏沼虾 Mel频谱图 神经网络 批量归一化 发声信号
原文传递
融合动态卷积和注意力机制的多层感知机语音情感识别 被引量:1
5
作者 张雨萌 张欣 +1 位作者 高谋 赵虎林 《计算机科学与探索》 北大核心 2025年第4期1065-1075,共11页
语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息... 语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息利用效率。将输入的语音信号转化为梅尔频谱图,捕捉信号细节变化,更贴切地反映人类对声音的感知,为后续特征提取奠定了基础。通过词元化处理将梅尔频谱图转化为词元,降低了数据的复杂性。借助动态卷积与分离注意力机制高效提取关键的时频特征。一方面,动态卷积能够适应不同时间和频率上的尺度变化,优化了特征捕捉效率;另一方面,分离注意力机制增强了模型对关键信息的聚焦能力,有效提升了模型对特征的表达能力。结合动态卷积与分离注意力机制的优势,该模型能够更加充分地提取关键声学特征,从而实现了更高效、更精准的情感识别。在RAVDESS、EmoDB和CASIA三个语音情感数据库上的测试显示,模型识别准确率显著优于现有技术,达到86.11%、95.33%和82.92%。这验证了模型在复杂情感识别任务的高效性和准确性,以及动态卷积和注意力机制的有效性。 展开更多
关键词 语音情感识别 梅尔频谱图 多层感知机 动态卷积 注意力机制
在线阅读 下载PDF
基于梅尔谱与压缩激励加权量化的语音神经编解码方法
6
作者 周俊佐 易江燕 +2 位作者 陶建华 任勇 汪涛 《计算机研究与发展》 北大核心 2025年第11期2725-2736,共12页
目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法... 目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法旨在保持较高语音感知质量的同时降低计算代价,加快运行速度,从而减少时延.具体而言,采用梅尔谱特征作为输入,借助梅尔谱提取过程中时域压缩的性质,并结合低层卷积编码器以简化运算过程.此外,借鉴压缩激励网络思想,提取了编码器最后一层输出特征各维度的激励权重,将其作为量化器中计算码本距离时压缩特征各维度的权重系数,由此学习特征间的相关性并优化量化性能.在LibriTTS和VCTK数据集上的实验结果表明,该方法显著提升了编码器计算速度,且能在较低比特率时(≤3 Kbps)提升重建语音质量.以比特率1.5 Kbps时为例,编码计算实时率(real-time factor,RTF)最多可提升4.6倍.对于感知质量,以0.75 Kbps为例,短时客观可懂度(shorttime objective intelligibility,STOI)、虚拟语音质量客观评估(virtual speech quality objective listener,VISQOL)等客观指标相较基线平均可提升8.72%.此外,消融实验不仅表明压缩激励权重方法的优化效果与比特率呈反相关,而且发现Relu激活函数相较周期性质激活函数Snake而言,在语音感知质量相当的情况下,能大量加快运行速度. 展开更多
关键词 语音编解码 梅尔谱图 压缩激励网络 残差矢量量化 生成对抗网络
在线阅读 下载PDF
基于改进波噪比与卷积神经网络的钢轨波磨声纹识别 被引量:1
7
作者 刘力 周近 +2 位作者 袁英强 吕彦朋 戴泽宇 《现代城市轨道交通》 2025年第6期100-107,共8页
针对当前智能诊断模型在钢轨波磨识别中准确率低以及难以去除钢轨信号中无关噪声的问题,文章提出一种基于改进波噪比(Improved Corrugation-noise Ratio,ICR)的自适应降噪方法,并结合卷积神经网络(Convolutional Neural Network,CNN)构... 针对当前智能诊断模型在钢轨波磨识别中准确率低以及难以去除钢轨信号中无关噪声的问题,文章提出一种基于改进波噪比(Improved Corrugation-noise Ratio,ICR)的自适应降噪方法,并结合卷积神经网络(Convolutional Neural Network,CNN)构建钢轨波磨识别框架。首先根据噪声和钢轨波磨在频域的分布特点,利用短时傅里叶变换的能量分布计算出时域信号权重系数,对钢轨信号进行加权处理,实现自适应降噪。然后采用梅尔谱的声纹提取方法结合CNN对降噪后的信号进行训练,以最大化分类准确率。实验结果表明,提出的ICR自适应降噪方法可有效降低钢轨声学信号中的无关噪声,并显著提升CNN对钢轨波磨的识别准确率。通过北京地铁某线路的实测数据验证,该方法可有效识别钢轨波磨,识别准确率稳定在97.62%左右,基本满足钢轨波磨识别的实际需求。 展开更多
关键词 地铁 钢轨波磨 卷积神经网络 梅尔谱 改进波噪比
在线阅读 下载PDF
基于数据增强的多输出分类旋转机械复合故障诊断
8
作者 毛荣珍 米洁 +1 位作者 甄真 周海龙 《北京信息科技大学学报(自然科学版)》 2025年第1期94-102,共9页
针对旋转机械复合故障诊断技术特征提取效果不佳、准确率较低且泛化能力不足的问题,提出了一种基于复合故障数据增强的多输出卷积神经网络(convolutional neural network,CNN)复合故障诊断模型。首先,为解决复合故障数据匮乏问题,利用... 针对旋转机械复合故障诊断技术特征提取效果不佳、准确率较低且泛化能力不足的问题,提出了一种基于复合故障数据增强的多输出卷积神经网络(convolutional neural network,CNN)复合故障诊断模型。首先,为解决复合故障数据匮乏问题,利用实验或现场采集的单故障数据,通过组合拟合生成复合故障数据,提出一种使用单故障数据拟合复合故障数据的方法;其次,将拟合后的复合故障数据与单故障数据一同进行数据预处理,并用于多输出CNN复合故障诊断模型的训练;最后,将训练后的模型用于实际工况数据,实现复合故障的解耦与诊断。使用东南大学数据集和里约热内卢联邦大学数据集验证了所提模型的有效性和可行性。实验结果表明,该模型能够提升特征提取效果,实现复合故障解耦、输出故障类型,提升了复合故障诊断准确率。 展开更多
关键词 旋转机械 复合故障诊断 梅尔频谱 卷积神经网络 数据增强
在线阅读 下载PDF
基于集成学习的水下目标被动识别方法
9
作者 汤航 樊书宏 《舰船科学技术》 北大核心 2025年第12期111-116,共6页
对于被动声呐接收到的水声信号,将信号的时域波形转化为时频谱图和梅尔谱图后,可采用神经网络和集成学习的方法,将信号识别转换为图像识别问题。利用多种卷积神经网络对信号谱图进行训练学习,并通过堆叠法(Stacking)将单网络结构作为初... 对于被动声呐接收到的水声信号,将信号的时域波形转化为时频谱图和梅尔谱图后,可采用神经网络和集成学习的方法,将信号识别转换为图像识别问题。利用多种卷积神经网络对信号谱图进行训练学习,并通过堆叠法(Stacking)将单网络结构作为初级学习器构建多网络集成模型,可进一步提高目标识别准确率。利用DeepShips数据集进行目标识别仿真验证,结果表明,多网络集成模型在四分类数据集上的识别准确率可达100%,能够有效提高被动声呐的目标识别能力,对水下目标智能探测和识别具有参考价值。 展开更多
关键词 水下目标识别 梅尔语谱图 集成学习
在线阅读 下载PDF
基于跨用户语音域适应网络的抑郁症检测
10
作者 吴伟 马龙华 赵祥红 《电子科技》 2025年第1期88-94,共7页
由于抑郁症的检测方式主观性较强,因此使用用户语音诊断抑郁症已成为一种较具有潜力的辅助方式,但不同用户的语音信号存在差异。文中提出了一个跨用户语音域适应网络(Cross User Audio Domain Adaptation Network,CUADAN)来检测抑郁症... 由于抑郁症的检测方式主观性较强,因此使用用户语音诊断抑郁症已成为一种较具有潜力的辅助方式,但不同用户的语音信号存在差异。文中提出了一个跨用户语音域适应网络(Cross User Audio Domain Adaptation Network,CUADAN)来检测抑郁症。从语音中提取可视化的梅尔频谱,利用CUADAN模型的特征提取器从梅尔频谱中获取更深层次的抑郁特征。由于源域和目标域中包含不同健康用户和抑郁用户的语音特征,因此利用CUADAN模型的域分类器在不同用户数据之间进行域适应,从而通过已有分类器对未知用户进行检测。实验结果表明,CUADAN模型的抑郁症检测准确率更高,其平均准确率达到81.0±2.4%。因此,CUADAN模型可以有效削弱不同用户语音之间的差异性,提高跨用户抑郁症检测的准确率。 展开更多
关键词 域适应 抑郁症检测 CUADAN 语音 跨用户 梅尔频谱 特征提取 削弱差异性
在线阅读 下载PDF
基于生成对抗学习的变压器声纹异常检测研究
11
作者 卞楠 《自动化应用》 2025年第19期119-121,126,共4页
针对变压器异常声纹样本数量少,有监督声纹异常诊断方法应用受限的问题,提出一种基于自编码生成对抗的无监督变压器声纹异常检测模型。首先,为获取原始变压器音频样本的时间-频率特征,将原始变压器音频转换为梅尔语谱图。随后,构建生成... 针对变压器异常声纹样本数量少,有监督声纹异常诊断方法应用受限的问题,提出一种基于自编码生成对抗的无监督变压器声纹异常检测模型。首先,为获取原始变压器音频样本的时间-频率特征,将原始变压器音频转换为梅尔语谱图。随后,构建生成对抗网络(GAN)框架下的声纹异常检测模型,该模型通过生成器学习正常状态语谱图的特征分布,并利用判别器区分生成样本与真实样本。在训练过程中,模型通过优化生成器和判别器的对抗损失,学习正常样本的特征表示,并计算输入样本在潜在空间中的异常得分。在检测阶段,根据输入样本的异常得分是否超过预设阈值实现变压器异常声纹检测。所研究的方法在变压器声纹数据集上实现了94.08%的检测精度和100%的检测召回率,证明了该方法的有效性。 展开更多
关键词 电力变压器 声纹检测 异常诊断 时间-频率特征 梅尔语谱图
在线阅读 下载PDF
基于Mel声谱图与改进SEResNet的鱼类行为识别 被引量:7
12
作者 杨雨欣 于红 +3 位作者 杨宗轶 涂万 张鑫 林远山 《渔业现代化》 CSCD 北大核心 2024年第1期56-63,共8页
养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造... 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了3.23%;相比PANNS-CNN14、ECAPA-TDNN及MFCC+ResNet等先进声音识别模型,TAP-SEResNet在准确率上分别提升了5.32%、2.80%和1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。 展开更多
关键词 鱼类行为识别 被动水声信号 Mel声谱图 SEResNet
在线阅读 下载PDF
基于Mel-GADF与ConvNeXt-T的变压器铁心松动故障诊断方法 被引量:9
13
作者 万可力 马宏忠 +1 位作者 崔佳嘉 王健 《电力自动化设备》 EI CSCD 北大核心 2024年第3期217-224,共8页
为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经... 为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经过格拉姆角场(GAF)变换得到格拉姆角和场(GASF)与GADF这2种时频谱图;生成Mel-GASF与Mel-GADF这2种特征融合的时频谱图来弥补Mel时频谱图的低频缺失问题;将3种时频谱图放入ConvNeXt-T网络进行训练对比,选出效果最佳的诊断模型。以型号为S13-M-200/10的变压器为对象进行空载试验,对不同铁心松动程度下的声纹信号进行分析,分析结果表明,将Mel-GADF作为特征时频谱图结合ConvNeXt-T网络,可将测试集准确率从传统Mel时频谱图的98.273%提升至99.500%,提升了1.227个百分点。 展开更多
关键词 变压器 铁心松动 Mel时频谱图 格拉姆角场 卷积神经网络 迁移学习
在线阅读 下载PDF
基于LPDMR-NET的鸟鸣声识别 被引量:2
14
作者 王娅茹 唐璐 +2 位作者 陈爱斌 彭伟雄 沈平 《计算机工程》 CAS CSCD 北大核心 2024年第10期174-184,共11页
为了高效且快速地识别自然环境中的鸟鸣声,提出一种基于轻量级逐点深度的多感受野注意力残差网络(LPDMR-NET)模型。首先,通过Mel滤波器生成Mel频谱图。接着,采用basicblock和downblock连接生成两层残差网络DBNet,堆叠DBNet作为鸟鸣声识... 为了高效且快速地识别自然环境中的鸟鸣声,提出一种基于轻量级逐点深度的多感受野注意力残差网络(LPDMR-NET)模型。首先,通过Mel滤波器生成Mel频谱图。接着,采用basicblock和downblock连接生成两层残差网络DBNet,堆叠DBNet作为鸟鸣声识别的主干网络,以提高训练速度。然后,利用逐点深度卷积网络(PDNet)提取频谱图特征信息,替代主干网络下采样模块,将两个残差模块的basicblock中的3×3卷积替换为分离分支块(DBB),引入不同的感受野,在复杂多分支结构下显著提高网络的识别性能。最后,在两个残差模块间嵌入轻量级高效置换注意力(SA)模块用于传递两层残差模块间的有效信息,增强频谱图波纹特征,进一步提高网络识别性能。在自建的30类鸟鸣声数据集Birdselfdata上的实验结果表明,该模型的识别准确率为96.82%、F1值为96.73%,在识别效率和准确性方面超越了对比模型。 展开更多
关键词 卷积神经网络 鸟鸣声分类 深度学习 Mel频谱图 残差网络 深度可分离卷积
在线阅读 下载PDF
基于改进残差网络的心脏杂音检测方法
15
作者 李世龙 何培宇 +3 位作者 黄昭涵 李莉 赵启军 潘帆 《生物医学工程研究》 2024年第5期369-376,共8页
针对目前缺乏识别心音收缩期杂音和舒张期杂音的方法,本研究提出了一种基于改进残差网络的杂音检测方法,通过检测多个听诊区的收缩期和舒张期杂音,判断患者是否存在心脏杂音。首先,按照心音时相将心音数据分割成心音信号片段;然后,提取... 针对目前缺乏识别心音收缩期杂音和舒张期杂音的方法,本研究提出了一种基于改进残差网络的杂音检测方法,通过检测多个听诊区的收缩期和舒张期杂音,判断患者是否存在心脏杂音。首先,按照心音时相将心音数据分割成心音信号片段;然后,提取心音片段样本的对数梅尔谱特征;最后,使用嵌入通道注意力机制的残差神经网络模型进行心脏杂音检测。本研究在CirCor Digiscope dataset 2022数据集上进行了五折交叉验证,心脏杂音检测平均准确率、平均召回率、平均精确率与平均F1分数分别为90.05%、63.74%、84.20%和72.28%。实验结果表明,本研究方法在基于时相切割的心音数据的杂音检测任务中准确率较好,可为心血管疾病的自动分析提供重要依据。 展开更多
关键词 心血管疾病 心脏杂音 杂音检测 对数梅尔谱 注意力机制 残差神经网络
在线阅读 下载PDF
基于轻量级卷积神经网络的车辆声学识别 被引量:4
16
作者 封慧杰 赵红东 +1 位作者 于快快 刘赫 《传感器与微系统》 CSCD 北大核心 2024年第7期136-140,共5页
车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小... 车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小的改进,通过提取车辆声信号的对数—梅尔谱图(LMS)特征作为该模型的输入,进行车型识别。同时,将风、雨、雷暴噪声叠加在车辆音频上,以验证不同环境噪声的影响。实验结果表明:该模型参数量少、训练速度快,在VS10数据集上识别精度比基础网络ShuffleNet V2提高2.4%,识别准确率可达97.5%,与不同分类网络相比,S-ShuffleNet也具有良好性能。 展开更多
关键词 车型识别 声学特征 对数梅尔谱图 轻量级 卷积神经网络 环境噪声
在线阅读 下载PDF
基于幅值滤波与分层特征融合策略的语音情感识别 被引量:2
17
作者 喻永振 刘大明 《国外电子测量技术》 2024年第3期35-42,共8页
针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图... 针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图内的高频强增益、低频弱增益;同时,通过概率相乘缩小梅尔谱图内相远幅值之间的差异,以显示谱图内中频的细节部分。在此基础上,使用矩形卷积提取音频信号的时间动态特征,生成梅尔谱图动态特征图,并将其作为分层特征融合策略的输入。分层特征融合策略通过压缩特征图来提取不同尺度的时间动态特征,并提取不同深度中的时间动态特征。在多语言联合数据集CER上取得了84.44%的分类准确率。 展开更多
关键词 语音情感识别 幅值滤波 分层特征融合策略 梅尔谱图动态特征图
原文传递
基于子音节表征的苗语语音合成方法 被引量:1
18
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
在线阅读 下载PDF
基于Vision Transformer和迁移学习的家庭领域哭声识别
19
作者 王汝旭 王荣燕 +2 位作者 曾科 杨传德 刘超 《智能计算机与应用》 2024年第6期119-126,共8页
针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换... 针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换和数据增强的数据预处理技术,进而达到了增强模型鲁棒性的目的。而后,在微调后的Vision Transformer模型上进行迁移学习训练,同时,训练过程中利用了LookAhead优化器来不断调整模型参数以避免过拟合,最终实验实现了对婴儿哭声音频的自动分类。实验结果表明,本实验模型相比其他深度学习模型具有更高的精确率和更快的收敛速度,同时还能有效地学习到婴儿哭声中更具区分性的特征。可以在新生儿监护、听力筛查和异常检测等领域中发挥重要作用。 展开更多
关键词 Vision Transformer模型 婴儿哭声 迁移学习 梅尔频谱图 LOOKAHEAD
在线阅读 下载PDF
基于声纹识别的油浸式变压器局部放电故障诊断研究 被引量:2
20
作者 王理丽 李子彬 +4 位作者 李军 王生杰 李秋阳 王子乐 杨潇洁 《青海电力》 2024年第4期36-41,共6页
油浸式变压器的局部放电会导致局部绝缘的损坏,并随着时间的推移逐渐扩大,最终导致设备的损坏或故障。为有效监测油浸式变压器的局部放电故障,以声纹识别技术为监测手段,对油浸式变压器局部放电产生的声音信号进行采集和处理,搭建局部... 油浸式变压器的局部放电会导致局部绝缘的损坏,并随着时间的推移逐渐扩大,最终导致设备的损坏或故障。为有效监测油浸式变压器的局部放电故障,以声纹识别技术为监测手段,对油浸式变压器局部放电产生的声音信号进行采集和处理,搭建局部放电故障诊断模型,实现变压器内部尖端放电、悬浮放电等5种局部放电故障的监测识别,同时以实际声纹故障数据进行模型训练和测试,有效提高识别精度,具有较高的实用价值和应用前景,可为电力系统的安全运行提供有效的技术支持和保障。 展开更多
关键词 变压器 声纹故障诊断 注意力机制 残差神经网络 梅尔语谱图
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部