期刊文献+
共找到79,319篇文章
< 1 2 250 >
每页显示 20 50 100
基于融合编码策略与通道增强的声音事件定位与检测
1
作者 王春丽 陈善立 刘素倩 《应用声学》 北大核心 2026年第1期223-235,共13页
在三维声音事件定位与检测任务中,多声音事件的重叠导致无法从复杂信号当中有效地提取出每个声源的特征,此外为满足实际需求,在声音事件定位与检测任务当中引入距离估计任务,这增加了任务处理难度。针对上述问题,该文提出基于融合编码... 在三维声音事件定位与检测任务中,多声音事件的重叠导致无法从复杂信号当中有效地提取出每个声源的特征,此外为满足实际需求,在声音事件定位与检测任务当中引入距离估计任务,这增加了任务处理难度。针对上述问题,该文提出基于融合编码策略与通道增强的声音事件定位与检测算法,利用融合编码策略让模型能够将不同编码策略的特征进行自适应融合,增强对复杂信号中关键特征的提取能力;且根据声学信号在频域上表现出不同的频率分布和能量集中度的特性,结合离散余弦变换从通道维度出发,对信号的重要频率进行加权,学习每个通道不同频率的重要性,加强模型在频域上的建模,提升模型对关键信号的捕捉能力。实验结果表明,该文提出的模型性能要优于基线模型,当引入距离估计任务时,提出算法综合性能优于部分现有模型,为三维声音事件定位与检测任务提供了新的思路。 展开更多
关键词 声音事件定位与检测 距离估计 融合编码策略 通道增强 离散余弦变换
在线阅读 下载PDF
联合听觉场景分析与深度学习的舰船辐射噪声分离方法
2
作者 吴轩 王海涛 +2 位作者 何群铱 曾向阳 陈克安 《声学学报》 北大核心 2026年第1期170-182,共13页
针对混叠舰船辐射噪声的分离问题,发展了一种联合听觉场景分析与深度学习的舰船辐射噪声分离方法。该方法以计算听觉场景分析的总体流程为基础框架,将分离过程分为听觉分割和听觉重组两个阶段。在听觉分割阶段,将混叠信号进行时频分解处... 针对混叠舰船辐射噪声的分离问题,发展了一种联合听觉场景分析与深度学习的舰船辐射噪声分离方法。该方法以计算听觉场景分析的总体流程为基础框架,将分离过程分为听觉分割和听觉重组两个阶段。在听觉分割阶段,将混叠信号进行时频分解处理,构建时频片段,利用密集连接U型网络(Dense-UNet)提取数据特征并构建分离掩码,其中Dense-UNet网络结合了传统U型网络(UNet)的编码器–解码器结构和密集连接网络(DenseNet)的密集连接操作,能够在编码器部分高效提取多尺度特征,同时在解码器部分通过跳跃连接和密集连接有效恢复细粒度的信号结构;在听觉重组阶段,基于邻近帧相关性分析对初始分离信号进行帧级再调整配对,最终实现对分离信号的重组。基于实际舰船辐射噪声数据的实验表明,所设计方法相较于其他常用深度学习分离方法在网络规模降低的条件下取得更优分离效果,且具有更好的稳定性。 展开更多
关键词 舰船辐射噪声分离 计算听觉场景 深度学习 帧相关性
原文传递
基于SAE-LS-CGAN数据增强的语音情感识别
3
作者 魏佳楠 孙颖 张雪英 《太原理工大学学报》 北大核心 2026年第1期202-211,共10页
【目的】语音情感语料库普遍存在数据稀少的问题,而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段,但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种... 【目的】语音情感语料库普遍存在数据稀少的问题,而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段,但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种语音数据增强方法的基础上,提出了一种基于改进条件生成对抗模型(Conditional Generative Adversarial Network,CGAN)的新的数据增强模型SAE-LS-CGAN。该模型将语音特征映射为N个矩阵,鉴别器分别对每个矩阵进行评价,提升鉴别精度。与传统的生成对抗网络(Generative Adversarial Network,GAN)相比,该模型引入栈式自编码器(Stacked AutoEncoder,SAE),并将其输出作为改进CGAN的输入,同时结合类别学习器(Class Learning Block,CLB)优化生成样本的质量;进一步引入最小二乘损失函数(The Least Squares Loss Function,LS)对网络进行对抗性训练,在原始特征空间和潜在空间中生成高质量的特征向量,并将生成数据融入到训练数据中用于分类。【结果】实验结果表明,所提模型在Emo-DB和IEMOCAP数据集上的语音情感识别任务中均取得了较优的性能表现。 展开更多
关键词 语音情感识别 数据增强 栈式自编码器 条件生成对抗网络 最小二乘损失函数
在线阅读 下载PDF
使用预测误差方法的助听器凸组合比例声反馈消除算法
4
作者 王森童 全智 《应用声学》 北大核心 2026年第1期245-259,共15页
传统的自适应声学反馈消除算法在兼顾收敛速度和稳态性能之间存在困难,而输入信号与反馈信号之间的高相关性进一步限制了算法性能。针对这些问题,提出了使用预测误差方法的凸组合比例算法。该算法结合两个不同步长的自适应滤波器,并引... 传统的自适应声学反馈消除算法在兼顾收敛速度和稳态性能之间存在困难,而输入信号与反馈信号之间的高相关性进一步限制了算法性能。针对这些问题,提出了使用预测误差方法的凸组合比例算法。该算法结合两个不同步长的自适应滤波器,并引入比例机制和预测误差方法以加速初始收敛和增强跟踪能力,消除了信号之间的高相关性。仿真结果显示,与传统方法相比,所提算法在处理声学信号时,显著降低了失调量并提高了额外稳态增益。 展开更多
关键词 回声消除算法 自适应滤波器 凸组合 预测误差方法 比例自适应滤波法
在线阅读 下载PDF
飞行训练的语声情绪识别和评估
5
作者 陶雪峰 顾人舒 +1 位作者 吴东苏 郭超 《应用声学》 北大核心 2026年第1期236-244,共9页
为了使飞行员在飞行中有良好的情绪状态,并提高应对突发情况保持或恢复情绪的能力,该文通过对飞行训练情景下的语声数据采集建立了飞行训练语声数据库。使用语声情绪识别技术,通过调研选取放松、平静、焦虑和消极作为飞行训练中主要的... 为了使飞行员在飞行中有良好的情绪状态,并提高应对突发情况保持或恢复情绪的能力,该文通过对飞行训练情景下的语声数据采集建立了飞行训练语声数据库。使用语声情绪识别技术,通过调研选取放松、平静、焦虑和消极作为飞行训练中主要的情绪类型标签。为了有效捕捉情绪的波动情况,选择频谱质心、均方根能量、过零率和梅尔频率倒谱系数等特征进行模型训练。使用卷积神经网络和长短时记忆网络作为模型训练方法,就混合特征在多模型组合时的有效使用提出两种模型集成方案。 展开更多
关键词 语声情绪识别 飞行训练 深度学习 模型集成
在线阅读 下载PDF
基于改进ShuffleNet V2的无人机声学探测
6
作者 陈子阳 贾云飞 张佳庆 《电子设计工程》 2026年第2期61-65,共5页
无人机探测技术对低空防御具有重要意义。为解决复杂噪声环境下无人机声学探测准确率低、模型参数量大难以在移动端和嵌入式设备上部署等问题,提出一种基于改进ShuffleNet V2的无人机声学探测方法。该方法缩减ShuffleNet V2网络的基本... 无人机探测技术对低空防御具有重要意义。为解决复杂噪声环境下无人机声学探测准确率低、模型参数量大难以在移动端和嵌入式设备上部署等问题,提出一种基于改进ShuffleNet V2的无人机声学探测方法。该方法缩减ShuffleNet V2网络的基本单元数和输出通道数,降低模型的参数量和计算量;采用CT-FAM注意力模块提取通道、频率、时间维度的音频关键信息,增强模型表达能力。实验结果表明,改进后的ShuffleNet V2模型在自建无人机音频测试集上的准确率达95.69%,较改进前的ShuffleNet V2提高1.27%,而参数量和浮点运算量分别下降96.4%和97.8%,与AlexNet、VGG16、ResNet18、SqueezeNet、MobileNet V2模型相比,具有最小的参数量和计算量,且探测准确率分别提高了2.52%、1.38%、0.69%、2.61%、2.22%。 展开更多
关键词 无人机 声学特征 目标检测 ShuffleNet V2 轻量化
在线阅读 下载PDF
结合不均衡样本生成及BOA-DRSN的扬声器异常声分类 被引量:1
7
作者 周静雷 李振业 +1 位作者 路昌 李丽敏 《西安工程大学学报》 2025年第4期37-45,共9页
扬声器生产过程中,其正常数据与故障数据比例可能会严重失调,从而导致样本分布不均匀,进而影响故障诊断模型的准确率及可靠性。因此,文中根据样本生成扩增和优化深度学习网络的理念提出了一种新的扬声器异常声分类方法。首先,考虑到原... 扬声器生产过程中,其正常数据与故障数据比例可能会严重失调,从而导致样本分布不均匀,进而影响故障诊断模型的准确率及可靠性。因此,文中根据样本生成扩增和优化深度学习网络的理念提出了一种新的扬声器异常声分类方法。首先,考虑到原始数据特征过于复杂而导致生成样本的质量较差,对扬声器异常声响应信号进行变分模态分解(variational mode decomposition,VMD)突出原始样本的局部特征;其次,从扩增样本角度出发提升模型故障诊断精度,使用最小二乘生成对抗网络(least squares generative adversarial networks,LSGAN)进行对抗训练,生成具有真实样本特征的虚拟样本;最后,选用蝴蝶优化算法(butterfly optimization algorithm,BOA)在大规模权重空间中高效寻优以加速模型收敛,利用深度残差收缩网络(deep residual shrinkage network,DRSN)模型进行扬声器异常声分类,从而提升在样本不均衡情况下的分类准确率及诊断稳定性。实验结果表明:该方法能有效降低误判率,在样本不均衡情况下有效提高故障诊断准确率以及分类诊断的稳定性,其分类平均准确率可达0.9912。 展开更多
关键词 故障诊断 数据不均衡 异常声分类 深度残差收缩网络(DRSN) 蝴蝶优化算法(BOA) 最小二乘生成对抗网络(LSGAN)
在线阅读 下载PDF
信号分析与处理实验教学平台设计 被引量:1
8
作者 景妮洁 祝红梅 黄寅嵩 《实验室科学》 2025年第1期33-36,共4页
针对信号分析与处理课程的特点及在教学中存在的问题,利用MATLAB的可视化图形用户界面(GUI)工具,结合信号分析与处理课程中的理论知识点,设计出可视化的实验界面,将抽象的理论知识直观并生动地展现给学生。这种交互式学习环境,使学生能... 针对信号分析与处理课程的特点及在教学中存在的问题,利用MATLAB的可视化图形用户界面(GUI)工具,结合信号分析与处理课程中的理论知识点,设计出可视化的实验界面,将抽象的理论知识直观并生动地展现给学生。这种交互式学习环境,使学生能够通过实际操作来理解抽象的信号处理概念。此实验教学平台将实验内容模块化,设定个性化学习路径,达到理论与实践的无缝结合,既有助于提升教学效果,也有助于提高学生的学习兴趣和学习效率,可以作为信号分析与处理课程的辅助教学系统。 展开更多
关键词 信号分析与处理 实验平台 MATLAB
在线阅读 下载PDF
IEC/TC1082024年秋季工作组会议综述 被引量:2
9
作者 王莹 缠潇潇 《安全与电磁兼容》 2025年第1期92-95,共4页
介绍TC108 HBSDT工作组2024年秋季虚拟会议情况,包括解释组文件讨论、相关决议讨论、特别小组讨论及对IEC 62368-1:2023的新技术提案讨论等。
关键词 无线收听装置 蓝牙 受限制区域 受限制电源 剂量测量
在线阅读 下载PDF
基于DenseNet和迁移学习的声纹识别方法
10
作者 陈润强 王卫辰 +1 位作者 徐亚博 李烈 《现代电子技术》 北大核心 2026年第2期171-177,共7页
传统的声纹识别方法受环境噪声和个体变化等因素的影响,准确率难以进一步提升。为此,提出一种基于DenseNet和迁移学习的语谱图声纹识别方法,以进一步提高声纹识别系统的性能。使用DenseNet的声纹识别模型对源域语音进行训练;采用迁移学... 传统的声纹识别方法受环境噪声和个体变化等因素的影响,准确率难以进一步提升。为此,提出一种基于DenseNet和迁移学习的语谱图声纹识别方法,以进一步提高声纹识别系统的性能。使用DenseNet的声纹识别模型对源域语音进行训练;采用迁移学习将源域训练的DenseNet模型迁移到目标域训练数据;在目标域测试数据上验证迁移后模型的性能,并对比分析迁移前后DenseNet模型和ResNet模型的声纹识别性能。实验结果表明,与原始ResNet模型、DenseNet模型和经迁移学习的ResNet模型相比,经迁移学习的DenseNet模型的识别准确率分别提高了3.89%、6.67%和3.34%,且具有较快的收敛速度。 展开更多
关键词 声纹识别 DenseNet 迁移学习 语谱图 ResNet 语音信号处理
在线阅读 下载PDF
基于自注意力编码器和卷积神经网络的机动车鸣笛声识别
11
作者 郑福进 胡国祥 +1 位作者 孙媛 何伟 《应用声学》 北大核心 2026年第1期260-270,共11页
为解决城市道路中违法鸣笛事件的识别和定位问题,该文提出了一种融合双输入自注意力编码器和卷积神经网络的机动车鸣笛识别方法。该方法通过结合自注意力机制的全局位置捕捉能力与卷积神经网络的局部特征挖掘能力,构建出具有高度判别性... 为解决城市道路中违法鸣笛事件的识别和定位问题,该文提出了一种融合双输入自注意力编码器和卷积神经网络的机动车鸣笛识别方法。该方法通过结合自注意力机制的全局位置捕捉能力与卷积神经网络的局部特征挖掘能力,构建出具有高度判别性的声音特征。实验结果显示,所提方法在两个鸣笛数据集上的平均识别准确率分别达到90.2%和93.76%,在准确率方面明显优于现有鸣笛识别技术。此外,该文深入分析不同车辆尺寸类型的鸣笛喇叭声学特性,归纳了3种车辆尺寸类别,并在鸣笛声分类实验中取得了86.7%的平均准确率,验证了基于鸣笛声推断机动车尺寸的可行性。 展开更多
关键词 机动车鸣笛声识别 双输入自注意力编码器 卷积神经网络 特征融合 车辆尺寸
在线阅读 下载PDF
面向复杂背景环境下垃圾检测的YOLOv8n轻量化改进
12
作者 孙世政 何玲玲 +2 位作者 郑帅 徐向阳 陈仁祥 《电子测量与仪器学报》 北大核心 2025年第2期136-146,共11页
垃圾检测与分类对推动绿色经济和实现低碳循环具有重要意义,面向复杂背景环境的垃圾检测模型存在参数量大、计算成本高等问题,限制了模型在资源受限设备上的应用。为解决上述问题,提出一种轻量化的GCAW-YOLOv8n模型,旨在平衡模型轻量化... 垃圾检测与分类对推动绿色经济和实现低碳循环具有重要意义,面向复杂背景环境的垃圾检测模型存在参数量大、计算成本高等问题,限制了模型在资源受限设备上的应用。为解决上述问题,提出一种轻量化的GCAW-YOLOv8n模型,旨在平衡模型轻量化与精度检测。首先,在YOLOv8n骨干网络中引入GhostNet网络中的C3Ghost和GhostConv模块,有效降低模型参数量;其次,添加上下文锚点注意力机制,增强特征提取能力,提升检测精度;然后,在特征融合阶段,构建渐近特征金字塔网络,提升多尺度目标检测能力;接着,采用WIoU v3边界损失函数优化网络边界框回归性能;最后,结合Taco数据集和人工采集数据集进行了模型验证实验。实验结果表明,相比原YOLOv8n模型,改进后的GCAW-YOLOv8n模型在模型参数量Params和计算量FLOPs分别降低了14.3%和33.3%,而精确度和召回率分别提高了4.4%和1.9%,同时mAP@0.5达到了81.3%,提升了0.7%。改进模型更好地平衡了模型轻量化和检测精度,对模型部署与应用至边缘端检测装备具有重要的工程意义。 展开更多
关键词 垃圾检测 轻量化YOLOv8n GhostNet 上下文锚点注意力机制 渐近特征金字塔
原文传递
基于AI的噪声特征处理方法的研究 被引量:1
13
作者 崔建忠 《计算机应用文摘》 2025年第12期98-100,共3页
通过应用深度学习和机器学习算法,AI技术已广泛应用于音频信号处理领域,特别是在噪声识别与去除方面取得了显著成效。深度神经网络能够自动提取音频中的时频特征,精准区分噪声与语音成分,实现高效降噪处理。同时,传统机器学习方法(如SVM... 通过应用深度学习和机器学习算法,AI技术已广泛应用于音频信号处理领域,特别是在噪声识别与去除方面取得了显著成效。深度神经网络能够自动提取音频中的时频特征,精准区分噪声与语音成分,实现高效降噪处理。同时,传统机器学习方法(如SVM、K近邻算法)可在特定场景下结合特征工程进行辅助识别。通过训练模型识别不同类型的噪声并重建纯净音频,AI系统显著提升了语音清晰度和用户体验,被广泛应用于语音助手、在线会议、智能设备等领域。 展开更多
关键词 AI降噪 噪声特征处理 深度学习 音频质量
在线阅读 下载PDF
基于SE注意力机制与互信息量的解纠缠跨语种语音转换
14
作者 李燕萍 谭誌诚 +2 位作者 胡澄阳 杨露露 邵曦 《信号处理》 北大核心 2025年第1期183-192,共10页
在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立... 在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立的内容编码和说话人编码,导致得到的内容表征和说话人表征之间存在一定的信息泄露,从而使得转换语音的说话人个性相似度不够理想。为了解决上述存在的问题,本文提出一种基于SE注意力机制(Squeeze-and-Excitation Attention Mechanism, SE)与互信息量(Mutual Information, MI)的跨语种语音转换方法,实现有效的表征解纠缠,完成开集情形下高质量的跨语种语音转换。首先,在内容编码器中引入SE注意力机制以利用其对全局信息的提取能力,使得内容编码器可以提取包含全局上下文信息的内容表征;同时,在各个表征之间引入互信息量,并通过对其最小化来大幅减少各个表征之间存在的信息泄露问题,从而实现有效的表征解纠缠。在VCTK英文语料库和AISHELL-3中文语料库上的实验结果表明,本文提出的基于SE注意力机制与互信息量的跨语种语音转换模型(Squeeze-and-Excitation Attention Mechanism and Mutual Information, SEMI)具有更强的表征提取能力,相比于基准模型,其在客观评价中MCD值降低了10.89%,在主观评价中MOS值和ABX值分别提升了10.94%和12.06%,验证了SEMI模型在转换语音质量和说话人个性相似度方面都取得显著进展,实现了开集情形下高质量的跨语种语音转换。 展开更多
关键词 跨语种语音转换 SE注意力机制 互信息量 全局上下文信息
在线阅读 下载PDF
基于门控扩张循环卷积神经网络的语音增强
15
作者 郭业才 周雪 《计算机工程与设计》 北大核心 2025年第6期1818-1824,共7页
为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCN... 为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCNN由编码器、循环卷积层和解码器3部分组成,编码器中借助扩张卷积和门控机制实现对上下文语音信息的捕获,进行并行处理;循环卷积层采用GRU且引入多头注意力机制,捕捉网络中的长期依赖关系;解码器采用逐层解码且通过跳跃连接进行编码器信息的复用,实现对语音细节的还原。实验数据表明,GDRCNN网络在参数量和模型大小方面明显优于DNN、CRN等网络,PESQ平均提高了0.612、0.158,STOI平均提高了0.072、0.020,在语音增强和泛化方面表现出色。 展开更多
关键词 语音增强 深度学习 精确比值掩蔽 扩张卷积 门控机制 循环卷积 并行处理
在线阅读 下载PDF
一种基于特征融合的声音事件检测方法
16
作者 赵明 陈睿 《数据采集与处理》 北大核心 2025年第6期1556-1567,共12页
现有的基于深度学习的声音事件检测方法多使用传统的二维卷积,然而其平移不变性的特点并不适用于声音信号,这使得模型难以检测复杂的声音事件。针对上述问题,本文提出一种基于特征融合的混合卷积神经网络模型,通过计算频谱图的分布来自... 现有的基于深度学习的声音事件检测方法多使用传统的二维卷积,然而其平移不变性的特点并不适用于声音信号,这使得模型难以检测复杂的声音事件。针对上述问题,本文提出一种基于特征融合的混合卷积神经网络模型,通过计算频谱图的分布来自适应地生成卷积核,动态地提取与声音信号保持物理一致性的局部特征;同时并行地使用自注意力算法提取全局特征,捕获频谱图的长距离特征关联;为消除局部特征与全局特征的语义差异,将两种不同的特征表示有效结合,提出一种特征融合模块。为进一步提升模型对声音事件的检测性能,提出一种基于多尺度注意力机制的双向门控单元,对融合后的特征信息进行充分整合,突出事件帧并抑制背景帧。在DCASE2020数据集上的实验结果表明,本文方法的F1分数达到52.57%,优于现有的其他方法。 展开更多
关键词 声音信号 声音事件检测 深度学习 卷积神经网络 特征融合
在线阅读 下载PDF
融合多模态信息的知识感知推荐方法
17
作者 王海荣 王怡梦 +1 位作者 周北京 易之航 《郑州大学学报(工学版)》 北大核心 2025年第6期15-22,共8页
图片、文本等多模态信息具有语义互补性,能够有效增强知识图谱中的实体表示,从而提高推荐的准确率和可解释性。通过分析推荐系统中具有语义相关性的多模态数据特点,提出了一种融合多模态信息的知识感知推荐方法。在知识图谱传播的基础上... 图片、文本等多模态信息具有语义互补性,能够有效增强知识图谱中的实体表示,从而提高推荐的准确率和可解释性。通过分析推荐系统中具有语义相关性的多模态数据特点,提出了一种融合多模态信息的知识感知推荐方法。在知识图谱传播的基础上,整合与图谱中实体语义相关的多模态信息,并将其与对应的实体进行特征融合,用来丰富实体表示,以便探索用户潜在的兴趣偏好。该方法充分考虑了多模态信息间的依赖性和交互性,采用模态间注意力关注各模态的重要信息,获取具有语义关联的多模态嵌入特征;通过门控注意力将实体对应的多模态嵌入特征与实体表示融合,进一步丰富实体的多模态语义信息,从而增强用户和项目的表示。为了验证方法的有效性,在MovieLens-1M和Book-Crossing数据集上进行实验,并与RippletNet、KGAT、CKAN、LKGR、COAT、CKE、KGCN、SKGCR和KGCL这9种方法进行对比分析,实验结果表明:所提方法在AUC和ACC上均优于对比方法;在MovieLens-1M和Book-Crossing数据集上,所提方法的AUC分别为0.9366和0.7637,与其他模型的平均值相比,增幅为0.0272和0.0291;所提方法的ACC分别为0.8623和0.7089,与其他模型的平均值相比,增幅为0.0283和0.0305。 展开更多
关键词 知识图谱 推荐系统 多模态信息 特征融合 嵌入传播
在线阅读 下载PDF
An Improved Forest Fire Detection Model Using Audio Classification and Machine Learning
18
作者 Kemahyanto Exaudi Deris Stiawan +4 位作者 Bhakti Yudho Suprapto Hanif Fakhrurroja MohdYazid Idris Tami AAlghamdi Rahmat Budiarto 《Computers, Materials & Continua》 2026年第1期2062-2085,共24页
Sudden wildfires cause significant global ecological damage.While satellite imagery has advanced early fire detection and mitigation,image-based systems face limitations including high false alarm rates,visual obstruc... Sudden wildfires cause significant global ecological damage.While satellite imagery has advanced early fire detection and mitigation,image-based systems face limitations including high false alarm rates,visual obstructions,and substantial computational demands,especially in complex forest terrains.To address these challenges,this study proposes a novel forest fire detection model utilizing audio classification and machine learning.We developed an audio-based pipeline using real-world environmental sound recordings.Sounds were converted into Mel-spectrograms and classified via a Convolutional Neural Network(CNN),enabling the capture of distinctive fire acoustic signatures(e.g.,crackling,roaring)that are minimally impacted by visual or weather conditions.Internet of Things(IoT)sound sensors were crucial for generating complex environmental parameters to optimize feature extraction.The CNN model achieved high performance in stratified 5-fold cross-validation(92.4%±1.6 accuracy,91.2%±1.8 F1-score)and on test data(94.93%accuracy,93.04%F1-score),with 98.44%precision and 88.32%recall,demonstrating reliability across environmental conditions.These results indicate that the audio-based approach not only improves detection reliability but also markedly reduces computational overhead compared to traditional image-based methods.The findings suggest that acoustic sensing integrated with machine learning offers a powerful,low-cost,and efficient solution for real-time forest fire monitoring in complex,dynamic environments. 展开更多
关键词 Audio classification convolutional neural network(CNN) environmental science forest fire detection machine learning spectrogram analysis IOT
在线阅读 下载PDF
基于频率贡献度的语音特征神经网络优化研究
19
作者 陈可嘉 林玮 《电子器件》 2025年第4期821-826,共6页
在语音识别中,语音特征的提取方法对准确率的影响是最大的,对语音特征进行优化可以极大提升语音的识别准确率。提出一种基于语音特征提取的传统方法和卷积神经网络(Convolutional Neural Networks,CNN)原理,根据频率贡献度对语音特征参... 在语音识别中,语音特征的提取方法对准确率的影响是最大的,对语音特征进行优化可以极大提升语音的识别准确率。提出一种基于语音特征提取的传统方法和卷积神经网络(Convolutional Neural Networks,CNN)原理,根据频率贡献度对语音特征参数进行优化的方法;使得在保证识别效果的前提下,保留更多语音原始信息,并控制训练的数据量和时间。实验结果表明,与传统的特征提取方法梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)相比,所提出的优化方案提高了识别性能;而与以原始语音波形等作为输入的模型训练方法相比,所提方法减少了训练所需的时间和数据计算量,适用于更多实际应用场景,降低了部署和应用成本。 展开更多
关键词 神经网络 特征提取 特征优化 频率贡献度
在线阅读 下载PDF
A Synthetic Speech Detection Model Combining Local-Global Dependency
20
作者 Jiahui Song Yuepeng Zhang Wenhao Yuan 《Computers, Materials & Continua》 2026年第1期1312-1326,共15页
Synthetic speech detection is an essential task in the field of voice security,aimed at identifying deceptive voice attacks generated by text-to-speech(TTS)systems or voice conversion(VC)systems.In this paper,we propo... Synthetic speech detection is an essential task in the field of voice security,aimed at identifying deceptive voice attacks generated by text-to-speech(TTS)systems or voice conversion(VC)systems.In this paper,we propose a synthetic speech detection model called TFTransformer,which integrates both local and global features to enhance detection capabilities by effectively modeling local and global dependencies.Structurally,the model is divided into two main components:a front-end and a back-end.The front-end of the model uses a combination of SincLayer and two-dimensional(2D)convolution to extract high-level feature maps(HFM)containing local dependency of the input speech signals.The back-end uses time-frequency Transformer module to process these feature maps and further capture global dependency.Furthermore,we propose TFTransformer-SE,which incorporates a channel attention mechanism within the 2D convolutional blocks.This enhancement aims to more effectively capture local dependencies,thereby improving the model’s performance.The experiments were conducted on the ASVspoof 2021 LA dataset,and the results showed that the model achieved an equal error rate(EER)of 3.37%without data augmentation.Additionally,we evaluated the model using the ASVspoof 2019 LA dataset,achieving an EER of 0.84%,also without data augmentation.This demonstrates that combining local and global dependencies in the time-frequency domain can significantly improve detection accuracy. 展开更多
关键词 Synthetic speech detection transformer local-global time-frequency domain
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部