期刊文献+
共找到16,435篇文章
< 1 2 250 >
每页显示 20 50 100
联合听觉场景分析与深度学习的舰船辐射噪声分离方法
1
作者 吴轩 王海涛 +2 位作者 何群铱 曾向阳 陈克安 《声学学报》 北大核心 2026年第1期170-182,共13页
针对混叠舰船辐射噪声的分离问题,发展了一种联合听觉场景分析与深度学习的舰船辐射噪声分离方法。该方法以计算听觉场景分析的总体流程为基础框架,将分离过程分为听觉分割和听觉重组两个阶段。在听觉分割阶段,将混叠信号进行时频分解处... 针对混叠舰船辐射噪声的分离问题,发展了一种联合听觉场景分析与深度学习的舰船辐射噪声分离方法。该方法以计算听觉场景分析的总体流程为基础框架,将分离过程分为听觉分割和听觉重组两个阶段。在听觉分割阶段,将混叠信号进行时频分解处理,构建时频片段,利用密集连接U型网络(Dense-UNet)提取数据特征并构建分离掩码,其中Dense-UNet网络结合了传统U型网络(UNet)的编码器–解码器结构和密集连接网络(DenseNet)的密集连接操作,能够在编码器部分高效提取多尺度特征,同时在解码器部分通过跳跃连接和密集连接有效恢复细粒度的信号结构;在听觉重组阶段,基于邻近帧相关性分析对初始分离信号进行帧级再调整配对,最终实现对分离信号的重组。基于实际舰船辐射噪声数据的实验表明,所设计方法相较于其他常用深度学习分离方法在网络规模降低的条件下取得更优分离效果,且具有更好的稳定性。 展开更多
关键词 舰船辐射噪声分离 计算听觉场景 深度学习 帧相关性
原文传递
A Synthetic Speech Detection Model Combining Local-Global Dependency
2
作者 Jiahui Song Yuepeng Zhang Wenhao Yuan 《Computers, Materials & Continua》 2026年第1期1312-1326,共15页
Synthetic speech detection is an essential task in the field of voice security,aimed at identifying deceptive voice attacks generated by text-to-speech(TTS)systems or voice conversion(VC)systems.In this paper,we propo... Synthetic speech detection is an essential task in the field of voice security,aimed at identifying deceptive voice attacks generated by text-to-speech(TTS)systems or voice conversion(VC)systems.In this paper,we propose a synthetic speech detection model called TFTransformer,which integrates both local and global features to enhance detection capabilities by effectively modeling local and global dependencies.Structurally,the model is divided into two main components:a front-end and a back-end.The front-end of the model uses a combination of SincLayer and two-dimensional(2D)convolution to extract high-level feature maps(HFM)containing local dependency of the input speech signals.The back-end uses time-frequency Transformer module to process these feature maps and further capture global dependency.Furthermore,we propose TFTransformer-SE,which incorporates a channel attention mechanism within the 2D convolutional blocks.This enhancement aims to more effectively capture local dependencies,thereby improving the model’s performance.The experiments were conducted on the ASVspoof 2021 LA dataset,and the results showed that the model achieved an equal error rate(EER)of 3.37%without data augmentation.Additionally,we evaluated the model using the ASVspoof 2019 LA dataset,achieving an EER of 0.84%,also without data augmentation.This demonstrates that combining local and global dependencies in the time-frequency domain can significantly improve detection accuracy. 展开更多
关键词 Synthetic speech detection transformer local-global time-frequency domain
在线阅读 下载PDF
基于Bi‑LSTM和时序注意力的异常心音检测 被引量:1
3
作者 卢官明 蔡亚宁 +3 位作者 卢峻禾 戚继荣 王洋 赵宇航 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期12-20,共9页
异常心音检测是对心脏病进行初步诊断的一种有效而方便的方法。为提升异常心音的检测性能,提出了一种基于双向长短时记忆网络(Bi⁃directional Long Short⁃Term Memory,Bi⁃LSTM)和时序注意力的异常心音检测算法。首先对心音片段进行分帧... 异常心音检测是对心脏病进行初步诊断的一种有效而方便的方法。为提升异常心音的检测性能,提出了一种基于双向长短时记忆网络(Bi⁃directional Long Short⁃Term Memory,Bi⁃LSTM)和时序注意力的异常心音检测算法。首先对心音片段进行分帧处理,使用平均幅度差函数(Average Magnitude Difference Function,AMDF)和短时过零率(Short⁃Time Zero⁃Crossing Rate,STZCR)提取每帧心音信号的初始特征;然后将它们拼接后作为Bi⁃LSTM的输入,并引入时序注意力机制,挖掘特征的长期依赖关系,提取心音信号的上下文时域特征;最后通过Softmax分类器,实现正常/异常心音的分类。在PhysioNet/CinC Challenge 2016提供的心音公共数据集上对所提出的算法使用10折交叉验证法进行了评估,其准确度、灵敏度、特异性、精度和F1评分分别为0.9579、0.9364、0.9642、0.8838和0.9093,优于已有的其他算法。实验结果表明,该算法在无需进行心音分段的基础上就能有效实现异常心音检测,在心血管疾病的临床辅助诊断中具有潜在的应用前景。 展开更多
关键词 心音分类 平均幅度差函数 短时过零率 双向长短时记忆网络 时序注意力机制
在线阅读 下载PDF
基于改进ShuffleNet V2的无人机声学探测
4
作者 陈子阳 贾云飞 张佳庆 《电子设计工程》 2026年第2期61-65,共5页
无人机探测技术对低空防御具有重要意义。为解决复杂噪声环境下无人机声学探测准确率低、模型参数量大难以在移动端和嵌入式设备上部署等问题,提出一种基于改进ShuffleNet V2的无人机声学探测方法。该方法缩减ShuffleNet V2网络的基本... 无人机探测技术对低空防御具有重要意义。为解决复杂噪声环境下无人机声学探测准确率低、模型参数量大难以在移动端和嵌入式设备上部署等问题,提出一种基于改进ShuffleNet V2的无人机声学探测方法。该方法缩减ShuffleNet V2网络的基本单元数和输出通道数,降低模型的参数量和计算量;采用CT-FAM注意力模块提取通道、频率、时间维度的音频关键信息,增强模型表达能力。实验结果表明,改进后的ShuffleNet V2模型在自建无人机音频测试集上的准确率达95.69%,较改进前的ShuffleNet V2提高1.27%,而参数量和浮点运算量分别下降96.4%和97.8%,与AlexNet、VGG16、ResNet18、SqueezeNet、MobileNet V2模型相比,具有最小的参数量和计算量,且探测准确率分别提高了2.52%、1.38%、0.69%、2.61%、2.22%。 展开更多
关键词 无人机 声学特征 目标检测 ShuffleNet V2 轻量化
在线阅读 下载PDF
基于多级信息嵌入的中文语声转换模型
5
作者 张国富 张朋 +1 位作者 苏兆品 岳峰 《应用声学》 北大核心 2025年第5期1263-1278,共16页
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,... 现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。 展开更多
关键词 中文语声转换 多级信息嵌入 音色 韵律 生成器HiFi-GAN++
在线阅读 下载PDF
基于双通道多特征融合网络语音情感识别 被引量:2
6
作者 裴晓敏 刘诗琦 《微电子学与计算机》 2025年第1期9-16,共8页
单一语音特征无法充分表达语音情感,而多个声学特征简单拼接的融合方法容易造成情感信息丢失,且采用单个通道特征提取网络无法全面提取语音中的情感特征。针对上述问题,本文提出基于双通道特征融合网络语音情感识别,以梅尔频率倒谱系数... 单一语音特征无法充分表达语音情感,而多个声学特征简单拼接的融合方法容易造成情感信息丢失,且采用单个通道特征提取网络无法全面提取语音中的情感特征。针对上述问题,本文提出基于双通道特征融合网络语音情感识别,以梅尔频率倒谱系数、均方根、过零率和色度短时傅里叶变换这4种对情感种类贡献度较大的语音特征作为输入,采用双通道网络结构分别提取短时局部特征和全局上下文特征;将基于一维空洞卷积的局部特征提取网络和引入自注意力机制的双向长短时记忆全局特征提取网络并行,避免信息相互干扰;利用投票策略的集成学习方法实现各通道深层特征的充分融合,以获得语音中更深层的情感信息和更加精准的分类准确率。实验结果表明:基于双通道多特征融合网络模型在TESS、RAVDESS、SAVEE、CREMA-D数据集和混合数据集实现了99.89%、95.89%、96.61%、97.75%和95.13%的情感识别准确率,与同类型的多个语音情感识别模型相比性能优异,识别准确率高于其他模型。 展开更多
关键词 双通道 多特征融合 1D CNN LSTM 自注意力机制
在线阅读 下载PDF
音频删除篡改的多阶段检测与多模态定位
7
作者 张国富 王茹 +3 位作者 苏兆品 岳峰 廉晨思 杨波 《计算机工程与科学》 北大核心 2025年第11期1964-1973,共10页
音频删除篡改检测在数字音频鉴真领域面临严峻挑战,尤其是在反取证攻击下。针对删除篡改难以检测且定位困难的问题,提出了一种音频删除篡改的多阶段检测与多模态定位方法。首先,设计一种头文件信息分析方法,用以筛选出疑似存在头尾删除... 音频删除篡改检测在数字音频鉴真领域面临严峻挑战,尤其是在反取证攻击下。针对删除篡改难以检测且定位困难的问题,提出了一种音频删除篡改的多阶段检测与多模态定位方法。首先,设计一种头文件信息分析方法,用以筛选出疑似存在头尾删除篡改的音频文件;其次,提出一种基于列平均的常数Q频谱草图特征,并设计一种基于深度残差收缩网络和注意力机制的中间删除篡改分类网络;再次,结合头文件信息分析与分类网络的检测结果,综合判断音频是否存在删除篡改;最后,对于检测到的中间删除篡改,提出一种基于小波包分析与多模态特征结合的定位方法。对比实验结果表明,所提方法可以实现头尾删除篡改的检测和中间删除篡改的精确定位,其中中间删除分类的准确率、精确率、召回率和F1分数均超过98%,并在面对常规信号处理攻击时展现出更强的鲁棒性与定位精度。 展开更多
关键词 音频盲取证 删除篡改 检测与定位 深度残差收缩网络 小波包重构
在线阅读 下载PDF
基于DenseNet和迁移学习的声纹识别方法
8
作者 陈润强 王卫辰 +1 位作者 徐亚博 李烈 《现代电子技术》 北大核心 2026年第2期171-177,共7页
传统的声纹识别方法受环境噪声和个体变化等因素的影响,准确率难以进一步提升。为此,提出一种基于DenseNet和迁移学习的语谱图声纹识别方法,以进一步提高声纹识别系统的性能。使用DenseNet的声纹识别模型对源域语音进行训练;采用迁移学... 传统的声纹识别方法受环境噪声和个体变化等因素的影响,准确率难以进一步提升。为此,提出一种基于DenseNet和迁移学习的语谱图声纹识别方法,以进一步提高声纹识别系统的性能。使用DenseNet的声纹识别模型对源域语音进行训练;采用迁移学习将源域训练的DenseNet模型迁移到目标域训练数据;在目标域测试数据上验证迁移后模型的性能,并对比分析迁移前后DenseNet模型和ResNet模型的声纹识别性能。实验结果表明,与原始ResNet模型、DenseNet模型和经迁移学习的ResNet模型相比,经迁移学习的DenseNet模型的识别准确率分别提高了3.89%、6.67%和3.34%,且具有较快的收敛速度。 展开更多
关键词 声纹识别 DenseNet 迁移学习 语谱图 ResNet 语音信号处理
在线阅读 下载PDF
基于CEEMDAN与自适应双阈值小波分析的心音去噪
9
作者 卢官明 唐瑭 +2 位作者 戚继荣 王洋 赵宇航 《南京邮电大学学报(自然科学版)》 北大核心 2025年第4期36-47,共12页
针对现有基于经验模态分解的心音去噪算法在进行模态分解后存在心脏杂音与噪声模态混叠的问题,提出了一种基于自适应噪声完全集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)与自适应... 针对现有基于经验模态分解的心音去噪算法在进行模态分解后存在心脏杂音与噪声模态混叠的问题,提出了一种基于自适应噪声完全集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)与自适应双阈值小波分析的心音去噪算法。首先,通过CEEMDAN方法,将含噪心音信号分解为不同时间尺度上的固有模态函数(Intrinsic Mode Function,IMF)分量;然后,采用去趋势波动分析(Detrended Fluctuation Analysis,DFA)方法将不同的IMF分量判定为含噪的心脏杂音IMF分量或心音IMF分量;接着,利用小波分析技术,滤除含噪心脏杂音IMF分量中的噪声,保留含有病理特征的心脏杂音;最后,将保留下来的心脏杂音与心音IMF分量进行重构,得到去噪后的心音信号。在Khan数据集上的实验结果表明,在不同噪声强度下,所提出的心音去噪算法均能明显提高心音信号的信噪比,降低均方根误差,优于其他现有方法。对临床采集的新生儿心音信号进行去噪的实验结果表明,所提算法具有良好的抑制噪声能力,并保留了含有病理特征的心脏杂音。 展开更多
关键词 心音去噪 自适应噪声完全集合经验模态分解 去趋势波动分析 小波分析 心脏杂音
在线阅读 下载PDF
网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法
10
作者 申小虎 李冠宇 +1 位作者 史洪飞 王传之 《应用声学》 北大核心 2025年第2期350-361,共12页
在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络... 在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络需求。一方面,通过逆背包准则建立了剪枝通道与资源间的信息表述,在保留网络框架条件下完成通道剪枝。另一方面,在知识蒸馏方法中通过加入MBConv模块内部蒸馏损失分量并完成训练,确保跨组信息交换保留了剪枝前后特征映射之间的距离。通过对南京浦口区老山森林中收集的10类鸟声检测分类实验,在压缩后网络参数量仅3.0M的条件下,分类精度可达到91.64%。该文所提方法在完成网络规模压缩的同时,较好地保留了分类精度,与相同规模主流轻量级网络相比较,能更好地适应鸟声识别被动声学监测的设备需求。 展开更多
关键词 网络剪枝 知识蒸馏 鸟声识别 轻量级网络 被动声学监测
在线阅读 下载PDF
基于自适应多分支卷积的声学场景分类
11
作者 韦娟 何德华 宁方立 《系统工程与电子技术》 北大核心 2025年第10期3148-3154,共7页
针对声学场景分类任务中模型特征表达能力不充足的问题,提出一种基于自适应多分支卷积优化的网络架构。首先,使用多支路分别提取特征,再引入动态权重自适应改变权值平衡每个支路,提升特征感知能力。其次,考虑现有模型分类时忽略类与类... 针对声学场景分类任务中模型特征表达能力不充足的问题,提出一种基于自适应多分支卷积优化的网络架构。首先,使用多支路分别提取特征,再引入动态权重自适应改变权值平衡每个支路,提升特征感知能力。其次,考虑现有模型分类时忽略类与类之间的关系问题,引入粗粒度分类器辅助训练原分类模型,通过结果融合增强分类过程。在TUT2020移动开发数据集上进行训练与测试。实验结果表明,相较于优化前的算法,所提模型在准确率上提升了6.5%,证明所提方法可以有效提升整体分类效果。 展开更多
关键词 声学场景分类 卷积神经网络 自适应特征融合 层次结构
在线阅读 下载PDF
基于跨模态注意力与门控融合的声场景分类
12
作者 韦娟 周惠文 宁方立 《系统工程与电子技术》 北大核心 2025年第11期3543-3550,共8页
针对声场景分类任务中模态间关联获取不充分、特征融合效率低等问题,提出一种基于跨模态注意力与门控融合的声场景分类模型。该模型通过跨模态注意力模块实现声学与视觉模态的双向交互,动态捕捉模态间关联;同时设计门控融合模块动态调... 针对声场景分类任务中模态间关联获取不充分、特征融合效率低等问题,提出一种基于跨模态注意力与门控融合的声场景分类模型。该模型通过跨模态注意力模块实现声学与视觉模态的双向交互,动态捕捉模态间关联;同时设计门控融合模块动态调整声学与视觉模态权重,实现特征的自适应融合,并引入残差增强与双路池化策略提升特征的鲁棒性;从准确率、帧率和模型参数量3个维度对所提模型与同任务下的其他方法进行评估。仿真结果表明,所提模型在保持较高准确率的同时,整体分类效果优于其他方法,证明了其有效性与实用性。 展开更多
关键词 声场景分类 跨模态注意力 动态门控 自适应融合
在线阅读 下载PDF
基于非同步测量的高分辨率声源定位
13
作者 韦娟 冯鹏 宁方立 《通信学报》 北大核心 2025年第2期123-135,共13页
针对非同步测量声源定位方法在低信噪比条件下存在主瓣较宽、易受旁瓣干扰等问题,提出一种子空间逼近算法与截断函数波束成形联合的非同步测量声源定位算法。该算法首先对缺省互谱矩阵进行奇异值分解,通过截断阈值保留主要奇异向量构建... 针对非同步测量声源定位方法在低信噪比条件下存在主瓣较宽、易受旁瓣干扰等问题,提出一种子空间逼近算法与截断函数波束成形联合的非同步测量声源定位算法。该算法首先对缺省互谱矩阵进行奇异值分解,通过截断阈值保留主要奇异向量构建低维子空间,继而将缺省互谱矩阵投影到子空间,寻找最优解来补全矩阵。补全后的互谱矩阵通过截断函数波束成形算法实现声源定位。仿真和实验结果表明,与基于核范数最小化及其衍生模型的算法相比,所提算法在低信噪比条件下能够有效减小主瓣宽度、抑制旁瓣数量,矩阵补全误差平均降低了17.6%、声源重构误差平均降低了27%,证明该算法具有良好的鲁棒性和抗噪性。 展开更多
关键词 非同步测量 声源定位 矩阵补全 子空间逼近
在线阅读 下载PDF
基于子张量重构的宽带信号DOA估计
14
作者 韦娟 陈茂楠 宁方立 《通信学报》 北大核心 2025年第8期31-40,共10页
针对现有宽带信号波达方向估计算法在低信噪比和低快拍条件下估计精度下降的问题,提出一种基于子张量重构的宽带信号DOA估计算法。该算法首先将原始张量沿横轴和纵轴分割成多个子张量,经重拼接形成多维张量,再通过张量维度合并重构为优... 针对现有宽带信号波达方向估计算法在低信噪比和低快拍条件下估计精度下降的问题,提出一种基于子张量重构的宽带信号DOA估计算法。该算法首先将原始张量沿横轴和纵轴分割成多个子张量,经重拼接形成多维张量,再通过张量维度合并重构为优化后的三维张量。然后采用基于张量核范数的低秩张量补全算法对重构张量进行高效补全,并利用张量分解算法得到信号子空间,实现DOA估计。仿真和实验结果表明,所提算法在低信噪比条件下,DOA估计的均方根误差明显优于已有算法,在快拍数低至20时仍有稳定的估计性能,这表明所提算法具有良好的抗噪性和快拍鲁棒性。 展开更多
关键词 波达方向估计 宽带信号 张量重构 张量补全
在线阅读 下载PDF
基于复倒谱的盲解卷积语音去混响技术的研究 被引量:1
15
作者 闫姝 侯志伟 《电脑编程技巧与维护》 2025年第4期154-156,共3页
对于语音信号的增强,语音信号去混响技术起着至关重要的作用。将最小相位分解法和复倒谱盲解卷积语音去混响技术结合在一起,首先,将混响语音信号分帧并加窗预处理。然后,进行房间冲激响应及其逆系统冲激响应的估计,同时基于盲解卷积技... 对于语音信号的增强,语音信号去混响技术起着至关重要的作用。将最小相位分解法和复倒谱盲解卷积语音去混响技术结合在一起,首先,将混响语音信号分帧并加窗预处理。然后,进行房间冲激响应及其逆系统冲激响应的估计,同时基于盲解卷积技术设计对应的逆滤波器,重构原始语音信号,从而实现去混响的目的。仿真研究表明该方法较好地恢复了原始语音信号,效果优于最小相位分解法,具有一定的理论指导意义。 展开更多
关键词 复倒谱 盲解卷积 语音去混响 语音增强
在线阅读 下载PDF
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
16
作者 王春丽 刘素倩 陈善立 《信号处理》 北大核心 2025年第4期718-729,共12页
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合... 针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合现实中复杂的背景环境需求。为使模型可以在现实应用复杂条件下灵活应对混合语音信号中的多变性与非平稳性,采用多尺度可变形注意力机制与Transformer编码器构成(Transformer Encoder Multi-Scale deformable attention,TEMDA)模块,利用多尺度可变形注意力机制的偏移层在不同位置上进行动态计算,扩展模型的感受野,同时使模型更有效地聚焦于重要的时间点,减少噪声和混响的影响。为了更好地获取上下文信息,在多路径融合策略中,通过在双路径模块的基础上增加通道间的Conformer组成三路径模块,用于提取多说话人之间的特征信息,这样的处理方式可以更好地融合单一说话人和多说话人之间的信息,提升语音分离性能。实验表明,所提出的模型分别在纯净和带噪声的Libri2Mix、Libri3Mix数据集上达到了显著的分离效果,并且在LRS2-2Mix数据集中模型可以更好地减少噪声和混响对语音分离的影响,尺度不变信噪比改善(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)和信号失真比改善(Signal-to-Distortion Ratio Improvement,SDRi)分别为14.7 dB和15.1 dB;在三个说话人数目中的估计精度为98.89%,提升了0.12%。 展开更多
关键词 未知说话人语音分离 多尺度可变形注意力编码策略 多路径融合 吸引子估计
在线阅读 下载PDF
基于STM32的辨音识键奏乐系统设计
17
作者 张凯 梁明亮 +1 位作者 杨鲜鲜 王云飞 《电子制作》 2025年第18期20-26,共7页
本系统采用STM32F407ZGT6微控制器,该芯片内置硬件浮点运算单元(FPU)和DSP指令集,界面切换操作通过4×4矩阵键盘进行,显示功能由LCD12864液晶屏显示实现。在音频采集与处理模块中,系统通过麦克风采集声音信号,并将其转换为电压信号... 本系统采用STM32F407ZGT6微控制器,该芯片内置硬件浮点运算单元(FPU)和DSP指令集,界面切换操作通过4×4矩阵键盘进行,显示功能由LCD12864液晶屏显示实现。在音频采集与处理模块中,系统通过麦克风采集声音信号,并将其转换为电压信号,送入微控制器的ADC模块进行采样。主控通过FFT(快速傅里叶变换)算法对采集到的数据进行频谱分析,完成对不同杯子敲击声的特征学习与识别。由JQ8900语音模块实现播放乐曲和对应音调,完成奏乐功能。本系统能够运行在人多嘈杂的环境,经测试完成各项功能,性能良好。 展开更多
关键词 FFT算法 音频检测 3D打印
在线阅读 下载PDF
域对抗神经网络自适应的跨域说话人日志方法
18
作者 牛铜 焦啸林 屈丹 《信息工程大学学报》 2025年第4期379-385,共7页
针对端到端说话人日志系统因真实标注数据不足导致泛化性能差的问题,提出一种基于域对抗神经网络自适应的跨域说话人日志方法。首先,通过在说话人日志中增加包含时间池化层的数据域判别模型;其次,利用梯度反转层实现说话人日志分类任务... 针对端到端说话人日志系统因真实标注数据不足导致泛化性能差的问题,提出一种基于域对抗神经网络自适应的跨域说话人日志方法。首先,通过在说话人日志中增加包含时间池化层的数据域判别模型;其次,利用梯度反转层实现说话人日志分类任务与数据域判别任务的对抗训练;最后,完成在数据域上的自适应。实验对比不同模型在真实场景下的性能,所提模型整体性能优于其他模型。相较于基线模型,数据域不匹配时,两个说话人场景相对提升4.91%,3个说话人场景相对提升5.41%;数据域匹配时,分别相对提升3.81%和5.14%。实验结果表明,所提方法通过降低特征对域信息的敏感性有效提升系统跨域泛化能力。 展开更多
关键词 说话人日志 域对抗神经网络 梯度翻转层 对抗训练 注意力统计池化
在线阅读 下载PDF
基于第一主向量与子空间加权的改进多重信号分类声源定位技术研究
19
作者 赵文 卜雄洙 《仪表技术》 2025年第6期61-65,共5页
针对传统多重信号分类(multiple signal classification,MUSIC)算法在低信噪比环境和小型化麦克风阵列影响下的性能下降问题,提出了一种结合第一主向量法和子空间加权法的改进MUSIC算法。首先利用第一主向量法对传统MUSIC算法进行优化,... 针对传统多重信号分类(multiple signal classification,MUSIC)算法在低信噪比环境和小型化麦克风阵列影响下的性能下降问题,提出了一种结合第一主向量法和子空间加权法的改进MUSIC算法。首先利用第一主向量法对传统MUSIC算法进行优化,得到改进的空间谱函数,以降低噪声对定位精度的影响:其次利用基于双指数模型的最小二乘法修正特征值,并对信号子空间和噪声子空间进行加权处理。仿真结果表明,改进后的MUSIC算法能够有效提升小型化麦克风阵列在低信噪比条件下对相近声源波达方向的估计精度,为声源定位系统的小型化应用提供了新的解决方案。 展开更多
关键词 阵列信号处理 方位估计 多重信号分类算法 第一主向量 子空间加权
原文传递
An Improved Forest Fire Detection Model Using Audio Classification and Machine Learning
20
作者 Kemahyanto Exaudi Deris Stiawan +4 位作者 Bhakti Yudho Suprapto Hanif Fakhrurroja MohdYazid Idris Tami AAlghamdi Rahmat Budiarto 《Computers, Materials & Continua》 2026年第1期2062-2085,共24页
Sudden wildfires cause significant global ecological damage.While satellite imagery has advanced early fire detection and mitigation,image-based systems face limitations including high false alarm rates,visual obstruc... Sudden wildfires cause significant global ecological damage.While satellite imagery has advanced early fire detection and mitigation,image-based systems face limitations including high false alarm rates,visual obstructions,and substantial computational demands,especially in complex forest terrains.To address these challenges,this study proposes a novel forest fire detection model utilizing audio classification and machine learning.We developed an audio-based pipeline using real-world environmental sound recordings.Sounds were converted into Mel-spectrograms and classified via a Convolutional Neural Network(CNN),enabling the capture of distinctive fire acoustic signatures(e.g.,crackling,roaring)that are minimally impacted by visual or weather conditions.Internet of Things(IoT)sound sensors were crucial for generating complex environmental parameters to optimize feature extraction.The CNN model achieved high performance in stratified 5-fold cross-validation(92.4%±1.6 accuracy,91.2%±1.8 F1-score)and on test data(94.93%accuracy,93.04%F1-score),with 98.44%precision and 88.32%recall,demonstrating reliability across environmental conditions.These results indicate that the audio-based approach not only improves detection reliability but also markedly reduces computational overhead compared to traditional image-based methods.The findings suggest that acoustic sensing integrated with machine learning offers a powerful,low-cost,and efficient solution for real-time forest fire monitoring in complex,dynamic environments. 展开更多
关键词 Audio classification convolutional neural network(CNN) environmental science forest fire detection machine learning spectrogram analysis IOT
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部