期刊文献+
共找到4,370篇文章
< 1 2 219 >
每页显示 20 50 100
基于双分支残差网络的病理语音识别
1
作者 程愉凯 段淑斐 +3 位作者 贾海蓉 李付江 LIANG Huizhi 张卫 《科学技术与工程》 北大核心 2026年第2期663-672,共10页
针对现有研究对病理语音特征提取不充分,导致病理语音识别率低的问题,提出了一种基于双分支残差网络的病理语音识别算法。根据构音障碍患者复杂多样的语音症状,采用宽带和窄带频谱图作为网络输入;提出了自适应特征提取残差块,通过全维... 针对现有研究对病理语音特征提取不充分,导致病理语音识别率低的问题,提出了一种基于双分支残差网络的病理语音识别算法。根据构音障碍患者复杂多样的语音症状,采用宽带和窄带频谱图作为网络输入;提出了自适应特征提取残差块,通过全维动态像素注意力卷积从位置、通道、滤波和像素多个维度全面捕捉病理特征;提出了双流互补融合模块,通过加权融合后的特征不仅保留了各分支的关键信息,还通过跨维度交互实现了更优的特征表达,提升了病理语音识别的准确率。在中文病理语音数据集THE-POSSD和西方公开病理语音数据集UA-Speech上进行实验,其结果验证了所提算法的有效性和泛化能力。 展开更多
关键词 病理语音识别 构音障碍 残差网络 动态卷积 加权融合 频谱图
在线阅读 下载PDF
飞行训练的语声情绪识别和评估
2
作者 陶雪峰 顾人舒 +1 位作者 吴东苏 郭超 《应用声学》 北大核心 2026年第1期236-244,共9页
为了使飞行员在飞行中有良好的情绪状态,并提高应对突发情况保持或恢复情绪的能力,该文通过对飞行训练情景下的语声数据采集建立了飞行训练语声数据库。使用语声情绪识别技术,通过调研选取放松、平静、焦虑和消极作为飞行训练中主要的... 为了使飞行员在飞行中有良好的情绪状态,并提高应对突发情况保持或恢复情绪的能力,该文通过对飞行训练情景下的语声数据采集建立了飞行训练语声数据库。使用语声情绪识别技术,通过调研选取放松、平静、焦虑和消极作为飞行训练中主要的情绪类型标签。为了有效捕捉情绪的波动情况,选择频谱质心、均方根能量、过零率和梅尔频率倒谱系数等特征进行模型训练。使用卷积神经网络和长短时记忆网络作为模型训练方法,就混合特征在多模型组合时的有效使用提出两种模型集成方案。 展开更多
关键词 语声情绪识别 飞行训练 深度学习 模型集成
在线阅读 下载PDF
基于改进ShuffleNet V2的无人机声学探测
3
作者 陈子阳 贾云飞 张佳庆 《电子设计工程》 2026年第2期61-65,共5页
无人机探测技术对低空防御具有重要意义。为解决复杂噪声环境下无人机声学探测准确率低、模型参数量大难以在移动端和嵌入式设备上部署等问题,提出一种基于改进ShuffleNet V2的无人机声学探测方法。该方法缩减ShuffleNet V2网络的基本... 无人机探测技术对低空防御具有重要意义。为解决复杂噪声环境下无人机声学探测准确率低、模型参数量大难以在移动端和嵌入式设备上部署等问题,提出一种基于改进ShuffleNet V2的无人机声学探测方法。该方法缩减ShuffleNet V2网络的基本单元数和输出通道数,降低模型的参数量和计算量;采用CT-FAM注意力模块提取通道、频率、时间维度的音频关键信息,增强模型表达能力。实验结果表明,改进后的ShuffleNet V2模型在自建无人机音频测试集上的准确率达95.69%,较改进前的ShuffleNet V2提高1.27%,而参数量和浮点运算量分别下降96.4%和97.8%,与AlexNet、VGG16、ResNet18、SqueezeNet、MobileNet V2模型相比,具有最小的参数量和计算量,且探测准确率分别提高了2.52%、1.38%、0.69%、2.61%、2.22%。 展开更多
关键词 无人机 声学特征 目标检测 ShuffleNet V2 轻量化
在线阅读 下载PDF
融合地方语言识别与自动跟随与机械臂辅助抓夹的超市智能购物车设计方案
4
作者 韦铃馨 杨竺伟 +5 位作者 农树宇 闭淑琦 吴茂达 滕煜 梁巍 班璐 《动力系统与控制》 2026年第1期62-70,共9页
随着互联网时代的迅速发展,网购也逐渐兴起。因为网购具有节约时间、方便快捷等特点,所以也就成为了大多数消费者的消费渠道之一。但是这也使传统零售业遭受到了极大的打击,而超市作为人们主要消费场所之一,急需优化超市线下服务体系,... 随着互联网时代的迅速发展,网购也逐渐兴起。因为网购具有节约时间、方便快捷等特点,所以也就成为了大多数消费者的消费渠道之一。但是这也使传统零售业遭受到了极大的打击,而超市作为人们主要消费场所之一,急需优化超市线下服务体系,带给消费者更好的购物体验。为了解决传统超市购物中顾客推车费力、商品抓取不便及跨方言交互不畅等问题。本文设计并研究了一款融合多技术的超市智能购物车。该购物车的核心为嵌入式系统,集成了地方语言识别模块、自动跟随导航模块与机械臂辅助抓夹模块。该购物车可以很大程度上解决人们在超市的不便,最大化实现超市的智能化。 展开更多
关键词 地方语言识别 自动跟随 机械臂辅助抓夹 智能购物车
在线阅读 下载PDF
基于自注意力编码器和卷积神经网络的机动车鸣笛声识别
5
作者 郑福进 胡国祥 +1 位作者 孙媛 何伟 《应用声学》 北大核心 2026年第1期260-270,共11页
为解决城市道路中违法鸣笛事件的识别和定位问题,该文提出了一种融合双输入自注意力编码器和卷积神经网络的机动车鸣笛识别方法。该方法通过结合自注意力机制的全局位置捕捉能力与卷积神经网络的局部特征挖掘能力,构建出具有高度判别性... 为解决城市道路中违法鸣笛事件的识别和定位问题,该文提出了一种融合双输入自注意力编码器和卷积神经网络的机动车鸣笛识别方法。该方法通过结合自注意力机制的全局位置捕捉能力与卷积神经网络的局部特征挖掘能力,构建出具有高度判别性的声音特征。实验结果显示,所提方法在两个鸣笛数据集上的平均识别准确率分别达到90.2%和93.76%,在准确率方面明显优于现有鸣笛识别技术。此外,该文深入分析不同车辆尺寸类型的鸣笛喇叭声学特性,归纳了3种车辆尺寸类别,并在鸣笛声分类实验中取得了86.7%的平均准确率,验证了基于鸣笛声推断机动车尺寸的可行性。 展开更多
关键词 机动车鸣笛声识别 双输入自注意力编码器 卷积神经网络 特征融合 车辆尺寸
在线阅读 下载PDF
Speech Emotion Recognition Based on the Adaptive Acoustic Enhancement and Refined Attention Mechanism
6
作者 Jun Li Chunyan Liang +1 位作者 Zhiguo Liu Fengpei Ge 《Computers, Materials & Continua》 2026年第3期2015-2039,共25页
To enhance speech emotion recognition capability,this study constructs a speech emotion recognition model integrating the adaptive acoustic mixup(AAM)and improved coordinate and shuffle attention(ICASA)methods.The AAM... To enhance speech emotion recognition capability,this study constructs a speech emotion recognition model integrating the adaptive acoustic mixup(AAM)and improved coordinate and shuffle attention(ICASA)methods.The AAM method optimizes data augmentation by combining a sample selection strategy and dynamic interpolation coefficients,thus enabling information fusion of speech data with different emotions at the acoustic level.The ICASA method enhances feature extraction capability through dynamic fusion of the improved coordinate attention(ICA)and shuffle attention(SA)techniques.The ICA technique reduces computational overhead by employing depth-separable convolution and an h-swish activation function and captures long-range dependencies of multi-scale time-frequency features using the attention weights.The SA technique promotes feature interaction through channel shuffling,which helps the model learn richer and more discriminative emotional features.Experimental results demonstrate that,compared to the baseline model,the proposed model improves the weighted accuracy by 5.42%and 4.54%,and the unweighted accuracy by 3.37%and 3.85%on the IEMOCAP and RAVDESS datasets,respectively.These improvements were confirmed to be statistically significant by independent samples t-tests,further supporting the practical reliability and applicability of the proposed model in real-world emotion-aware speech systems. 展开更多
关键词 Speech emotion recognition adaptive acoustic mixup enhancement improved coordinate attention shuffle attention attention mechanism deep learning
在线阅读 下载PDF
语音识别技术的开发应用
7
作者 井科 《微型计算机》 2026年第5期31-33,共3页
随着人工智能技术的发展,语音识别技术被逐渐运用到各个行业中。文章主要围绕语音识别技术在智能控制环境中的开发应用,通过系统架构设计、技术实现、测试评估、应用案例分析等方面对其进行深入研究。文章讨论了语音识别技术在智能控制... 随着人工智能技术的发展,语音识别技术被逐渐运用到各个行业中。文章主要围绕语音识别技术在智能控制环境中的开发应用,通过系统架构设计、技术实现、测试评估、应用案例分析等方面对其进行深入研究。文章讨论了语音识别技术在智能控制环境中的应用,通过AI拾音器设备和智能平台的整合设计,提出了基于预设对话模式的语音操控方案,并通过实际场景的验证,证明了该方案在实际场景中的可行性和稳定性,提供了语音识别技术实践应用的参考案例,并验证了语音识别技术的有效性。 展开更多
关键词 语音识别技术 硬件设计 软件设计 行为实现 应用场景
在线阅读 下载PDF
TENG-Based Self-Powered Silent Speech Recognition Interface:from Assistive Communication to Immersive AR/VR Interaction
8
作者 Shuai Lin Yanmin Guo +4 位作者 Xiangyao Zeng Xiongtu Zhou Yongai Zhang Chengda Li Chaoxing Wu 《Nano-Micro Letters》 2026年第5期31-44,共14页
Lip language provides a silent,intuitive,and efficient mode of communication,offering a promising solution for individuals with speech impairments.Its articulation relies on complex movements of the jaw and the muscle... Lip language provides a silent,intuitive,and efficient mode of communication,offering a promising solution for individuals with speech impairments.Its articulation relies on complex movements of the jaw and the muscles surrounding it.However,the accurate and real-time acquisition and decoding of these movements into reliable silent speech signals remains a significant challenge.In this work,we propose a real-time silent speech recognition system,which integrates a triboelectric nanogenerator-based flexible pressure sensor(FPS)with a deep learning framework.The FPS employs a porous pyramid-structured silicone film as the negative triboelectric layer,enabling highly sensitive pressure detection in the low-force regime(1 V N^(-1) for 0-10 N and 4.6 V N^(-1) for 10-24 N).This allows it to precisely capture jaw movements during speech and convert them into electrical signals.To decode the signals,we proposed a convolutional neural networklong short-term memory(CNN-LSTM)hybrid network,combining CNN and LSTM model to extract both local spatial features and temporal dynamics.The model achieved 95.83%classification accuracy in 30 categories of daily words.Furthermore,the decoded silent speech signals can be directly translated into executable commands for contactless and precise control of the smartphone.The system can also be connected to AR glasses,offering a novel human-machine interaction approach with promising potential in AR/VR applications. 展开更多
关键词 Flexible pressure sensor Silent speech recognition Triboelectric nanogenerator Deep learning AR/VR interaction
在线阅读 下载PDF
基于VHMM的语音特征提取与情感状态分析
9
作者 李倩 《信息记录材料》 2026年第3期49-50,53,共3页
针对语音情感识别问题,本文提出了一种基于可变长度隐马尔可夫模型(VHMM)的优化方法。首先,对语音信号进行预处理和特征提取,得到特征向量序列;其次,结合隐马尔可夫模型(HMM)数学原理,引入显式持续时间分布建模策略,实现对语音情感状态... 针对语音情感识别问题,本文提出了一种基于可变长度隐马尔可夫模型(VHMM)的优化方法。首先,对语音信号进行预处理和特征提取,得到特征向量序列;其次,结合隐马尔可夫模型(HMM)数学原理,引入显式持续时间分布建模策略,实现对语音情感状态持续时间的自适应刻画;最后,通过总体识别率、精确率、召回率及F1分数等指标,对比了传统HMM与本文方法的识别性能。结果表明,本文方法在各项评价指标上均显著优于传统HMM。 展开更多
关键词 情感识别 隐马尔可夫模型 可变长度优化 梅尔频率倒谱系数
在线阅读 下载PDF
RSG-Conformer:ReLU-Based Sparse and Grouped Conformer for Audio-Visual Speech Recognition
10
作者 Yewei Xiao Xin Du Wei Zeng 《Computers, Materials & Continua》 2026年第3期1325-1348,共24页
Audio-visual speech recognition(AVSR),which integrates audio and visual modalities to improve recognition performance and robustness in noisy or adverse acoustic conditions,has attracted significant research interest.... Audio-visual speech recognition(AVSR),which integrates audio and visual modalities to improve recognition performance and robustness in noisy or adverse acoustic conditions,has attracted significant research interest.However,Conformer-based architectures remain computational expensive due to the quadratic increase in the spatial and temporal complexity of their softmax-based attention mechanisms with sequence length.In addition,Conformerbased architectures may not provide sufficient flexibility for modeling local dependencies at different granularities.To mitigate these limitations,this study introduces a novel AVSR framework based on a ReLU-based Sparse and Grouped Conformer(RSG-Conformer)architecture.Specifically,we propose a Global-enhanced Sparse Attention(GSA)module incorporating an efficient context restoration block to recover lost contextual cues.Concurrently,a Grouped-scale Convolution(GSC)module replaces the standard Conformer convolution module,providing adaptive local modeling across varying temporal resolutions.Furthermore,we integrate a Refined Intermediate Contextual CTC(RIC-CTC)supervision strategy.This approach applies progressively increasing loss weights combined with convolution-based context aggregation,thereby further relaxing the constraint of conditional independence inherent in standard CTC frameworks.Evaluations on the LRS2 and LRS3 benchmark validate the efficacy of our approach,with word error rates(WERs)reduced to 1.8%and 1.5%,respectively.These results further demonstrate and validate its state-of-the-art performance in AVSR tasks. 展开更多
关键词 Audio-visual speech recognition CONFORMER CTC sparse attention
在线阅读 下载PDF
基于EfficientNetV2-RetNet的端到端中文管制语音识别 被引量:2
11
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
特征融合的密集连接卷积网络识别鸟鸣声 被引量:1
12
作者 陈晓 颜灏 曾昭优 《电子测量与仪器学报》 北大核心 2025年第5期241-250,共10页
针对目前鸟鸣声识别的深度学习方法提取深层特征单一导致准确率不高的问题,提出一种改进密集连接卷积网络的鸟鸣声识别方法。从鸟鸣声信号中提取梅尔语谱图作为输入,在所有密集块的标准卷积层之后添加卷积块注意力模块,卷积块注意力模... 针对目前鸟鸣声识别的深度学习方法提取深层特征单一导致准确率不高的问题,提出一种改进密集连接卷积网络的鸟鸣声识别方法。从鸟鸣声信号中提取梅尔语谱图作为输入,在所有密集块的标准卷积层之后添加卷积块注意力模块,卷积块注意力模块通过学习训练集的特征表示,判断不同层次鸟鸣声特征信息的重要性和关联性,并按照通道维度和空间维度对其进行更深一步的加权融合,使网络更加关注鸟鸣声特征中重要的特征通道和空间位置,从而提高网络学习鸟鸣声特征的能力;在密集块的标准卷积层之后添加丢弃块算法,促使网络对于不同区域的特征进行更加均衡的学习,提高网络对于新鸟鸣声数据的适应能力,使网络能够更好地捕获数据中的共性特征;再利用Transformer编码器为网络建立一条深层特征提取分支,以提高对于鸟鸣声特征中全局信息和长距离依赖信息的捕捉能力。最后将两个分支提取的深层特征融合以提升深层特征的信息丰富度。该方法在Xeno-Canto数据集进行了7组实验。实验结果表明方法对鸟鸣声识别的平均准确率为88.65%。相较于EMSCNN(ensemble multi-scale convolutional neural network)方法高10.83%,AlexNet方法高20.14%,VGGNet方法高16.3%,DenseNet方法高4.28%。实验证明了方法的有效性和先进性。提出的方法对鸟鸣声识别更准确,可用于实际鸟鸣声的识别。 展开更多
关键词 声音识别 鸟声识别 密集连接卷积网络 特征融合 TRANSFORMER 深度学习
原文传递
面向低数据资源的语音识别研究综述 被引量:3
13
作者 许春冬 吴子煜 葛凤培 《计算机工程与应用》 北大核心 2025年第4期59-71,共13页
近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等... 近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等因素给数据的收集造成困难。同时,语音数据的标注需要大量专业人员的参与,导致标注成本很高。因此,语音识别在实际应用中经常面临数据资源不足的问题。在这种低数据资源条件下构建性能优异且稳定的语音识别系统仍是研究难点。简单归纳了语音识别的发展历程,总结了语音识别的基本框架以及常见的国内外开源数据集。围绕低数据资源问题,详细分析了低数据资源的判定方法,继而梳理了四类技术方案,包括数据增强、联邦学习、自监督学习以及元学习,并对它们的性能状况以及优缺点进行了系统的剖析。最后讨论了该研究方向未来潜在的发展趋势和可能面临的问题。 展开更多
关键词 语音识别 低数据资源 数据增强 联邦学习 自监督学习 元学习
在线阅读 下载PDF
低资源条件下的藏语语音情感识别 被引量:1
14
作者 张维昭 李皓渊 杨鸿武 《信号处理》 北大核心 2025年第9期1558-1569,共12页
近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提... 近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提取与增强、人工标注与校对等步骤,初步构建了藏语情感语音数据集(Tibetan Emotion Speech Dataset-2500,TESD-2500)。该数据集涵盖四种情感类型(生气、悲伤、高兴和中性),共包含2500个语音样本,情感类别与样本数量仍在持续扩充中。然后,设计了一种融合交叉注意力与协同注意力机制的多特征融合语音情感识别模型,采用双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)对梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)进行时序建模,以提取语音信号中的动态时序表征;利用AlexNet提取语谱图的时频特征,以捕获语音信号的时频联合分布模式,并通过交叉注意力机制计算上述两类异构特征间的相关性权重;引入大规模预训练模型WavLM提取语音信号的深层特征,并以前述交叉注意力计算的结果作为权重向量,通过协同注意力机制对深层特征进行加权重构;将MFCC时序特征、语谱图时频特征和加权的预训练模型深层特征拼接成多层次特征融合表示,通过全连接层映射至情感类别空间,完成藏语语音情感分类任务。最终实验结果表明,所提出的模型在TESD-2500数据集上取得了76.56%的加权准确率和75.42%的未加权准确率,显著优于基线模型。本文还在IEMOCAP和EmoDB数据集上进行了模型泛化能力测试,在IEMOCAP上达到了74.27%的加权准确率和73.60%的未加权准确率,在EmoDB上达到了92.61%的加权准确率和91.68%的未加权准确率。本文的研究方法与结果亦可为其他低资源语言的语音情感识别研究提供参考。 展开更多
关键词 语音情感识别 低资源 多特征融合 预训练模型 藏语
在线阅读 下载PDF
基于特征交互与表示增强的语音手机来源开集识别方法
15
作者 岳峰 彭洋 +4 位作者 苏兆品 张国富 廉晨思 杨波 方振 《计算机应用》 北大核心 2025年第12期3813-3819,共7页
基于手机语音的多媒体取证任务一直都是研究热点,然而已有语音手机识别任务均局限于闭集模式,即训练集与测试集共享相同的类别集合,无法保证未知类别手机的识别精度,所以现有方法无法直接应用于未知手机。为此,提出一种基于特征交互与... 基于手机语音的多媒体取证任务一直都是研究热点,然而已有语音手机识别任务均局限于闭集模式,即训练集与测试集共享相同的类别集合,无法保证未知类别手机的识别精度,所以现有方法无法直接应用于未知手机。为此,提出一种基于特征交互与表示增强的语音手机来源开集识别方法(FireOSCI)。首先,设计基于多头注意力模块Fastformer的全局特征提取模块GlobalBlock,以更好地捕捉整个语音样本的全局信息,获得丰富的设备特征信息;其次,设计基于SE-Res2Block(Squeeze-Excitation Res2Block)的局部特征提取模块LocalBlocks,专注于增强跟手机信息相关的特征,抑制与手机来源识别无关的特征;随后,设计基于注意力机制的特征融合机制,将全局特征和多层局部特征深度融合;最后,设计基于注意力池化的手机来源确认网络,以提高开集模式下的识别准确率。在13个不同手机品牌、86种不同型号的手机语音数据集上的对比实验结果表明,所提方法可以实现未知类别手机的识别,为语音手机来源的开集识别提供可参考的技术方案。 展开更多
关键词 语音手机来源 开集识别 特征交互 表示增强 深度融合
在线阅读 下载PDF
基于多模型集成的鸟声识别方法
16
作者 臧强 马刚 +2 位作者 吴文宇 还红华 刘云平 《应用声学》 北大核心 2025年第4期1008-1017,共10页
鸟声识别能够辅助监测鸟类种群和栖息地的动态变化,在鸟类监测、生态保护和生态学研究中具有重要作用。为进一步提升鸟声识别准确率,提出了一种基于多模型集成的方法。首先,通过Mel频谱转换和分贝转换提取鸟声特征图,并利用Mixup操作增... 鸟声识别能够辅助监测鸟类种群和栖息地的动态变化,在鸟类监测、生态保护和生态学研究中具有重要作用。为进一步提升鸟声识别准确率,提出了一种基于多模型集成的方法。首先,通过Mel频谱转换和分贝转换提取鸟声特征图,并利用Mixup操作增加训练数据的多样性;其次,集成了Tf_efficientnetv2_s_in21k、Se_resnext50_32x4d、Cspdarknet53、Eca_nfnet_l0、Resnet34等5个卷积神经网络预训练模型,引入了广义均值池化以提取鸟声的关键特征,并对数据进行训练;然后,通过指数平滑器和加权平均器集成这5个模型的识别结果,有效降低了噪声干扰和模型方差;最后,通过归一化指数函数将集成结果转换为鸟声识别结果。以北京百鸟数据库中的20种中国鸟类为实验对象,实验结果表明,在相同条件下,该方法的识别准确率可达97.93%,较单一模型提高了2.7%,并且优于现有方法的识别效果。 展开更多
关键词 鸟声识别 多模型集成 卷积神经网络 Mel频谱
在线阅读 下载PDF
基于DenseNet和迁移学习的声纹识别方法
17
作者 陈润强 王卫辰 +1 位作者 徐亚博 李烈 《现代电子技术》 北大核心 2026年第2期171-177,共7页
传统的声纹识别方法受环境噪声和个体变化等因素的影响,准确率难以进一步提升。为此,提出一种基于DenseNet和迁移学习的语谱图声纹识别方法,以进一步提高声纹识别系统的性能。使用DenseNet的声纹识别模型对源域语音进行训练;采用迁移学... 传统的声纹识别方法受环境噪声和个体变化等因素的影响,准确率难以进一步提升。为此,提出一种基于DenseNet和迁移学习的语谱图声纹识别方法,以进一步提高声纹识别系统的性能。使用DenseNet的声纹识别模型对源域语音进行训练;采用迁移学习将源域训练的DenseNet模型迁移到目标域训练数据;在目标域测试数据上验证迁移后模型的性能,并对比分析迁移前后DenseNet模型和ResNet模型的声纹识别性能。实验结果表明,与原始ResNet模型、DenseNet模型和经迁移学习的ResNet模型相比,经迁移学习的DenseNet模型的识别准确率分别提高了3.89%、6.67%和3.34%,且具有较快的收敛速度。 展开更多
关键词 声纹识别 DenseNet 迁移学习 语谱图 ResNet 语音信号处理
在线阅读 下载PDF
基于多尺度特征注意力融合的语音情感识别 被引量:1
18
作者 安俊秀 田茂云 《微电子学与计算机》 2025年第9期125-133,共9页
语音情感识别是人机交互领域的一个重要研究领域。如何提取最具有代表性的语音情感特征是研究热点之一。针对目前语音情感识别系统中存在特征表达能力不足的问题,提出了一种新的框架——多尺度频谱特征注意力融合网络(Multi-scale Spect... 语音情感识别是人机交互领域的一个重要研究领域。如何提取最具有代表性的语音情感特征是研究热点之一。针对目前语音情感识别系统中存在特征表达能力不足的问题,提出了一种新的框架——多尺度频谱特征注意力融合网络(Multi-scale Spectral Feature Attention Fusion Network,MSFAFN),旨在通过综合多层次的音频特征,提升模型的情感识别能力。该网络主要由特征提取块和特征学习块组成。特征提取块通过3条不同卷积核大小的并行路径提取特征映射,然后由注意力机制对特征进行权重的重新分配与特征融合,这意味着网路能够学习到不同尺度、方向的特征,增强模型对情感相关信息的表征能力。特征学习块由多层卷积神经网络构成,通过滑动窗口的方式可以学习到不同时间尺度上的特征。两个模块协同作用,可以更好的学习到语音中的频谱和时间特征。为了进一步优化模型的泛化性能与类别区分能力,在训练过程中,应用双损失函数联合监督学习,从而在复杂情感数据集中提高了分类的精确度与稳定性。实验表明:模型MSFAFN在RAVDESS和Emo-DB情感数据集上分别取得了95.66%和95.79%的准确率。 展开更多
关键词 深度学习 语音情感识别 卷积神经网络 多尺度
在线阅读 下载PDF
虚拟电厂设备故障检测中声音识别技术的应用
19
作者 周治才 《电力设备管理》 2026年第2期218-220,共3页
本文以本公司承建的某虚拟电厂项目为例,深入分析了声音识别技术在其关键物理设备故障检测中的具体应用,详细论述了技术在本项目中的实践路径,包括声音采集系统的部署、基于深度学习的声音识别算法开发,以及诊断结果与能量管理系统(EMS... 本文以本公司承建的某虚拟电厂项目为例,深入分析了声音识别技术在其关键物理设备故障检测中的具体应用,详细论述了技术在本项目中的实践路径,包括声音采集系统的部署、基于深度学习的声音识别算法开发,以及诊断结果与能量管理系统(EMS)的智能联动。本项目实践证明,声音识别技术能有效识别设备潜在故障,显著提升了虚拟电厂运行的可靠性与智能化运维水平。 展开更多
关键词 虚拟电厂 设备故障检测 声音识别 深度学习 状态监测
在线阅读 下载PDF
上一页 1 2 219 下一页 到第
使用帮助 返回顶部