期刊文献+
共找到4,350篇文章
< 1 2 218 >
每页显示 20 50 100
基于改进ShuffleNet V2的无人机声学探测
1
作者 陈子阳 贾云飞 张佳庆 《电子设计工程》 2026年第2期61-65,共5页
无人机探测技术对低空防御具有重要意义。为解决复杂噪声环境下无人机声学探测准确率低、模型参数量大难以在移动端和嵌入式设备上部署等问题,提出一种基于改进ShuffleNet V2的无人机声学探测方法。该方法缩减ShuffleNet V2网络的基本... 无人机探测技术对低空防御具有重要意义。为解决复杂噪声环境下无人机声学探测准确率低、模型参数量大难以在移动端和嵌入式设备上部署等问题,提出一种基于改进ShuffleNet V2的无人机声学探测方法。该方法缩减ShuffleNet V2网络的基本单元数和输出通道数,降低模型的参数量和计算量;采用CT-FAM注意力模块提取通道、频率、时间维度的音频关键信息,增强模型表达能力。实验结果表明,改进后的ShuffleNet V2模型在自建无人机音频测试集上的准确率达95.69%,较改进前的ShuffleNet V2提高1.27%,而参数量和浮点运算量分别下降96.4%和97.8%,与AlexNet、VGG16、ResNet18、SqueezeNet、MobileNet V2模型相比,具有最小的参数量和计算量,且探测准确率分别提高了2.52%、1.38%、0.69%、2.61%、2.22%。 展开更多
关键词 无人机 声学特征 目标检测 ShuffleNet V2 轻量化
在线阅读 下载PDF
基于EfficientNetV2-RetNet的端到端中文管制语音识别 被引量:2
2
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
面向低数据资源的语音识别研究综述 被引量:1
3
作者 许春冬 吴子煜 葛凤培 《计算机工程与应用》 北大核心 2025年第4期59-71,共13页
近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等... 近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等因素给数据的收集造成困难。同时,语音数据的标注需要大量专业人员的参与,导致标注成本很高。因此,语音识别在实际应用中经常面临数据资源不足的问题。在这种低数据资源条件下构建性能优异且稳定的语音识别系统仍是研究难点。简单归纳了语音识别的发展历程,总结了语音识别的基本框架以及常见的国内外开源数据集。围绕低数据资源问题,详细分析了低数据资源的判定方法,继而梳理了四类技术方案,包括数据增强、联邦学习、自监督学习以及元学习,并对它们的性能状况以及优缺点进行了系统的剖析。最后讨论了该研究方向未来潜在的发展趋势和可能面临的问题。 展开更多
关键词 语音识别 低数据资源 数据增强 联邦学习 自监督学习 元学习
在线阅读 下载PDF
低资源条件下的藏语语音情感识别 被引量:1
4
作者 张维昭 李皓渊 杨鸿武 《信号处理》 北大核心 2025年第9期1558-1569,共12页
近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提... 近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提取与增强、人工标注与校对等步骤,初步构建了藏语情感语音数据集(Tibetan Emotion Speech Dataset-2500,TESD-2500)。该数据集涵盖四种情感类型(生气、悲伤、高兴和中性),共包含2500个语音样本,情感类别与样本数量仍在持续扩充中。然后,设计了一种融合交叉注意力与协同注意力机制的多特征融合语音情感识别模型,采用双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)对梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)进行时序建模,以提取语音信号中的动态时序表征;利用AlexNet提取语谱图的时频特征,以捕获语音信号的时频联合分布模式,并通过交叉注意力机制计算上述两类异构特征间的相关性权重;引入大规模预训练模型WavLM提取语音信号的深层特征,并以前述交叉注意力计算的结果作为权重向量,通过协同注意力机制对深层特征进行加权重构;将MFCC时序特征、语谱图时频特征和加权的预训练模型深层特征拼接成多层次特征融合表示,通过全连接层映射至情感类别空间,完成藏语语音情感分类任务。最终实验结果表明,所提出的模型在TESD-2500数据集上取得了76.56%的加权准确率和75.42%的未加权准确率,显著优于基线模型。本文还在IEMOCAP和EmoDB数据集上进行了模型泛化能力测试,在IEMOCAP上达到了74.27%的加权准确率和73.60%的未加权准确率,在EmoDB上达到了92.61%的加权准确率和91.68%的未加权准确率。本文的研究方法与结果亦可为其他低资源语言的语音情感识别研究提供参考。 展开更多
关键词 语音情感识别 低资源 多特征融合 预训练模型 藏语
在线阅读 下载PDF
基于特征交互与表示增强的语音手机来源开集识别方法
5
作者 岳峰 彭洋 +4 位作者 苏兆品 张国富 廉晨思 杨波 方振 《计算机应用》 北大核心 2025年第12期3813-3819,共7页
基于手机语音的多媒体取证任务一直都是研究热点,然而已有语音手机识别任务均局限于闭集模式,即训练集与测试集共享相同的类别集合,无法保证未知类别手机的识别精度,所以现有方法无法直接应用于未知手机。为此,提出一种基于特征交互与... 基于手机语音的多媒体取证任务一直都是研究热点,然而已有语音手机识别任务均局限于闭集模式,即训练集与测试集共享相同的类别集合,无法保证未知类别手机的识别精度,所以现有方法无法直接应用于未知手机。为此,提出一种基于特征交互与表示增强的语音手机来源开集识别方法(FireOSCI)。首先,设计基于多头注意力模块Fastformer的全局特征提取模块GlobalBlock,以更好地捕捉整个语音样本的全局信息,获得丰富的设备特征信息;其次,设计基于SE-Res2Block(Squeeze-Excitation Res2Block)的局部特征提取模块LocalBlocks,专注于增强跟手机信息相关的特征,抑制与手机来源识别无关的特征;随后,设计基于注意力机制的特征融合机制,将全局特征和多层局部特征深度融合;最后,设计基于注意力池化的手机来源确认网络,以提高开集模式下的识别准确率。在13个不同手机品牌、86种不同型号的手机语音数据集上的对比实验结果表明,所提方法可以实现未知类别手机的识别,为语音手机来源的开集识别提供可参考的技术方案。 展开更多
关键词 语音手机来源 开集识别 特征交互 表示增强 深度融合
在线阅读 下载PDF
基于多模型集成的鸟声识别方法
6
作者 臧强 马刚 +2 位作者 吴文宇 还红华 刘云平 《应用声学》 北大核心 2025年第4期1008-1017,共10页
鸟声识别能够辅助监测鸟类种群和栖息地的动态变化,在鸟类监测、生态保护和生态学研究中具有重要作用。为进一步提升鸟声识别准确率,提出了一种基于多模型集成的方法。首先,通过Mel频谱转换和分贝转换提取鸟声特征图,并利用Mixup操作增... 鸟声识别能够辅助监测鸟类种群和栖息地的动态变化,在鸟类监测、生态保护和生态学研究中具有重要作用。为进一步提升鸟声识别准确率,提出了一种基于多模型集成的方法。首先,通过Mel频谱转换和分贝转换提取鸟声特征图,并利用Mixup操作增加训练数据的多样性;其次,集成了Tf_efficientnetv2_s_in21k、Se_resnext50_32x4d、Cspdarknet53、Eca_nfnet_l0、Resnet34等5个卷积神经网络预训练模型,引入了广义均值池化以提取鸟声的关键特征,并对数据进行训练;然后,通过指数平滑器和加权平均器集成这5个模型的识别结果,有效降低了噪声干扰和模型方差;最后,通过归一化指数函数将集成结果转换为鸟声识别结果。以北京百鸟数据库中的20种中国鸟类为实验对象,实验结果表明,在相同条件下,该方法的识别准确率可达97.93%,较单一模型提高了2.7%,并且优于现有方法的识别效果。 展开更多
关键词 鸟声识别 多模型集成 卷积神经网络 Mel频谱
在线阅读 下载PDF
基于DenseNet和迁移学习的声纹识别方法
7
作者 陈润强 王卫辰 +1 位作者 徐亚博 李烈 《现代电子技术》 北大核心 2026年第2期171-177,共7页
传统的声纹识别方法受环境噪声和个体变化等因素的影响,准确率难以进一步提升。为此,提出一种基于DenseNet和迁移学习的语谱图声纹识别方法,以进一步提高声纹识别系统的性能。使用DenseNet的声纹识别模型对源域语音进行训练;采用迁移学... 传统的声纹识别方法受环境噪声和个体变化等因素的影响,准确率难以进一步提升。为此,提出一种基于DenseNet和迁移学习的语谱图声纹识别方法,以进一步提高声纹识别系统的性能。使用DenseNet的声纹识别模型对源域语音进行训练;采用迁移学习将源域训练的DenseNet模型迁移到目标域训练数据;在目标域测试数据上验证迁移后模型的性能,并对比分析迁移前后DenseNet模型和ResNet模型的声纹识别性能。实验结果表明,与原始ResNet模型、DenseNet模型和经迁移学习的ResNet模型相比,经迁移学习的DenseNet模型的识别准确率分别提高了3.89%、6.67%和3.34%,且具有较快的收敛速度。 展开更多
关键词 声纹识别 DenseNet 迁移学习 语谱图 ResNet 语音信号处理
在线阅读 下载PDF
特征融合的密集连接卷积网络识别鸟鸣声
8
作者 陈晓 颜灏 曾昭优 《电子测量与仪器学报》 北大核心 2025年第5期241-250,共10页
针对目前鸟鸣声识别的深度学习方法提取深层特征单一导致准确率不高的问题,提出一种改进密集连接卷积网络的鸟鸣声识别方法。从鸟鸣声信号中提取梅尔语谱图作为输入,在所有密集块的标准卷积层之后添加卷积块注意力模块,卷积块注意力模... 针对目前鸟鸣声识别的深度学习方法提取深层特征单一导致准确率不高的问题,提出一种改进密集连接卷积网络的鸟鸣声识别方法。从鸟鸣声信号中提取梅尔语谱图作为输入,在所有密集块的标准卷积层之后添加卷积块注意力模块,卷积块注意力模块通过学习训练集的特征表示,判断不同层次鸟鸣声特征信息的重要性和关联性,并按照通道维度和空间维度对其进行更深一步的加权融合,使网络更加关注鸟鸣声特征中重要的特征通道和空间位置,从而提高网络学习鸟鸣声特征的能力;在密集块的标准卷积层之后添加丢弃块算法,促使网络对于不同区域的特征进行更加均衡的学习,提高网络对于新鸟鸣声数据的适应能力,使网络能够更好地捕获数据中的共性特征;再利用Transformer编码器为网络建立一条深层特征提取分支,以提高对于鸟鸣声特征中全局信息和长距离依赖信息的捕捉能力。最后将两个分支提取的深层特征融合以提升深层特征的信息丰富度。该方法在Xeno-Canto数据集进行了7组实验。实验结果表明方法对鸟鸣声识别的平均准确率为88.65%。相较于EMSCNN(ensemble multi-scale convolutional neural network)方法高10.83%,AlexNet方法高20.14%,VGGNet方法高16.3%,DenseNet方法高4.28%。实验证明了方法的有效性和先进性。提出的方法对鸟鸣声识别更准确,可用于实际鸟鸣声的识别。 展开更多
关键词 声音识别 鸟声识别 密集连接卷积网络 特征融合 TRANSFORMER 深度学习
原文传递
基于多尺度特征注意力融合的语音情感识别 被引量:1
9
作者 安俊秀 田茂云 《微电子学与计算机》 2025年第9期125-133,共9页
语音情感识别是人机交互领域的一个重要研究领域。如何提取最具有代表性的语音情感特征是研究热点之一。针对目前语音情感识别系统中存在特征表达能力不足的问题,提出了一种新的框架——多尺度频谱特征注意力融合网络(Multi-scale Spect... 语音情感识别是人机交互领域的一个重要研究领域。如何提取最具有代表性的语音情感特征是研究热点之一。针对目前语音情感识别系统中存在特征表达能力不足的问题,提出了一种新的框架——多尺度频谱特征注意力融合网络(Multi-scale Spectral Feature Attention Fusion Network,MSFAFN),旨在通过综合多层次的音频特征,提升模型的情感识别能力。该网络主要由特征提取块和特征学习块组成。特征提取块通过3条不同卷积核大小的并行路径提取特征映射,然后由注意力机制对特征进行权重的重新分配与特征融合,这意味着网路能够学习到不同尺度、方向的特征,增强模型对情感相关信息的表征能力。特征学习块由多层卷积神经网络构成,通过滑动窗口的方式可以学习到不同时间尺度上的特征。两个模块协同作用,可以更好的学习到语音中的频谱和时间特征。为了进一步优化模型的泛化性能与类别区分能力,在训练过程中,应用双损失函数联合监督学习,从而在复杂情感数据集中提高了分类的精确度与稳定性。实验表明:模型MSFAFN在RAVDESS和Emo-DB情感数据集上分别取得了95.66%和95.79%的准确率。 展开更多
关键词 深度学习 语音情感识别 卷积神经网络 多尺度
在线阅读 下载PDF
基于强化学习的自适应语音识别模型训练方法
10
作者 曾婕 《移动信息》 2025年第8期279-281,共3页
随着语音交互技术的日益成熟,语音识别系统的适应性和准确性要求不断提高。文中探讨了结合强化学习的自适应语音识别模型训练方法,旨在通过智能化的学习策略优化语音识别模型的性能。采用深度强化学习框架,通过定义合适的状态、动作及... 随着语音交互技术的日益成熟,语音识别系统的适应性和准确性要求不断提高。文中探讨了结合强化学习的自适应语音识别模型训练方法,旨在通过智能化的学习策略优化语音识别模型的性能。采用深度强化学习框架,通过定义合适的状态、动作及奖励机制,实现模型在多变环境中的自我优化。实验结果显示,该训练方法有效提升了模型在嘈杂环境下的识别准确率和鲁棒性,验证了强化学习在提升语音识别技术中的实用价值。 展开更多
关键词 强化学习 自适应语音识别 模型训练 语音数据 智能优化
在线阅读 下载PDF
基于多头注意力机制的Wav2Vec 2.0-LSTM语音情感识别
11
作者 张红兵 孙惠民 《电声技术》 2025年第8期27-29,79,共4页
传统语音情感识别方法依赖人工设计的特征,难以捕捉到语音中的复杂情感信息并进行准确分类。针对该问题提出一种基于多头注意力机制的Wav2Vec 2.0模型和长短期记忆(Long Short-Term Memory,LSTM)网络相结合的语音情感识别模型,并采用加... 传统语音情感识别方法依赖人工设计的特征,难以捕捉到语音中的复杂情感信息并进行准确分类。针对该问题提出一种基于多头注意力机制的Wav2Vec 2.0模型和长短期记忆(Long Short-Term Memory,LSTM)网络相结合的语音情感识别模型,并采用加权准确率和未加全准确率作为评价指标,在两个公开情感数据集IEMOCAP和RAVDESS上进行实验。实验结果表明,相较于其他基线模型,新模型在语音情感识别任务中具有较高的识别精度。 展开更多
关键词 语音情感识别 Wav2Vec 2.0模型 长短期记忆(LSTM)网络 多头注意力机制
在线阅读 下载PDF
基于语音识别技术的智慧讲台设计
12
作者 屈亚磊 《电声技术》 2025年第9期79-82,共4页
针对传统讲台在教学效率与交互性方面的不足,提出一种基于语音识别技术的智慧讲台设计方案。通过构建语音信号预处理、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征提取、Transformer-连续时序分类(Connectionist Te... 针对传统讲台在教学效率与交互性方面的不足,提出一种基于语音识别技术的智慧讲台设计方案。通过构建语音信号预处理、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征提取、Transformer-连续时序分类(Connectionist Temporal Classification,CTC)声学模型及双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)语言模型后处理的完整识别链路,实现在高噪声、多说话人场景下的稳定语音识别。基于此,设计教师语音交互、学生辅助学习及课堂管理模块,并进行实验验证。结果表明,系统在25 dB与10 dB噪声条件下的识别准确率分别为95.2%与92.8%,端到端延迟控制在300 ms以内,具有良好的健壮性与实时性,可有效支撑智慧讲台的实际应用。 展开更多
关键词 语音识别 智慧讲台 Transformer-连续时序分类(CTC) 双向编码器表征法(BERT)语言模型
在线阅读 下载PDF
基于5G技术的大规模智能口语测评模式研究
13
作者 贾根五 《信息与电脑》 2025年第3期152-154,共3页
5G技术为智能口语测评模式带来了前所未有的变革。传统的口语测评方式往往受限于时间、地点和人力资源,难以实现大规模、高效、精准的测评。文章研究了基于5G技术的大规模智能口语测评模式,旨在解决传统口语测评的局限性。系统主要功能... 5G技术为智能口语测评模式带来了前所未有的变革。传统的口语测评方式往往受限于时间、地点和人力资源,难以实现大规模、高效、精准的测评。文章研究了基于5G技术的大规模智能口语测评模式,旨在解决传统口语测评的局限性。系统主要功能包括基础平台、人工智能(Artificial Intelligence,AI)题库、AI考试和智能考评,通过大数据驱动精准教学决策反馈机制,促进教学手段变革,为口语测评模式的创新提供了理论和实践基础。 展开更多
关键词 5G 口语测评 评价体系
在线阅读 下载PDF
说话人识别综述 被引量:1
14
作者 张葛祥 曾鑫 +3 位作者 姚光乐 杨强 贾勇 朱明 《控制工程》 北大核心 2025年第2期251-264,共14页
说话人识别是一种利用人类语音中存在的与身份相关的特征来识别说话人身份的技术,也称为声纹识别。这项技术既是新一代人工智能的重要研究方向,也是计算机领域的研究热点,吸引了许多学者的关注与研究。首先,在结合以往和当前有关该领域... 说话人识别是一种利用人类语音中存在的与身份相关的特征来识别说话人身份的技术,也称为声纹识别。这项技术既是新一代人工智能的重要研究方向,也是计算机领域的研究热点,吸引了许多学者的关注与研究。首先,在结合以往和当前有关该领域的研究工作基础上,概括性地介绍了说话人识别的重要背景知识;然后,综述了以往工作,并从数据集、评估指标和相关比赛三部分对说话人识别系统性能评估进行了一个详细的梳理和归纳;最后,指出了在当前说话人识别方法中存在的难点与挑战。 展开更多
关键词 说话人识别 声纹识别 说话人欺诈 深度学习
原文传递
结合字节级别字节对编码的端到端中文语音识别方法 被引量:1
15
作者 付强 徐振平 +1 位作者 盛文星 叶青 《计算机应用》 北大核心 2025年第1期318-324,共7页
针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并... 针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并合并频率最高的词汇单元;最后,重复上一步直至无法合并,以得到最终的词汇表。在中文语音数据集AISHELL-1上,该方法生成的词汇表相较于字符级别词汇表的词汇量减少了88.5%,降低了模型训练的复杂度。同时,鉴于Conformer-Transducer(Conformer-T)模型在端到端语音识别中的出色表现,为了实现更好的识别效果,将最新的Zipformer模型与Transducer模型相结合提出Zipformer-Transducer(Zipformer-T)模型,并在该模型上对BBPE方法进行验证。实验结果表明,Zipformer-T模型使用的BBPE方法相较于字符级别分词方法在AISHELL-1测试集和验证集上的字错率(CER)分别降低了0.12和0.08个百分点,且分别达到4.26%和3.98%的最低CER,充分说明该方法能有效提升中文语音识别的性能。 展开更多
关键词 语音识别 CONFORMER Zipformer 字节级别字节对编码 端到端
在线阅读 下载PDF
基于记忆胶囊与注意力的语音情感识别 被引量:1
16
作者 董红亮 钮焱 +1 位作者 孙杨 李军 《计算机工程》 北大核心 2025年第4期169-177,共9页
当前语音情感识别中因情感特征提取不充分和模型对复杂情感表达建模能力不足,导致识别准确率降低。为了提高当前语音情感识别准确率,提出一种基于记忆胶囊和注意力的语音情感识别方法。首先,提取了语音中梅尔频率倒谱系数(MFCC)、能量... 当前语音情感识别中因情感特征提取不充分和模型对复杂情感表达建模能力不足,导致识别准确率降低。为了提高当前语音情感识别准确率,提出一种基于记忆胶囊和注意力的语音情感识别方法。首先,提取了语音中梅尔频率倒谱系数(MFCC)、能量的均方根(RMS)、梅尔语谱图、过零率(ZCR)、色度分布5种特征;然后,在MFCC特征的基础上,提取MFCC的一阶、二阶和三阶差分动态特征,并将其拼接;最后,将这些特征堆叠成一维向量的形式,通过引入记忆胶囊和注意力机制所构建的模型,完成对语音情感识别分类工作。实验结果表明,所提的模型具有较好的泛化性和鲁棒性,有效提升了语音情感识别的准确率,在RAVDESS、EMODB和IEMOCAP 3个数据集上的准确率分别达到了95.87%、98.82%和98.23%,与现有的方法相比,识别准确率均得到了有效提升。 展开更多
关键词 语音情感识别 特征提取 特征堆叠 记忆胶囊网络 注意力机制
在线阅读 下载PDF
基于离散小波变换及高低频子带解耦的低计算资源占用端到端语音识别 被引量:1
17
作者 田三力 黎塔 +3 位作者 叶凌轩 吴石松 赵庆卫 张鹏远 《声学学报》 北大核心 2025年第2期373-383,共11页
针对目前端到端语音识别模型计算资源占用过高的问题,提出了一种将离散小波变换(DWT)与端到端语音识别相融合的方法 (WLformer),大幅降低计算资源占用量的同时还可提升识别性能。WLformer的构建以目前端到端语音识别中广泛使用的Confor... 针对目前端到端语音识别模型计算资源占用过高的问题,提出了一种将离散小波变换(DWT)与端到端语音识别相融合的方法 (WLformer),大幅降低计算资源占用量的同时还可提升识别性能。WLformer的构建以目前端到端语音识别中广泛使用的Conformer模型为基础,在模型中引入所提出的基于DWT的信号压缩模块,该模块通过去除模型中间层表征内信息量较少的高频成分从而对该表征进行压缩,进而降低模型的计算资源占用。此外还提出了DWT子带解耦前馈网络的子模块结构以替换原模型中部分前馈网络,从而进一步降低模型的计算量。在Aishell-1、HKUST和LibriSpeech三个常用的中英文数据集上的实验表明,提出的WLformer相较于Conformer的显存占用相对下降47.4%,计算量Gflops相对下降39.2%,同时还获得了平均13.1%的错误率改善。此外, WLformer在计算资源占用少于其他主流端到端语音识别模型的情况下同样取得了更好的识别性能,进一步验证了所提方法的有效性。 展开更多
关键词 语音识别 离散小波变换 低计算资源占用 端侧部署
原文传递
语音识别与大语言模型融合技术研究综述 被引量:3
18
作者 王敬凯 秦董洪 +3 位作者 白凤波 李路路 孔令儒 徐晨 《计算机工程与应用》 北大核心 2025年第6期53-63,共11页
在当今时代背景下,多种大语言模型层出不穷,推动了人工智能众多领域的发展和创新。归纳大语言模型在语音识别技术中的积极作用,并探讨其发展前景,可以为语音识别技术的发展提供创新思路。在目前主流的端到端语音识别模型中,常使用额外... 在当今时代背景下,多种大语言模型层出不穷,推动了人工智能众多领域的发展和创新。归纳大语言模型在语音识别技术中的积极作用,并探讨其发展前景,可以为语音识别技术的发展提供创新思路。在目前主流的端到端语音识别模型中,常使用额外的语言模型对语音识别结果重打分或结合WFST算法辅助解码来提升语音识别结果的准确率。最新研究发现,将大型语言模型融入语音识别模型的端到端训练中,能够更好地提升语音识别结果的准确率。以浅融合、深度融合、冷融合三类语音识别与语言模型的融合方式为主线,进行了其原理及优劣的分析。近期研究者的实验结果证实,大语言模型与声学模型相结合能够有效提高识别精度。在系统地梳理了大语言模型在语音识别技术中的研究进展后,其在语音识别中的重要作用也得以揭示。语音识别与大语言模型融合的相关技术已经逐渐成熟,值得进一步的探索与深入研究。 展开更多
关键词 语音识别 大语言模型 深度学习
在线阅读 下载PDF
融合注意力机制与卷积循环神经网络的环境声音识别 被引量:3
19
作者 张志 黄河 +2 位作者 洪成斌 方少卿 查艳 《芜湖职业技术学院学报》 2025年第1期31-35,共5页
环境声音识别技术是一种高效且应用广泛的环境感知方法。以往的研究中多是采用机器学习模型或卷积神经网络进行环境声音识别,但音频数据是时序数据,因此,传统方法难以有效捕捉其内在的时序信息。一种融合注意力机制的卷积循环神经网络... 环境声音识别技术是一种高效且应用广泛的环境感知方法。以往的研究中多是采用机器学习模型或卷积神经网络进行环境声音识别,但音频数据是时序数据,因此,传统方法难以有效捕捉其内在的时序信息。一种融合注意力机制的卷积循环神经网络模型采用音频的梅尔频率倒谱系数特征作输入,在UrbanSound8K数据集上进行测试,平均识别准确率达到93.16%。该模型有望在后续的研究中更好地解决复杂音频的声音分离问题。 展开更多
关键词 环境声音识别 卷积循环神经网络 注意力机制 梅尔频率倒谱系数 UrbanSound8K
在线阅读 下载PDF
改进Transformer模型的语音识别轻量化设计 被引量:1
20
作者 王艳红 赵亮 王官军 《计算机工程与应用》 北大核心 2025年第16期196-204,共9页
语音识别作为AI的重要应用分支近年来取得了显著的成果,其中基于Transformer模型的语音识别发展尤为突出。然而Transformer模型较大的参数量和较高的计算复杂度,难以在边缘设备上实现部署,因此设计轻量化的Transformer模型用于语音识别... 语音识别作为AI的重要应用分支近年来取得了显著的成果,其中基于Transformer模型的语音识别发展尤为突出。然而Transformer模型较大的参数量和较高的计算复杂度,难以在边缘设备上实现部署,因此设计轻量化的Transformer模型用于语音识别部署是亟需解决的问题。设计了一种轻量化Transformer模型,通过将Query、Key、Value的线性操作替换为轻量级卷积操作,优化多头注意力机制以改善注意力分布,并在前馈神经网络中引入分块低秩分解以最大化模型压缩。实验结果表明,在AISHELL-1和LRS2数据集上,该模型在同等条件下模型大小减少68.03%,参数量减少67.06%,错词率相对降低23.19%。 展开更多
关键词 TRANSFORMER 语音识别 轻量化 模型压缩 深度学习
在线阅读 下载PDF
上一页 1 2 218 下一页 到第
使用帮助 返回顶部