期刊文献+
共找到1,478篇文章
< 1 2 74 >
每页显示 20 50 100
融合双通道卷积和改进型Conformer的两阶段语音增强算法
1
作者 徐佳瑜 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第4期149-157,共9页
针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息... 针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息,并结合门控机制增强网络的短期与长期序列相关性,从而提升模型在复杂环境下的语音增强效果;提出改进型Conformer,采用时间注意和频率注意分别在时域和频域上进行建模,并结合膨胀卷积模块高效提取局部与全局上下文信息,从而增强网络在语音序列建模中的表现能力。其次,针对模型结构单一的问题,采用两阶段处理结构,将复杂问题分步处理。在第一阶段首先接收噪声频谱的幅值,初步估计出干净语音的幅值,并与噪声相位进行重构,得到粗糙的复频谱。第二阶段在第一阶段得到粗谱的基础上进一步提取更精细的特征,增强语音信号的细节表现能力。最后,在VoiceBank+DEMAND数据集上进行测试,实验结果表明,所提算法相比带噪语音的语音感知质量和短时客观可懂度分别提升50.25%、3.26%,表明该网络能够更有效地提高语音的可懂度,同时改善语音信号的整体质量,具有较强的降噪能力。 展开更多
关键词 深度学习 语音增强 conformer 多尺度特征提取 两阶段
原文传递
基于时频注意力Conformer的多尺度短语音说话人识别模型
2
作者 杨璐 张邦成 +1 位作者 杨俊美 曾德炉 《电子学报》 北大核心 2025年第8期2658-2667,共10页
基于短语音的识别任务由于数据短缺、特征提取不精确,是说话人识别(Speaker Recognition,SR)领域目前面临的挑战之一.针对数据量匮乏场景下的短语音声纹特征提取和身份识别,本文设计了一种基于时频注意力和卷积增强的短语音说话人识别网... 基于短语音的识别任务由于数据短缺、特征提取不精确,是说话人识别(Speaker Recognition,SR)领域目前面临的挑战之一.针对数据量匮乏场景下的短语音声纹特征提取和身份识别,本文设计了一种基于时频注意力和卷积增强的短语音说话人识别网络.本文在Transformer编码器中引入时频注意力和卷积,提出一种称为时频注意力Conformer(Time-Frequency Attention Convolution-augmented Transformer,TFA-Conformer)的模块,充分利用时频域通道中的信息来计算从全局到局部的有效性权重,帮助模型捕获精确的声学特征,使得特征编码器在短语音(3 s以内)环境下生成具有高判别性的说话人特征向量.本文在标准说话人数据集TIMIT和ST-CMDS上评估了所提出的有监督训练网络模型,在短语音条件下,其识别准确性等指标相比主流方法平均提升4.837%,并且在更短时间和更少数据量的语音段识别中有平均2.799%的相对提升.本文提出模型的参数更少且计算复杂度更低,其适用于短语音场景的同时也更轻量化. 展开更多
关键词 说话人识别 短语音 时频域 自注意力 conformer 声纹特征
在线阅读 下载PDF
基于Conformer-LSTM模型的连续无创血压预测方法
3
作者 陈欣 刘立程 王小林 《电子测量技术》 北大核心 2025年第15期120-128,共9页
本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒... 本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒张压通过预测的ABP波形得出。此外,该方法在较大的数据集中取得较小的预测误差,实验结果表明,本文提出的模型在MIMIC数据集中预测的ABP波形与实际波形的拟合程度较好,SBP和DBP的预测误差分别为(3.68±5.60)mmHg和(2.16±3.72)mmHg,该方法符合美国医疗仪器促进协会(AAMI)标准,并在英国高血压协会(BHS)标准中获得A级评价。 展开更多
关键词 血压预测 多尺度特征融合 conformer PPG信号
原文传递
复数双路径Conformer和深度复数卷积循环神经网络结合的语声增强方法
4
作者 郝鑫语 伍忠东 +1 位作者 杨充六合 楚秦 《应用声学》 北大核心 2025年第6期1652-1661,共10页
针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称... 针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称为Conformer-CRN。将DCCRN中的复数长短时记忆网络模块替换为复数双路径Conformer模块,能够有效捕捉长距离的时-频依赖,更全面地利用全局上下文信息。此外,还在编解码器中增加了复数通道注意力机制模块,进一步提高增强语声的质量。在公开数据集Voice Bank+DEMAND上的实验结果显示,所提出的模型使用更少的参数,在主客观语声质量评估都取得更优的结果。与SE-Conformer相比,增强后的语声感知质量增长了3.20%;与MetricGAN+相比,预测信号失真度增长了7.17%,预测噪声失真度增长了9.97%,预测综合质量测度增长了3.44%。该研究为基于深度学习中参数映射的语声增强方法的发展提供了一定的参考。 展开更多
关键词 深度学习 语声增强 conformer DCCRN 复数通道注意力机制
在线阅读 下载PDF
多任务学习型民航陆空通话语音识别Conformer模型
5
作者 马广林 任晋 +3 位作者 师一华 张海刚 王莉 杨金锋 《计算机应用与软件》 北大核心 2025年第10期183-190,244,共9页
民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引... 民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引入Transformer模型,Conformer模型在保留上下文长距离依赖关系的全局信息建模能力基础上,进一步增强了局部信息的捕获。同时联合连接时序分类(Connectionist Temporal Classification,CTC)和基于注意力的编码解码模型进行多任务学习以进一步提升其性能。实验结果表明,该方法能有效兼顾全局和局部信息的声学建模,在陆空通话数据集上将字符错误率和句错误率分别降低至1.98%和2.89%。 展开更多
关键词 民航陆空通话 语音识别 多任务学习 conformer 端到端
在线阅读 下载PDF
基于并行级联时频Conformer生成对抗网络的语音增强算法
6
作者 王泽宇 韩建宁 +1 位作者 郝国栋 杨润 《计算机与现代化》 2025年第3期22-28,37,共8页
生成对抗网络通过对抗训练的机制不断提升网络映射能力,使其具有强大的降噪能力,被广泛应用于语音增强领域。针对现有生成对抗网络语音增强方法存在利用语音特征序列中的时频相关性和全局相关性不充分,去噪性能欠佳的问题,本文提出一种... 生成对抗网络通过对抗训练的机制不断提升网络映射能力,使其具有强大的降噪能力,被广泛应用于语音增强领域。针对现有生成对抗网络语音增强方法存在利用语音特征序列中的时频相关性和全局相关性不充分,去噪性能欠佳的问题,本文提出一种并行级联时频Conformer生成对抗网络,用于单通道语音增强。首先,并行级联时间-频率Con-former分别对语音语谱图中时间和频率的顺序特征进行建模,提取时域和频域的局部及全局特征供生成器学习;然后,通过2个Decoder路径分别学习带噪语音的幅度掩码和干净语音的语谱图,融合2个路径的输出得到生成后的语音;最后,采用指标判别器评价生成器所生成语音的相关评价指标得分,通过对抗训练提高生成器生成语音的质量,并在公开数据集VoiceBank+Demand上进行了验证。 展开更多
关键词 语音增强 生成对抗网络 时频conformer 指标判别器 对抗训练
在线阅读 下载PDF
结合Conformer与Transducer结构的端到端中文语音识别
7
作者 张子枫 许鸿奎 +1 位作者 卢江坤 周俊杰 《计算机与数字工程》 2025年第6期1663-1668,共6页
近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Tr... 近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Transducer的端到端中文语音识别系统的研究,通过在Transformer编码器中添加卷积模块构成Conformer编码器,提高对局部细微信息的抓取能力,在自注意力中引入相对正弦位置编码方案,提高模型的泛化能力,用Conformer编码器结合Transducer结构构建出Conformer-Transducer模型,通过联合网络共同建模的方法实现对声学信息和语言学信息的端到端联合优化。在开源中文语音数据集AISHELL1上的实验结果表明,Conformer-Transducer模型的字错误率下降到5.0%,相比于基线模型和其他端到端模型都有较大幅度降低,且模型的识别速度较快,证明了模型的有效性。 展开更多
关键词 语音识别 conformer RNN-Transducer 端到端
在线阅读 下载PDF
基于双路Conformer的目标说话人提取网络
8
作者 丁鑫 夏秀渝 《电子制作》 2025年第3期32-37,共6页
目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说... 目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说话人编码器、语音提取器和解码器四部分组成。首先,将目标说话人的参考语音送入编码器和说话人编码器,提取出目标说话人的特征,这些特征表征了目标说话人的个性化信息。接着,将混合语音送入编码器,得到相应的语音特征。再将混合语音的语音特征送入到语音提取器,同时嵌入目标说话人的特征,通过这一步骤,语音提取器可以估计出与目标说话人对应的掩码。将获得的掩码与语音特征进行逐元素相乘,即可分离出目标说话人的语音特征。最后,将分离出的目标语音特征送入解码器进行解码,即可恢复出目标说话人的清晰语音。实验结果表明,与主流的语音分离网络Conv-TasNet、DPRNN以及目标说话人提取网络SpEx+相比,该网络在尺度不变信号失真比上分别提升了41.4%,24.9%,4.1%,在短时客观可懂度上分别提升了8.9%,6.2%,1.2%。 展开更多
关键词 深度学习 目标说话人提取 conformer 双路径网络 多任务学习
在线阅读 下载PDF
基于遮蔽多头注意力的CTC-Conformer中文语音识别模型 被引量:1
9
作者 黄天圆 王超 《智能计算机与应用》 2025年第2期162-167,共6页
Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在... Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在不确定性,同时模型采用的多头注意力还会将未来时间步输入信息泄漏到当前时间步。采用连接时序分类(Connectionist Temporal Classification, CTC)机制进行辅助训练,不仅可以提高基于Macaron-Net结构的Conformer模型鲁棒性,还可以解决音频和文本不对齐问题。在解码器部分,应用遮蔽多头自注意力机制以确保在t时刻模型无法查看未来时间步的输入信息,从而保证模型仅利用已生成的标记进行预测。实验结果表明,基于遮蔽多头注意力的CTC-Conformer模型相对于Conformer模型的字错率与损失率均有所下降,损失值最低达到了3.24。 展开更多
关键词 conformer CTC 遮蔽多头注意力 语言处理
在线阅读 下载PDF
基于YOLOV5+Conformer模型课堂智能监测系统设计研究
10
作者 陈维龙 李红玲 +2 位作者 周世俊 康宇暄 索熠承 《信息记录材料》 2025年第1期172-175,共4页
随着教育信息化的快速发展,针对传统课堂监测系统存在的精准度不足、数据单一、效率低下等问题,本研究创新性地提出一种高效的多模态交互智能监测系统。首先,针对现有高性能系统模型,设计对比测试方案,选用YOLOV5-BiFPN-Sdet(YOLOv5中S... 随着教育信息化的快速发展,针对传统课堂监测系统存在的精准度不足、数据单一、效率低下等问题,本研究创新性地提出一种高效的多模态交互智能监测系统。首先,针对现有高性能系统模型,设计对比测试方案,选用YOLOV5-BiFPN-Sdet(YOLOv5中S级双向特征金字塔检测模型)与Conformer(自注意力与卷积网络融合模型)两种卓越的模型。其次,构建总体框架与系统功能模块,保证软件设计的高品质与稳定性。最后,设计并实现直观、便捷的终端APP界面,优化硬件配置与软件交互体验。结果表明:该模型的应用显著增强系统精准性、效率与鲁棒性,为教育现代化与高质量课堂教学提供坚实技术支撑,具有广泛应用价值。 展开更多
关键词 多模态融合 课堂专注力 智能监测 YOLOV5 conformer
在线阅读 下载PDF
基于Swin Transformer增强的Conformer在皮肤癌分类中的应用
11
作者 宋双 连剑 《信息技术与信息化》 2025年第5期81-84,共4页
在医学领域,皮肤癌早期的精准诊断对患者的治疗具有重大意义。文章创新性地提出了基于Swin Transformer增强的Conformer方法,该方法深入分析了Swin Transformer强大的多尺度特征提取能力以及Conformer对局部和全局特征的高效整合优势,... 在医学领域,皮肤癌早期的精准诊断对患者的治疗具有重大意义。文章创新性地提出了基于Swin Transformer增强的Conformer方法,该方法深入分析了Swin Transformer强大的多尺度特征提取能力以及Conformer对局部和全局特征的高效整合优势,并将两者有机结合。针对ISIC 2019皮肤图像数据集,进行了严谨的数据预处理,包括数据增强、归一化等操作,以提升模型的泛化能力。随后运用精心设计的模型对大量皮肤图像展开精准分类。实验结果表明,此模型在皮肤癌分类任务中展现出卓越性能,在准确率、召回率和F1值等关键指标上相较于传统模型取得显著提升。 展开更多
关键词 Swin Transformer conformer 皮肤癌分类 ISIC 2019
在线阅读 下载PDF
结合Conformer与N-gram的中文语音识别 被引量:6
12
作者 许鸿奎 卢江坤 +5 位作者 张子枫 周俊杰 胡文烨 姜彤彤 郭文涛 李振业 《计算机系统应用》 2022年第7期194-202,共9页
Transformer模型对输入序列中重要的信息进行学习,相比传统的ASR(automatic speech recognition)模型提升了准确性.Conformer模型在Transformer的编码器中加入卷积模块,增加了获取细微局部信息的能力,进一步提高了模型性能.本文结合使用... Transformer模型对输入序列中重要的信息进行学习,相比传统的ASR(automatic speech recognition)模型提升了准确性.Conformer模型在Transformer的编码器中加入卷积模块,增加了获取细微局部信息的能力,进一步提高了模型性能.本文结合使用Conformer模型和N-gram语言模型(language model,LM)用于中文语音识别,获得了良好的识别效果.在数据集AISHELL-1和aidatatang_200zh上的实验表明,使用Conformer模型字错率分别可降低到5.79%和5.60%,较Transformer模型降低了5.82%和2.71%.结合N-gram语言模型后字错率分别可降低到4.86%和5.10%达到最佳性能,实时率(real time factor,RTF)达到0.14566.测试信噪比降低为20 dB时模型字错率才明显下降到8.58%,表明该模型具有一定的抗噪能力. 展开更多
关键词 语音识别 TRANSFORMER 语言模型 conformer 深度学习
在线阅读 下载PDF
基于改进Conformer的新闻领域端到端语音识别 被引量:4
13
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 conformer 句子层级一致性
在线阅读 下载PDF
基于多尺度阶梯时频Conformer GAN的语音增强算法 被引量:4
14
作者 金玉堂 王以松 +1 位作者 王丽会 赵鹏利 《计算机应用》 CSCD 北大核心 2023年第11期3607-3615,共9页
针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在... 针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在多个尺度上利用时间-频率Conformer学习时域和频域的全局及局部特征依赖;其次,利用Mask Decoder分支学习振幅掩码,而Complex Decoder分支则直接学习干净的语谱图,融合这两个Decoder分支的输出可得到重建后的语音;最后,利用指标判别器判别语音的评价指标得分,通过极大极小训练使生成器生成高质量的语音。采用主观评价平均意见得分(MOS)和客观评价指标在公开数据集VoiceBank+Demand上与各类语音增强模型进行对比,结果显示,所提算法的MOS信号失真(CSIG)和MOS噪声失真(CBAK)比目前最先进的方法CMGAN(基于Conformer的指标生成对抗网络语音增强模型)分别提高了0.04和0.07,尽管它的MOS整体语音质量(COVL)和语音质量的感知评估(PESQ)略低于CMGAN,但与其他对比模型相比在多项主客观语音质量评估方面的评分均处于领先水平。 展开更多
关键词 语音增强 多尺度 conformer 生成对抗网络 指标判别器 深度学习
在线阅读 下载PDF
基于U-Conformer的多特征融合鸟鸣声分离方法 被引量:1
15
作者 倪东明 石煜炜 +1 位作者 夏灿玮 谢将剑 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期388-395,共8页
针对多个鸟类个体同时发声导致的鸣声混叠问题,本文提出了一种融合录音通道间空间特征的鸟类鸣声分离方法.该方法将混叠鸣声信号的声谱特征和空间特征作为分离模型的输入,提出深度学习模型U-Conformer来预测每个鸣声源方向的幅值谱掩膜(... 针对多个鸟类个体同时发声导致的鸣声混叠问题,本文提出了一种融合录音通道间空间特征的鸟类鸣声分离方法.该方法将混叠鸣声信号的声谱特征和空间特征作为分离模型的输入,提出深度学习模型U-Conformer来预测每个鸣声源方向的幅值谱掩膜(spectral magnitude mask,SMM),通过模型估计的SMM从混叠鸣声信号中恢复每个鸣声源信号.由多源混叠鸟类鸣声数据的实验结果表明,本文提出的分离方法较其他深度学习模型结构具有更好的分离效果,有助于更好地分析野外鸟类鸣声录音. 展开更多
关键词 鸟鸣声分离 空间特征 conformer 幅值谱掩膜
在线阅读 下载PDF
基于Conformer的端到端语音识别模型的压缩优化策略 被引量:3
16
作者 桑江坤 努尔麦麦提·尤鲁瓦斯 《信号处理》 CSCD 北大核心 2022年第12期2639-2649,共11页
随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以... 随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3~4倍。 展开更多
关键词 深度学习 端到端语音识别 conformer 量化 剪枝 分解
在线阅读 下载PDF
基于Conformer的端到端语音识别方法 被引量:3
17
作者 胡从刚 申艺翔 +1 位作者 孙永奇 赵思聪 《计算机应用研究》 CSCD 北大核心 2024年第7期2018-2024,共7页
针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将... 针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将多分支融合为单分支,以降低计算复杂度、加快模型推理速度。然后,利用基于压缩和激励网络的通道注意力机制弥补缺失的通道特征信息,以提高语音识别准确率。最后,在公开数据集Aishell-1上的实验结果表明:相较于Conformer,所提出方法的字错误率降低了10.67%,验证了方法的先进性。此外,RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。 展开更多
关键词 语音识别 conformer RepVGG 压缩和激励网络
在线阅读 下载PDF
基于Conformer的时域多通道语音分离方法 被引量:2
18
作者 陈佳佳 张海剑 华光 《无线电工程》 北大核心 2023年第9期2054-2060,共7页
多通道语音中的空间特征信息为说话人分离提供了重要的线索,为了更好地提取通道间信息并有效降低网络的处理时延,提出一种多通道时域语音分离方法。利用多层编码器实现语音特征提取并挖掘通道间信息,在逐层编码过程中获得不同时间分辨... 多通道语音中的空间特征信息为说话人分离提供了重要的线索,为了更好地提取通道间信息并有效降低网络的处理时延,提出一种多通道时域语音分离方法。利用多层编码器实现语音特征提取并挖掘通道间信息,在逐层编码过程中获得不同时间分辨率的语音特征并降低特征时间维度;引入Conformer结构对语音全局时间关系进行建模,在解码阶段使用特征加权跳跃连接融合对应编码层的输出特征进行解码,并将高维语音特征恢复为时域信号。在基于LibriSpeech仿真的多通道混响带噪语音数据集中进行实验,实验结果表明,所提方法通过多层编解码机制充分利用了多通道语音信息并降低了网络处理时延,通过Conformer实现并行数据处理和全局时间关系建模,在推理速度、分离语音质量和语音感知质量方面均优于基线单通道和多通道时域语音分离算法。 展开更多
关键词 语音分离 conformer 多通道 多层编码器
在线阅读 下载PDF
基于LSTM和Conformer的下肢外骨骼步态预测方法 被引量:3
19
作者 赵侦钧 王涛 +1 位作者 贝太学 宋涛涛 《计算机时代》 2022年第8期1-5,共5页
提出一种新颖的基于长短期记忆神经网络(Long Short-term Memory,LSTM)和Conformer相结合的步态预测方法,用于解决下肢外骨骼人机协同问题。首先利用LSTM网络模型在时间上对步态数据序列做初步的特征提取及预测,然后采用Conformer模型对... 提出一种新颖的基于长短期记忆神经网络(Long Short-term Memory,LSTM)和Conformer相结合的步态预测方法,用于解决下肢外骨骼人机协同问题。首先利用LSTM网络模型在时间上对步态数据序列做初步的特征提取及预测,然后采用Conformer模型对LSTM模型输出的数据在时空上作进一步的深度特征提取,并经线性激活单元输出预测结果。利用Pytorch搭建LSTM-Conformer神经网络模型,由采集到的下肢姿态数据组建成的数据集作为输入,将步态所属类别标签作为输出进行验证。实验结果表明,拟议网络模型平均准确率达到了94.89%。 展开更多
关键词 外骨骼 步态预测 九轴姿态传感器 长短期记忆网络 conformer模型
在线阅读 下载PDF
使用Conformer增强的混合CTC/Attention端到端中文语音识别 被引量:11
20
作者 陈戈 谢旭康 +1 位作者 孙俊 陈祺东 《计算机工程与应用》 CSCD 北大核心 2023年第4期97-103,共7页
最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问... 最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer-LAS模型。由于Attention过于灵活的对齐方式,使得在嘈杂环境中的效果急剧下降,采用连接时序分类(connectionist temporal classification,CTC)辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出了效果更好的Conformer-LAS-CTC语音识别模型。在开源中文普通话Aishell-1数据集上对提出来的模型进行验证,实验结果表明,Conformer-LAS-CTC相对于采用的基线BLSTM-LAS和Transformer-LAS模型在测试集上的字错率分别相对降低了22.58%和48.76%,模型最终字错误率为4.54%。 展开更多
关键词 端到端 语音识别 conformer LAS 连接时序分类
在线阅读 下载PDF
上一页 1 2 74 下一页 到第
使用帮助 返回顶部