期刊文献+
共找到1,442篇文章
< 1 2 73 >
每页显示 20 50 100
融合双通道卷积和改进型Conformer的两阶段语音增强算法
1
作者 徐佳瑜 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第4期149-157,共9页
针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息... 针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息,并结合门控机制增强网络的短期与长期序列相关性,从而提升模型在复杂环境下的语音增强效果;提出改进型Conformer,采用时间注意和频率注意分别在时域和频域上进行建模,并结合膨胀卷积模块高效提取局部与全局上下文信息,从而增强网络在语音序列建模中的表现能力。其次,针对模型结构单一的问题,采用两阶段处理结构,将复杂问题分步处理。在第一阶段首先接收噪声频谱的幅值,初步估计出干净语音的幅值,并与噪声相位进行重构,得到粗糙的复频谱。第二阶段在第一阶段得到粗谱的基础上进一步提取更精细的特征,增强语音信号的细节表现能力。最后,在VoiceBank+DEMAND数据集上进行测试,实验结果表明,所提算法相比带噪语音的语音感知质量和短时客观可懂度分别提升50.25%、3.26%,表明该网络能够更有效地提高语音的可懂度,同时改善语音信号的整体质量,具有较强的降噪能力。 展开更多
关键词 深度学习 语音增强 conformer 多尺度特征提取 两阶段
原文传递
基于Conformer-LSTM模型的连续无创血压预测方法
2
作者 陈欣 刘立程 王小林 《电子测量技术》 北大核心 2025年第15期120-128,共9页
本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒... 本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒张压通过预测的ABP波形得出。此外,该方法在较大的数据集中取得较小的预测误差,实验结果表明,本文提出的模型在MIMIC数据集中预测的ABP波形与实际波形的拟合程度较好,SBP和DBP的预测误差分别为(3.68±5.60)mmHg和(2.16±3.72)mmHg,该方法符合美国医疗仪器促进协会(AAMI)标准,并在英国高血压协会(BHS)标准中获得A级评价。 展开更多
关键词 血压预测 多尺度特征融合 conformer PPG信号
原文传递
多任务学习型民航陆空通话语音识别Conformer模型
3
作者 马广林 任晋 +3 位作者 师一华 张海刚 王莉 杨金锋 《计算机应用与软件》 北大核心 2025年第10期183-190,244,共9页
民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引... 民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引入Transformer模型,Conformer模型在保留上下文长距离依赖关系的全局信息建模能力基础上,进一步增强了局部信息的捕获。同时联合连接时序分类(Connectionist Temporal Classification,CTC)和基于注意力的编码解码模型进行多任务学习以进一步提升其性能。实验结果表明,该方法能有效兼顾全局和局部信息的声学建模,在陆空通话数据集上将字符错误率和句错误率分别降低至1.98%和2.89%。 展开更多
关键词 民航陆空通话 语音识别 多任务学习 conformer 端到端
在线阅读 下载PDF
结合Conformer与Transducer结构的端到端中文语音识别
4
作者 张子枫 许鸿奎 +1 位作者 卢江坤 周俊杰 《计算机与数字工程》 2025年第6期1663-1668,共6页
近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Tr... 近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Transducer的端到端中文语音识别系统的研究,通过在Transformer编码器中添加卷积模块构成Conformer编码器,提高对局部细微信息的抓取能力,在自注意力中引入相对正弦位置编码方案,提高模型的泛化能力,用Conformer编码器结合Transducer结构构建出Conformer-Transducer模型,通过联合网络共同建模的方法实现对声学信息和语言学信息的端到端联合优化。在开源中文语音数据集AISHELL1上的实验结果表明,Conformer-Transducer模型的字错误率下降到5.0%,相比于基线模型和其他端到端模型都有较大幅度降低,且模型的识别速度较快,证明了模型的有效性。 展开更多
关键词 语音识别 conformer RNN-Transducer 端到端
在线阅读 下载PDF
基于并行级联时频Conformer生成对抗网络的语音增强算法
5
作者 王泽宇 韩建宁 +1 位作者 郝国栋 杨润 《计算机与现代化》 2025年第3期22-28,37,共8页
生成对抗网络通过对抗训练的机制不断提升网络映射能力,使其具有强大的降噪能力,被广泛应用于语音增强领域。针对现有生成对抗网络语音增强方法存在利用语音特征序列中的时频相关性和全局相关性不充分,去噪性能欠佳的问题,本文提出一种... 生成对抗网络通过对抗训练的机制不断提升网络映射能力,使其具有强大的降噪能力,被广泛应用于语音增强领域。针对现有生成对抗网络语音增强方法存在利用语音特征序列中的时频相关性和全局相关性不充分,去噪性能欠佳的问题,本文提出一种并行级联时频Conformer生成对抗网络,用于单通道语音增强。首先,并行级联时间-频率Con-former分别对语音语谱图中时间和频率的顺序特征进行建模,提取时域和频域的局部及全局特征供生成器学习;然后,通过2个Decoder路径分别学习带噪语音的幅度掩码和干净语音的语谱图,融合2个路径的输出得到生成后的语音;最后,采用指标判别器评价生成器所生成语音的相关评价指标得分,通过对抗训练提高生成器生成语音的质量,并在公开数据集VoiceBank+Demand上进行了验证。 展开更多
关键词 语音增强 生成对抗网络 时频conformer 指标判别器 对抗训练
在线阅读 下载PDF
基于双路Conformer的目标说话人提取网络
6
作者 丁鑫 夏秀渝 《电子制作》 2025年第3期32-37,共6页
目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说... 目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说话人编码器、语音提取器和解码器四部分组成。首先,将目标说话人的参考语音送入编码器和说话人编码器,提取出目标说话人的特征,这些特征表征了目标说话人的个性化信息。接着,将混合语音送入编码器,得到相应的语音特征。再将混合语音的语音特征送入到语音提取器,同时嵌入目标说话人的特征,通过这一步骤,语音提取器可以估计出与目标说话人对应的掩码。将获得的掩码与语音特征进行逐元素相乘,即可分离出目标说话人的语音特征。最后,将分离出的目标语音特征送入解码器进行解码,即可恢复出目标说话人的清晰语音。实验结果表明,与主流的语音分离网络Conv-TasNet、DPRNN以及目标说话人提取网络SpEx+相比,该网络在尺度不变信号失真比上分别提升了41.4%,24.9%,4.1%,在短时客观可懂度上分别提升了8.9%,6.2%,1.2%。 展开更多
关键词 深度学习 目标说话人提取 conformer 双路径网络 多任务学习
在线阅读 下载PDF
基于YOLOV5+Conformer模型课堂智能监测系统设计研究
7
作者 陈维龙 李红玲 +2 位作者 周世俊 康宇暄 索熠承 《信息记录材料》 2025年第1期172-175,共4页
随着教育信息化的快速发展,针对传统课堂监测系统存在的精准度不足、数据单一、效率低下等问题,本研究创新性地提出一种高效的多模态交互智能监测系统。首先,针对现有高性能系统模型,设计对比测试方案,选用YOLOV5-BiFPN-Sdet(YOLOv5中S... 随着教育信息化的快速发展,针对传统课堂监测系统存在的精准度不足、数据单一、效率低下等问题,本研究创新性地提出一种高效的多模态交互智能监测系统。首先,针对现有高性能系统模型,设计对比测试方案,选用YOLOV5-BiFPN-Sdet(YOLOv5中S级双向特征金字塔检测模型)与Conformer(自注意力与卷积网络融合模型)两种卓越的模型。其次,构建总体框架与系统功能模块,保证软件设计的高品质与稳定性。最后,设计并实现直观、便捷的终端APP界面,优化硬件配置与软件交互体验。结果表明:该模型的应用显著增强系统精准性、效率与鲁棒性,为教育现代化与高质量课堂教学提供坚实技术支撑,具有广泛应用价值。 展开更多
关键词 多模态融合 课堂专注力 智能监测 YOLOV5 conformer
在线阅读 下载PDF
基于遮蔽多头注意力的CTC-Conformer中文语音识别模型
8
作者 黄天圆 王超 《智能计算机与应用》 2025年第2期162-167,共6页
Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在... Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在不确定性,同时模型采用的多头注意力还会将未来时间步输入信息泄漏到当前时间步。采用连接时序分类(Connectionist Temporal Classification, CTC)机制进行辅助训练,不仅可以提高基于Macaron-Net结构的Conformer模型鲁棒性,还可以解决音频和文本不对齐问题。在解码器部分,应用遮蔽多头自注意力机制以确保在t时刻模型无法查看未来时间步的输入信息,从而保证模型仅利用已生成的标记进行预测。实验结果表明,基于遮蔽多头注意力的CTC-Conformer模型相对于Conformer模型的字错率与损失率均有所下降,损失值最低达到了3.24。 展开更多
关键词 conformer CTC 遮蔽多头注意力 语言处理
在线阅读 下载PDF
基于Swin Transformer增强的Conformer在皮肤癌分类中的应用
9
作者 宋双 连剑 《信息技术与信息化》 2025年第5期81-84,共4页
在医学领域,皮肤癌早期的精准诊断对患者的治疗具有重大意义。文章创新性地提出了基于Swin Transformer增强的Conformer方法,该方法深入分析了Swin Transformer强大的多尺度特征提取能力以及Conformer对局部和全局特征的高效整合优势,... 在医学领域,皮肤癌早期的精准诊断对患者的治疗具有重大意义。文章创新性地提出了基于Swin Transformer增强的Conformer方法,该方法深入分析了Swin Transformer强大的多尺度特征提取能力以及Conformer对局部和全局特征的高效整合优势,并将两者有机结合。针对ISIC 2019皮肤图像数据集,进行了严谨的数据预处理,包括数据增强、归一化等操作,以提升模型的泛化能力。随后运用精心设计的模型对大量皮肤图像展开精准分类。实验结果表明,此模型在皮肤癌分类任务中展现出卓越性能,在准确率、召回率和F1值等关键指标上相较于传统模型取得显著提升。 展开更多
关键词 Swin Transformer conformer 皮肤癌分类 ISIC 2019
在线阅读 下载PDF
基于改进Conformer的新闻领域端到端语音识别 被引量:4
10
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 conformer 句子层级一致性
在线阅读 下载PDF
基于Conformer的端到端语音识别方法 被引量:3
11
作者 胡从刚 申艺翔 +1 位作者 孙永奇 赵思聪 《计算机应用研究》 CSCD 北大核心 2024年第7期2018-2024,共7页
针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将... 针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将多分支融合为单分支,以降低计算复杂度、加快模型推理速度。然后,利用基于压缩和激励网络的通道注意力机制弥补缺失的通道特征信息,以提高语音识别准确率。最后,在公开数据集Aishell-1上的实验结果表明:相较于Conformer,所提出方法的字错误率降低了10.67%,验证了方法的先进性。此外,RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。 展开更多
关键词 语音识别 conformer RepVGG 压缩和激励网络
在线阅读 下载PDF
基于层次化Conformer的语音合成
12
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 conformer
在线阅读 下载PDF
基于时频感知双路径Conformer的语音增强 被引量:1
13
作者 芮阳 高勇 《通信技术》 2024年第4期338-346,共9页
近年来,Conformer在语音领域的应用表现较为突出。该模块通过结合多头自注意力机制和卷积神经网络,能够同时关注短时和长时序列信息,从而在语音处理任务中表现出卓越的性能。在此基础上提出了一种基于时频感知双路径Conformer的语音增... 近年来,Conformer在语音领域的应用表现较为突出。该模块通过结合多头自注意力机制和卷积神经网络,能够同时关注短时和长时序列信息,从而在语音处理任务中表现出卓越的性能。在此基础上提出了一种基于时频感知双路径Conformer的语音增强网络(TFDPCNet)。首先,该网络将改进的Conformer结构作为核心,采用双路径结构,构成时频感知的双路径Conformer模块(TFDP-Conformer),增强了整体网络的时频提取能力;同时,为了减小时频特征融合的难度,提出了注意力门控交叉融合模块(AGCF),通过额外的注意力门进一步增强了网络训练过程中时频特征的交互,提高了时频特征的利用率;最后,引用度量鉴别器,并对其进行适当剪枝,使得增强后的音频和原始音频在量化评价指标上保持更高的一致性。实验结果表明,相比于TSTNN算法,TFDPCNet在主观和客观指标上都有明显提高。 展开更多
关键词 语音增强 双路径conformer 时频域 注意力门控交叉融合 度量鉴别器
在线阅读 下载PDF
基于Conformer模型的智能电网调度语音识别研究 被引量:2
14
作者 邓彬 彭超逸 张宗包 《制造业自动化》 2024年第6期126-131,共6页
完成智能虚拟电网调度,语音识别是重要一部分,识别的准确性直接由语言模型决定。提出一种基于Conformer模型的智能电网调度语音识别技术,在Transformer模型里面引入卷积模块来提高模型的细微特征学习能力,首先介绍了Conformer的原理,并... 完成智能虚拟电网调度,语音识别是重要一部分,识别的准确性直接由语言模型决定。提出一种基于Conformer模型的智能电网调度语音识别技术,在Transformer模型里面引入卷积模块来提高模型的细微特征学习能力,首先介绍了Conformer的原理,并结合LAS解码器构建了语音识别模型;然后输入电网调度语言进行特征提取,提高模型的适应性;最后通过试验验证,所提模型在电网调度语音识别中具有很高的准确性,验证相对于常见的语音识别Transformer模型与CTC模型,在验证集上的字错率分别降低了11.23%、21.76%,表明模型具有很好的效果。 展开更多
关键词 电网调度 语音识别 conformer TRANSFORMER 特征学习
在线阅读 下载PDF
基于Conformer-SE的端到端语音识别
15
作者 马永杰 李罡 《计算机系统应用》 2024年第12期106-114,共9页
基于自注意力机制的Transformer端到端模型在语音识别任务中表现出了卓越的性能.然而,该模型在浅层处理时对局部特征信息的捕捉能力存在一定的局限,同时也没有充分考虑不同块之间的相互依赖性.为了解决这些问题,提出了一种改进的Conform... 基于自注意力机制的Transformer端到端模型在语音识别任务中表现出了卓越的性能.然而,该模型在浅层处理时对局部特征信息的捕捉能力存在一定的局限,同时也没有充分考虑不同块之间的相互依赖性.为了解决这些问题,提出了一种改进的Conformer-SE端到端语音识别系统模型.该模型首先采用了Conformer结构来替代Transformer中的编码器部分,从而增强了模型对局部特征的提取能力.接着,通过引入SE注意力通道机制,将每个块的输出以加权求和的形式整合到最终的输出中.在Aishell-1这一公开数据集上的实验结果显示,相较于原始的Transformer模型,Conformer-SE模型在字符错误率上相对降低了18.18%. 展开更多
关键词 语音识别 端到端 TRANSFORMER conformer SE注意力通道
在线阅读 下载PDF
结合Conformer与N-gram的中文语音识别 被引量:6
16
作者 许鸿奎 卢江坤 +5 位作者 张子枫 周俊杰 胡文烨 姜彤彤 郭文涛 李振业 《计算机系统应用》 2022年第7期194-202,共9页
Transformer模型对输入序列中重要的信息进行学习,相比传统的ASR(automatic speech recognition)模型提升了准确性.Conformer模型在Transformer的编码器中加入卷积模块,增加了获取细微局部信息的能力,进一步提高了模型性能.本文结合使用... Transformer模型对输入序列中重要的信息进行学习,相比传统的ASR(automatic speech recognition)模型提升了准确性.Conformer模型在Transformer的编码器中加入卷积模块,增加了获取细微局部信息的能力,进一步提高了模型性能.本文结合使用Conformer模型和N-gram语言模型(language model,LM)用于中文语音识别,获得了良好的识别效果.在数据集AISHELL-1和aidatatang_200zh上的实验表明,使用Conformer模型字错率分别可降低到5.79%和5.60%,较Transformer模型降低了5.82%和2.71%.结合N-gram语言模型后字错率分别可降低到4.86%和5.10%达到最佳性能,实时率(real time factor,RTF)达到0.14566.测试信噪比降低为20 dB时模型字错率才明显下降到8.58%,表明该模型具有一定的抗噪能力. 展开更多
关键词 语音识别 TRANSFORMER 语言模型 conformer 深度学习
在线阅读 下载PDF
基于多尺度阶梯时频Conformer GAN的语音增强算法 被引量:4
17
作者 金玉堂 王以松 +1 位作者 王丽会 赵鹏利 《计算机应用》 CSCD 北大核心 2023年第11期3607-3615,共9页
针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在... 针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在多个尺度上利用时间-频率Conformer学习时域和频域的全局及局部特征依赖;其次,利用Mask Decoder分支学习振幅掩码,而Complex Decoder分支则直接学习干净的语谱图,融合这两个Decoder分支的输出可得到重建后的语音;最后,利用指标判别器判别语音的评价指标得分,通过极大极小训练使生成器生成高质量的语音。采用主观评价平均意见得分(MOS)和客观评价指标在公开数据集VoiceBank+Demand上与各类语音增强模型进行对比,结果显示,所提算法的MOS信号失真(CSIG)和MOS噪声失真(CBAK)比目前最先进的方法CMGAN(基于Conformer的指标生成对抗网络语音增强模型)分别提高了0.04和0.07,尽管它的MOS整体语音质量(COVL)和语音质量的感知评估(PESQ)略低于CMGAN,但与其他对比模型相比在多项主客观语音质量评估方面的评分均处于领先水平。 展开更多
关键词 语音增强 多尺度 conformer 生成对抗网络 指标判别器 深度学习
在线阅读 下载PDF
基于Conformer的端到端语音识别模型的压缩优化策略 被引量:2
18
作者 桑江坤 努尔麦麦提·尤鲁瓦斯 《信号处理》 CSCD 北大核心 2022年第12期2639-2649,共11页
随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以... 随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3~4倍。 展开更多
关键词 深度学习 端到端语音识别 conformer 量化 剪枝 分解
在线阅读 下载PDF
基于LSTM和Conformer的下肢外骨骼步态预测方法 被引量:3
19
作者 赵侦钧 王涛 +1 位作者 贝太学 宋涛涛 《计算机时代》 2022年第8期1-5,共5页
提出一种新颖的基于长短期记忆神经网络(Long Short-term Memory,LSTM)和Conformer相结合的步态预测方法,用于解决下肢外骨骼人机协同问题。首先利用LSTM网络模型在时间上对步态数据序列做初步的特征提取及预测,然后采用Conformer模型对... 提出一种新颖的基于长短期记忆神经网络(Long Short-term Memory,LSTM)和Conformer相结合的步态预测方法,用于解决下肢外骨骼人机协同问题。首先利用LSTM网络模型在时间上对步态数据序列做初步的特征提取及预测,然后采用Conformer模型对LSTM模型输出的数据在时空上作进一步的深度特征提取,并经线性激活单元输出预测结果。利用Pytorch搭建LSTM-Conformer神经网络模型,由采集到的下肢姿态数据组建成的数据集作为输入,将步态所属类别标签作为输出进行验证。实验结果表明,拟议网络模型平均准确率达到了94.89%。 展开更多
关键词 外骨骼 步态预测 九轴姿态传感器 长短期记忆网络 conformer模型
在线阅读 下载PDF
基于Conformer的时域多通道语音分离方法 被引量:1
20
作者 陈佳佳 张海剑 华光 《无线电工程》 北大核心 2023年第9期2054-2060,共7页
多通道语音中的空间特征信息为说话人分离提供了重要的线索,为了更好地提取通道间信息并有效降低网络的处理时延,提出一种多通道时域语音分离方法。利用多层编码器实现语音特征提取并挖掘通道间信息,在逐层编码过程中获得不同时间分辨... 多通道语音中的空间特征信息为说话人分离提供了重要的线索,为了更好地提取通道间信息并有效降低网络的处理时延,提出一种多通道时域语音分离方法。利用多层编码器实现语音特征提取并挖掘通道间信息,在逐层编码过程中获得不同时间分辨率的语音特征并降低特征时间维度;引入Conformer结构对语音全局时间关系进行建模,在解码阶段使用特征加权跳跃连接融合对应编码层的输出特征进行解码,并将高维语音特征恢复为时域信号。在基于LibriSpeech仿真的多通道混响带噪语音数据集中进行实验,实验结果表明,所提方法通过多层编解码机制充分利用了多通道语音信息并降低了网络处理时延,通过Conformer实现并行数据处理和全局时间关系建模,在推理速度、分离语音质量和语音感知质量方面均优于基线单通道和多通道时域语音分离算法。 展开更多
关键词 语音分离 conformer 多通道 多层编码器
在线阅读 下载PDF
上一页 1 2 73 下一页 到第
使用帮助 返回顶部