期刊文献+
共找到1,494篇文章
< 1 2 75 >
每页显示 20 50 100
基于DRSN-Conformer的电力调度语音识别
1
作者 韩亚旭 高鹭 +3 位作者 张飞 秦岭 王永平 张晓琳 《现代电子技术》 北大核心 2026年第6期112-119,共8页
针对基于Transformer网络的语音识别模型对电力调度噪声场景下音频特征提取能力不足、专业术语识别准确率较低以及鲁棒性较差等问题,提出一种结合深度残差收缩网络(DRSN)和Conformer网络的电力调度场景语音识别方法。首先,在DRSN中设计... 针对基于Transformer网络的语音识别模型对电力调度噪声场景下音频特征提取能力不足、专业术语识别准确率较低以及鲁棒性较差等问题,提出一种结合深度残差收缩网络(DRSN)和Conformer网络的电力调度场景语音识别方法。首先,在DRSN中设计通道阈值共享型和独立型两类收缩模块以学习音频信号的噪声阈值,减少噪声带来的干扰;然后,采用Conformer块将DRSN块输出的音频信号编码为音频特征,并使用交叉注意力融合文本编码器编码之后的文本特征,得到音频与文本的相关性表示;最后,结合CTC损失与Attention损失进行训练和解码。在公开数据集Aishell-1、Thchs30以及内蒙古自治区某电网公司内部电力调度数据集上的实验结果表明:相较于Transformer网络模型,所提方法最终字错误率降低了8.5%,专业术语识别字错误率降低了5.2%,验证了该方法在解决电力调度语音识别任务中的有效性和先进性。 展开更多
关键词 语音识别 DRSN conformer 电力调度 注意力机制 BiLSTM
在线阅读 下载PDF
基于Conformer-MoE的多设备迁移学习非侵入式负荷分解方法
2
作者 程鹏举 樊艳芳 +1 位作者 侯俊杰 蔺红 《智慧电力》 北大核心 2026年第1期102-109,共8页
针对非侵入式负荷分解方法在多设备并发下分解精度低,且高度依赖大规模标签数据的问题,提出一种基于Conformer与混合专家(MoE)的多设备迁移学习负荷分解方法。该方法利用Conformer融合卷积的局部感知与自注意力机制的全局建模能力,引入... 针对非侵入式负荷分解方法在多设备并发下分解精度低,且高度依赖大规模标签数据的问题,提出一种基于Conformer与混合专家(MoE)的多设备迁移学习负荷分解方法。该方法利用Conformer融合卷积的局部感知与自注意力机制的全局建模能力,引入稀疏激活的MoE模块,以低计算成本扩展模型容量,增强对用电模式的表征能力。构建“主干-分支”式的迁移学习框架,通过源域预训练共享主干及在目标域微调特定电器分支,实现知识在不同数据集间的迁移。算例分析表明,所提方法显著提升了多设备并发场景下的分解精度与跨数据集迁移的泛化能力。 展开更多
关键词 非侵入式负荷分解 多设备 迁移学习 conformer MOE
在线阅读 下载PDF
融合最大池化的Conformer中文语音识别
3
作者 胡从刚 杨立鹏 +2 位作者 孙永奇 陈华龙 韩可可 《计算机工程》 北大核心 2026年第1期105-115,共11页
语音识别旨在通过先进的算法与信号处理技术,赋予机器理解人类语音的能力,使得人与机器之间的交流更加便捷、顺畅。目前,大多数端到端语音识别的研究工作主要围绕Conformer模型进行优化。针对Conformer编码器对语音细粒度局部特征提取... 语音识别旨在通过先进的算法与信号处理技术,赋予机器理解人类语音的能力,使得人与机器之间的交流更加便捷、顺畅。目前,大多数端到端语音识别的研究工作主要围绕Conformer模型进行优化。针对Conformer编码器对语音细粒度局部特征提取能力不足的问题,提出一种融合最大池化(MP)的Conformer中文语音识别模型。首先,将编码器卷积模块中门控线性单元的输出在时间维度上进行MP,以提取多帧语音信号对应一个字符的细粒度局部特征。然后,将池化后的特征与逐通道卷积(DWC)提取的粗粒度局部特征以逐元素相加的方式进行融合,以增加语音局部特征的信息量,从而提高Conformer模型的语音识别准确率。最后,在公开的中文数据集Aishell-1上的实验结果表明:采用贪心搜索方式进行解码,所提模型可以将基线模型的字错误率(CER)从5.58%降低至5.32%;采用注意力重打分方式进行解码,所提模型可以将基线模型的CER从5.06%降低至4.92%。 展开更多
关键词 语音识别 细粒度局部特征 conformer模型 最大池化 逐通道卷积
在线阅读 下载PDF
RSG-Conformer:ReLU-Based Sparse and Grouped Conformer for Audio-Visual Speech Recognition
4
作者 Yewei Xiao Xin Du Wei Zeng 《Computers, Materials & Continua》 2026年第3期1325-1348,共24页
Audio-visual speech recognition(AVSR),which integrates audio and visual modalities to improve recognition performance and robustness in noisy or adverse acoustic conditions,has attracted significant research interest.... Audio-visual speech recognition(AVSR),which integrates audio and visual modalities to improve recognition performance and robustness in noisy or adverse acoustic conditions,has attracted significant research interest.However,Conformer-based architectures remain computational expensive due to the quadratic increase in the spatial and temporal complexity of their softmax-based attention mechanisms with sequence length.In addition,Conformerbased architectures may not provide sufficient flexibility for modeling local dependencies at different granularities.To mitigate these limitations,this study introduces a novel AVSR framework based on a ReLU-based Sparse and Grouped Conformer(RSG-Conformer)architecture.Specifically,we propose a Global-enhanced Sparse Attention(GSA)module incorporating an efficient context restoration block to recover lost contextual cues.Concurrently,a Grouped-scale Convolution(GSC)module replaces the standard Conformer convolution module,providing adaptive local modeling across varying temporal resolutions.Furthermore,we integrate a Refined Intermediate Contextual CTC(RIC-CTC)supervision strategy.This approach applies progressively increasing loss weights combined with convolution-based context aggregation,thereby further relaxing the constraint of conditional independence inherent in standard CTC frameworks.Evaluations on the LRS2 and LRS3 benchmark validate the efficacy of our approach,with word error rates(WERs)reduced to 1.8%and 1.5%,respectively.These results further demonstrate and validate its state-of-the-art performance in AVSR tasks. 展开更多
关键词 Audio-visual speech recognition conformer CTC sparse attention
在线阅读 下载PDF
融合双通道卷积和改进型Conformer的两阶段语音增强算法
5
作者 徐佳瑜 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第4期149-157,共9页
针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息... 针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息,并结合门控机制增强网络的短期与长期序列相关性,从而提升模型在复杂环境下的语音增强效果;提出改进型Conformer,采用时间注意和频率注意分别在时域和频域上进行建模,并结合膨胀卷积模块高效提取局部与全局上下文信息,从而增强网络在语音序列建模中的表现能力。其次,针对模型结构单一的问题,采用两阶段处理结构,将复杂问题分步处理。在第一阶段首先接收噪声频谱的幅值,初步估计出干净语音的幅值,并与噪声相位进行重构,得到粗糙的复频谱。第二阶段在第一阶段得到粗谱的基础上进一步提取更精细的特征,增强语音信号的细节表现能力。最后,在VoiceBank+DEMAND数据集上进行测试,实验结果表明,所提算法相比带噪语音的语音感知质量和短时客观可懂度分别提升50.25%、3.26%,表明该网络能够更有效地提高语音的可懂度,同时改善语音信号的整体质量,具有较强的降噪能力。 展开更多
关键词 深度学习 语音增强 conformer 多尺度特征提取 两阶段
原文传递
基于时频注意力Conformer的多尺度短语音说话人识别模型
6
作者 杨璐 张邦成 +1 位作者 杨俊美 曾德炉 《电子学报》 北大核心 2025年第8期2658-2667,共10页
基于短语音的识别任务由于数据短缺、特征提取不精确,是说话人识别(Speaker Recognition,SR)领域目前面临的挑战之一.针对数据量匮乏场景下的短语音声纹特征提取和身份识别,本文设计了一种基于时频注意力和卷积增强的短语音说话人识别网... 基于短语音的识别任务由于数据短缺、特征提取不精确,是说话人识别(Speaker Recognition,SR)领域目前面临的挑战之一.针对数据量匮乏场景下的短语音声纹特征提取和身份识别,本文设计了一种基于时频注意力和卷积增强的短语音说话人识别网络.本文在Transformer编码器中引入时频注意力和卷积,提出一种称为时频注意力Conformer(Time-Frequency Attention Convolution-augmented Transformer,TFA-Conformer)的模块,充分利用时频域通道中的信息来计算从全局到局部的有效性权重,帮助模型捕获精确的声学特征,使得特征编码器在短语音(3 s以内)环境下生成具有高判别性的说话人特征向量.本文在标准说话人数据集TIMIT和ST-CMDS上评估了所提出的有监督训练网络模型,在短语音条件下,其识别准确性等指标相比主流方法平均提升4.837%,并且在更短时间和更少数据量的语音段识别中有平均2.799%的相对提升.本文提出模型的参数更少且计算复杂度更低,其适用于短语音场景的同时也更轻量化. 展开更多
关键词 说话人识别 短语音 时频域 自注意力 conformer 声纹特征
在线阅读 下载PDF
结合Conformer与Transducer结构的端到端中文语音识别 被引量:1
7
作者 张子枫 许鸿奎 +1 位作者 卢江坤 周俊杰 《计算机与数字工程》 2025年第6期1663-1668,共6页
近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Tr... 近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Transducer的端到端中文语音识别系统的研究,通过在Transformer编码器中添加卷积模块构成Conformer编码器,提高对局部细微信息的抓取能力,在自注意力中引入相对正弦位置编码方案,提高模型的泛化能力,用Conformer编码器结合Transducer结构构建出Conformer-Transducer模型,通过联合网络共同建模的方法实现对声学信息和语言学信息的端到端联合优化。在开源中文语音数据集AISHELL1上的实验结果表明,Conformer-Transducer模型的字错误率下降到5.0%,相比于基线模型和其他端到端模型都有较大幅度降低,且模型的识别速度较快,证明了模型的有效性。 展开更多
关键词 语音识别 conformer RNN-Transducer 端到端
在线阅读 下载PDF
基于Conformer-LSTM模型的连续无创血压预测方法
8
作者 陈欣 刘立程 王小林 《电子测量技术》 北大核心 2025年第15期120-128,共9页
本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒... 本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒张压通过预测的ABP波形得出。此外,该方法在较大的数据集中取得较小的预测误差,实验结果表明,本文提出的模型在MIMIC数据集中预测的ABP波形与实际波形的拟合程度较好,SBP和DBP的预测误差分别为(3.68±5.60)mmHg和(2.16±3.72)mmHg,该方法符合美国医疗仪器促进协会(AAMI)标准,并在英国高血压协会(BHS)标准中获得A级评价。 展开更多
关键词 血压预测 多尺度特征融合 conformer PPG信号
原文传递
复数双路径Conformer和深度复数卷积循环神经网络结合的语声增强方法
9
作者 郝鑫语 伍忠东 +1 位作者 杨充六合 楚秦 《应用声学》 北大核心 2025年第6期1652-1661,共10页
针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称... 针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称为Conformer-CRN。将DCCRN中的复数长短时记忆网络模块替换为复数双路径Conformer模块,能够有效捕捉长距离的时-频依赖,更全面地利用全局上下文信息。此外,还在编解码器中增加了复数通道注意力机制模块,进一步提高增强语声的质量。在公开数据集Voice Bank+DEMAND上的实验结果显示,所提出的模型使用更少的参数,在主客观语声质量评估都取得更优的结果。与SE-Conformer相比,增强后的语声感知质量增长了3.20%;与MetricGAN+相比,预测信号失真度增长了7.17%,预测噪声失真度增长了9.97%,预测综合质量测度增长了3.44%。该研究为基于深度学习中参数映射的语声增强方法的发展提供了一定的参考。 展开更多
关键词 深度学习 语声增强 conformer DCCRN 复数通道注意力机制
在线阅读 下载PDF
多任务学习型民航陆空通话语音识别Conformer模型
10
作者 马广林 任晋 +3 位作者 师一华 张海刚 王莉 杨金锋 《计算机应用与软件》 北大核心 2025年第10期183-190,244,共9页
民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引... 民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引入Transformer模型,Conformer模型在保留上下文长距离依赖关系的全局信息建模能力基础上,进一步增强了局部信息的捕获。同时联合连接时序分类(Connectionist Temporal Classification,CTC)和基于注意力的编码解码模型进行多任务学习以进一步提升其性能。实验结果表明,该方法能有效兼顾全局和局部信息的声学建模,在陆空通话数据集上将字符错误率和句错误率分别降低至1.98%和2.89%。 展开更多
关键词 民航陆空通话 语音识别 多任务学习 conformer 端到端
在线阅读 下载PDF
基于YOLOV5+Conformer模型课堂智能监测系统设计研究 被引量:1
11
作者 陈维龙 李红玲 +2 位作者 周世俊 康宇暄 索熠承 《信息记录材料》 2025年第1期172-175,共4页
随着教育信息化的快速发展,针对传统课堂监测系统存在的精准度不足、数据单一、效率低下等问题,本研究创新性地提出一种高效的多模态交互智能监测系统。首先,针对现有高性能系统模型,设计对比测试方案,选用YOLOV5-BiFPN-Sdet(YOLOv5中S... 随着教育信息化的快速发展,针对传统课堂监测系统存在的精准度不足、数据单一、效率低下等问题,本研究创新性地提出一种高效的多模态交互智能监测系统。首先,针对现有高性能系统模型,设计对比测试方案,选用YOLOV5-BiFPN-Sdet(YOLOv5中S级双向特征金字塔检测模型)与Conformer(自注意力与卷积网络融合模型)两种卓越的模型。其次,构建总体框架与系统功能模块,保证软件设计的高品质与稳定性。最后,设计并实现直观、便捷的终端APP界面,优化硬件配置与软件交互体验。结果表明:该模型的应用显著增强系统精准性、效率与鲁棒性,为教育现代化与高质量课堂教学提供坚实技术支撑,具有广泛应用价值。 展开更多
关键词 多模态融合 课堂专注力 智能监测 YOLOV5 conformer
在线阅读 下载PDF
基于并行级联时频Conformer生成对抗网络的语音增强算法
12
作者 王泽宇 韩建宁 +1 位作者 郝国栋 杨润 《计算机与现代化》 2025年第3期22-28,37,共8页
生成对抗网络通过对抗训练的机制不断提升网络映射能力,使其具有强大的降噪能力,被广泛应用于语音增强领域。针对现有生成对抗网络语音增强方法存在利用语音特征序列中的时频相关性和全局相关性不充分,去噪性能欠佳的问题,本文提出一种... 生成对抗网络通过对抗训练的机制不断提升网络映射能力,使其具有强大的降噪能力,被广泛应用于语音增强领域。针对现有生成对抗网络语音增强方法存在利用语音特征序列中的时频相关性和全局相关性不充分,去噪性能欠佳的问题,本文提出一种并行级联时频Conformer生成对抗网络,用于单通道语音增强。首先,并行级联时间-频率Con-former分别对语音语谱图中时间和频率的顺序特征进行建模,提取时域和频域的局部及全局特征供生成器学习;然后,通过2个Decoder路径分别学习带噪语音的幅度掩码和干净语音的语谱图,融合2个路径的输出得到生成后的语音;最后,采用指标判别器评价生成器所生成语音的相关评价指标得分,通过对抗训练提高生成器生成语音的质量,并在公开数据集VoiceBank+Demand上进行了验证。 展开更多
关键词 语音增强 生成对抗网络 时频conformer 指标判别器 对抗训练
在线阅读 下载PDF
基于双路Conformer的目标说话人提取网络
13
作者 丁鑫 夏秀渝 《电子制作》 2025年第3期32-37,共6页
目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说... 目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说话人编码器、语音提取器和解码器四部分组成。首先,将目标说话人的参考语音送入编码器和说话人编码器,提取出目标说话人的特征,这些特征表征了目标说话人的个性化信息。接着,将混合语音送入编码器,得到相应的语音特征。再将混合语音的语音特征送入到语音提取器,同时嵌入目标说话人的特征,通过这一步骤,语音提取器可以估计出与目标说话人对应的掩码。将获得的掩码与语音特征进行逐元素相乘,即可分离出目标说话人的语音特征。最后,将分离出的目标语音特征送入解码器进行解码,即可恢复出目标说话人的清晰语音。实验结果表明,与主流的语音分离网络Conv-TasNet、DPRNN以及目标说话人提取网络SpEx+相比,该网络在尺度不变信号失真比上分别提升了41.4%,24.9%,4.1%,在短时客观可懂度上分别提升了8.9%,6.2%,1.2%。 展开更多
关键词 深度学习 目标说话人提取 conformer 双路径网络 多任务学习
在线阅读 下载PDF
基于遮蔽多头注意力的CTC-Conformer中文语音识别模型 被引量:1
14
作者 黄天圆 王超 《智能计算机与应用》 2025年第2期162-167,共6页
Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在... Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在不确定性,同时模型采用的多头注意力还会将未来时间步输入信息泄漏到当前时间步。采用连接时序分类(Connectionist Temporal Classification, CTC)机制进行辅助训练,不仅可以提高基于Macaron-Net结构的Conformer模型鲁棒性,还可以解决音频和文本不对齐问题。在解码器部分,应用遮蔽多头自注意力机制以确保在t时刻模型无法查看未来时间步的输入信息,从而保证模型仅利用已生成的标记进行预测。实验结果表明,基于遮蔽多头注意力的CTC-Conformer模型相对于Conformer模型的字错率与损失率均有所下降,损失值最低达到了3.24。 展开更多
关键词 conformer CTC 遮蔽多头注意力 语言处理
在线阅读 下载PDF
基于Swin Transformer增强的Conformer在皮肤癌分类中的应用
15
作者 宋双 连剑 《信息技术与信息化》 2025年第5期81-84,共4页
在医学领域,皮肤癌早期的精准诊断对患者的治疗具有重大意义。文章创新性地提出了基于Swin Transformer增强的Conformer方法,该方法深入分析了Swin Transformer强大的多尺度特征提取能力以及Conformer对局部和全局特征的高效整合优势,... 在医学领域,皮肤癌早期的精准诊断对患者的治疗具有重大意义。文章创新性地提出了基于Swin Transformer增强的Conformer方法,该方法深入分析了Swin Transformer强大的多尺度特征提取能力以及Conformer对局部和全局特征的高效整合优势,并将两者有机结合。针对ISIC 2019皮肤图像数据集,进行了严谨的数据预处理,包括数据增强、归一化等操作,以提升模型的泛化能力。随后运用精心设计的模型对大量皮肤图像展开精准分类。实验结果表明,此模型在皮肤癌分类任务中展现出卓越性能,在准确率、召回率和F1值等关键指标上相较于传统模型取得显著提升。 展开更多
关键词 Swin Transformer conformer 皮肤癌分类 ISIC 2019
在线阅读 下载PDF
结合Conformer与N-gram的中文语音识别 被引量:6
16
作者 许鸿奎 卢江坤 +5 位作者 张子枫 周俊杰 胡文烨 姜彤彤 郭文涛 李振业 《计算机系统应用》 2022年第7期194-202,共9页
Transformer模型对输入序列中重要的信息进行学习,相比传统的ASR(automatic speech recognition)模型提升了准确性.Conformer模型在Transformer的编码器中加入卷积模块,增加了获取细微局部信息的能力,进一步提高了模型性能.本文结合使用... Transformer模型对输入序列中重要的信息进行学习,相比传统的ASR(automatic speech recognition)模型提升了准确性.Conformer模型在Transformer的编码器中加入卷积模块,增加了获取细微局部信息的能力,进一步提高了模型性能.本文结合使用Conformer模型和N-gram语言模型(language model,LM)用于中文语音识别,获得了良好的识别效果.在数据集AISHELL-1和aidatatang_200zh上的实验表明,使用Conformer模型字错率分别可降低到5.79%和5.60%,较Transformer模型降低了5.82%和2.71%.结合N-gram语言模型后字错率分别可降低到4.86%和5.10%达到最佳性能,实时率(real time factor,RTF)达到0.14566.测试信噪比降低为20 dB时模型字错率才明显下降到8.58%,表明该模型具有一定的抗噪能力. 展开更多
关键词 语音识别 TRANSFORMER 语言模型 conformer 深度学习
在线阅读 下载PDF
基于改进Conformer的新闻领域端到端语音识别 被引量:4
17
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 conformer 句子层级一致性
在线阅读 下载PDF
基于层次化Conformer的语音合成 被引量:1
18
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 conformer
在线阅读 下载PDF
基于多尺度阶梯时频Conformer GAN的语音增强算法 被引量:4
19
作者 金玉堂 王以松 +1 位作者 王丽会 赵鹏利 《计算机应用》 CSCD 北大核心 2023年第11期3607-3615,共9页
针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在... 针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在多个尺度上利用时间-频率Conformer学习时域和频域的全局及局部特征依赖;其次,利用Mask Decoder分支学习振幅掩码,而Complex Decoder分支则直接学习干净的语谱图,融合这两个Decoder分支的输出可得到重建后的语音;最后,利用指标判别器判别语音的评价指标得分,通过极大极小训练使生成器生成高质量的语音。采用主观评价平均意见得分(MOS)和客观评价指标在公开数据集VoiceBank+Demand上与各类语音增强模型进行对比,结果显示,所提算法的MOS信号失真(CSIG)和MOS噪声失真(CBAK)比目前最先进的方法CMGAN(基于Conformer的指标生成对抗网络语音增强模型)分别提高了0.04和0.07,尽管它的MOS整体语音质量(COVL)和语音质量的感知评估(PESQ)略低于CMGAN,但与其他对比模型相比在多项主客观语音质量评估方面的评分均处于领先水平。 展开更多
关键词 语音增强 多尺度 conformer 生成对抗网络 指标判别器 深度学习
在线阅读 下载PDF
基于U-Conformer的多特征融合鸟鸣声分离方法 被引量:1
20
作者 倪东明 石煜炜 +1 位作者 夏灿玮 谢将剑 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期388-395,共8页
针对多个鸟类个体同时发声导致的鸣声混叠问题,本文提出了一种融合录音通道间空间特征的鸟类鸣声分离方法.该方法将混叠鸣声信号的声谱特征和空间特征作为分离模型的输入,提出深度学习模型U-Conformer来预测每个鸣声源方向的幅值谱掩膜(... 针对多个鸟类个体同时发声导致的鸣声混叠问题,本文提出了一种融合录音通道间空间特征的鸟类鸣声分离方法.该方法将混叠鸣声信号的声谱特征和空间特征作为分离模型的输入,提出深度学习模型U-Conformer来预测每个鸣声源方向的幅值谱掩膜(spectral magnitude mask,SMM),通过模型估计的SMM从混叠鸣声信号中恢复每个鸣声源信号.由多源混叠鸟类鸣声数据的实验结果表明,本文提出的分离方法较其他深度学习模型结构具有更好的分离效果,有助于更好地分析野外鸟类鸣声录音. 展开更多
关键词 鸟鸣声分离 空间特征 conformer 幅值谱掩膜
在线阅读 下载PDF
上一页 1 2 75 下一页 到第
使用帮助 返回顶部