期刊文献+
共找到1,494篇文章
< 1 2 75 >
每页显示 20 50 100
一种基于时域全面注意力机制的单通道语音分离模型
1
作者 杨俊美 张邦成 +1 位作者 杨璐 曾徳炉 《华南理工大学学报(自然科学版)》 北大核心 2026年第1期70-82,共13页
单通道语音分离旨在从单一麦克风采集的混合语音中分离出目标说话人的纯净语音,在智能家居、会议系统和助听设备等场景具有重要应用价值。随着深度学习技术的快速发展,基于自注意力网络的单通道语音分离技术取得显著进展。尽管自注意力... 单通道语音分离旨在从单一麦克风采集的混合语音中分离出目标说话人的纯净语音,在智能家居、会议系统和助听设备等场景具有重要应用价值。随着深度学习技术的快速发展,基于自注意力网络的单通道语音分离技术取得显著进展。尽管自注意力网络在捕捉长序列上下文信息方面表现优异,但其对实际语音场景中时间/频谱连续性、频谱结构和音色等细节特征的捕捉仍存在局限。此外,现有基于单一注意力范式的分离架构难以实现多尺度特征的有效融合。该文提出了一种时域全面注意力网络(TCANet)模型,通过局部与全局注意力模块的协同设计,针对性地解决单通道语音分离中的上述问题。局部建模采用S&C-SENet增强的Conformer结构,以精细提取语音频谱结构、音色等短时特征;全局建模则构建含相对位置嵌入的改进型Transformer模块,显式学习语音长时依赖关系;同时,TCANet通过维度变换机制实现局部块内特征与全局块间关联的跨尺度融合。在基准数据集LRS2-2Mix、Libri2Mix和EchoSet上的实验结果表明,该方法在尺度不变信噪比改善(SI-SNRi)和信号失真比改善(SDRi)指标上均优于现有端到端语音分离方法。 展开更多
关键词 深度学习 语音分离 Transformer模块 Conformer结构 全面注意力
在线阅读 下载PDF
基于DRSN-Conformer的电力调度语音识别
2
作者 韩亚旭 高鹭 +3 位作者 张飞 秦岭 王永平 张晓琳 《现代电子技术》 北大核心 2026年第6期112-119,共8页
针对基于Transformer网络的语音识别模型对电力调度噪声场景下音频特征提取能力不足、专业术语识别准确率较低以及鲁棒性较差等问题,提出一种结合深度残差收缩网络(DRSN)和Conformer网络的电力调度场景语音识别方法。首先,在DRSN中设计... 针对基于Transformer网络的语音识别模型对电力调度噪声场景下音频特征提取能力不足、专业术语识别准确率较低以及鲁棒性较差等问题,提出一种结合深度残差收缩网络(DRSN)和Conformer网络的电力调度场景语音识别方法。首先,在DRSN中设计通道阈值共享型和独立型两类收缩模块以学习音频信号的噪声阈值,减少噪声带来的干扰;然后,采用Conformer块将DRSN块输出的音频信号编码为音频特征,并使用交叉注意力融合文本编码器编码之后的文本特征,得到音频与文本的相关性表示;最后,结合CTC损失与Attention损失进行训练和解码。在公开数据集Aishell-1、Thchs30以及内蒙古自治区某电网公司内部电力调度数据集上的实验结果表明:相较于Transformer网络模型,所提方法最终字错误率降低了8.5%,专业术语识别字错误率降低了5.2%,验证了该方法在解决电力调度语音识别任务中的有效性和先进性。 展开更多
关键词 语音识别 DRSN CONFORMER 电力调度 注意力机制 BiLSTM
在线阅读 下载PDF
基于Conformer-MoE的多设备迁移学习非侵入式负荷分解方法
3
作者 程鹏举 樊艳芳 +1 位作者 侯俊杰 蔺红 《智慧电力》 北大核心 2026年第1期102-109,共8页
针对非侵入式负荷分解方法在多设备并发下分解精度低,且高度依赖大规模标签数据的问题,提出一种基于Conformer与混合专家(MoE)的多设备迁移学习负荷分解方法。该方法利用Conformer融合卷积的局部感知与自注意力机制的全局建模能力,引入... 针对非侵入式负荷分解方法在多设备并发下分解精度低,且高度依赖大规模标签数据的问题,提出一种基于Conformer与混合专家(MoE)的多设备迁移学习负荷分解方法。该方法利用Conformer融合卷积的局部感知与自注意力机制的全局建模能力,引入稀疏激活的MoE模块,以低计算成本扩展模型容量,增强对用电模式的表征能力。构建“主干-分支”式的迁移学习框架,通过源域预训练共享主干及在目标域微调特定电器分支,实现知识在不同数据集间的迁移。算例分析表明,所提方法显著提升了多设备并发场景下的分解精度与跨数据集迁移的泛化能力。 展开更多
关键词 非侵入式负荷分解 多设备 迁移学习 CONFORMER MOE
在线阅读 下载PDF
Theoretical and experimental study of 2D conformability of stretchable electronics laminated onto skin 被引量:4
4
作者 DONG WenTao XIAO Lin +4 位作者 ZHU Chen YE Dong WANG ShuoDao HUANG YongAn YIN ZhouPing 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2017年第9期1415-1422,共8页
Smoothly attaching the stretchable epidermal electronic devices(EEDs) onto the skin surface is highly desired to improve the measurement accuracy of electrophysiological signal.The paper presents an analytical approac... Smoothly attaching the stretchable epidermal electronic devices(EEDs) onto the skin surface is highly desired to improve the measurement accuracy of electrophysiological signal.The paper presents an analytical approach to study interfacial mechanics of the 2D planar EEDs on the checkerboard buckling patterns of human skin.Energy variation method is proposed to determine a criterion whether EEDs laminate conformally onto the skin surface under undeformed and stretched cases.EEDs with low bending stiffness(thin,soft devices/backing layer),smooth and soft skin,and strong adhesion promote conformal contact.Furthermore,the adhesion energy at the EED/skin interface is measured by the homemade peeling experiment platform with different substrate thicknesses and areal coverages.The upper limit of the areal coverage for EED conformal contact with the skin is proposed with given EED/skin properties.Conformability of EEDs are validated by experiments with different substrate thickness,areal coverage and external loadings.It provides a design guideline for EED to conformally contact with the skin surface for more accurate biological signal monitoring. 展开更多
关键词 interfacial mechanics epidermal electronics areal coverage conformability E-skin
暂未订购
融合最大池化的Conformer中文语音识别
5
作者 胡从刚 杨立鹏 +2 位作者 孙永奇 陈华龙 韩可可 《计算机工程》 北大核心 2026年第1期105-115,共11页
语音识别旨在通过先进的算法与信号处理技术,赋予机器理解人类语音的能力,使得人与机器之间的交流更加便捷、顺畅。目前,大多数端到端语音识别的研究工作主要围绕Conformer模型进行优化。针对Conformer编码器对语音细粒度局部特征提取... 语音识别旨在通过先进的算法与信号处理技术,赋予机器理解人类语音的能力,使得人与机器之间的交流更加便捷、顺畅。目前,大多数端到端语音识别的研究工作主要围绕Conformer模型进行优化。针对Conformer编码器对语音细粒度局部特征提取能力不足的问题,提出一种融合最大池化(MP)的Conformer中文语音识别模型。首先,将编码器卷积模块中门控线性单元的输出在时间维度上进行MP,以提取多帧语音信号对应一个字符的细粒度局部特征。然后,将池化后的特征与逐通道卷积(DWC)提取的粗粒度局部特征以逐元素相加的方式进行融合,以增加语音局部特征的信息量,从而提高Conformer模型的语音识别准确率。最后,在公开的中文数据集Aishell-1上的实验结果表明:采用贪心搜索方式进行解码,所提模型可以将基线模型的字错误率(CER)从5.58%降低至5.32%;采用注意力重打分方式进行解码,所提模型可以将基线模型的CER从5.06%降低至4.92%。 展开更多
关键词 语音识别 细粒度局部特征 Conformer模型 最大池化 逐通道卷积
在线阅读 下载PDF
RSG-Conformer:ReLU-Based Sparse and Grouped Conformer for Audio-Visual Speech Recognition
6
作者 Yewei Xiao Xin Du Wei Zeng 《Computers, Materials & Continua》 2026年第3期1325-1348,共24页
Audio-visual speech recognition(AVSR),which integrates audio and visual modalities to improve recognition performance and robustness in noisy or adverse acoustic conditions,has attracted significant research interest.... Audio-visual speech recognition(AVSR),which integrates audio and visual modalities to improve recognition performance and robustness in noisy or adverse acoustic conditions,has attracted significant research interest.However,Conformer-based architectures remain computational expensive due to the quadratic increase in the spatial and temporal complexity of their softmax-based attention mechanisms with sequence length.In addition,Conformerbased architectures may not provide sufficient flexibility for modeling local dependencies at different granularities.To mitigate these limitations,this study introduces a novel AVSR framework based on a ReLU-based Sparse and Grouped Conformer(RSG-Conformer)architecture.Specifically,we propose a Global-enhanced Sparse Attention(GSA)module incorporating an efficient context restoration block to recover lost contextual cues.Concurrently,a Grouped-scale Convolution(GSC)module replaces the standard Conformer convolution module,providing adaptive local modeling across varying temporal resolutions.Furthermore,we integrate a Refined Intermediate Contextual CTC(RIC-CTC)supervision strategy.This approach applies progressively increasing loss weights combined with convolution-based context aggregation,thereby further relaxing the constraint of conditional independence inherent in standard CTC frameworks.Evaluations on the LRS2 and LRS3 benchmark validate the efficacy of our approach,with word error rates(WERs)reduced to 1.8%and 1.5%,respectively.These results further demonstrate and validate its state-of-the-art performance in AVSR tasks. 展开更多
关键词 Audio-visual speech recognition CONFORMER CTC sparse attention
在线阅读 下载PDF
Discrete Polyesters Featuring a Cyclic Pendant Group
7
作者 Shuai Wang Qin He +3 位作者 Xi-Tong Chen Dong-Dong Zhou Zhan-Hui Gan Xue-Hui Dong 《Chinese Journal of Polymer Science》 2026年第2期416-422,I0012,共8页
In contrast to cyclic polymers with ring-like backbones,side-chain cyclization is another intriguing structural feature that has not been extensively studied.In this study,a library of orthogonally protected monomers ... In contrast to cyclic polymers with ring-like backbones,side-chain cyclization is another intriguing structural feature that has not been extensively studied.In this study,a library of orthogonally protected monomers featuring monocyclic,dicyclic,or tricyclic pendant motifs was designed and prepared based on malic acid derivatives.Polyesters with precise chemical structures and uniform chain lengths were prepared modularly through iterative growth.Meticulous control over the chemical details allows for a close investigation of the topological effects on the polymer properties.Compared to their linear side chain counterparts,the presence of cyclic pendant groups has a significant impact on chain conformation,leading to a reduction in hydrodynamic volume and an enhancement in the glass transition temperature.These results underscore the potential of tailoring polymer properties through rational engineering of side chain topology. 展开更多
关键词 Discrete polymer Iterative growth Side chain topology Cyclic conformation
原文传递
A novel Angle-Constrained Optimization method of Conformal Lattice Structures
8
作者 Jun Yan Weibin Xu +2 位作者 Fuhao Wang Sixu Huo Kun Yan 《Computer Modeling in Engineering & Sciences》 2026年第2期269-295,共27页
Conformal truss-like lattice structures face significant manufacturability challenges in additive manufac-turing due to overhang angle limitations.To address this problem,we propose a novel angle-constrained optimizat... Conformal truss-like lattice structures face significant manufacturability challenges in additive manufac-turing due to overhang angle limitations.To address this problem,we propose a novel angle-constrained optimization method grounded in the global adjustment of nodal coordinates.First,a build direction is selected to minimize the number of violating struts.Then,an angular-constraint matrix is assembled from strut direction vectors,and analytical sensitivities with respect to nodal coordinates are derived to enable efficient constrained optimization under nonlinear angular inequality constraints.Numerical studies on two complex curved-surface lattices demonstrate that all overhang violations are eliminated while only minor changes are induced in global stiffness and strength.In particular,the maximum displacement of an ergonomic insole varies by only 2.87%after optimization.The results confirm the method’s versatility and engineering robustness,providing a practical approach for additive manufacturing-oriented lattice structure design. 展开更多
关键词 Conformal lattice structures additive manufacturing structural optimization complex structures
在线阅读 下载PDF
3D printed high-temperature ceramic conformal array antenna:Design,analysis,manufacturing,and testing
9
作者 Peng Li Ruibo Li +5 位作者 Zijiao Fan Jiujiu Han Guangda Ding Qunbiao Wang Wanye Xu Paolo Rocca 《Defence Technology(防务技术)》 2026年第1期340-353,共14页
In this study,the design,analysis,manufacturing,and testing of a 3D-printed conformal microstrip array antenna for high-temperature environments is presented.3D printing technology is used to fabricate a curved cerami... In this study,the design,analysis,manufacturing,and testing of a 3D-printed conformal microstrip array antenna for high-temperature environments is presented.3D printing technology is used to fabricate a curved ceramic substrate,and laser sintering and microdroplet spraying processes are used to add the conductive metal on the curved substrate.The problems of gain loss,bandwidth reduction,and frequency shift caused by high temperatures are addressed by using a proper antenna design,with parasitic patches,slots,and metal resonant cavities.The antenna prototype is characterized by the curved substrates and the conductive metals for the power dividers,the patch,and the ground plane;its performance is examined up to a temperature of 600℃in a muffle furnace and compared with the results from the numerical analysis.The results show that the antenna can effectively function at 600℃and even higher temperatures. 展开更多
关键词 Ceramic antenna Conformal array High-temperature environment 3D printing High gain and wide band
在线阅读 下载PDF
Erratum:Bone Regeneration Eff cacy and Applicability of Defect-Fitting 4D Scaffolds Based on Shape Conformity in Three-dimensional Curved Bone Defects
10
作者 Min-Soo Ghim Se-Jin Jang +3 位作者 Eun-Yong Choi Meiling Quan Young-Yul Kim Young-Sam Cho 《Journal of Bionic Engineering》 2026年第1期550-550,共1页
The original online version of this article was revised:The layout update for Article 758 has impacted the page range in the published issue,but did not affect the scholarly content.To ensure consistency with the orig... The original online version of this article was revised:The layout update for Article 758 has impacted the page range in the published issue,but did not affect the scholarly content.To ensure consistency with the originally assigned pages(2595-2614),we will need to publish an erratum to correct the article and restore the original page range.The original article has been corrected. 展开更多
关键词 defect fitting D scaffolds layout update shape conformity three dimensional curved bone defects bone regeneration
暂未订购
A drop-printing strategy for low-stress,conformal bioelectronics
11
作者 Yuqian Nong Qianqian Liu Linfeng Chen 《Science China Materials》 2026年第3期1812-1813,共2页
Advanced biological systems are characterized by dynamic,complex,and functional biointerfaces.Human skin,for example,exemplifies such a biointerface,featuring diverse micro-and nano-scale surface structures.It serves ... Advanced biological systems are characterized by dynamic,complex,and functional biointerfaces.Human skin,for example,exemplifies such a biointerface,featuring diverse micro-and nano-scale surface structures.It serves as an ideal window for bioelectronic devices to acquire vital physiological information,enabling continuous health monitoring,and disease intervention. 展开更多
关键词 disease intervention drop printing strategy conformal bioelectronics acquire vital physiological informationenabling bioelectronic devices advanced biological systems low stress health monitoringand
原文传递
基于多特征迁移学习的低资源临高方言语音识别方法
12
作者 王忠 曹春杰 +3 位作者 谢夏 穆罕默德·艾哈迈德·拉扎 陈勇青 陈昱珏 《通信学报》 北大核心 2025年第10期221-232,共12页
针对低资源临高方言语音识别中数据稀缺、字错误率高的问题,提出了一种基于多特征迁移学习的端到端语音识别方法。以TeleSpeech-ASR1.0-large多方言预训练模型为基座,融合梅尔频率倒谱系数、滤波器组能量系数与对数梅尔谱3类互补声学特... 针对低资源临高方言语音识别中数据稀缺、字错误率高的问题,提出了一种基于多特征迁移学习的端到端语音识别方法。以TeleSpeech-ASR1.0-large多方言预训练模型为基座,融合梅尔频率倒谱系数、滤波器组能量系数与对数梅尔谱3类互补声学特征,通过构建Conformer-LAS-CTC联合优化架构,利用深度可分离卷积和多头自注意力机制分别捕捉语音信号的局部特征与全局依赖关系,并设计融合CTC、中间层CTC与注意力机制的多任务损失函数进行联合训练。在总时长为280 h的临高方言与普通话混合语料上的实验结果表明,所提方法的字错误率降低至18.89%,显著优于基线模型,有效缓解了低资源方言面临的数据瓶颈问题,为濒危语言的数字化保护提供了可行的技术路径。 展开更多
关键词 低资源语音识别 迁移学习 CONFORMER 多特征融合 临高方言
在线阅读 下载PDF
Multi-objective optimal design for flexible bio-inspired meta-structure with ultra-broadband microwave absorption and thin thickness 被引量:1
13
作者 Mengfei FENG Shenyao LIU +5 位作者 Hui CHENG Kaifu ZHANG Yuan LI Guanjie YU Bo LIU Biao LIANG 《Chinese Journal of Aeronautics》 2025年第3期151-162,共12页
There is an urgent need for the application of broadband Microwave Absorption(MA)structures on the leading edges of aircraft wings,which requires the MA structures to possess both the broadband MA performance and grea... There is an urgent need for the application of broadband Microwave Absorption(MA)structures on the leading edges of aircraft wings,which requires the MA structures to possess both the broadband MA performance and great surface conformability.To meet these requirements,we designed and fabricated a flexible bioinspired meta-structure with ultra-broadband MA,thin thickness and excellent surface conformality.The carbonyl iron powder-carbon nanotubes-polydimethylsiloxane composite was synthesized by physical blending method for fabricating the MA meta-structure.Through geometry-electromagnetic optimal design by heuristic optimization algorithm,the meta-structure mimicking to the nipple photonic nanostructures on the eyes of moth can achieve ultra-broadband MA performance of 35.14 GHz MA bandwidth(reflection loss≤–10 dB),covering 4.86–40.00 GHz,with thickness of only 4.3 mm.Through simple fabrication processes,the meta-structure has been successfully fabricated and bonded on wings’leading edges,exhibiting excellent surface conformability.Furthermore,the designed flexible MA meta-structure possesses significant Radar Cross-Section(RCS)reduction capability,as demonstrated by the RCS analysis of an unmanned aerial vehicle.This flexible ultra-broadband MA meta-structure provides an outstanding candidate to meet the radar stealth requirement of variable curvature structures on aircraft. 展开更多
关键词 Broadband microwave absorption Surface conformability Flexible meta-structure BIO-INSPIRED Electromagnetic Radar cross section
原文传递
基于双通道的流式语音识别技术研究
14
作者 高鹭 王亚豪 +3 位作者 张飞 任晓颖 郝斌 韩亚旭 《电子器件》 2025年第6期1260-1267,共8页
最近,基于RNN-T的端到端模型在流式语音识别任务上表现出了优越的性能。虽然该模型具有天然的流式特性,但是其识别质量仍然落后于先进的非流式模型;其次,该模型倾向于将预测延迟放在最后,因此模型产生了更高的部分延迟。针对以上问题,... 最近,基于RNN-T的端到端模型在流式语音识别任务上表现出了优越的性能。虽然该模型具有天然的流式特性,但是其识别质量仍然落后于先进的非流式模型;其次,该模型倾向于将预测延迟放在最后,因此模型产生了更高的部分延迟。针对以上问题,为了更好地平衡字错误率(Character Error Rate,CER)和延迟指标,将RNN-T模型和基于Attention编码器-解码器模型联合构建双通道模型。具体来说,第一通道编码器利用分块机制思想的Transformer层替换RNN-T的编码层,通过并行处理整个假设序列从而捕获部分组块之间的全局上下文信息,降低解码的计算成本,改善延迟。第二通道使用改进的Transformer rescore并行处理整个流式假设序列来更有效地利用系统计算资源。实验表明,所提出的双通道模型与RNN-T模型相比,在保证延迟可接受范围内,CER也降低了约40%。 展开更多
关键词 流式语音识别 块机制 端到端 TRANSFORMER CONFORMER
在线阅读 下载PDF
基于双流网络与双路径注意力的语音增强方法
15
作者 朱小军 姚海龙 +1 位作者 关英 黄鹤鸣 《甘肃高师学报》 2025年第4期76-83,共8页
针对单通道语音增强方法在复杂噪声环境下存在的语音质量提升有限、增强语音自然度不足以及对非平稳噪声适应性较差等问题,文章提出了一种基于双流网络与双路径注意力机制的单通道语音增强模型(DSNDPASEM).模型中采用双流网络对语音信... 针对单通道语音增强方法在复杂噪声环境下存在的语音质量提升有限、增强语音自然度不足以及对非平稳噪声适应性较差等问题,文章提出了一种基于双流网络与双路径注意力机制的单通道语音增强模型(DSNDPASEM).模型中采用双流网络对语音信号的幅度和相位信息分别进行处理,避免了因忽略相位信息而导致的语音自然度不足的问题.同时,双路径注意力机制通过时间路径和频率路径精准捕捉语音信号的时频特征,为语音增强提供更精准的特征表示.此外,模型引入了Conformer结构,结合自注意力机制与卷积操作,在增强对长序列语音数据的建模能力的同时,提高了计算效率.实验在TIMIT语料库和VoiceBank+DEMAND数据集上进行,结果表明,DSNDPASEM在语音可懂度和质量方面均取得了显著提升,尤其在增强语音的自然度方面表现优越. 展开更多
关键词 单通道语音增强 注意力机制 CONFORMER 相位信息优化
在线阅读 下载PDF
基于语音信号时频特征融合的帕金森病检测方法 被引量:2
16
作者 王晨哲 季薇 +1 位作者 郑慧芬 李云 《郑州大学学报(理学版)》 CAS 北大核心 2025年第1期53-60,共8页
发音障碍是帕金森病的早期症状之一。近年来,基于语音信号的帕金森病检测的研究大多采用梅尔刻度下的相关语音特征与深度神经网络模型相结合的方法。然而,现有的模型无法充分关注语音信号的全局时序信息,且梅尔刻度特征在准确表征帕金... 发音障碍是帕金森病的早期症状之一。近年来,基于语音信号的帕金森病检测的研究大多采用梅尔刻度下的相关语音特征与深度神经网络模型相结合的方法。然而,现有的模型无法充分关注语音信号的全局时序信息,且梅尔刻度特征在准确表征帕金森病的病理信息方面效果有限。为此,提出了一种基于语音时频特征融合的帕金森病检测方法。首先,提取语音的梅尔频率倒谱系数,并将其作为模型的输入。接着,在已有的S-vectors模型中引入Conformer编码器模块,以提取语音的时域全局特征。最后,将与帕金森病语音检测相关的频域全局特征嵌入时域特征中进行时频信息融合,以实现帕金森病语音检测。在公开帕金森病语音数据集和自采语音数据集上验证了方法的有效性。 展开更多
关键词 帕金森病 梅尔频率倒谱系数 S-vectors CONFORMER 时频特征融合
在线阅读 下载PDF
结合字节级别字节对编码的端到端中文语音识别方法 被引量:1
17
作者 付强 徐振平 +1 位作者 盛文星 叶青 《计算机应用》 北大核心 2025年第1期318-324,共7页
针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并... 针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并合并频率最高的词汇单元;最后,重复上一步直至无法合并,以得到最终的词汇表。在中文语音数据集AISHELL-1上,该方法生成的词汇表相较于字符级别词汇表的词汇量减少了88.5%,降低了模型训练的复杂度。同时,鉴于Conformer-Transducer(Conformer-T)模型在端到端语音识别中的出色表现,为了实现更好的识别效果,将最新的Zipformer模型与Transducer模型相结合提出Zipformer-Transducer(Zipformer-T)模型,并在该模型上对BBPE方法进行验证。实验结果表明,Zipformer-T模型使用的BBPE方法相较于字符级别分词方法在AISHELL-1测试集和验证集上的字错率(CER)分别降低了0.12和0.08个百分点,且分别达到4.26%和3.98%的最低CER,充分说明该方法能有效提升中文语音识别的性能。 展开更多
关键词 语音识别 CONFORMER Zipformer 字节级别字节对编码 端到端
在线阅读 下载PDF
改进Transformer解码器的端到端语音识别 被引量:1
18
作者 胡恒博 牛铜 何振华 《计算机应用》 北大核心 2025年第S1期95-100,共6页
Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进... Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进的Transformer解码器。将Transformer解码器中的2种注意力机制拆分为2个单独模块,再使用交叉注意力进行更高效的局部特征捕获。在开源中文普通话AISHELL-1数据集上的实验结果表明,使用能够捕获局部特征的编码器时,该解码器相较于Transformer解码器有着更好的识别效果。具体地,当编码器为Conformer时,字错误率(CER)降低了16.19%,且收敛速度更快,而在使用了连接时序分类(CTC)进行辅助解码后,CER降低了5.08%,最终的CER为4.67%。 展开更多
关键词 交叉注意力 Transformer解码器 Conformer编码器 语音识别 局部特征
在线阅读 下载PDF
融合双通道卷积和改进型Conformer的两阶段语音增强算法
19
作者 徐佳瑜 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第4期149-157,共9页
针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息... 针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息,并结合门控机制增强网络的短期与长期序列相关性,从而提升模型在复杂环境下的语音增强效果;提出改进型Conformer,采用时间注意和频率注意分别在时域和频域上进行建模,并结合膨胀卷积模块高效提取局部与全局上下文信息,从而增强网络在语音序列建模中的表现能力。其次,针对模型结构单一的问题,采用两阶段处理结构,将复杂问题分步处理。在第一阶段首先接收噪声频谱的幅值,初步估计出干净语音的幅值,并与噪声相位进行重构,得到粗糙的复频谱。第二阶段在第一阶段得到粗谱的基础上进一步提取更精细的特征,增强语音信号的细节表现能力。最后,在VoiceBank+DEMAND数据集上进行测试,实验结果表明,所提算法相比带噪语音的语音感知质量和短时客观可懂度分别提升50.25%、3.26%,表明该网络能够更有效地提高语音的可懂度,同时改善语音信号的整体质量,具有较强的降噪能力。 展开更多
关键词 深度学习 语音增强 CONFORMER 多尺度特征提取 两阶段
原文传递
结合Conformer与Transducer结构的端到端中文语音识别 被引量:1
20
作者 张子枫 许鸿奎 +1 位作者 卢江坤 周俊杰 《计算机与数字工程》 2025年第6期1663-1668,共6页
近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Tr... 近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Transducer的端到端中文语音识别系统的研究,通过在Transformer编码器中添加卷积模块构成Conformer编码器,提高对局部细微信息的抓取能力,在自注意力中引入相对正弦位置编码方案,提高模型的泛化能力,用Conformer编码器结合Transducer结构构建出Conformer-Transducer模型,通过联合网络共同建模的方法实现对声学信息和语言学信息的端到端联合优化。在开源中文语音数据集AISHELL1上的实验结果表明,Conformer-Transducer模型的字错误率下降到5.0%,相比于基线模型和其他端到端模型都有较大幅度降低,且模型的识别速度较快,证明了模型的有效性。 展开更多
关键词 语音识别 CONFORMER RNN-Transducer 端到端
在线阅读 下载PDF
上一页 1 2 75 下一页 到第
使用帮助 返回顶部