期刊文献+
共找到1,478篇文章
< 1 2 74 >
每页显示 20 50 100
Theoretical and experimental study of 2D conformability of stretchable electronics laminated onto skin 被引量:4
1
作者 DONG WenTao XIAO Lin +4 位作者 ZHU Chen YE Dong WANG ShuoDao HUANG YongAn YIN ZhouPing 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2017年第9期1415-1422,共8页
Smoothly attaching the stretchable epidermal electronic devices(EEDs) onto the skin surface is highly desired to improve the measurement accuracy of electrophysiological signal.The paper presents an analytical approac... Smoothly attaching the stretchable epidermal electronic devices(EEDs) onto the skin surface is highly desired to improve the measurement accuracy of electrophysiological signal.The paper presents an analytical approach to study interfacial mechanics of the 2D planar EEDs on the checkerboard buckling patterns of human skin.Energy variation method is proposed to determine a criterion whether EEDs laminate conformally onto the skin surface under undeformed and stretched cases.EEDs with low bending stiffness(thin,soft devices/backing layer),smooth and soft skin,and strong adhesion promote conformal contact.Furthermore,the adhesion energy at the EED/skin interface is measured by the homemade peeling experiment platform with different substrate thicknesses and areal coverages.The upper limit of the areal coverage for EED conformal contact with the skin is proposed with given EED/skin properties.Conformability of EEDs are validated by experiments with different substrate thickness,areal coverage and external loadings.It provides a design guideline for EED to conformally contact with the skin surface for more accurate biological signal monitoring. 展开更多
关键词 interfacial mechanics epidermal electronics areal coverage conformability E-skin
暂未订购
基于多特征迁移学习的低资源临高方言语音识别方法
2
作者 王忠 曹春杰 +3 位作者 谢夏 穆罕默德·艾哈迈德·拉扎 陈勇青 陈昱珏 《通信学报》 北大核心 2025年第10期221-232,共12页
针对低资源临高方言语音识别中数据稀缺、字错误率高的问题,提出了一种基于多特征迁移学习的端到端语音识别方法。以TeleSpeech-ASR1.0-large多方言预训练模型为基座,融合梅尔频率倒谱系数、滤波器组能量系数与对数梅尔谱3类互补声学特... 针对低资源临高方言语音识别中数据稀缺、字错误率高的问题,提出了一种基于多特征迁移学习的端到端语音识别方法。以TeleSpeech-ASR1.0-large多方言预训练模型为基座,融合梅尔频率倒谱系数、滤波器组能量系数与对数梅尔谱3类互补声学特征,通过构建Conformer-LAS-CTC联合优化架构,利用深度可分离卷积和多头自注意力机制分别捕捉语音信号的局部特征与全局依赖关系,并设计融合CTC、中间层CTC与注意力机制的多任务损失函数进行联合训练。在总时长为280 h的临高方言与普通话混合语料上的实验结果表明,所提方法的字错误率降低至18.89%,显著优于基线模型,有效缓解了低资源方言面临的数据瓶颈问题,为濒危语言的数字化保护提供了可行的技术路径。 展开更多
关键词 低资源语音识别 迁移学习 CONFORMER 多特征融合 临高方言
在线阅读 下载PDF
Multi-objective optimal design for flexible bio-inspired meta-structure with ultra-broadband microwave absorption and thin thickness 被引量:1
3
作者 Mengfei FENG Shenyao LIU +5 位作者 Hui CHENG Kaifu ZHANG Yuan LI Guanjie YU Bo LIU Biao LIANG 《Chinese Journal of Aeronautics》 2025年第3期151-162,共12页
There is an urgent need for the application of broadband Microwave Absorption(MA)structures on the leading edges of aircraft wings,which requires the MA structures to possess both the broadband MA performance and grea... There is an urgent need for the application of broadband Microwave Absorption(MA)structures on the leading edges of aircraft wings,which requires the MA structures to possess both the broadband MA performance and great surface conformability.To meet these requirements,we designed and fabricated a flexible bioinspired meta-structure with ultra-broadband MA,thin thickness and excellent surface conformality.The carbonyl iron powder-carbon nanotubes-polydimethylsiloxane composite was synthesized by physical blending method for fabricating the MA meta-structure.Through geometry-electromagnetic optimal design by heuristic optimization algorithm,the meta-structure mimicking to the nipple photonic nanostructures on the eyes of moth can achieve ultra-broadband MA performance of 35.14 GHz MA bandwidth(reflection loss≤–10 dB),covering 4.86–40.00 GHz,with thickness of only 4.3 mm.Through simple fabrication processes,the meta-structure has been successfully fabricated and bonded on wings’leading edges,exhibiting excellent surface conformability.Furthermore,the designed flexible MA meta-structure possesses significant Radar Cross-Section(RCS)reduction capability,as demonstrated by the RCS analysis of an unmanned aerial vehicle.This flexible ultra-broadband MA meta-structure provides an outstanding candidate to meet the radar stealth requirement of variable curvature structures on aircraft. 展开更多
关键词 Broadband microwave absorption Surface conformability Flexible meta-structure BIO-INSPIRED Electromagnetic Radar cross section
原文传递
基于双通道的流式语音识别技术研究
4
作者 高鹭 王亚豪 +3 位作者 张飞 任晓颖 郝斌 韩亚旭 《电子器件》 2025年第6期1260-1267,共8页
最近,基于RNN-T的端到端模型在流式语音识别任务上表现出了优越的性能。虽然该模型具有天然的流式特性,但是其识别质量仍然落后于先进的非流式模型;其次,该模型倾向于将预测延迟放在最后,因此模型产生了更高的部分延迟。针对以上问题,... 最近,基于RNN-T的端到端模型在流式语音识别任务上表现出了优越的性能。虽然该模型具有天然的流式特性,但是其识别质量仍然落后于先进的非流式模型;其次,该模型倾向于将预测延迟放在最后,因此模型产生了更高的部分延迟。针对以上问题,为了更好地平衡字错误率(Character Error Rate,CER)和延迟指标,将RNN-T模型和基于Attention编码器-解码器模型联合构建双通道模型。具体来说,第一通道编码器利用分块机制思想的Transformer层替换RNN-T的编码层,通过并行处理整个假设序列从而捕获部分组块之间的全局上下文信息,降低解码的计算成本,改善延迟。第二通道使用改进的Transformer rescore并行处理整个流式假设序列来更有效地利用系统计算资源。实验表明,所提出的双通道模型与RNN-T模型相比,在保证延迟可接受范围内,CER也降低了约40%。 展开更多
关键词 流式语音识别 块机制 端到端 TRANSFORMER CONFORMER
在线阅读 下载PDF
基于双流网络与双路径注意力的语音增强方法
5
作者 朱小军 姚海龙 +1 位作者 关英 黄鹤鸣 《甘肃高师学报》 2025年第4期76-83,共8页
针对单通道语音增强方法在复杂噪声环境下存在的语音质量提升有限、增强语音自然度不足以及对非平稳噪声适应性较差等问题,文章提出了一种基于双流网络与双路径注意力机制的单通道语音增强模型(DSNDPASEM).模型中采用双流网络对语音信... 针对单通道语音增强方法在复杂噪声环境下存在的语音质量提升有限、增强语音自然度不足以及对非平稳噪声适应性较差等问题,文章提出了一种基于双流网络与双路径注意力机制的单通道语音增强模型(DSNDPASEM).模型中采用双流网络对语音信号的幅度和相位信息分别进行处理,避免了因忽略相位信息而导致的语音自然度不足的问题.同时,双路径注意力机制通过时间路径和频率路径精准捕捉语音信号的时频特征,为语音增强提供更精准的特征表示.此外,模型引入了Conformer结构,结合自注意力机制与卷积操作,在增强对长序列语音数据的建模能力的同时,提高了计算效率.实验在TIMIT语料库和VoiceBank+DEMAND数据集上进行,结果表明,DSNDPASEM在语音可懂度和质量方面均取得了显著提升,尤其在增强语音的自然度方面表现优越. 展开更多
关键词 单通道语音增强 注意力机制 CONFORMER 相位信息优化
在线阅读 下载PDF
基于语音信号时频特征融合的帕金森病检测方法 被引量:2
6
作者 王晨哲 季薇 +1 位作者 郑慧芬 李云 《郑州大学学报(理学版)》 CAS 北大核心 2025年第1期53-60,共8页
发音障碍是帕金森病的早期症状之一。近年来,基于语音信号的帕金森病检测的研究大多采用梅尔刻度下的相关语音特征与深度神经网络模型相结合的方法。然而,现有的模型无法充分关注语音信号的全局时序信息,且梅尔刻度特征在准确表征帕金... 发音障碍是帕金森病的早期症状之一。近年来,基于语音信号的帕金森病检测的研究大多采用梅尔刻度下的相关语音特征与深度神经网络模型相结合的方法。然而,现有的模型无法充分关注语音信号的全局时序信息,且梅尔刻度特征在准确表征帕金森病的病理信息方面效果有限。为此,提出了一种基于语音时频特征融合的帕金森病检测方法。首先,提取语音的梅尔频率倒谱系数,并将其作为模型的输入。接着,在已有的S-vectors模型中引入Conformer编码器模块,以提取语音的时域全局特征。最后,将与帕金森病语音检测相关的频域全局特征嵌入时域特征中进行时频信息融合,以实现帕金森病语音检测。在公开帕金森病语音数据集和自采语音数据集上验证了方法的有效性。 展开更多
关键词 帕金森病 梅尔频率倒谱系数 S-vectors CONFORMER 时频特征融合
在线阅读 下载PDF
结合字节级别字节对编码的端到端中文语音识别方法 被引量:1
7
作者 付强 徐振平 +1 位作者 盛文星 叶青 《计算机应用》 北大核心 2025年第1期318-324,共7页
针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并... 针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并合并频率最高的词汇单元;最后,重复上一步直至无法合并,以得到最终的词汇表。在中文语音数据集AISHELL-1上,该方法生成的词汇表相较于字符级别词汇表的词汇量减少了88.5%,降低了模型训练的复杂度。同时,鉴于Conformer-Transducer(Conformer-T)模型在端到端语音识别中的出色表现,为了实现更好的识别效果,将最新的Zipformer模型与Transducer模型相结合提出Zipformer-Transducer(Zipformer-T)模型,并在该模型上对BBPE方法进行验证。实验结果表明,Zipformer-T模型使用的BBPE方法相较于字符级别分词方法在AISHELL-1测试集和验证集上的字错率(CER)分别降低了0.12和0.08个百分点,且分别达到4.26%和3.98%的最低CER,充分说明该方法能有效提升中文语音识别的性能。 展开更多
关键词 语音识别 CONFORMER Zipformer 字节级别字节对编码 端到端
在线阅读 下载PDF
改进Transformer解码器的端到端语音识别 被引量:1
8
作者 胡恒博 牛铜 何振华 《计算机应用》 北大核心 2025年第S1期95-100,共6页
Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进... Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进的Transformer解码器。将Transformer解码器中的2种注意力机制拆分为2个单独模块,再使用交叉注意力进行更高效的局部特征捕获。在开源中文普通话AISHELL-1数据集上的实验结果表明,使用能够捕获局部特征的编码器时,该解码器相较于Transformer解码器有着更好的识别效果。具体地,当编码器为Conformer时,字错误率(CER)降低了16.19%,且收敛速度更快,而在使用了连接时序分类(CTC)进行辅助解码后,CER降低了5.08%,最终的CER为4.67%。 展开更多
关键词 交叉注意力 Transformer解码器 Conformer编码器 语音识别 局部特征
在线阅读 下载PDF
融合双通道卷积和改进型Conformer的两阶段语音增强算法
9
作者 徐佳瑜 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第4期149-157,共9页
针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息... 针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息,并结合门控机制增强网络的短期与长期序列相关性,从而提升模型在复杂环境下的语音增强效果;提出改进型Conformer,采用时间注意和频率注意分别在时域和频域上进行建模,并结合膨胀卷积模块高效提取局部与全局上下文信息,从而增强网络在语音序列建模中的表现能力。其次,针对模型结构单一的问题,采用两阶段处理结构,将复杂问题分步处理。在第一阶段首先接收噪声频谱的幅值,初步估计出干净语音的幅值,并与噪声相位进行重构,得到粗糙的复频谱。第二阶段在第一阶段得到粗谱的基础上进一步提取更精细的特征,增强语音信号的细节表现能力。最后,在VoiceBank+DEMAND数据集上进行测试,实验结果表明,所提算法相比带噪语音的语音感知质量和短时客观可懂度分别提升50.25%、3.26%,表明该网络能够更有效地提高语音的可懂度,同时改善语音信号的整体质量,具有较强的降噪能力。 展开更多
关键词 深度学习 语音增强 CONFORMER 多尺度特征提取 两阶段
原文传递
基于时频注意力Conformer的多尺度短语音说话人识别模型
10
作者 杨璐 张邦成 +1 位作者 杨俊美 曾德炉 《电子学报》 北大核心 2025年第8期2658-2667,共10页
基于短语音的识别任务由于数据短缺、特征提取不精确,是说话人识别(Speaker Recognition,SR)领域目前面临的挑战之一.针对数据量匮乏场景下的短语音声纹特征提取和身份识别,本文设计了一种基于时频注意力和卷积增强的短语音说话人识别网... 基于短语音的识别任务由于数据短缺、特征提取不精确,是说话人识别(Speaker Recognition,SR)领域目前面临的挑战之一.针对数据量匮乏场景下的短语音声纹特征提取和身份识别,本文设计了一种基于时频注意力和卷积增强的短语音说话人识别网络.本文在Transformer编码器中引入时频注意力和卷积,提出一种称为时频注意力Conformer(Time-Frequency Attention Convolution-augmented Transformer,TFA-Conformer)的模块,充分利用时频域通道中的信息来计算从全局到局部的有效性权重,帮助模型捕获精确的声学特征,使得特征编码器在短语音(3 s以内)环境下生成具有高判别性的说话人特征向量.本文在标准说话人数据集TIMIT和ST-CMDS上评估了所提出的有监督训练网络模型,在短语音条件下,其识别准确性等指标相比主流方法平均提升4.837%,并且在更短时间和更少数据量的语音段识别中有平均2.799%的相对提升.本文提出模型的参数更少且计算复杂度更低,其适用于短语音场景的同时也更轻量化. 展开更多
关键词 说话人识别 短语音 时频域 自注意力 CONFORMER 声纹特征
在线阅读 下载PDF
基于Conformer-LSTM模型的连续无创血压预测方法
11
作者 陈欣 刘立程 王小林 《电子测量技术》 北大核心 2025年第15期120-128,共9页
本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒... 本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒张压通过预测的ABP波形得出。此外,该方法在较大的数据集中取得较小的预测误差,实验结果表明,本文提出的模型在MIMIC数据集中预测的ABP波形与实际波形的拟合程度较好,SBP和DBP的预测误差分别为(3.68±5.60)mmHg和(2.16±3.72)mmHg,该方法符合美国医疗仪器促进协会(AAMI)标准,并在英国高血压协会(BHS)标准中获得A级评价。 展开更多
关键词 血压预测 多尺度特征融合 CONFORMER PPG信号
原文传递
ACGFN:基于非对称卷积和门控前馈神经网络的语音识别模型 被引量:2
12
作者 王詠森 刘倩 刘立波 《中文信息学报》 北大核心 2025年第1期167-174,共8页
针对现有基于Conformer语音识别模型对时频特征提取能力不足、模型结构冗余和参数量较大的问题,该文提出一个基于非对称卷积和门控前馈神经网络的语音识别模型ACGFN。首先,采用不同感受野大小的非对称卷积对语音序列的时频特征进行多尺... 针对现有基于Conformer语音识别模型对时频特征提取能力不足、模型结构冗余和参数量较大的问题,该文提出一个基于非对称卷积和门控前馈神经网络的语音识别模型ACGFN。首先,采用不同感受野大小的非对称卷积对语音序列的时频特征进行多尺度融合下采样,在增强模型提取时频特征的能力的同时,有效降低了下采样过程中信息的损失;其次,引入门控前馈模块替换Conformer中的双半步前馈网络,降低网络参数量的同时精简了模型结构。实验结果表明,该方法在公共数据集AISHELL-1和aidatatang_200zh的测试集上字错误率分别为4.48%、4.28%,且参数量仅40.3M。相较对比方法,识别字错误率和参数量均有所降低。 展开更多
关键词 语音识别 端到端 CONFORMER
在线阅读 下载PDF
复数双路径Conformer和深度复数卷积循环神经网络结合的语声增强方法
13
作者 郝鑫语 伍忠东 +1 位作者 杨充六合 楚秦 《应用声学》 北大核心 2025年第6期1652-1661,共10页
针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称... 针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称为Conformer-CRN。将DCCRN中的复数长短时记忆网络模块替换为复数双路径Conformer模块,能够有效捕捉长距离的时-频依赖,更全面地利用全局上下文信息。此外,还在编解码器中增加了复数通道注意力机制模块,进一步提高增强语声的质量。在公开数据集Voice Bank+DEMAND上的实验结果显示,所提出的模型使用更少的参数,在主客观语声质量评估都取得更优的结果。与SE-Conformer相比,增强后的语声感知质量增长了3.20%;与MetricGAN+相比,预测信号失真度增长了7.17%,预测噪声失真度增长了9.97%,预测综合质量测度增长了3.44%。该研究为基于深度学习中参数映射的语声增强方法的发展提供了一定的参考。 展开更多
关键词 深度学习 语声增强 CONFORMER DCCRN 复数通道注意力机制
在线阅读 下载PDF
多任务学习型民航陆空通话语音识别Conformer模型
14
作者 马广林 任晋 +3 位作者 师一华 张海刚 王莉 杨金锋 《计算机应用与软件》 北大核心 2025年第10期183-190,244,共9页
民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引... 民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引入Transformer模型,Conformer模型在保留上下文长距离依赖关系的全局信息建模能力基础上,进一步增强了局部信息的捕获。同时联合连接时序分类(Connectionist Temporal Classification,CTC)和基于注意力的编码解码模型进行多任务学习以进一步提升其性能。实验结果表明,该方法能有效兼顾全局和局部信息的声学建模,在陆空通话数据集上将字符错误率和句错误率分别降低至1.98%和2.89%。 展开更多
关键词 民航陆空通话 语音识别 多任务学习 CONFORMER 端到端
在线阅读 下载PDF
基于多视角注意力的异构双分支解码单通道语音增强
15
作者 更藏措毛 黄鹤鸣 《计算机应用》 北大核心 2025年第10期3284-3293,共10页
针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous DualBranch with Multi-View)。该模... 针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous DualBranch with Multi-View)。该模型通过信息融合编码器(IFE)、时频残差Conformer(TFRC)模块、多视角注意力(MVA)模块和异构双分支解码器(HDBD)等机制,提升单通道语音增强的性能。首先,IFE联合处理振幅与复数特征,捕捉全局依赖和局部相关,生成紧凑的特征表示;其次,TFRC模块有效捕捉时间维度和频域维度上的相关性,同时降低计算复杂度;再次,MVA模块重构通道域和时频域信息,进一步增强模型对信息的多视角多层次的表征能力;最后,HDBD分别处理幅度特征和细化复数特征,解决幅度相位补偿问题,提升解码鲁棒性。实验结果表明,HDBMV在公开数据集VoiceBank+DEMAND、大数据集DNS Challenge 2020和自建的藏语数据集BodSpeDB上的语音质量感知评估(PESQ)分别达到了3.00、3.12和2.09,短时目标可理解度(STOI)分别达到了0.96、0.97和0.81。可见,HDBMV以最小的参数量和较高的计算效率获得了最佳的语音增强性能和较强的泛化能力。 展开更多
关键词 语音增强 编解码器 CONFORMER 注意力机制 复数特征
在线阅读 下载PDF
融合CTC/Attention联合解码的拉萨方言抗噪语音识别研究
16
作者 许松涛 高定国 曲珍 《计算机时代》 2025年第12期25-30,共6页
拉萨方言是藏语的重要分支,对拉萨方言的语音识别展开研究具有重要的理论和实践意义。本文针对带噪拉萨方言的研究匮乏、词错率(WER)高的问题,将语音增强算法和语音识别模型串联成拉萨方言抗噪语音识别系统,同时改进Conformer语音识别模... 拉萨方言是藏语的重要分支,对拉萨方言的语音识别展开研究具有重要的理论和实践意义。本文针对带噪拉萨方言的研究匮乏、词错率(WER)高的问题,将语音增强算法和语音识别模型串联成拉萨方言抗噪语音识别系统,同时改进Conformer语音识别模型,引入CTC/Attention联合解码机制,构成Conformer-CTC/Attention语音识别模型进一步降低WER。实验结果表明,本文构建的Conformer-CTC/Attention语音识别模型在公开藏语语音数据集上取得了25.46%的WER,普遍低于主流模型;本文构建的拉萨方言抗噪语音识别模型对带噪语音的WER相较于普通语音识别模型降低了8.9%。 展开更多
关键词 拉萨方言 语音识别 CONFORMER 语音增强
在线阅读 下载PDF
CGA-Based Approach to Forward Kinematics of Parallel Mechanisms with the 3-RE Structure 被引量:2
17
作者 Duanling Li Yuankai Zhang +4 位作者 Ying Zhang Zhonghai Zhang Longjie Fan Xiao Su Shuaimin Gao 《Chinese Journal of Mechanical Engineering》 2025年第3期365-376,共12页
To investigate the forward kinematics problem of parallel mechanisms with complex limbs and to expand the applicability of the powerful tool of Conformal Geometric Algebra(CGA),a CGA-based modeling and solution method... To investigate the forward kinematics problem of parallel mechanisms with complex limbs and to expand the applicability of the powerful tool of Conformal Geometric Algebra(CGA),a CGA-based modeling and solution method for a class of parallel platforms with 3-RE structure after locking the actuated joints is proposed in this paper.Given that the angle between specific joint axes of limbs remains constant,a set of geometric constraints for the forward kinematics of parallel mechanisms(PM)are determined.After translating unit direction vectors of these joint axes to the common starting point,the geometric constraints of the angle between the vectors are transformed into the distances between the endpoints of the vectors,making them easier to handle.Under the framework of CGA,the positions of key points that determine the position and orientation of the moving platform can be intuitively determined by the intersection,division,and duality of basic geometric entities.By employing the tangent half-angle substitution,the forward kinematic analysis of the parallel mechanisms leads to a high-order univariate polynomial equation without the need for any complex algebraic elimination operations.After solving this equation and back substitution,the position and pose of the MP can be obtained indirectly.A numerical case is utilized to confirm the effectiveness of the proposed method. 展开更多
关键词 Conformal geometric algebra Parallel mechanisms Forward kinematics Elimination-free Coordinate-
在线阅读 下载PDF
结合Conformer与Transducer结构的端到端中文语音识别
18
作者 张子枫 许鸿奎 +1 位作者 卢江坤 周俊杰 《计算机与数字工程》 2025年第6期1663-1668,共6页
近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Tr... 近年来基于自注意力的Transformer模型凭借其出色的长距离信息捕获能力在语音识别领域应用广泛,然而Transformer不善于获取局部细微信息,且语言建模能力不强,这对识别的准确率造成了影响。针对上述问题,论文开展了基于Conformer和RNN-Transducer的端到端中文语音识别系统的研究,通过在Transformer编码器中添加卷积模块构成Conformer编码器,提高对局部细微信息的抓取能力,在自注意力中引入相对正弦位置编码方案,提高模型的泛化能力,用Conformer编码器结合Transducer结构构建出Conformer-Transducer模型,通过联合网络共同建模的方法实现对声学信息和语言学信息的端到端联合优化。在开源中文语音数据集AISHELL1上的实验结果表明,Conformer-Transducer模型的字错误率下降到5.0%,相比于基线模型和其他端到端模型都有较大幅度降低,且模型的识别速度较快,证明了模型的有效性。 展开更多
关键词 语音识别 CONFORMER RNN-Transducer 端到端
在线阅读 下载PDF
基于遮蔽多头注意力的CTC-Conformer中文语音识别模型 被引量:1
19
作者 黄天圆 王超 《智能计算机与应用》 2025年第2期162-167,共6页
Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在... Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在不确定性,同时模型采用的多头注意力还会将未来时间步输入信息泄漏到当前时间步。采用连接时序分类(Connectionist Temporal Classification, CTC)机制进行辅助训练,不仅可以提高基于Macaron-Net结构的Conformer模型鲁棒性,还可以解决音频和文本不对齐问题。在解码器部分,应用遮蔽多头自注意力机制以确保在t时刻模型无法查看未来时间步的输入信息,从而保证模型仅利用已生成的标记进行预测。实验结果表明,基于遮蔽多头注意力的CTC-Conformer模型相对于Conformer模型的字错率与损失率均有所下降,损失值最低达到了3.24。 展开更多
关键词 CONFORMER CTC 遮蔽多头注意力 语言处理
在线阅读 下载PDF
基于并行级联时频Conformer生成对抗网络的语音增强算法
20
作者 王泽宇 韩建宁 +1 位作者 郝国栋 杨润 《计算机与现代化》 2025年第3期22-28,37,共8页
生成对抗网络通过对抗训练的机制不断提升网络映射能力,使其具有强大的降噪能力,被广泛应用于语音增强领域。针对现有生成对抗网络语音增强方法存在利用语音特征序列中的时频相关性和全局相关性不充分,去噪性能欠佳的问题,本文提出一种... 生成对抗网络通过对抗训练的机制不断提升网络映射能力,使其具有强大的降噪能力,被广泛应用于语音增强领域。针对现有生成对抗网络语音增强方法存在利用语音特征序列中的时频相关性和全局相关性不充分,去噪性能欠佳的问题,本文提出一种并行级联时频Conformer生成对抗网络,用于单通道语音增强。首先,并行级联时间-频率Con-former分别对语音语谱图中时间和频率的顺序特征进行建模,提取时域和频域的局部及全局特征供生成器学习;然后,通过2个Decoder路径分别学习带噪语音的幅度掩码和干净语音的语谱图,融合2个路径的输出得到生成后的语音;最后,采用指标判别器评价生成器所生成语音的相关评价指标得分,通过对抗训练提高生成器生成语音的质量,并在公开数据集VoiceBank+Demand上进行了验证。 展开更多
关键词 语音增强 生成对抗网络 时频Conformer 指标判别器 对抗训练
在线阅读 下载PDF
上一页 1 2 74 下一页 到第
使用帮助 返回顶部