基于动态时间规整与Transformer的连续语音识别与发音校正算法被引量：1

Continuous speech recognition and pronunciation correction algorithm based on DTW and Transformer

下载PDF

导出

摘要针对传统动态时间规整(DTW)算法在大规模语音数据处理中效率低、非特定人识别鲁棒性不足,以及Transformer模型在短时语音时序对齐精度欠佳的问题,提出一种DTW与Transformer融合的连续语音识别与发音校正算法。该算法通过DTW实现短时语音帧的精准时序对齐,利用Transformer的多头注意力机制捕捉长时语音序列的全局依赖关系,构建“局部对齐-全局建模”的双层处理架构。在公开语音数据集TIMIT和自建语言学习发音数据集上的实验结果表明:所提算法的连续语音识别词错误率(WER)较传统DTW算法降低18.9%,较单一Transformer模型降低5.7%;发音校正的音素错误检出率达95.3%,实时响应延迟控制在280 ms以内,可以满足语言教育、智能评测等场景的应用需求。 In allusion to the limitations of traditional dynamic time warping(DTW)algorithms in large-scale speech processing,such as low efficiency,insufficient robustness for non-specific person recognition,and the poor accuracy of Transformer models in short-term speech alignment,a continuous speech recognition and pronunciation correction algorithm based on DTW-Transformer fusion is proposed.This algorithm can realize the precise temporal alignment of short-term speech frames by means of DTW,capture the global dependencies of long-term speech sequences by means of the multi-head attention mechanism of Transformer,and construct a two-layer processing architecture of"local alignment-global modeling".The experimental results on the public speech dataset TIMIT and proprietary speech learning pronunciation dataset reveal that the word error rate(WER)of the proposed algorithm in continuous speech recognition is 18.9%lower than that of the traditional DTW algorithm and 5.7%lower than that of the single Transformer model.The phoneme error detection rate for pronunciation correction can reach 95.3%,and the real-time response delay is controlled within 280 ms,which can meet the application requirements of scenarios such as language education and intelligent evaluation.

作者潘桂妹 PAN Guimei(Zhanjiang University of Science and Technology,Zhanjiang 524094,China)

机构地区湛江科技学院

出处《现代电子技术》北大核心 2025年第24期61-66,共6页 Modern Electronics Technique

基金广东省教育厅项目(粤教高函[2023]4号-1097) 中国民办教育协会2025年度规划课题(青年课题)(CANQN250851) 湛江市哲学社会科学2025年度规划项目(ZJ25YB47)。

关键词连续语音识别发音校正动态时间规整 TRANSFORMER 时序对齐注意力机制 continuous speech recognition pronunciation correction dynamic time warping Transformer temporal alignment attention mechanism

分类号 TN912.34-34 [电子电信—通信与信息系统] TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1朱洋,曾庆宁,赵学军.双通道解码的端到端连续语音识别[J].桂林电子科技大学学报,2024,44(2):167-173. 被引量：1
2屈丹,杨绪魁,闫红刚,陈雅淇,牛铜.低资源少样本连续语音识别最新进展[J].郑州大学学报（工学版）,2023,44(4):1-9. 被引量：7
3赵元琪,尹永柯,王洪君,房明.基于频谱分析仪的语音识别及控制软件系统设计[J].现代电子技术,2024,47(6):27-31. 被引量：6
4汤卫芬,高翠芳.极值点自适应加权的动态时间规整算法[J].计算机工程,2023,49(7):150-160. 被引量：7
5邱莲鹏,宋承云.噪声鲁棒的动态时间规整算法[J].计算机应用,2023,43(6):1855-1860. 被引量：3
6刘美,王全民.基于DTW的时间序列相似度量方法的优化[J].计算机与数字工程,2023,51(4):814-819. 被引量：4
7付予哲,王玫,阚瑞祥,仇洪冰.基于双重随机增强与分层Transformer的城市环境声检测方法[J].现代电子技术,2025,48(19):115-121. 被引量：1
8芦志凡,赵倩.基于ICEEMDAN-DCN-Transformer的短期电力负荷预测[J].沈阳工业大学学报,2024,46(4):388-396. 被引量：5
9朱灵龙,王亚刚,陈怡.融合Transformer与卷积神经网络的图像分类算法[J].电子科技,2025,38(10):96-105. 被引量：1
10杨佳沛,王宇,彭广建,白清,刘昕,靳宝全.基于DTW-GMM的光纤传感系统声纹识别方法[J].电子测量与仪器学报,2024,38(4):176-186. 被引量：6

二级参考文献90

1余双勇,衣文索,陈昊玥,韩冬子,王鑫睿.分布式声传感型特种光纤结构设计[J].仪器仪表学报,2021,42(3):59-69. 被引量：10
2侯德华,张庆,李忠玉,张会峰,Busel A V.基于DTW算法的复合改性沥青相容性评价研究[J].化工新型材料,2023,51(S01):191-196. 被引量：1
3滕旭东,袁晓,赵元英,魏永豪.数字分数微分器系数的快速算法[J].电子科技大学学报,2004,33(4):457-460. 被引量：11
4袁晓,张红雨,虞厥邦.分数导数与数字微分器设计[J].电子学报,2004,32(10):1658-1665. 被引量：48
5蒲亦非,袁晓,廖科,陈忠林,周激流.现代信号分析与处理中分数阶微积分的五种数值实现算法[J].四川大学学报（工程科学版）,2005,37(5):118-124. 被引量：32
6张恒,袁晓,帅晓飞,汤韩杰,陈理.分数演算的G-L数值算法中加权系数求解[J].四川大学学报（自然科学版）,2007,44(4):831-834. 被引量：2
7张晶,范明,冯文全,董金明.基于MFCC参数的说话人特征提取算法的改进[J].电声技术,2009,33(9):61-64. 被引量：17
8赵义正.改进GMM谱包络转换性能的语音转换算法研究[J].科学技术与工程,2010,10(17):4172-4174. 被引量：4
9宋辞,裴韬.基于特征的时间序列聚类方法研究进展[J].地理科学进展,2012,31(10):1307-1317. 被引量：30
10李霄寒,戴蓓倩,方绍武,刘鸣.高阶MFCC的话者识别性能及其噪声鲁棒性[J].信号处理,2001,17(2):124-129. 被引量：14

共引文献48

1周涛,刘赟璨,陆惠玲,叶鑫宇,常晓玉.ResNet及其在医学图像处理领域的应用:研究进展与挑战[J].电子与信息学报,2022,44(1):149-167. 被引量：37
2伍雄,陈为真.i-TDNN:一种基于TDNN改进的含噪声纹识别方法[J].长江信息通信,2023,36(2):27-30. 被引量：2
3李琪,周宇,和浩铭,袁晓.分数阶数字FIR微分器的快速WSLD设计算法[J].太赫兹科学与电子信息学报,2023,21(5):652-660. 被引量：2
4李广,郑豪豪,蔡红柱,陈超健,石福升,龚松林.基于深度残差网络与MVMD的多通道地磁信号处理[J].地球物理学报,2023,66(8):3540-3556. 被引量：8
5闫汶朋,汪志涛,袁晓.基于分数微分的时间序列相似性度量及其应用[J].四川大学学报（自然科学版）,2023,60(4):104-111.
6罗亮,周玉萍,龙海侠,史贤晖,胡宇,宋明.基于自适配归一化快速风格迁移设计的黎锦图案[J].云南民族大学学报（自然科学版）,2023,32(6):779-784.
7杨紫怡,袁晓.G-L分数导数高阶逼近算法的鲁比希生成函数系数的求解[J].四川大学学报（自然科学版）,2024,61(2):88-93.
8王杨,李迎春,许佳炜,王傲,马唱,宋世佳,谢帆,赵传信,胡明.基于改进Vision Transformer网络的农作物病害识别方法[J].小型微型计算机系统,2024,45(4):887-893. 被引量：12
9相紫涵,谷潇,饶崇郅,渐令.低资源青岛方言语音识别方法研究[J].计算机技术与发展,2024,34(4):146-152. 被引量：1
10孙红英.压缩感知技术在语音信息隐藏和信息识别中的应用[J].电声技术,2024,48(4):121-123.

同被引文献17

1叶艳,吴鹏,周知,黄炜,张莉曼.基于LDA-BiLSTM模型的在线医疗服务质量识别研究[J].情报理论与实践,2022,45(8):178-183. 被引量：26
2刘文霞,王荣杰,郜怀通,曾超俊.基于量子粒子群算法的无人水面艇路径规划[J].集美大学学报（自然科学版）,2023,28(1):34-40. 被引量：3
3彭添晨.基于量子粒子群算法的工业机器人时间最优轨迹规划[J].上海电气技术,2023,16(2):68-72. 被引量：4
4刘晓冬.基于量子粒子群算法的含DG配电网优化重构[J].电气开关,2023,61(4):24-27. 被引量：4
5张婧婧,施亭亭,汪强.基于量子粒子群算法的公共空间主功能区布局优化设计方法[J].齐齐哈尔大学学报（自然科学版）,2023,39(6):66-71. 被引量：2
6王丹丹,张天天,罗力,戴瑞明,刘洪国,杨建军,盛韬,王海琴,李维益.基于患者投诉数据的医疗机构服务质量评价实证研究[J].中国卫生资源,2023,26(5):515-520. 被引量：9
7曹珍,张舒羽.基于Transformer的微博文本情感分析方法[J].计算机与数字工程,2024,52(7):2146-2149. 被引量：2
8李嘉鑫,陈敏,刘晓雷.基于患者在线评论分析的医疗服务质量研究[J].现代医院,2024,24(10):1535-1538. 被引量：1
9王晓峰.基于Transformer模型的中文文本生成方法研究[J].无线互联科技,2024,21(20):44-46. 被引量：1
10尹春勇,张小虎.基于Transformer和Text-CNN的日志异常检测[J].计算机工程与科学,2025,47(3):448-458. 被引量：1

引证文献1

1任昱君,黄先涛,宋晶晶,金宣伯,贾丽群.基于Transformer模型的医患沟通语义分析与满意度预测研究[J].电子设计工程,2026,34(5):12-16.

1赵倾国.基于DIVA模型的英语辅音发音错误自动校正方法[J].信息技术,2023,47(12):162-166.
2赵宗泽,周钰瑶,陈时雨.夜光遥感城市等级分类方法与鲁棒性特征分析[J].河南理工大学学报(自然科学版),2025,44(6):156-164.
3谢新桥,欧毅,刘宇,彭慧,宋睿敏,黄江峰.基于RTK辅助的行人模态识别[J].压电与声光,2025,47(4):769-775.
4罗增锦.基于声纹识别的电力线路施工期故障预警技术应用研究[J].机电信息,2025(20):13-16.
5张建华,温政龙.长距离双尺度的Transformer短时交通流预测模型[J].重庆交通大学学报(自然科学版),2025,44(8):99-107.
6曲素菲,李春茂.AI图像生成机制与视觉叙事表达研究综述——以Mdourney为例[J].智能物联技术,2025,57(6):116-119.
7李营营.基于动态时间规整的桥梁损伤识别与定位方法[J].工程机械与维修,2025(9):122-124.
8赵文龙,王列伟,王军华,杨吉祥.基于多尺度注意力与动态软掩膜的无监督图像拼接方法[J].计算机应用研究,2025,42(12):3785-3792.
9陈睿,刘修泉,杨伟,曾帅,卢国钦.基于视觉大模型的机器人目标定位技术[J].信息与电脑,2025,37(23):10-12.
10双爽,陈萍,李雯馨,廖丽玲.面向移动用户体验的高并发自动化拨测系统建设[J].中国新通信,2025,27(18):5-8.

现代电子技术

2025年第24期

浏览历史

内容加载中请稍等...

基于动态时间规整与Transformer的连续语音识别与发音校正算法被引量：1

参考文献18

二级参考文献90

共引文献48

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于动态时间规整与Transformer的连续语音识别与发音校正算法 被引量：1

参考文献18

二级参考文献90

共引文献48

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于动态时间规整与Transformer的连续语音识别与发音校正算法被引量：1