摘要
端到端语音翻译模型由于数据稀缺问题很难直接进行有效训练。为此,已有方法基于利用辅助数据进行改进的思路,采取了多种不同的策略,但如何将这些策略有机地结合起来仍是一个难题。该文基于编码分解的统一建模架构,实现了对数据增强、预训练和多任务学习三个关键技术的有效联合。在MuST-C英-中语音翻译数据集上的实验结果表明,数据增强在三种方法中具有最大的潜力,能够显著提升语音翻译模型的性能(5.18 BLEU),并通过联合预训练技术实现了在单个模型上最大程度的性能提升(5.48 BLEU),使模型获得更好的泛化性。尽管进一步结合多任务学习无法带来正向效果,但通过对多种模型进行集成仍可获得5.61 BLEU提升。
End-to-end speech translation models are difficult to train in face of data scarcity.To this end,existing methods have adopted various strategies based on the idea of using auxiliary data for enhancement.In this paper,based on a unified modeling framework of encoder decomposition,we achieve an effective combination of three key techniques,namely data augmentation,pre-training and multi-task learning.Experimental results on the MuST-C En-Zh corpus show that data augmentation can significantly improve the performance of speech translation models(5.18 BLEU),and the maximum performance improvement on a single model(5.48 BLEU)is achieved by combining pre-training techniques.Although farther combining multi-task eearning does not bring positive effects,an improvement of 5.61 BLEU is achieved by ensembling multiple models.
作者
刘晓倩
韩宇晨
朱靖波
许晨
张裕浩
杜扬帆
赫洱锋
马安香
张春良
肖桐
LIU Xiaoqian;HAN Yuchen;ZHU Jingbo;XU Chen;ZHANG Yuhao;DU Yangfan;HE Erfeng;MA Anxiang;ZHANG Chunliang;XIAO Tong(NLP Laboratory,Northeastern University,Shenyang,Liaoning 110819,China;College of Computer Science and Technology,Harbin Engineering University,Harbin,Heilongjiang 150001,China;NiuTrans Research,Shenyang,Liaoning 110004,China)
出处
《中文信息学报》
北大核心
2025年第5期60-71,共12页
Journal of Chinese Information Processing
基金
国家自然科学基金(62276056)
国家重点研发计划项目
科技部科技创新2030—“新一代人工智能”重大项目(2020AAA0107904)
辽宁省自然科学基金(2022-KF-16-01)
云南省科技厅科技计划项目(202103AA080015)
中央高校基本科研业务费项目(N2216016,N2216001,N2216002)
111引智基地(B16009)。
关键词
语音翻译
预训练
数据增强
多任务学习
speech translation
pre-training
data augmentation
multi-task learning