基于交替语言数据重构方法的跨语言文本相似度模型被引量：1

Cross-Language Text Similarity Model Based on Alternating Language Data Reconstruction Method

下载PDF

导出

摘要针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本. Aiming at the problem that existing multilingual models were inefficient in utilising multilingual datasets in the pre-training process,which led to a more insufficient cross-language contextual learning ability and thus language bias,we proposed a cross-language text similarity model based on the alternating language data reconstruction method.This method formed reconstructed pre-trained text pairs by symmetrically replacing Chinese and English words in the parallel corpus,and used the above text pairs to perform targeted pre-training and fine-tuning processing based on data reconstruction for the multilingual large model mBERT(BERT-based-multilingual).In order to verify the feasibility of the model,experiments were conducted on the United Nations parallel corpus da taset,and the experimental results show that the similarity checking accuracy of this model outperforms that of mBERT and the other two baseline models.It can not only further improve the accuracy of cross-language information retrieval,but also reduce the research cost of multilingual natural language processing tasks.

作者王轶王坤宁刘铭 WANG Yi;WANG Kunning;LIU Ming(School of Foreign Languages,Changchun University of Technology,Changchun 130012,China;School of Mathematics and Statis tics,Changchun University of Technology,Changchun 130012,China)

机构地区长春工业大学外国语学院长春工业大学数学与统计学院

出处《吉林大学学报(理学版)》北大核心 2025年第2期551-558,共8页 Journal of Jilin University:Science Edition

基金吉林省高等教育教学改革研究课题项目(批准号:20213F2VB6S006) 吉林省发改委基本建设基金(批准号:2022C043-2) 吉林省自然科学基金(批准号:20200201157JC) 吉林省教育厅人文社科研究项目(批准号:JJKH20240835SK) 吉林省高教科研课题项目(批准号:JGJX24C051)。

关键词 mBERT模型文本相似度多语言预训练模型大模型微调 mBERT model text similarity multilingual pre-trained model large model fine-tuning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1赵光耀,王剑,高盛祥,余正涛.融入上下文特征提取的非自回归神经机器翻译[J].陕西理工大学学报（自然科学版）,2024,40(3):44-51. 被引量：4
2尚福华,张洪铭,解红涛.基于知识图谱与依存句法分析的井控领域文本相似度计算[J].计算机与数字工程,2023,51(8):1732-1737. 被引量：3
3韩开旭,袁淑芳.基于混合机器学习模型的短文本语义相似性度量算法[J].吉林大学学报（理学版）,2023,61(4):909-914. 被引量：3
4祝婕,刘敏娜.基于GAN的跨语言文本匹配算法研究[J].自动化与仪器仪表,2023(4):20-24. 被引量：2
5王婷婷,黄志贤,王洪涛,杨明昊,赵万春.基于MobileNetV2的岩石薄片岩性识别[J].吉林大学学报（地球科学版）,2024,54(4):1432-1442. 被引量：9

二级参考文献54

1朱世松,杨文艺,侯广顺,芦碧波,魏世鹏.一种岩石薄片智能分类识别方法[J].矿物学报,2020,0(1):106-106. 被引量：8
2张贵山,彭仁,邱红信.扫描仪在岩矿鉴定与岩相学研究中的应用——薄片扫描法[J].矿物学报,2020,0(1):1-8. 被引量：4
3尹生阳,曾维,王胜,胡粒琪,余小平,李亚欣.基于声波信号的岩性智能分类方法[J].吉林大学学报（地球科学版）,2022,52(6):2060-2070. 被引量：7
4高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
5孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56. 被引量：61
6程传鹏,齐晖.文本相似度计算在主观题评分中的应用[J].计算机工程,2012,38(5):288-290. 被引量：6
7郭超,刘烨.多色彩空间下的岩石图像识别研究[J].科学技术与工程,2014,22(18):247-251. 被引量：24
8程国建,殷娟娟.基于SVM的岩石薄片图像分类[J].科技创新与应用,2015,5(1):38-38. 被引量：8
9赵鹏大.大数据时代数字找矿与定量评价[J].地质通报,2015,34(7):1255-1259. 被引量：107
10严光生,薛群威,肖克炎,陈建平,缪谨励,余海龙.地质调查大数据研究的主要问题分析[J].地质通报,2015,34(7):1273-1279. 被引量：59

共引文献16

1付颖.基于混合机器学习的高校物理实验课程线上教学资源检索方法[J].信息与电脑,2024,36(5):251-253. 被引量：2
2严劲,刘珮.面向下一代互联网的云网运维智能化转型研究[J].邮电设计技术,2024(4):26-31. 被引量：1
3张志强,张丽,周晓清,王伟钧,黎忠文.一种多视角新闻信息快速检索方法[J].现代电子技术,2024,47(18):57-64.
4邓乃尔,徐浩,周文,唐小川,王浩,闫晓闯,蒋柯.基于深度学习的岩石矿物智能识别研究进展与发展趋势[J].成都理工大学学报(自然科学版),2025,52(1):64-93. 被引量：3
5程国建,李宗祥,李秋实,韩江,孙亚招.基于岩石薄片图像与改进EfficientNet建模的岩性识别方法[J].西安石油大学学报(自然科学版),2025,40(2):124-134.
6沈子翔,王链,徐振平.基于主动学习代理集合辅助的油藏生产优化新方法[J].陕西理工大学学报(自然科学版),2025,41(2):22-29. 被引量：1
7汪美侠.基于语法感知和自适应标签平滑的人工智能翻译研究[J].自动化与仪器仪表,2025(4):155-158.
8李金龙,李华,薛林福,丁可,燕群.基于二维卷积神经网络的智能金矿找矿预测方法——以青海五龙沟地区为例[J].黄金,2025,46(7):113-122. 被引量：1
9邹强珍.基于改进生成对抗网络的翻译机器人智能对话系统研究[J].自动化与仪器仪表,2025(9):156-160.
10朱斌,赵军龙.基于RF-PSO-SVM的测井岩性识别方法研究[J].重庆科技大学学报(自然科学版),2025,27(5):50-58.

同被引文献31

1王玉光,张晓伟.桂附理中丸中白术的薄层鉴别及乌头碱限量检查[J].包头医学院学报,2004,20(2):100-101. 被引量：3
2王苗,周铭心.常用方剂君药的计量识别[J].西部中医药,2014,27(4):60-63. 被引量：5
3周文霞,王同兴,程肖蕊,韩露,张永祥.网络药理学研究中的网络分析技术[J].国际药学研究杂志,2016,43(3):399-409.
4戴玮,常新全,肖苏萍,周海燕,郭凯,张斯杰.HPLC测定桂附理中丸中6-姜辣素的含量[J].中国现代中药,2016,18(12):1646-1648. 被引量：2
5黄辉庆,李华,陈馥,刘韵怡,王翀.桂附理中丸的HPLC指纹图谱研究[J].中药新药与临床药理,2017,28(3):351-354. 被引量：2
6张铁军,白钢,陈常青,许浚,韩彦琪,龚苏晓,张洪兵,刘昌孝.基于“五原则”的复方中药质量标志物(Q-marker)研究路径[J].中草药,2018,49(1):1-13. 被引量：245
7刘昌孝,陈士林,肖小河,张铁军,侯文彬,廖茂梁.中药质量标志物(Q-Marker):中药产品质量控制的新概念[J].中草药,2016,47(9):1443-1457. 被引量：1203
8陈士林,刘昌孝,张铁军,刘安,朱广伟,王玉丽,陈常青,张洪兵,肖学凤,黄宇虹.基于中药质量标志物和传统用法的中药饮片标准汤剂传承发展研究思路与建议[J].中草药,2019,50(19):4519-4528. 被引量：78
9苏宇.以黄芪为君药中药复方治疗糖尿病肾病有效性及安全性Meta研究[J].临床医药文献电子杂志,2020,7(16):82-82. 被引量：4
10赵静,刘剑锋,王燕平,田赛赛,杨健,张卫东.中药复方分期治疗新冠肺炎的网络药理学分析[J].世界科学技术-中医药现代化,2020,22(2):278-288. 被引量：18

引证文献1

1尚静,刘国秀,刘朔,谭佳琦,南程,翟华强.中药复方主效应指标体系预测模型的构建研究[J].四川中医,2026,44(2):101-114.

1赵佳艺,徐月梅,顾涵文.基于持续学习的多语言情感分析模型[J].数据分析与知识发现,2024,8(10):44-53. 被引量：2
2刘结,陈梅,刘江越.基于多语言模型词汇增强的低资源情感分析[J].智能计算机与应用,2024,14(12):82-89. 被引量：1
3朱玉,李枫.跨语言信息检索中的多语言处理技术研究[J].信息记录材料,2024,25(9):98-101. 被引量：2
4李鑫,刘杨秋.以深度学习为基础的聊天机器人设计[J].中文科技期刊数据库(全文版)自然科学,2025(3):161-164.
5陈新如,刘惠英,张佳芯,李益朋,江笑成.赣江支流锦江流域日降雨侵蚀力模型建立及应用[J].水土保持研究,2025,32(3):1-7.
6黄春林,张跃,余潇潇,刘杰梅,陈奇祥,袁远.基于风云四号静止卫星的东亚太阳能资源时空分布特性研究[J].工程热物理学报,2025,46(3):961-966. 被引量：2
7刘真真,王超,张华,王子龙.混合工质R290/R170输运性质的分子动力学模拟[J].化学工程,2025,53(3):51-56.
8戴益民,罗浩,邓尧,龙彦文.基于PSO算法BP神经网络的拱形温室大棚薄膜风雹耦合所致冰雹冲击力预测模型[J].土木工程,2025,14(2):279-286.

吉林大学学报(理学版)

2025年第2期

浏览历史

内容加载中请稍等...

基于交替语言数据重构方法的跨语言文本相似度模型被引量：1

参考文献5

二级参考文献54

共引文献16

同被引文献31

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于交替语言数据重构方法的跨语言文本相似度模型 被引量：1

参考文献5

二级参考文献54

共引文献16

同被引文献31

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于交替语言数据重构方法的跨语言文本相似度模型被引量：1