融合词汇信息的藏文词性一体化方法

Integrated Tibetan part-of-speech tagging method with lexical information

下载PDF

导出

摘要针对分词错误可能会影响词性标记的正确性,以及单一音节粒度特征难以全面捕捉上下文信息,从而导致实体边界识别不准确的问题。提出了一种融合词汇信息的藏文自动分词和词性标注联合方法,通过构建词汇向量信息库,对输入BERT后的音节编码与对应的词汇级向量进行融合获取更全面的特征输入,增强了模型对词汇语义的理解。在7万句词性标注数据集上训练了融合藏文音节和词汇特征的BERT+Softlexicon(BiLSTM)+CRF模型。实验结果表明,在7千句测试语料上F1值达到92.74%,相比基线一体化模型和大语言模型分别提高了1.8%和1.9%。 To address the issue where word segmentation errors may compromise the accuracy of part-of-speech tagging,and where features at the single-syllable granularity are insufficient for comprehensively capturing contextual information,leading to imprecise entity boundary recognition,a joint approach integrating lexical information for Tibetan automatic word segmentation and part-of-speech tagging was proposed.A lexical vector information database was constructed to achieve more comprehensive feature input by merging the syllable coding after BERT input with corresponding lexical-level vectors,there by enhancing the model’s understanding of lexical semantics.A BERT+Softlexicon(BiLSTM)+CRF model,which integrates Tibetan syllables and lexical features,was trained on a part-of-speech tagging dataset comprising 70000 sentences.Experimental results demonstrate that on a test corpus of 7000 sentences,the method achieves an F1-score of 92.74%,representing improvements of 1.8%and 1.9%over the baseline integrated model and large language model,respectively.

作者完么措华却才让白颖环科尤张瑞 WAN Me-cuo;HUAQUE Cai-rang;BAI Ying;HUAN Ke-you;ZHANG Rui(School of Computer Science,Qinghai Normal University,Xining 810008,China;The State Key Laboratory of Tibetan Intelligence,Qinghai Normal University,Xining 810008,China;Key Laboratory of Tibetan Information Processing,Ministry of Education,Qinghai Normal University,Xining 810008,China)

机构地区青海师范大学计算机学院青海师范大学藏语智能全国重点实验室青海师范大学青海省藏文信息处理与机器翻译重点实验室

出处《计算机工程与设计》北大核心 2025年第12期3578-3585,共8页 Computer Engineering and Design

基金国家自然科学基金项目(62166034) 藏语智能信息处理及应用国家重点实验室基金项目(2020-ZJ-Y05)。

关键词藏文词性标注标注一体化词汇增强大语言模型 BERT 藏文分词特征融合 Tibetan part-of-speech tagging integrated tagging lexical enhancement large language models BERT Tibetan word segmentation feature fusion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1格桑加措.基于HMM模型的藏语词性标注研究[J].信息通信,2020,33(5):46-47. 被引量：3
2拉毛杰,安见才让.基于转换的错误驱动学习的藏语词性标注研究[J].计算机时代,2019(12):28-29. 被引量：2
3龙从军,刘汇丹,诺明花,吴健.基于藏语字性标注的词性预测研究[J].中文信息学报,2015,29(5):211-215. 被引量：9
4王莉莉,王宏渊,白玛曲珍,杨鸿武.基于BiLSTM_CRF模型的藏文分词方法[J].重庆邮电大学学报（自然科学版）,2020,32(4):648-654. 被引量：11
5袁里驰.基于BiLSTM-CRF的中文分词和词性标注联合方法[J].中南大学学报（自然科学版）,2023,54(8):3145-3153. 被引量：13
6袁里驰.基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法[J].小型微型计算机系统,2023,44(9):1906-1911. 被引量：15
7崔仕林,闫蓉.基于SoftLexicon和注意力机制的中文因果关系抽取[J].中文信息学报,2023,37(4):81-89. 被引量：5
8潘世鹏,吐尔地·托合提,梁毅,艾斯卡尔·艾木都拉.基于SoftLexicon和对抗训练的中文医疗命名实体识别[J].山西大学学报（自然科学版）,2024,47(2):260-268. 被引量：3
9赵小兵,高璐,高定国,包乌格徳勒,米尔阿迪力江·麦麦提,刘洋,才智杰,孙媛.少数民族语言分词技术评测数据集MLWS2021[J].中国科学数据（中英文网络版）,2022,7(2):2-10. 被引量：4
10常博林,袁义国,李斌,许智星,冯敏萱,王东波.融合部首信息的古汉语自动分词与词性标注一体化分析[J].数据分析与知识发现,2024,8(11):102-113. 被引量：4

二级参考文献63

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：7
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：22
3程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：27
4才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
6白栓虎.汉语词切分及词性自动标注一体化方法[J].中文信息,1996(2):46-48. 被引量：3
7祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：35
8邱冰,皇甫娟.基于中文信息处理的古代汉语分词研究[J].微计算机信息,2008,24(24):100-102. 被引量：33
9袁里驰.基于改进的隐马尔科夫模型的语音识别方法[J].中南大学学报（自然科学版）,2008,39(6):1303-1308. 被引量：20
10才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：73

共引文献54

1洛桑嘎登,仁增多杰.基于知识反馈的藏文词性标注研究[J].计算机时代,2018(7):73-75. 被引量：1
2格桑加措.基于HMM模型的藏语词性标注研究[J].信息通信,2020,33(5):46-47. 被引量：3
3黄成龙.2019年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):47-52.
4刘晓彤,赵小兵.藏文自动分词技术研究[J].中央民族大学学报（自然科学版）,2022,31(2):63-66. 被引量：4
5陆柳杏,吴丹.非物质文化遗产领域汉藏双语本体的语义检索策略研究[J].图书情报工作,2022,66(13):15-24. 被引量：7
6Yuan Sun,Chaofan Chen,Andong Chen,Xiaobing Zhao.Tibetan Question Generation Based on Sequence to Sequence Model[J].Computers, Materials & Continua,2021(9):3203-3213. 被引量：1
7王进,李颖,蒋晓翠,吕晓旭,肖黄清.基于层级残差连接LSTM的命名实体识别[J].江苏大学学报（自然科学版）,2022,43(4):446-452. 被引量：11
8尹宗鹤,尼玛次仁,于韬,拥措.基于ASBC模型的藏文自动分词方法研究[J].计算机与数字工程,2023,51(6):1227-1230. 被引量：2
9高璐,赵小兵.面向司法领域的藏文事件数据集构建[J].中文信息学报,2023,37(8):34-42. 被引量：2
10色差甲,桑杰端珠,才让加,慈祯嘉措.一种基于预训练模型的藏文分词方法[J].中文信息学报,2023,37(12):70-75. 被引量：3

1李京阳,彭展.基于动态多尺度增强的藏文自动分词方法[J].软件导刊,2025,24(12):126-132.
2普巴卓玛.大中小学思政课一体化教学策略创新研究[J].红树林,2022(3):0052-0054.
3王子怡,甘晨灼,胡正浩,李红军.基于注意力机制和字形结构的多模态中文命名实体识别[J].电子设计工程,2025,33(24):42-46.
4王元龙,张宁倩,张虎.基于图像分类规划学习的视觉故事生成模型[J].大数据,2025,11(6):108-122.
5邱文征,张依婷.基于大数据分析的输配电网负荷预测与调度优化[J].中国科技成果,2025,26(22):48-50.
6何儒汉,周何顺.基于双重注意力机制的多尺度端到端音频分类网络[J].软件导刊,2025,24(12):91-97.
7王瑞浩.致密砂岩气藏开发参数优化研究[J].石油石化物资采购,2025(23):136-138.
8王佳佳.基桩低应变反射波法检测信号处理与缺陷识别精度提升研究[J].科技信息与研究,2025,5(12):97-100.
9王佳佳.基桩低应变反射波法检测信号处理与缺陷识别精度提升研究[J].中国建筑,2025,8(23):99-102.
10邹玉虎,揭薇.词汇复杂度和商务英语词汇使用与商务英语写作质量关系研究[J].专门用途外语研究,2025(3):64-76.

计算机工程与设计

2025年第12期

浏览历史

内容加载中请稍等...

融合词汇信息的藏文词性一体化方法

参考文献10

二级参考文献63

共引文献54

相关作者

相关机构

相关主题

浏览历史