-
题名MLWS2021藏文分词评测报告
被引量:3
- 1
-
-
作者
高定国
杨晓龙
杨宇帆
取次
高红梅
-
机构
西藏大学信息科学技术学院
-
出处
《高原科学研究》
CSCD
2022年第1期82-89,共8页
-
基金
国家自然科学基金项目(6266038)
国家语委科研重点项目(ZDI135-118)
2021年度自治区一流课程建设项目。
-
文摘
藏文分词是藏文信息处理中关键的基础性工作,是机器翻译、智能检索、自然语言理解等智能信息处理的前提。藏文作为“少数民族语言分词技术评测MLWS2021”的一种评测语种,在MLWS2017的基础上,语料从新闻类单一语料扩展为新闻、法律、经济、小说和语言文字等多领域综合语料,训练语料和测试语料的质和量都有了较大的提升。文章介绍MLWS2021中藏文分词评测语料的构成、收集、整理情况;再分析藏文分词评测分析软件设计思想的基础上,针对测试语料的多样性,设计了“文本对比”和“藏文评测分析”软件,按需建设评测软件测试语料并测试证明了软件的正确性;最后,在不破坏评测语料的基础上,对语料进行预处理和测试,给出了参赛队不同模型的藏文分词评测结果并验证了结果的正确性。
-
关键词
mlws2021
藏文分词
评测
-
Keywords
mlws2021
Tibetan word segmentation
Review
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-