期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
THUUyMorph:维吾尔语形态切分语料库 被引量:5
1
作者 哈里旦木·阿布都克里木 孙茂松 +1 位作者 刘洋 阿布都克力木·阿布力孜 《中文信息学报》 CSCD 北大核心 2018年第2期81-86,共6页
THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版(1)下载,题材内容包含新闻、法律、财经、生活... THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版(1)下载,题材内容包含新闻、法律、财经、生活等。语料库构建步骤为:爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象。语料库包含10 596个文档、69 200个句子,词语类型为89 923个,分为词级和句子级两类标注,开源网址为http://thuuymorph.thunlp.org/。该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理的研究提供了有益的资源。 展开更多
关键词 thuuymorph 维吾尔语 形态切分
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部