期刊文献+

提高汉语自动分词精度的多步处理策略 被引量:30

Increasing Accuracy of Chinese Segmentation with Strategy of Multi step Processing
在线阅读 下载PDF
导出
摘要 :汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达 The automatic word segmentation of Chinese sentences is difficult when the processing mechanism faces large scale real texts.The crucial two issues in Chinese segmentation are the identification of unknown words and the disambiguation of segmentation strings.This paper describes a strategy based on multi steps processing for decreasing the difficulties and improving the accuracy of the segmentation.The processing steps include seven parts,i.e.,disambiguation of pseudo ambiguities,full segmentation of a sentence,determinate segmentation for some words,processing of numeral string,processing for reduplication of words,statistical identification for unknown words and final correction for segmentation ambiguities with part of speech which is integrated in the tagger.The output of this procedure is promising with above 98% accuracy in open test.
出处 《中文信息学报》 CSCD 北大核心 2001年第1期13-18,共6页 Journal of Chinese Information Processing
基金 国家自然科学基金! ( 697750 17)
  • 相关文献

参考文献3

二级参考文献10

  • 1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量:15
  • 2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:88
  • 3孙茂松 邹嘉彦 等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
  • 4宋柔,计算语言学研究与应用,1993年
  • 5孙茂松,计算语言学研究与应用,1993年
  • 6郑家恒,计算语言学研究与应用,1993年
  • 7张俊盛,中文信息学报,1992年,6卷,3期
  • 8团体著者,姓氏人名用字分析统计,1990年
  • 9孙茂松,汉语计量与计算研究,1998年
  • 10刘开瑛,语言文字应用,1997年,1期

共引文献165

同被引文献298

引证文献30

二级引证文献195

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部