期刊文献+

蒙古语词法分析的有向图模型 被引量:3

Directed Graph Model for Mongolian Lexical Analysis
在线阅读 下载PDF
导出
摘要 我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。 We propose a generative statistical model for Mongolian lexical analysis.This model describes the lexical analysis result as a directed graph,where the nodes represent the stems,affixes and their tags,while the edges represent the transition or generation relationships between nodes.Especially in this work,we adopt three kinds of transition or generation probabilities: a) probabilities of stem-stem transition,affix-affix transition and stem-affix generation;b) the transition or generation probabilities between the corresponding tags;and c) the generation probabilities between stems or affixes and their tags.Using the 3rd-level annotated corpus with about 200000 words as the training data,this model achieves a word-level segmentation accuracy of 95.1%,and a word-level joint segmentation and tagging accuracy of 93%.
出处 《中文信息学报》 CSCD 北大核心 2011年第5期94-100,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金资助项目(Contract60736014) 863重点项目(2006AA010108) 教育部 国家语委民族语言文字规范标准建设及信息化资助项目(MZ115-038)
关键词 蒙古语 词法分析 词语切分 词性标注 词干提取 有向图 Mongolian lexical analysis segmentation POS tagging stemming directed graph
  • 相关文献

参考文献14

  • 1Hwee Tou Ng, Jin Kiat Low. Chinese part-of-speech tagging: One-at-a-time or all-at-once? Wordbased or character-based? [C]//Proceedings of EMNLP, 2004 : 277-284.
  • 2Wenbin Jiang, Liang Huang, Yajuan Lv, et al. A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging [C]//Proceedings of the 46th ACL, 2008.. 897-904.
  • 3Huaping Zhang, Qun Liu, Xueqi Cheng, Hao Zhang, et al. Chinese Lexieal Analysis Using Hierarchical Hidden Markov Model [C]//Preeeedings of Second SIGHAN workshop affiliated with 41th ACL, 2003: 63-70.
  • 4米海涛,熊德意,刘群.中文词法分析与句法分析融合策略研究[J].中文信息学报,2008,22(2):10-17. 被引量:13
  • 5那顺乌日图,雪艳,叶嘉明.现代蒙古语语料库加工技术的新进展-新一代蒙古语词语自动切分与标注系统[C]//第十届全国少数民族语言文字信息处理学术研讨会,2005.
  • 6侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量:14
  • 7赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量:14
  • 8丛伟.基于层叠隐马尔科夫模型的蒙古语词切分系统的研究[D].内蒙古大学硕士毕业论文,2009.
  • 9艳红,王斯日古楞.基于HMM的蒙古文自动词性标注研究[J].内蒙古师范大学学报(自然科学汉文版),2010,39(2):206-209. 被引量:7
  • 10古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量:39

二级参考文献44

共引文献65

同被引文献34

  • 1那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报(哲学社会科学版),2007,34(6):115-122. 被引量:6
  • 2那顺乌日图.关于在蒙古语文研究中运用统计学方法的问题[J].民族语文,1993(5):46-50. 被引量:4
  • 3古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量:39
  • 4阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量:24
  • 5Batuer AISHAN, Maosong SUN. Uyghur-Chinese Statistical Machine Translation by Incorporating Mor- phological Information [J]. Journal of Computational System, 2010,6(10) :3137-3145.
  • 6赵红梅,吕雅娟,贲国生,等.第七届全国机器翻译研讨会(CWMT2011)评测报告[C]//第七届全国机器翻译研讨会论文集,2011:3-31.
  • 7刘凯,王志洋,于惠,等.2011全国机器翻译研讨会计算所系统描述[C]//第七届全国机器翻译研讨会论文集,2011:46-58.
  • 8Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: Param- eter estimation [J]. Computational linguistics, 1993, 19:263-311.
  • 9Koehn P, Och F J, Marcu D. Statistical phrase-based translation [C]//Proceedings of the 2003 Conference of the North American Chapter of the ACL on Human Language Technology-Volume 1, 2003 : 48-54.
  • 10Chiang D. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33: 201-228.

引证文献3

二级引证文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部