蒙古语词法分析的有向图模型被引量：3

Directed Graph Model for Mongolian Lexical Analysis

下载PDF

导出

摘要我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。 We propose a generative statistical model for Mongolian lexical analysis.This model describes the lexical analysis result as a directed graph,where the nodes represent the stems,affixes and their tags,while the edges represent the transition or generation relationships between nodes.Especially in this work,we adopt three kinds of transition or generation probabilities： a） probabilities of stem-stem transition,affix-affix transition and stem-affix generation;b） the transition or generation probabilities between the corresponding tags;and c） the generation probabilities between stems or affixes and their tags.Using the 3rd-level annotated corpus with about 200000 words as the training data,this model achieves a word-level segmentation accuracy of 95.1%,and a word-level joint segmentation and tagging accuracy of 93%.

作者姜文斌吴金星长青那顺乌日图刘群赵理莉

机构地区中国科学院计算技术研究所内蒙古大学蒙古学学院河南师范大学计算机与信息技术学院

出处《中文信息学报》 CSCD 北大核心 2011年第5期94-100,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(Contract60736014) 863重点项目(2006AA010108) 教育部国家语委民族语言文字规范标准建设及信息化资助项目(MZ115-038)

关键词蒙古语词法分析词语切分词性标注词干提取有向图 Mongolian lexical analysis segmentation POS tagging stemming directed graph

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Hwee Tou Ng, Jin Kiat Low. Chinese part-of-speech tagging: One-at-a-time or all-at-once? Wordbased or character-based? [C]//Proceedings of EMNLP, 2004 : 277-284.
2Wenbin Jiang, Liang Huang, Yajuan Lv, et al. A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging [C]//Proceedings of the 46th ACL, 2008.. 897-904.
3Huaping Zhang, Qun Liu, Xueqi Cheng, Hao Zhang, et al. Chinese Lexieal Analysis Using Hierarchical Hidden Markov Model [C]//Preeeedings of Second SIGHAN workshop affiliated with 41th ACL, 2003: 63-70.
4米海涛,熊德意,刘群.中文词法分析与句法分析融合策略研究[J].中文信息学报,2008,22(2):10-17. 被引量：13
5那顺乌日图,雪艳,叶嘉明.现代蒙古语语料库加工技术的新进展-新一代蒙古语词语自动切分与标注系统[C]//第十届全国少数民族语言文字信息处理学术研讨会,2005.
6侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
7赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：14
8丛伟.基于层叠隐马尔科夫模型的蒙古语词切分系统的研究[D].内蒙古大学硕士毕业论文,2009.
9艳红,王斯日古楞.基于HMM的蒙古文自动词性标注研究[J].内蒙古师范大学学报（自然科学汉文版）,2010,39(2):206-209. 被引量：7
10古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39

二级参考文献44

1巴达玛敖德斯尔.面向信息处理的蒙古语词语分类体系研究[J].中央民族大学学报（哲学社会科学版）,2004,31(3):93-99. 被引量：3
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
3华沙宝.蒙古文网络信息技术处理的对策[J].民族语文,2002(6):58-60. 被引量：3
4侯宏旭,刘群,张玉洁,井佐原均.2005年度863机器翻译评测方法研究与实施[J].中文信息学报,2006,20(B03):7-18. 被引量：6
5赵斯琴.蒙古语词性标注系统的设计[J].内蒙古师范大学学报（自然科学汉文版）,2006,35(2):186-188. 被引量：1
6胡冠龙,张建,李淼.改进的基于转换方法的拉丁蒙文词性标注[J].计算机应用,2007,27(4):963-965. 被引量：4
7付雷,刘群.单纯形算法在统计机器翻译Re-ranking中的应用[J].中文信息学报,2007,21(3):28-33. 被引量：2
8侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
9那顺乌日图,雪艳,叶嘉明.现代蒙古语语料库加工技术的新进展-新一代蒙古语词语自动切分与标注系统(Darhan Tagging System)[C]//第十届全国少数民族语言文字信息处理学术研讨会论文集.青海:2005.
10Hou Hongxu, Deng Dan, Zou Gang, et al. An EBMT System Based on Word Alignment // Proc of the 4th International Workshop of Spoken Language Translation. Trento, Italy, 2004 : 47 - 49

共引文献65

1许日俊,刘昌平.印刷体朝鲜文字符中字母的分割与识别研究[J].中文信息学报,2006,20(2):66-71. 被引量：2
2阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：24
3赛麦提.麦麦提明.现代维吾尔语同形词词性自动标注探析[J].语言与翻译,2006(3):35-38. 被引量：1
4卢有飞,张伟,张岩,缪成,李春.维文版Office设计中关键技术的研究与实现[J].中文信息学报,2007,21(2):112-116. 被引量：7
5赵永进,郭大庆,卢有飞,李英凡.维文软件中排版关键技术的研究与实现[J].计算机工程与应用,2007,43(22):106-108. 被引量：8
6张伟,任大明,许晓辉,赵凡,张岩.维、哈、柯文显示及排版技术研究[J].计算机应用研究,2008,25(3):836-838. 被引量：4
7阿孜古丽.夏力甫.维吾尔语动词附加语素的复杂特征研究[J].中文信息学报,2008,22(3):105-109. 被引量：8
8玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
9米热古丽.艾力,米吉提.阿不力米提,艾斯卡尔.艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息学报,2008,22(4):43-47. 被引量：17
10吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.维、哈、柯全文搜索引擎检索器的关键技术[J].计算机工程,2008,34(21):45-47. 被引量：4

同被引文献34

1那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报（哲学社会科学版）,2007,34(6):115-122. 被引量：6
2那顺乌日图.关于在蒙古语文研究中运用统计学方法的问题[J].民族语文,1993(5):46-50. 被引量：4
3古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
4阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：24
5Batuer AISHAN, Maosong SUN. Uyghur-Chinese Statistical Machine Translation by Incorporating Mor- phological Information [J]. Journal of Computational System, 2010,6(10) :3137-3145.
6赵红梅,吕雅娟,贲国生,等.第七届全国机器翻译研讨会(CWMT2011)评测报告[C]//第七届全国机器翻译研讨会论文集,2011:3-31.
7刘凯,王志洋,于惠,等.2011全国机器翻译研讨会计算所系统描述[C]//第七届全国机器翻译研讨会论文集,2011:46-58.
8Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: Param- eter estimation [J]. Computational linguistics, 1993, 19:263-311.
9Koehn P, Och F J, Marcu D. Statistical phrase-based translation [C]//Proceedings of the 2003 Conference of the North American Chapter of the ACL on Human Language Technology-Volume 1, 2003 : 48-54.
10Chiang D. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33: 201-228.

引证文献3

1张海波,蔡洽吾,姜文斌,吕雅娟,刘群.基于联合音变还原和形态切分的形态分析方法[J].中文信息学报,2014,28(6):9-17. 被引量：3
2米莉万.雪合来提,刘凯,吐尔根.依布拉音.基于维吾尔语词干词缀粒度的汉维机器翻译[J].中文信息学报,2015,29(3):201-206. 被引量：12
3苏依拉,赵亚平,牛向华.基于统计的蒙汉机器翻译中词对齐方法研究[J].中文信息学报,2018,32(6):44-51. 被引量：3

二级引证文献17

1朱少林,杨雅婷,米成刚,李晓,王磊.基于双语句对覆盖度的维汉机器翻译语料选取技术[J].中国科学技术大学学报,2017,47(4):283-289. 被引量：1
2徐春,蒋同海,于凯,姜文斌.维吾尔语和韩语形态分析之模型构建[J].北京邮电大学学报,2018,41(1):88-94. 被引量：3
3朱顺乐.融合深度学习特征的汉维短语表过滤研究[J].计算机技术与发展,2018,28(7):149-154. 被引量：1
4吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6
5古丽尼尕尔.买合木提,帕力旦.吐尔逊,艾斯卡尔.艾木都拉.基于词形分析的汉-维机器翻译性能分析[J].电脑知识与技术,2018,14(4Z):172-174.
6卢凤.基于垂直搜索引擎的Lucene蒙文分词技术研究[J].内蒙古科技大学学报,2018,37(3):264-269.
7李毓,杨雅婷,李晓,米成刚,董瑞.面向汉维机器翻译的神经网络语言模型[J].厦门大学学报（自然科学版）,2019,58(2):189-194. 被引量：3
8朱顺乐.融合多特征的汉维神经网络机器翻译模型[J].计算机工程与设计,2019,40(5):1484-1488. 被引量：7
9穆妮热·穆合塔尔,李晓,杨雅婷.维吾尔语复杂形态对汉维机器翻译的影响研究[J].计算机工程,2020,46(2):309-314. 被引量：2
10潘一荣,李晓,杨雅婷,董瑞.面向维汉机器翻译的层次化多特征融合模型[J].厦门大学学报（自然科学版）,2020,59(2):206-212. 被引量：4

1麦热哈巴·艾力,姜文斌,王志洋,吐尔根·依布拉音,刘群.维吾尔语词法分析的有向图模型[J].软件学报,2012,23(12):3115-3129. 被引量：22
2高霄云,杨建林.基于规则的中文时间词和数词的自动识别算法[J].现代图书情报技术,2007(3):46-50. 被引量：2
3谢钧,王琳,俞璐.一种基于分形编码的图像分割算法[J].电视技术,2015,39(21):15-17.
4刘华.文本分类C#实现[J].现代图书情报技术,2007(3):43-45.
5王俊峰,陆伟峰,朱庆保.知识约简的多族蚁群算法[J].金陵科技学院学报,2005,21(1):8-12. 被引量：2
6朱元凯,陈涛,陈亮.基于蚁群算法的属性约简方法[J].泰山学院学报,2011,33(3):35-38.
7朱雪阳,唐稚松.UML活动图的时序逻辑语义[J].计算机研究与发展,2005,42(9):1478-1484. 被引量：13
8赵雷,杨季文.一种基于有向图的访问控制方法的研究[J].计算机应用与软件,2008,25(8):89-91.
9新一代智能搜索引擎──网典[J].网络与信息,1999,13(2):21-21. 被引量：2
10朱潜,吴辰铌,朱志良,刘洪娟.Hadoop云平台下Nutch中文分词的研究与实现[J].小型微型计算机系统,2013,34(12):2772-2776. 被引量：5

中文信息学报

2011年第5期

浏览历史

内容加载中请稍等...

蒙古语词法分析的有向图模型被引量：3

参考文献14

二级参考文献44

共引文献65

同被引文献34

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

蒙古语词法分析的有向图模型 被引量：3

参考文献14

二级参考文献44

共引文献65

同被引文献34

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

蒙古语词法分析的有向图模型被引量：3