基于条件随机场的蒙古语词切分研究被引量：14

Research on Conditional Random Fields Based Mongolian Word Segmentation

下载PDF

导出

摘要词干和构形附加成分是蒙古语词的组成成分,在构形附加成分中包含着数、格、体、时等大量语法信息。利用这些语法信息有助于使用计算机对蒙古语进行有效处理。蒙古语词在结构上表现为一个整体,为了利用其中的语法信息需要识别出词干和各构形附加成分。通过分析蒙古语词的构形特点,提出一种有效的蒙古语词标注方法,并基于条件随机场模型构建了一个实用的蒙古语词切分系统。实验表明该系统的词切分准确率比现有蒙古语词切分系统的准确率有较大提高,达到了0.992。 Etyma and morphological affix are the components of Mongolian words, which include lots of grammar information. Using this grammar information is helpful for effective processing Mongolian language. Mongolian words exhibit as a whole in the structure, and therefore, the detection of etyma and each morphological affix is necessary to capture this grammar information. By analyzing the characteristics of morphological construction of Mongolian words, this paper proposes an effective Mongolian word labeling method, and constructs a practical Mongolian word segmentation system based on conditional random fields model. Experiments show that the accuracy of segmentation has a significant improvement than current system, reaching an accuracy rate of 0. 992.

作者赵伟侯宏旭从伟宋美娜

机构地区内蒙古大学计算机学院

出处《中文信息学报》 CSCD 北大核心 2010年第5期31-35,84,共6页 Journal of Chinese Information Processing

基金 973前期研究项目资助(2007CB316503)

关键词蒙古语词切分词干构形附加成分条件随机场统计语言模型 Mongolian word segmentation etyma morphological affix conditional random fields statistical language model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1那顺乌日图.蒙古文词根、词干、词尾的自动切分系统[J].内蒙古大学学报（哲学社会科学版）,1997,29(2):53-57. 被引量：15
2那顺乌日图,雪艳,叶嘉明.现代蒙古语语料库加工技术的新进展-新一代蒙古语词语自动切分与标注系统(Darhan Tagging System)[C]//第十届全国少数民族语言文字信息处理学术研讨会论文集.青海:2005.
3侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
4侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
5J.Lafferty,A.McCallum,and F.Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th International Conf.on Machine Learning,2001:282-289.
6Fei Sha,Fernando Pereira.Shallow Parsing with Conditional Random Fields[C]//Proceedings of HLT-NAACL 2003:134-141.
7Fuchun Peng,Fangfang Feng,and Andrew McCallum.Chinese Segmentation and New Word Detection using Conditional Random Fields[C]//Proceedings of The 20th International Conference on Computational Linguis-tics(COLING 2004),2004:562-568.
8罗彦彦,黄德根.基于CRFs边缘概率的中文分词[J].中文信息学报,2009,23(5):3-8. 被引量：19
9冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：25

二级参考文献68

1那顺乌日图.计算机处理现代蒙古语TAI、TEI形式的尝试[J].民族语文,1991(3):74-79. 被引量：2
2巴达玛敖德斯尔.面向信息处理的蒙古语词语分类体系研究[J].中央民族大学学报（哲学社会科学版）,2004,31(3):93-99. 被引量：3
3华沙宝.蒙古文网络信息技术处理的对策[J].民族语文,2002(6):58-60. 被引量：3
4刘洋,刘群,林守勋.机器翻译评测中的模糊匹配[J].中文信息学报,2005,19(3):45-53. 被引量：9
5张孝飞,陈肇雄,黄河燕,胡春玲.多策略机器翻译系统IHSMTS中实例模式泛化匹配算法[J].中文信息学报,2005,19(4):1-9. 被引量：1
6刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：48
7俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：168
8侯宏旭,刘群,张玉洁,井佐原均.2005年度863机器翻译评测方法研究与实施[J].中文信息学报,2006,20(B03):7-18. 被引量：6
9黄河燕,陈肇雄,张孝飞,张克亮.大规模句子相似度计算方法[J].中文信息学报,2006,20(B03):47-52. 被引量：6
10徐波,史晓东,刘群,宗成庆,庞薇,陈振标,杨振东,魏玮,杜金华,陈毅东,刘洋,熊德意,侯宏旭,何中军.2005统计机器翻译研讨班研究报告[J].中文信息学报,2006,20(5):1-9. 被引量：10

共引文献79

1斯·劳格劳,白斯勤,白庆格勒图.一种传统蒙古文拼写检查系统的实现[J].中央民族大学学报（哲学社会科学版）,2021,48(1):158-168. 被引量：1
2于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
3菊花.蒙古文单词音节自动拆分软件的设计[J].内蒙古师范大学学报（自然科学汉文版）,2006,35(4):436-438.
4杨攀,张建,李淼,乌达巴拉,雪艳.汉蒙统计机器翻译中的形态学方法研究[J].中文信息学报,2009,23(1):50-57. 被引量：10
5侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
6侯宏旭,张国强,刘志文.层次化蒙古语统计语言模型[J].内蒙古大学学报（自然科学版）,2009,40(3):336-340. 被引量：2
7侯宏旭,刘群,李锦涛.一种基于短语的汉蒙统计机器翻译与调序模型[J].高技术通讯,2009,19(5):475-479. 被引量：3
8郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：37
9刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1
10王斯日古楞,斯琴图,那顺乌日图.基于短语的汉蒙统计机器翻译研究[J].计算机工程与应用,2010,46(14):138-142. 被引量：6

同被引文献123

1于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
2那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报（哲学社会科学版）,2007,34(6):115-122. 被引量：6
3陈世明.试论维吾尔语部分词尾的演变[J].西北民族研究,1989(1):234-240. 被引量：1
4霍盛.试论维吾尔语形态变化的功能及其特点[J].新疆大学学报（哲学社会科学版）,1991,23(3):104-111. 被引量：3
5塔依尔.阿不都外力,艾山.吾买尔,吐尔根.伊布拉音,张健.基于标注词典和规则的维吾尔文动词词干提取方法[J].新疆大学学报（自然科学版）,2013,30(1):6-1. 被引量：3
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
7古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
8力提甫.托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报（哲学社会科学版）,2004,31(5):108-113. 被引量：15
9杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
10阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：24

引证文献14

1姜文斌,吴金星,乌日力嘎,那顺乌日图,刘群.蒙古语有向图形态分析器的判别式词干词缀切分[J].中文信息学报,2011,25(4):30-34. 被引量：5
2张聪品,赵理莉.统计模型中附加语言学规则的蒙古语词法分析[J].计算机工程与设计,2011,32(8):2861-2864.
3姜文斌,吴金星,长青,那顺乌日图,刘群,赵理莉.蒙古语词法分析的有向图模型[J].中文信息学报,2011,25(5):94-100. 被引量：3
4王希杰.词位标注汉语分词中上下文有效范围定量分析[J].计算机应用,2012,32(5):1340-1342. 被引量：2
5张海波,蔡洽吾,姜文斌,吕雅娟,刘群.基于联合音变还原和形态切分的形态分析方法[J].中文信息学报,2014,28(6):9-17. 被引量：3
6史建国,侯宏旭,飞龙.基于词典、规则的斯拉夫蒙古文词切分系统的研究[J].中文信息学报,2015,29(1):197-202. 被引量：4
7白双成.蒙古文原始语料统计建模研究[J].中文信息学报,2017,31(1):118-125. 被引量：1
8李金廷,侯宏旭,武静,王洪彬,樊文婷.语料预处理对蒙古文-汉文统计机器翻译的影响[J].计算机科学,2017,44(10):259-264. 被引量：5
9徐春,蒋同海,于凯,姜文斌.维吾尔语和韩语形态分析之模型构建[J].北京邮电大学学报,2018,41(1):88-94. 被引量：3
10库瓦特拜克·马木提.基于机器学习方法的哈萨克语词干切分研究[J].计算机技术与发展,2020,30(4):182-188.

二级引证文献30

1王希杰,黄勇杰.基于三词位的字标注汉语分词[J].安阳师范学院学报,2013(5):49-52. 被引量：1
2康才畯,龙从军,江荻.基于词位的藏文黏写形式的切分[J].计算机工程与应用,2014,50(11):218-222. 被引量：6
3任众,侯宏旭,武静,王洪彬,李金廷,樊文婷,申志鹏.基于统计和神经网络的蒙汉机器翻译研究[J].中文信息学报,2018,32(11):1-7. 被引量：6
4张海波,蔡洽吾,姜文斌,吕雅娟,刘群.基于联合音变还原和形态切分的形态分析方法[J].中文信息学报,2014,28(6):9-17. 被引量：3
5米莉万.雪合来提,刘凯,吐尔根.依布拉音.基于维吾尔语词干词缀粒度的汉维机器翻译[J].中文信息学报,2015,29(3):201-206. 被引量：12
6赛迪亚古丽.艾尼瓦尔,向露,宗成庆,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204-210. 被引量：13
7白双成.蒙古文原始语料统计建模研究[J].中文信息学报,2017,31(1):118-125. 被引量：1
8斯.劳格劳.蒙古语固定短语识别算法的设计与实现[J].中文信息学报,2017,31(5):85-91. 被引量：3
9娜仁图雅,白双成.蒙古语媒体资产编目问题研究[J].广西科学院学报,2018,34(1):72-77.
10徐春,蒋同海,于凯,姜文斌.维吾尔语和韩语形态分析之模型构建[J].北京邮电大学学报,2018,41(1):88-94. 被引量：3

1达吾勒.阿布都哈依尔,海拉提.克孜尔别克.基于规则的哈萨克语词干提取算法的研究[J].新疆大学学报（自然科学版）,2011,28(2):238-241. 被引量：7
2薛化建,董兴华,王磊,吐尔洪.吾司曼,蒋同海.基于词缀库的非监督维吾尔语词切分方法[J].计算机工程与设计,2011,32(9):3191-3194. 被引量：7
3迪丽达尔·迪力沙提.浅谈现代维吾尔语动词构形附加成分“ ”[J].电脑知识与技术,2013,9(2):831-832.
4王阳,郭林福.轻型协作机械臂运动学及工作空间分析[J].机械工程与自动化,2017(1):44-46. 被引量：12
5孙瑞娜,古丽拉.阿东别克.基于规则的哈萨克语基本名词短语识别研究[J].计算机应用研究,2010,27(12):4511-4513. 被引量：5
6辛春生,孙玉芳.汉语简繁体转换与语词切分[J].小型微型计算机系统,2000,21(9):982-985. 被引量：3
7杜林,吴健,孙玉方.智能简繁汉语转换系统JFC的分析与设计[J].电子计算机与外部设备,1997,21(3):20-22.
8那日松,淑琴.蒙古文词性标注研究[J].内蒙古大学学报（哲学社会科学版）,2015,47(2):26-32.
9刘巍巍,王成龙,刘慧芳.一种搜救机器人的设计与越障分析[J].重型机械,2016(6):8-12. 被引量：1
10古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39

中文信息学报

2010年第5期

浏览历史

内容加载中请稍等...

基于条件随机场的蒙古语词切分研究被引量：14

参考文献9

二级参考文献68

共引文献79

同被引文献123

引证文献14

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的蒙古语词切分研究 被引量：14

参考文献9

二级参考文献68

共引文献79

同被引文献123

引证文献14

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的蒙古语词切分研究被引量：14