藏族人名汉译名识别研究被引量：3

Research on Recognition of Tibetan Names

下载PDF

导出

摘要藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点：藏族人名具有浓厚的宗教文化内涵,字（串）特征和内部构成复杂其次,藏族人名中含有大量高频单字,使得藏族人名和普通词语之间歧义冲突变得十分突出,同时也使得藏族人名和上下文之间的边界变得非常模糊。本文在大规模藏族人名实例和语料库调查基础上,统计分析了藏族人名的用字（串）特征,并构建了藏族人名属性特征库通过藏族人名的命名规则及属性特征将藏族人名形式化表示,实现了藏族人名汉译名自动识别系统。真实语料库开放测试F值达到87.12%。 Though recognition of Tibetan names is a kind of person-name recognition, current method for recognition of person-names isn＇t fit to the characters of Tibetan names： Tibetan names have strong religious and cultural meaning, which results in complicated character （string） features and internal structure of Tibetan names; Secondly, Tibetan names contain a lot of frequent single-character words, which makes the ambiguous conflict more outstanding between names and common words, and blurs the border around the Tibetan names. In this paper, we analysis the attributes of Tibetan names, and make full use of these statistics attributes to build a attributes library; then we build automatic identification system for Tibetan names according to the naming hales and attributes. Test on large scale real corpus shows that the system archives 87.12% for F-measure.

作者罗镭贾宋柔朱小杰

机构地区北京语言大学语言信息处理研究所

出处《情报学报》 CSSCI 北大核心 2009年第3期475-480,共6页 Journal of the China Society for Scientific and Technical Information

基金基金项目：本文得到国家自然科学基金（60572159）、教育部科学技术研究重点项目（107017）的资助.

关键词藏族人名识别未登录词可信度自动分词 recognition of Tibetan names, out-of-vocabulary words, reliability, segmentation

分类号 H315.9 [语言文字—英语] TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：89
2郑家恒,李鑫,谭红叶.基于语料库的中文姓名识别方法研究[J].中文信息学报,2000,14(1):7-12. 被引量：43
3赵铁军,吕雅娟,于浩,杨沐昀,刘芳.提高汉语自动分词精度的多步处理策略[J].中文信息学报,2001,15(1):13-18. 被引量：30
4噶玛降村.藏族人名的佛教文化内涵[J].中国西藏,1998,0(3):42-43. 被引量：5

二级参考文献12

1郑家恒,刘开瑛.汉语姓名自动辨识初探[J].语言文字应用,1994(2):65-68. 被引量：4
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：89
3[6]中国社会科学院语言文字应用研究所.姓氏人名用字分析统计.北京:语文出版社,1990
4宋柔，计算语言学研究与应用，1993年
5孙茂松，计算语言学研究与应用，1993年
6郑家恒，计算语言学研究与应用，1993年
7张俊盛，中文信息学报，1992年，6卷，3期
8团体著者，姓氏人名用字分析统计，1990年
9王挺,陈火旺,杨谊,史晓东.一种自适应词性标注方法[J].软件学报,1997,8(12):937-943. 被引量：8
10孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51

共引文献147

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3LI Li.A Study on Improving Word-Segmentation Accuracy in Automatic Chinese Text Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):225-228.
4张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
5杨霞,黄陈英.基于HMM的中文姓名识别方法研究[J].硅谷,2009,2(3).
6郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
7陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
8黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
9张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
10季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13

同被引文献26

1张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
2钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：27
3李中国,刘颖.边界模板和局部统计相结合的中国人名识别[J].中文信息学报,2006,20(5):44-50. 被引量：13
4毛婷婷,李丽双,黄德根.基于混合模型的中国人名自动识别[J].中文信息学报,2007,21(2):22-28. 被引量：10
5罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
6孙萌,刘群等.基于判别式分类和重排序技术的藏文分词[c]//第十二届全国少数民族语言文字信息处理学术研讨会论文集,2011.
7Collins M.Discriminative training methods for hidden mar- kov models:theory and experiments with perceptron algo- rithms[C]//Proceedings of the Empirical Methods in Nat- ural Language Processing Conference,Philadelphia,Amer- ica,2002 : 1-8.
8McDonald R, Pereira F, Online learning of approximate dependency parsing algorithms[C]//Proceedings of EACL, 2006:81-88.
9Collins M,Roark B.Incremental parsing with the percep- tron algorithm[C]//Proc ACL,2004.
10KoehnP统计机器翻译[M].宗成庆,张霄军,译.北京:电子工业出版社,2012.

引证文献3

1加羊吉,李亚超,宗成庆,于洪志.最大熵和条件随机场模型相融合的藏文人名识别[J].中文信息学报,2014,28(1):107-112. 被引量：22
2夏天赐,孙媛.基于联合模型的藏文实体关系抽取方法研究[J].中文信息学报,2018,32(12):76-83. 被引量：12
3华却才让,姜文斌,赵海兴,刘群.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176. 被引量：31

二级引证文献51

1德吉措,安见才让.基于双向GRU神经网络的藏文人物关系抽取方法[J].信息化研究,2023,49(4):43-47. 被引量：1
2夏天赐,孙媛.基于联合模型的藏文实体关系抽取方法研究[J].中文信息学报,2018,32(12):76-83. 被引量：12
3江涛,江静,戴玉刚,李艾林.藏文舆情云分析系统平台研究[J].信息网络安全,2014(9):92-94. 被引量：1
4邹后孝.基于词语级的藏语显示情感句的情感分析与研究[J].网友世界,2014,0(17):317-317.
5马宁,李亚超,于槐,加羊吉.面向互联网的藏文实体关系模板获取技术研究[J].中央民族大学学报（自然科学版）,2015,24(1):35-39. 被引量：1
6朱臻,孙媛.基于SVM和泛化模板协作的藏语人物属性抽取[J].中文信息学报,2015,29(6):220-227. 被引量：8
7珠杰,李天瑞,刘胜久.基于条件随机场的藏文人名识别技术研究[J].南京大学学报（自然科学版）,2016,52(2):289-299. 被引量：16
8张义,李治江.基于高斯词长特征的中文分词方法[J].中文信息学报,2016,30(5):89-93. 被引量：3
9加羊吉,李亚超,于洪志.CRF与规则相结合的藏文人名识别方法[J].西北民族大学学报（自然科学版）,2016,37(3):41-45. 被引量：2
10夏吾吉,华却才让,色差甲,贡保才让,扎西吉.融合藏族人名音节特征的性别自动识别[J].西北民族大学学报（自然科学版）,2017,38(3):1-5. 被引量：3

1农玲.浅谈藏族人名[J].学园,2013(5):181-183.
2尕藏卓玛.浅谈藏族人名的文化含义及其翻译原则[J].西北民族大学学报（哲学社会科学版）,2008(5):113-116. 被引量：4
3马达,哇彭措.面向信息处理的藏语人名研究[J].管理学家（学术版）,2014(2).
4工业4.0带来的思考[J].摩托车技术,2015(6):27-27.
5张欢.生物学硕士论文摘要中连接词用法的语料库调查[J].新乡学院学报,2015,32(10):36-39.
6刘国兵.英语学习者口语中连接副词使用情况的语料库调查[J].河南工业大学学报（社会科学版）,2008,4(2):92-94. 被引量：4
7罗宇.“一连”和“连连”的异同及认知解释[J].现代语文（下旬．语言研究）,2011(4):21-24. 被引量：1
8黄朝俊.英语写作中连接副词的语料库调查[J].安徽工业大学学报（社会科学版）,2007,24(3):83-85. 被引量：5
9穆瑞新,董励,杜欣润.高职院校英语专业学生连接词语料库调查研究[J].当代教育实践与教学研究（电子版）,2015,0(3):151-151.
10张璐.“X得多”与“X得很”之异同——基于留学生的习得偏误分析和语料库统计分析[J].现代语文（下旬．语言研究）,2009(2):126-129. 被引量：1

情报学报

2009年第3期

浏览历史

内容加载中请稍等...

藏族人名汉译名识别研究被引量：3

参考文献4

二级参考文献12

共引文献147

同被引文献26

引证文献3

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

藏族人名汉译名识别研究 被引量：3

参考文献4

二级参考文献12

共引文献147

同被引文献26

引证文献3

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

藏族人名汉译名识别研究被引量：3