期刊文献+

利用地名用字分析的中文地名识别处理 被引量:7

Chinese place name identification with Chinese characters features
在线阅读 下载PDF
导出
摘要 对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。 This paper extracts the features from the Chinese place names and their context firstly,and then aggregates differernt features from different sources.Before setting feature functions,more information has been received by analyzing the Chinese characters features.This paper focuses on characters which are used frequently and how these characters matching with each other.Finally,it achieves an acceptable result by open test on real corpus.
作者 李诺 张全
出处 《计算机工程与应用》 CSCD 北大核心 2009年第28期230-232,共3页 Computer Engineering and Applications
基金 国家重点基础研究发展规划(973)No2004CB318104 中科院声学所知识创新工程项目(No0654091431) 中国科学院声学研究所"所长择优基金"(NoGS13SJJ04) 中国科学院青年人才领域前沿项目(NoO754021432)~~
关键词 中文地名识别 地名用字分析 最大熵 placename recognition analysis of placename maximum entropy
  • 相关文献

参考文献5

二级参考文献28

  • 1王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量:16
  • 2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:98
  • 3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:89
  • 4沈达阳 孙茂松 黄昌宁.中文地名的自动识别[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..
  • 5沈达阳 孙茂松 黄昌宁.中文地名的自动辨识[A]..计算语言学进展与应用[M].北京:清华大学出版社,1995..
  • 6国家测绘局地名研究所.中国地名录[M].北京:中国地图出版社,1997.1-318.
  • 7国家测绘局地名研究所.中国地名录[M].北京.中国地图出版社,1997,1~318.
  • 8俞士汶 段慧明 朱学锋 等.北大语料库加工规范:切分·词性标注·注音[J].汉语语言与计算学报,2003,13(2):121-158.
  • 9EPPSTEIN D. Finding the k shortest paths [J].SIAM J on Comput, 1998, 28(2):652-673
  • 10谭红叶,郑家恒,刘开瑛.中国地名的自动识别方法研究[C]∥黄昌宁,董振东.计算语言学文集.北京:清华大学出版社,1999:174—179

共引文献93

同被引文献70

引证文献7

二级引证文献61

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部