期刊文献+

汉语自动分词中中文地名识别 被引量:10

Chinese place names recognition for Chinese automatic segmentation
在线阅读 下载PDF
导出
摘要 以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果. Aiming at identifying word-level Chinese place names, Chinese place name candidates are generated with statistics information and internal characteristics of place names. In segmentation, Chinese place name candidates with higher confidence are treated as common word candidates obtained from the dictionary. Various segmentations of a sentence are evaluated with word candidates' confidence and context information. Chinese place names are recognized when determining the optimal segmentation of the sentence. Close and open tests were conducted on real corpus: the close test results are the recall-back rate 93.55%, accurate rate 94. 14%, F-1 value 93.85%; the open test results are 91.27%, 73. 48%, 81.42% respectively. Experimental results are satisfactory.
出处 《大连理工大学学报》 EI CAS CSCD 北大核心 2006年第4期576-581,共6页 Journal of Dalian University of Technology
基金 国家自然科学基金资助项目(60373095 60373096 60573022) 高等学校博士学科点专项科研基金资助项目(20030141003)
关键词 中文地名识别 汉语自动分词 未登录词识别 Chinese place names recognition Chinese automatic segmentation unknown words recognition
  • 相关文献

参考文献11

  • 1GOH Chooi-ling, ASAHARA Masayuki, MATSUMOTO Yuji. Chinese unknown word identification using character-based tagging and chunking [C] // The Companion Volume to the Proceedings of 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan, 2003. Morristown, N J, USA: The Association for Computational Linguistics, 2003: 197-200
  • 2张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量:105
  • 3俞士汶 段慧明 朱学锋 等.北大语料库加工规范:切分·词性标注·注音[J].汉语语言与计算学报,2003,13(2):121-158.
  • 4国家测绘局地名研究所.中国地名录[M].北京.中国地图出版社,1997,1~318.
  • 5吕雅娟,赵铁军,杨沐昀,于浩,李生.基于分解与动态规划策略的汉语未登录词识别[J].中文信息学报,2001,15(1):28-33. 被引量:43
  • 6黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量:14
  • 7沈达阳,孙茂松,黄昌宁.中文地名的自动辨识[C]//陈力为,袁琦.计算语言学进展与应用.北京:清华大学出版社,1995:68—74
  • 8EPPSTEIN D. Finding the k shortest paths [J].SIAM J on Comput, 1998, 28(2):652-673
  • 9谭红叶,郑家恒,刘开瑛.中国地名的自动识别方法研究[C]∥黄昌宁,董振东.计算语言学文集.北京:清华大学出版社,1999:174—179
  • 10谭红叶,郑家恒,刘开瑛.基于变换的中国地名自动识别研究(英文)[J].软件学报,2001,12(11):1608-1613. 被引量:23

二级参考文献21

  • 1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:88
  • 2沈达阳 孙茂松 黄昌宁.中文地名的自动识别[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..
  • 3罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
  • 4郑家恒,语言工程,1997年
  • 5白栓虎,计算语言学进展与应用,1995年
  • 6揭春雨,中文信息学报,1989年,3卷,1期,1页
  • 7Tan Hongye,Proc Computational Linguistics,1999年,174页
  • 8中国地名委员会,中国地名录,1994年
  • 9国家测绘局地名研究所.中国地名录[M].北京:中国地图出版社,1997.1-318.
  • 10Ji Heng, Luo Zhen-Shen. Inverse name frequency model and rules based on Chinese name identifying. In: Huang ChangNing, Zhang Pu ed.. Natural Language Understanding and Machine Translation. Beijing: Tsinghua University Press,2001, 123 - 128( in Chinese)(季姮,罗振声.基于反比概率模型和规则的中文姓名自动辨识系统.见:黄昌宁,张普编.自然语言理解与机器翻译.北京:清华大学出版社,2001,123-128)

共引文献210

同被引文献72

引证文献10

二级引证文献29

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部