摘要
对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。
This paper extracts the features from the Chinese place names and their context firstly,and then aggregates differernt features from different sources.Before setting feature functions,more information has been received by analyzing the Chinese characters features.This paper focuses on characters which are used frequently and how these characters matching with each other.Finally,it achieves an acceptable result by open test on real corpus.
出处
《计算机工程与应用》
CSCD
北大核心
2009年第28期230-232,共3页
Computer Engineering and Applications
基金
国家重点基础研究发展规划(973)No2004CB318104
中科院声学所知识创新工程项目(No0654091431)
中国科学院声学研究所"所长择优基金"(NoGS13SJJ04)
中国科学院青年人才领域前沿项目(NoO754021432)~~
关键词
中文地名识别
地名用字分析
最大熵
placename recognition
analysis of placename
maximum entropy