期刊文献+

决策树在中文姓名信息提取中的应用研究

Application of decision tree to Chinese name information extraction
在线阅读 下载PDF
导出
摘要 提出并实现了一种中文姓名信息提取方法,该方法首先根据姓氏和名的用字概率信息,将姓氏作为抽取的触发条件,在文本中初步提取姓名。然后再充分利用中文姓名的上下文信息及姓名用字之间的关联程度的信息,选取特征作为决策树测试的属性列表,并将初步提取出来的姓名是否是真实姓名(bool型的值:yes或no)作为决策树要预测的目标属性,组建基于ID3算法的决策树进一步提取出正确的姓名,实验结果表明,该方法具有很好的召回率和准确率。 A way to extract the Chinese person names is presented and realized. It extracts the Chinese name preliminarily according to the statistical information and the Chinese surnames. A decision tree based on the II33 algorithm is built to distinguish whether it is a real name. In the decision tree the attributes are chosen by use of the context information of the name and the relationship of the Chinese names. The target-attribute of the decision tree is yes or no (Bool type). The result of the experiment shows that the recall rate and accuracy rate are guaranteed.
出处 《成都信息工程学院学报》 2006年第2期261-264,共4页 Journal of Chengdu University of Information Technology
关键词 自然语言处理 中文姓名信息提取 决策树 ID3算法 natural language processing Chinese names extraction decision tree ID3 algorithm
  • 相关文献

参考文献10

二级参考文献33

  • 1郑家恒,刘开瑛.汉语姓名自动辨识初探[J].语言文字应用,1994(2):65-68. 被引量:4
  • 2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:89
  • 3[6]中国社会科学院语言文字应用研究所.姓氏人名用字分析统计.北京:语文出版社,1990
  • 4宋柔,计算语言学研究与应用,1993年
  • 5孙茂松,计算语言学研究与应用,1993年
  • 6郑家恒,计算语言学研究与应用,1993年
  • 7张俊盛,中文信息学报,1992年,6卷,3期
  • 8团体著者,姓氏人名用字分析统计,1990年
  • 9孙茂松,中文信息学报,1995年,九卷,2期
  • 10姚天顺,自然语言理解.一种让机器懂得人类语言的研究,1995年

共引文献261

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部