期刊文献+

基于语料库的字母词语自动提取研究 被引量:10

The Research on Lettered-word Extraction in Chinese Texts
在线阅读 下载PDF
导出
摘要 目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。 Nowadays, more and more lettered words are used in Chinese texts, most of which are new terms or proper nouns. And this may become a trend quite obvious to us. Usually, lettered words are unknown phrases or words in automatic Chinese segmentation. Based on the observation of lettered words in our Chinese corpus, the correct identification of them will improve the quality of Chinese segmentation, information retrieval, searching technology, machine translation, etc. This paper analyzes the complex features of Chinese lettered words, and discusses the difficulties in extracting them. An algorithm for the automatic identification of Chinese lettered words is presented here, which uses a letter string as the anchor and search its left and right contexts for the boundaries of the lettered word. The algorithm is simple, but it is effective. Our experiment on the corpus of the Peoples Daily (Year 2002) shows the precision and the recall rates being 80% and 100% respectively.
出处 《中文信息学报》 CSCD 北大核心 2005年第2期78-85,共8页 Journal of Chinese Information Processing
基金 "国家语言资源监测与研究中心"项目资助 (0 4L2 0 0 4 - 0 1- 0 1- 0 3)
关键词 人工智能 自然语言处理 字母词语 自动提取 artificial intelligence natural language processing lettered-word automatic extracting
  • 相关文献

参考文献8

二级参考文献15

  • 1郑家恒,刘开瑛.汉语姓名自动辨识初探[J].语言文字应用,1994(2):65-68. 被引量:4
  • 2沈孟璎.浅议字母词的入典问题[J].辞书研究,2001(1):30-38. 被引量:67
  • 3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:88
  • 4[6]中国社会科学院语言文字应用研究所.姓氏人名用字分析统计.北京:语文出版社,1990
  • 5宋柔,计算语言学研究与应用,1993年
  • 6孙茂松,计算语言学研究与应用,1993年
  • 7郑家恒,计算语言学研究与应用,1993年
  • 8张俊盛,中文信息学报,1992年,6卷,3期
  • 9团体著者,姓氏人名用字分析统计,1990年
  • 10汪惠迪.新加坡华语字母词语用简论[N].联合早报,2000-08-06(13).

共引文献364

同被引文献115

引证文献10

二级引证文献40

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部