期刊文献+

基于互联网1至5元文法语料库的多词表达自动提取

Automatic Extraction of Multiword Expressions from Web 1T 5-Gram Corpus
在线阅读 下载PDF
导出
摘要 多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分进行多词表达的自动提取。研究结果表明,该方法能够充分利用Google语料库的精确词频信息,从而提高了多词表达抽取的准确率,并且能够较好地缓解数据稀疏现象带来问题。 Multiword expressions are used frequently in everyday language, whose automatic extraction plays a vital part in many natural language processing tasks. This paper proposes an approach to exploit statistical information from Web 1T 5-gram Corpus compiled and issued by Google Corporation for identifying mnhiword expressions in the written texts of British National Corpus. The pilot study shows that Google corpus provides a reliable as well as ample source of co-occurrence information, hence greatly enhancing the precision of muhiword expressions extraction and reducing data sparseness.
出处 《科技通报》 北大核心 2013年第10期171-173,共3页 Bulletin of Science and Technology
基金 中央高校基本科研业务费专项资金资助(2012HGXJ0109) (2012HGXJ0110)
关键词 多词表达 自然语言处理 数据稀疏 multiword expression natural language processing data sparseness
  • 相关文献

参考文献5

二级参考文献10

  • 1雪艳.关于用XML语言组织蒙古语语料库的设想[J].内蒙古大学学报(哲学社会科学版),2006,38(1):13-16. 被引量:4
  • 2冯志伟.计算机中文信息处理[M].北京:北京出版社,2001.
  • 3Dino Ienco,Ruggero G.Pensa,Rosa Meo.Context-Based DistanceLearning for Categorical Data Clustering[Z].IDA 2009,LNCS 5772,2009.
  • 4Shyam Boriah,Varun Chandola,Vipin Kumar.Similarity Measures forCategorical Data:A Comparative Evaluation[EB/OL]@cs.umu.edu,1999.
  • 5Amir Ahmad,Lipika Dey.A K-mean Clustering Algorithm for MixedNumeric and Categorical Data[J].Data&Knowledge Engineering,2007,(63).
  • 6Michael K.Ng,Mark Junjie Li,Joshua Zhexue Huang,Zengyou He.Onthe Impact of Dissimilarity Measure in k-Modes Clustering Algorithm[J].Ieee Transactions on Pattern Analysis and Machine Intelligence,2007,29(3).
  • 7Amir Ahmad,Lipika Dey.A Method to Compute Distance betweenTwo Categorical Values of Same Attribute in Unsupervised Learningfor Categorical Data Set[J].Pattern Recognition Letters,2007,(28).
  • 8张小宇,梁吉业,曹付元,于慧娟.基于加权连接度的改进K-Modes聚类算法[J].广西师范大学学报(自然科学版),2008,26(3):189-193. 被引量:3
  • 9白亮,梁吉业,曹付元.基于粗糙集的改进K-Modes聚类算法[J].计算机科学,2009,36(1):162-164. 被引量:15
  • 10常宝宝,詹卫东,张华瑞.面向汉英机器翻译的双语语料库的建设及其管理[J].术语标准化与信息技术,2003(1):28-31. 被引量:19

共引文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部