基于互联网1至5元文法语料库的多词表达自动提取

Automatic Extraction of Multiword Expressions from Web 1T 5-Gram Corpus

下载PDF

导出

摘要多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分进行多词表达的自动提取。研究结果表明,该方法能够充分利用Google语料库的精确词频信息,从而提高了多词表达抽取的准确率,并且能够较好地缓解数据稀疏现象带来问题。 Multiword expressions are used frequently in everyday language, whose automatic extraction plays a vital part in many natural language processing tasks. This paper proposes an approach to exploit statistical information from Web 1T 5-gram Corpus compiled and issued by Google Corporation for identifying mnhiword expressions in the written texts of British National Corpus. The pilot study shows that Google corpus provides a reliable as well as ample source of co-occurrence information, hence greatly enhancing the precision of muhiword expressions extraction and reducing data sparseness.

作者李康熙李为山

机构地区南京大学外国语学院合肥工业大学外国语学院

出处《科技通报》北大核心 2013年第10期171-173,共3页 Bulletin of Science and Technology

基金中央高校基本科研业务费专项资金资助(2012HGXJ0109) (2012HGXJ0110)

关键词多词表达自然语言处理数据稀疏 multiword expression natural language processing data sparseness

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Jackendoff, R. The Architecture of the Language Faculty[M], MIT Press, Cambridge, MA, 1997.
2王成平.信息处理用彝、汉、英三语平行语料库的建设与语料对齐技术研究[J].科技通报,2012,28(2):131-133. 被引量：8
3Bolinger,D. The Phrasal Verb in EnglishfM]. Harvard U-niversity Press, Harvard, USA, 1971.
4Fraser, B. The Verb-Particle Combination in English [M].Academic Press, New York,USA,1976.
5吴润秀.基于互信息量的改进K-Modes聚类方法[J].统计与决策,2012,28(6):89-91. 被引量：3

二级参考文献10

1雪艳.关于用XML语言组织蒙古语语料库的设想[J].内蒙古大学学报（哲学社会科学版）,2006,38(1):13-16. 被引量：4
2冯志伟.计算机中文信息处理[M].北京:北京出版社,2001.
3Dino Ienco,Ruggero G.Pensa,Rosa Meo.Context-Based DistanceLearning for Categorical Data Clustering[Z].IDA 2009,LNCS 5772,2009.
4Shyam Boriah,Varun Chandola,Vipin Kumar.Similarity Measures forCategorical Data:A Comparative Evaluation[EB/OL]@cs.umu.edu,1999.
5Amir Ahmad,Lipika Dey.A K-mean Clustering Algorithm for MixedNumeric and Categorical Data[J].Data&Knowledge Engineering,2007,(63).
6Michael K.Ng,Mark Junjie Li,Joshua Zhexue Huang,Zengyou He.Onthe Impact of Dissimilarity Measure in k-Modes Clustering Algorithm[J].Ieee Transactions on Pattern Analysis and Machine Intelligence,2007,29(3).
7Amir Ahmad,Lipika Dey.A Method to Compute Distance betweenTwo Categorical Values of Same Attribute in Unsupervised Learningfor Categorical Data Set[J].Pattern Recognition Letters,2007,(28).
8张小宇,梁吉业,曹付元,于慧娟.基于加权连接度的改进K-Modes聚类算法[J].广西师范大学学报（自然科学版）,2008,26(3):189-193. 被引量：3
9白亮,梁吉业,曹付元.基于粗糙集的改进K-Modes聚类算法[J].计算机科学,2009,36(1):162-164. 被引量：15
10常宝宝,詹卫东,张华瑞.面向汉英机器翻译的双语语料库的建设及其管理[J].术语标准化与信息技术,2003(1):28-31. 被引量：19

共引文献9

1胡刚,王嘉梅,李炳泽,林睿,林碧彤.汉英-泰互译有声语料的数据库研究[J].计算机系统应用,2016,25(9):223-229. 被引量：1
2黄琼,陈毅萍.基于大数据的英语与布依语的数字化转型对比研究[J].贵州师范学院学报,2016,32(11):86-90. 被引量：1
3庄善洁,孟淑梅.大数据环境下赫哲族语言的数字化挖掘与保护[J].边疆经济与文化,2017(11):44-45. 被引量：1
4王成平.彝语言语料资源数据库的设计与共享的实现[J].中文信息学报,2016,30(1):129-132 139. 被引量：6
5施振佺,陈世平.一种改进的k-modes聚类算法[J].运筹与管理,2019,28(12):112-117. 被引量：7
6黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：63
7李明媚,文成林,胡绍林.一种基于最大信息系数预处理的k-modes聚类方法[J].系统仿真学报,2022,34(10):2204-2212. 被引量：4
8曾庆雅,王成平.基于CiteSpace彝文信息处理研究的知识图谱分析[J].中央民族大学学报（自然科学版）,2023,32(2):51-60.
9黄君平,王成平.基于Citespace彝汉双语研究的可视化知识图谱分析研究[J].贵州工程应用技术学院学报,2024,42(1):37-46. 被引量：1

1韩东妹,林民.自动词性标注概述[J].内蒙古科技与经济,2006(01S):132-133.
2艳红,王斯日古楞.基于HMM的蒙古文自动词性标注研究[J].内蒙古师范大学学报（自然科学汉文版）,2010,39(2):206-209. 被引量：7
3赵建东,高光来,飞龙.基于历史模型的蒙古文自动词性标注研究[J].中文信息学报,2013,27(5):156-159. 被引量：1
4杨晓红.语境视角下get一词多义分析[J].科技信息,2012(18):191-192.
5阴晋岭,王惠临.词性标注的方法研究——结合条件随机场和基于转换学习的方法进行词性标注[J].现代图书情报技术,2009(3):46-51. 被引量：4
6刘婷婷,李思灯.本族语者与中国英语学习者对because一词的使用差异分析——基于语料库的抽样调查[J].课程教学研究,2016(2):71-74. 被引量：1
7吕琳,周世斌,刘玉树.一种高性能英文词性标注器的设计与实现[J].北京理工大学学报,2005,25(10):876-879. 被引量：5
8玉霞,王斯日古楞.蒙古文词性标注及融合词性因子的蒙汉统计机器翻译[J].内蒙古师范大学学报（自然科学汉文版）,2015,44(3):364-367. 被引量：2
9牛正雨,柴佩琪.基于边界点词性特征统计的韵律短语切分[J].中文信息学报,2001,15(5):19-25. 被引量：13
10郭君君.基于语料库的对中国英语专业学生口语中连接语使用特征研究[J].科技信息,2012(10):194-195.

科技通报

2013年第10期

浏览历史

内容加载中请稍等...

基于互联网1至5元文法语料库的多词表达自动提取

参考文献5

二级参考文献10

共引文献9

相关作者

相关机构

相关主题

浏览历史