基于最大熵模型的组块分析被引量：58

Chunk Parsing with Maximum Entropy Principle

下载PDF

导出

摘要采用最大熵模型实现中文组块分析的任务 .首先明确了中文组块的定义 ,并且列出了模型中所有的组块类型和组块标注符号 .组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程 ,我们可以把它作为一个分类问题根据最大熵模型来解决 .最大熵模型的关键是如何选取有效的特征 ,文中给出了相关的特征选择过程和算法 .最后给出了系统实现和实验结果 . This paper proposes to use Maximum Entropy (ME) model to conduct Chinese chunk parsing. First we define Chinese chunks and list all chunk categories and tags used in the model. Thus the process of chunking can be regarded as a classification problem which trains from the corpus with chunk tags and POS tags. The focus of ME model is how to select useful features. Then, the procedure and algorithms of feature selection is introduced. At last we test the model, and experimental results are given.

作者李素建刘群杨志峰

机构地区北京大学计算语言学研究所

出处《计算机学报》 EI CSCD 北大核心 2003年第12期1722-1727,共6页 Chinese Journal of Computers

基金国家"九七三"重点基础研究发展规划项目 (G1 9980 30 50 4 0 1 G1 9980 30 50 7 4)资助

关键词自然语言处理最大熵模型组块分析句法分析信息处理 chunk parsing syntactic parsing maximum entropy principle partial parsing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1[1]Erik F, Tjong Kim Sang,Buchholz S. Introduction to the CoNLL-2000 Shared Task: Chunking. In: Proceedings of CoNLL2000 and LLL-2000, Lisbon, Portugal, 2000. 127～132
2[2]Steven A. Parsing by Chunks. In: Berwick, Abney, Tenny eds. Principle-Based Parsing: Kluwer Academic Publishers,1991. 257～278
3[5]Ratnaparkhi A. A maximum entropy model for part-of-speech tagging. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1996
4[6]Ratnaparkhi A. A simple introduction to maximum entropy models for natural language processing. Institute for Research in Cognitive Science, University of Pennsylvania : Technical Report 9708, 1997
5[7]Berger A, Pietra S D, Pietra V D. A maximum entropy approach to natural language processing. Computational Linguistics, 1996,22(1):39～71
6[8]Skut, Wojciech, Thorsten Brants. A maximum entropy partial parser for unrestricted text. In:Proceedings of the 6th Workshop on Very Large Corpora, Montreal, Canada, 1998. 143～151
7[10]Abney S. Part-of-speech tagging and partial parsing. In:Church K, Young S, Bloothooft G eds. Corpus-Based Methods in Language and Speech, An ELSNET volume, Dordrecht:Kluwer Academic Publishers, 1996. 119～136
8[11]Church K W. A stochastic parts program and noun phrase parser for unrestricted text. In:Proceedings of the 2nd Conference on Applied Natural Language Processing, Texas, USA, 1988.136～143
9[12]Ramshaw L A, Marcus M P. Text chunking using transformation-based learning. In: Proceedings of ACL Third Workshop on Very Large Corpora, Cambridge, USA, 1995. 82～94
10[13]Darroch J N, Ratcliff D. Generalized iterative scaling for loglinear models. Annals of Mathematical Statistics, 1972,43(5):1470～1480

同被引文献513

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
2王昀,苑春法.基于转换的时间-事件关系映射[J].中文信息学报,2004,18(4):23-30. 被引量：19
3张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
4俞士汶.语法知识在语言信息处理研究中的作用[J].语言文字应用,1997(4):82-88. 被引量：17
5高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：202
7许建华,张学工,李衍达.支持向量机的新发展[J].控制与决策,2004,19(5):481-484. 被引量：132
8黄河燕,陈肇雄.基于多策略的交互式智能辅助翻译平台总体设计[J].计算机研究与发展,2004,41(7):1266-1272. 被引量：12
9俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：31
10李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93

引证文献58

1陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
2干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
3余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
4余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
5冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
6李跃进,赵晶,林鸿飞.基于Internet的军事演习信息抽取系统[J].计算机工程与应用,2006,42(14):214-218. 被引量：6
7刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2
8林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.
9吕琳,刘玉树.最大熵和Brill方法结合识别英语BaseNPs[J].北京理工大学学报,2006,26(6):500-503. 被引量：6
10付斌,樊孝忠.基于神经元网络的问句组块分析[J].计算机技术与发展,2006,16(10):94-96.

二级引证文献215

1刘涛,蒋国权,丁鲲,孙毅,刘姗姗.基于大模型的事件抽取技术及军事应用思考[J].网络安全与数据治理,2023,42(S01):163-168. 被引量：3
2唐坚,刘海燕.作战文书中部队番号的自动识别方法[J].兵器装备工程学报,2020,0(2):143-147. 被引量：1
3李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
4林旭东,孙爱东,林丕源,刘汉兴.基于依存关系与支持向量机的中文问题分类方法[J].郑州大学学报（理学版）,2009,41(1):64-68. 被引量：2
5余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
6徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报（理学版）,2007,45(3):416-420. 被引量：7
7李昌清,李艳霞,李胜利,王剑.基于动态异构的Web信息集成网页分析方法[J].计算机应用研究,2007,24(12):204-206. 被引量：7
8余正涛,毛存礼,邓锦辉,章程,郭剑毅.基于模式学习的中文问答系统答案抽取方法[J].吉林大学学报（工学版）,2008,38(1):142-147. 被引量：8
9陈霄,刘慧,陈玉泉.基于支持向量机方法的中文组织机构名的识别[J].计算机应用研究,2008,25(2):362-364. 被引量：20
10别致,周俊生,陈家骏.基于SVM-Adaboost的中文组块分析[J].计算机工程与应用,2008,44(21):171-173. 被引量：1

1孙广路,王晓龙,刘秉权,关毅.基于词聚类特征的统计中文组块分析模型[J].电子学报,2008,36(12):2450-2453. 被引量：7
2孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报,2011,43(7):135-139. 被引量：5
3徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报（理学版）,2007,45(3):416-420. 被引量：7
4别致,周俊生,陈家骏.基于SVM-Adaboost的中文组块分析[J].计算机工程与应用,2008,44(21):171-173. 被引量：1
5张小强.在CAXA电子图板中快速定制标注符号一技巧[J].金属加工（冷加工）,2008(10):68-68. 被引量：2
6李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2):1-7. 被引量：50
7刘钟,张树生,张铁昌.模糊特征下基于神经网络的工程图纸标注符号识别研究[J].西北工业大学学报,1996,14(1):134-137.
8龚雄,赵建军,陈立平.UG工程图标注符号自动归位的实现方法[J].计算机辅助工程,2004,13(2):51-54. 被引量：1
9安美玲.基于AutoCAD VBA的绘图环境自动设置[J].机械工程与自动化,2009(5):170-171.
10刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8

计算机学报

2003年第12期

浏览历史

内容加载中请稍等...

基于最大熵模型的组块分析被引量：58

参考文献11

同被引文献513

引证文献58

二级引证文献215

相关作者

相关机构

相关主题

浏览历史

基于最大熵模型的组块分析 被引量：58

参考文献11

同被引文献513

引证文献58

二级引证文献215

相关作者

相关机构

相关主题

浏览历史

基于最大熵模型的组块分析被引量：58