基于统计的语言处理模型的局限性被引量：7

The Limitations of the Statistically-based NLP Models

导出

摘要本文通过介绍和评论基于统计的语言处理模型的工作原理和有关的应用实例 ,从语言学理论的角度来说明统计模型的局限性。通过讨论N元语法模型及其在词类标注上的应用 ,展示基于统计的语言处理模型的工作原理及其应用。讨论了语言结构的递归性特点和语言学知识的结构依赖性特点 ,指出递归嵌入会使得统计规律被任意数目的嵌入词语打乱。 This paper demonstrates the limitations of the statistically based natural language processing (NLP) models in the perspective of linguistic theory by introducing and commenting the mechanism of the statistical language models (SLM) and their applying cases. Firstly, it introduces the studies of the statistical structure of language under the influence of information theory, especially Chomsky's demonstration that finite state grammar (FSG) based on Markov process is not suited to description of natural language. Then, it reveals mechanism and possible applying fields of SLM by discussing N gramm and its applying in parts of speech tagging. It discusses the recursion property of linguistic structure and the structure dependent property of linguistic knowledge, and argues that recursive nested constructions would upset the statistic regularity and the structure dependent property of linguistic knowledge would make the independence assumption, whereby SLM can be realized, lose effectiveness. Finally, it suggests that the right track of NLP may be integration of rule based approach and statistics based approach, because natural language is a miscellaneous system.

作者袁毓林

机构地区北京大学中文系

出处《语言文字应用》 CSSCI 北大核心 2004年第2期99-108,共10页 Applied Linguistics

基金教育部"跨世纪优秀人才培养计划"基金资助教育部"十五"规划项目 (0 1JB74 0 0 0 6 )基金资助

关键词统计模型有限状态语法马尔科夫过程递归性结构依赖性 language processing statistical models finite state grammar Markov process recursion structure dependent property

分类号 H08 [语言文字—语言学]

引文网络
相关文献

参考文献48

1白栓虎黄昌宁夏莹主编.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹主编.语言信息处理专论[C].清华大学出版社,1996..
2范继淹.汉语语法结构的层次分析问题[A]..语法研究和探索(第1辑)[C].北京大学出版社,1983..
3黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
4黄昌宁李涓子.语料库语言学[M].北京:商务印书馆,2002..
5Chatman, Seymour. Immediate Constructions and Expansion Analysis. Word, 1955 ,Vol. 11.
6Chomsky, Noam. Three Models for the Description of Language. IRE Transactions on Information Theory, 1956, IT-2.
7Chomsky,Noam.Syntactic Structure(句法结构),邢公畹等译.中国社会科学出版社,1979.
8Chomsky, Noam. On Cognitive Structures and Their Development: A Reply to Piaget. In Piattelli - Palmarini, Massimo (ed.) Language and Learning: The Debate between Jean Piaget and Noam Chomsky, Cambridge: Harvard University Press, 1980.
9Collins, M and J. Brooks. Preposition Phrase Attachment through a Backed-off Model. in Proceedings of the 3rd WVLC, Cambridge, MA,1995.
10Corder, S. Pit. Introducing Applied Linguistics. Penguin, 1979.

二级参考文献8

1黄昌宁.关于处理大规模真实文本的谈话[J].语言文字应用,1993(2):1-10. 被引量：25
2夸克等.英语语法大全[M].华东师范大学出版社,1988.
3白拴虎.汉语词性自动标注系统研究[D].清华大学计算机科学与技术系硕士学位论文,1992.
4Collins, M. and Brooks, J. Preposition phrase attachment through a backed-off model. In: Proceedings of the 3rd WVLC, Cambridge, MA, 1995.
5Schank, R., and Abelson, R. Scripts, Plans, Goals and Understanding: An Inquiry into Human Knowledge Structures. Hillsdale: Lawrence Erlbaum Associates, Publishers, 1977.
6Rich, Elaine. Artificial Intelligence. London: McGraw-Hill Book Company, 1983,295--344.
7In: Artificial Intelligence at MIT: Expending Frontiers, Vol.1. Winston, P. H., and Shellard, S.A. (eds.). Cambridge, Mass: MIT Press, 1990.
8Garside, R., Leech, G. and Sampson, G. (eds.). The Computational Analysis of English: A Corpus-Based Approach. London: Longman, 1989.

共引文献86

1德.萨日娜.蒙古语句子切分知识库的建立与应用[J].内蒙古社会科学,2006,27(6):165-167.
2雒自清,张雪荣,苗传江.计算语言学——一门新兴的交叉学科[J].科学学研究,2003,21(z1):46-50. 被引量：6
3曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
4陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
5刘璐,郑家恒.动词—动词搭配关系的自动标注方法[J].计算机工程,2004,30(20):47-49.
6许汉成.俄语功能语体定量分析中的几个核心问题[J].外语学刊,2004(6):30-36. 被引量：1
7范云,黄萍,黄俊红.汉英平行语料库双语语义对应空位研究[J].重庆大学学报（社会科学版）,2005,11(2):84-87. 被引量：1
8金纯.浅谈计算机自然语言理解[J].浙江中医学院学报,2005,29(3):72-73. 被引量：4
9毕丽克孜.语料库语言学的应用和维吾尔语语料库词频统计的意义[J].新疆师范大学学报（哲学社会科学版）,2005,26(2):226-228. 被引量：4
10王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2

同被引文献82

1高彦宇,杨扬.基于正交特征的手写体汉字识别方法[J].仪器仪表学报,2003,24(z2):446-447. 被引量：4
2范晓.关于汉语的语序问题(一)[J].汉语学习,2001(5):1-12. 被引量：60
3刘涌泉.机器翻译归根到底是个语言学问题[J].语言文字应用,1997(3):81-84. 被引量：15
4连淑芳.在人工语法学习中外显与内隐过程的研究[J].心理科学通讯,1990,13(3):19-24. 被引量：5
5陆俭明.汉语句子的特点[J].汉语学习,1993(1):1-6. 被引量：27
6周红英.成语的语义和句法结构特征的认知语言学解释[J].英语研究,2010,8(3):17-24. 被引量：3
7邵志芳,陆峥.重新审视内隐学习人工语法范型[J].华东师范大学学报（教育科学版）,2004,22(2):47-52. 被引量：3
8邓思颖.自然语言的词序和短语结构理论[J].当代语言学,2000,2(3):138-154. 被引量：26
9黄昌宁,张小凤.自然语言处理技术的三个里程碑[J].外语教学与研究,2002,34(3):180-187. 被引量：20
10金连文,覃剑钊.手写汉字识别弹性网格Gabor特征提取方法的研究[J].计算机应用研究,2004,21(12):163-165. 被引量：11

引证文献7

1张克亮.机器翻译热的冷思考[J].计算机工程与应用,2006,42(21):1-5. 被引量：4
2杨焕峥.汉语方言自动辨识系统中的语言建模[J].宁波职业技术学院学报,2007,11(5):71-73.
3赵继印,郑蕊蕊,吴宝春,李敏.脱机手写体汉字识别综述[J].电子学报,2010,38(2):405-415. 被引量：42
4王忠建,王悦.归纳学习与规则结合的分词方法的有效性考察[J].哈尔滨师范大学自然科学学报,2010,26(1):40-43.
5程工.层级结构和线性顺序之新探[J].外语教学,2018,39(1):1-7. 被引量：9
6耿立波,杨丽,杨亦鸣.基于微型人工语法范式的语言学习实证研究综述[J].中国科学：信息科学,2018,48(11):1487-1496. 被引量：1
7耿立波,杨丽,方娇艳,杨亦鸣.人脑如何学习新的语言规则[J].中文信息学报,2021,35(5):27-37. 被引量：1

二级引证文献57

1孙洪山,薛峰峰.计算机技术在翻译教学中的应用:潜力与局限[J].山东教育学院学报,2009,24(5):100-103. 被引量：2
2陆金龙.信息时代的职业翻译特征及其对翻译教学的启示[J].鲁东大学学报（哲学社会科学版）,2010,27(6):64-68. 被引量：2
3谭啸峰,沈海斌.基于主元分析的空间手写平面化预处理技术[J].机电工程,2011,28(8):965-969. 被引量：5
4郑蕊蕊,赵继印,李敏,于为民,吴宝春.多民族脱机手写体汉字数据库的设计与构建[J].大连民族学院学报,2011,13(5):502-506. 被引量：1
5潘巍,马培军,李东.基于间隔损失和L_1范数调节的特征选择方法研究[J].智能计算机与应用,2012,2(1):8-10.
6罗毅,李莺,王锴,李斌.基于Gabor变换的中文字符特征提取方法研究[J].电子设计工程,2012,20(15):146-147. 被引量：2
7刘卫,李和成.基于局部保持投影与隐马尔可夫模型的维文字符识别[J].计算机应用,2012,32(8):2309-2312. 被引量：1
8刘卫.一种基于DHMM的脱机手写维文字母识别算法[J].兰州大学学报（自然科学版）,2013,49(1):126-130.
9熊玉珍,彭德权.计算机辅助汉字测评的现状与发展[J].中国考试,2013(9):20-26.
10朱程辉,曹敏,王建平.基于过程神经网络的汉字特征提取方法的研究[J].合肥工业大学学报（自然科学版）,2013,36(10):1203-1209. 被引量：1

1魏德胜.古汉语中名词的结构义[J].河南大学学报（社会科学版）,1998,38(1):49-53. 被引量：1
2刘彦.外语学习之探究[J].内蒙古医学院学报,2006,28(S1):317-319.
3张琢石.现代汉语的主语和宾语问题[J].社会科学辑刊,2003(4):155-158. 被引量：1
4张雪原.基于语料库的英语专业学生口语中情态动词使用研究[J].湖北科技学院学报,2015,35(3):121-123. 被引量：1
5杨臻.论《句法结构》之革命性:语言学理论之科学性转向[J].廊坊师范学院学报（社会科学版）,2015,31(4):35-38.
6夏英姿.文化图式与英文电影片名翻译[J].电影文学,2009(14):77-78. 被引量：1
7郑曦汇.乔姆斯基的句法理论对当代CLT背景下外语语法教学的启示[J].内蒙古师范大学学报（教育科学版）,2014,27(9):125-127.
8方立.乔姆斯基的早期句法理论与当前语言学界的争鸣[J].外语教学与研究,1984,16(4):9-18. 被引量：1
9王强.刺激贫乏论诠释[J].当代外语研究,2012(4):20-26. 被引量：8
10杨信勇,海力古丽·尼牙孜.《句法结构》要略[J].心事,2014,0(14):70-71.

语言文字应用

2004年第2期

浏览历史

内容加载中请稍等...

基于统计的语言处理模型的局限性被引量：7

参考文献48

二级参考文献8

共引文献86

同被引文献82

引证文献7

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于统计的语言处理模型的局限性 被引量：7

参考文献48

二级参考文献8

共引文献86

同被引文献82

引证文献7

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于统计的语言处理模型的局限性被引量：7