基于词典属性特征的粗粒度词义消歧被引量：10

Coarse-Grained Word Sense Disambiguation Using Features Described in the Lexicon

下载PDF

导出

摘要本文依据《现代汉语语法信息词典》中对词语多义的属性特征描述,对《人民日报》语料中155个词语共4996个同形实例进行了粗粒度词义自动消歧实验,同时用贝叶斯算法进行了比较测试。基于词典属性特征的消歧方法在同形层面上准确率达到90%,但召回率偏低。其优点在于两个方面:1)不受词义标注语料库规模的影响;2)对特定词语意义的消歧准确率可达到100%。本文也讨论了适用于不同词类的消歧特征。 This paper presents a simple but effective feature-based approach to Chinese word sense disambiguation using the distributional features available from the Grammatical Knowledge-base of Contemporary Chinese. The test data is the sense-tagged corpus of People＇s Daily. A Naive Bayes classifier is also tried as a comparable statistical method. The feature-based approach achieves precision of 90%, which is comparable to the NB classifier. The striking advantages of the feature-based approach are 1） It is not influenced by the data size, and 2） It can disambiguate some specific words with precision of 100%. The features appropriate for different parts of speech in Chinese WSD are also discussed. This paper demonstrates that sense features described in the lexicon are worth including in WSD.

作者吴云芳金澎郭涛

机构地区北京大学计算语言学研究所

出处《中文信息学报》 CSCD 北大核心 2007年第2期3-8,共6页 Journal of Chinese Information Processing

基金国家973计划资助项目(2004CB318102)

关键词人工智能自然语言处理特征词义词义消歧贝叶斯分类法 artificial intelligence natural language processing~ feature word sense word sense disambiguation Naive Bayes classifier

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘风成,黄德根,姜鹏.基于AdaBoost.MH算法的汉语多义词消歧[J].中文信息学报,2006,20(3):6-13. 被引量：7
2卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
3全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
4Lesk, M.E. Automated sense disambiguation using machine-readable dictionaries: How to tell a pine conefrom an ice cream cone [A]. In. Proceedings of the SIGDOC Conference [C]. 1986.
5Yarowsky, D. Word-sense disambiguation using statistical models of Roget's categories trained on large corpora [A]. In.. Proceedings of COLING 92 [C].1992.
6Niu, ZH. Y., Ji, D. H. and Tan, Ch. L. : Optimizing Feature Set for Chinese Word Sense Disambiguation [A]. In: Third International Workshop On The Evaluation of Systems for the Semantic Analysis of Text [C]. 2004.
7Dang, H. T. and Palmer, M. : The Role of Semantic Roles in Disambiguating Verb Senses [A]. In: Proceedings of the 43th Annual Meeting of the ACL[C].2005.
8Yarowsky, D. and Florian, R. Evaluating Sense Disambiguation Performance Across Diverse Parameter Spaces [J]. Journal of Natural Language Engineering, 2002.

二级参考文献26

1Nancy I de, Jean Veronis. Introduction to the Special Issue on Word Sense Disambiguation:The State of the Art[J].Computational Linguistics. 1998, 1-42.
2Yarowsky D. Umupervised Word Sense Disambiguation Rivaling Supervised Methods[A]. In: Proceedings of 33rd Annual Meeting of ACL[C], Cambridge, Massachusetts, USA, 1995, 181 - 188.
3HAO Trang Dang, Ching - yi Chia. Simple Features for Chinese Word Sense Disambiguation[A]. In: Proceedings of COLING-2002 [ C ].Philadelphia, USA, 2002, 88- 94.
4Lesk, Michael, Automatic Sense Disambiguation: How to tell a Pine Cone from and Ice Cream Cone, Proceeding of the 1986 SIGDOC Conference, Association for Computing Machinery, New York, 1986.
5N.Ide,J.Veronis,Introduction to the special Issue on Word Sense Disambiguation:The State of the Art[J].Computational Linguistics,ACL,1998.24(1).
6D.Yarowsky.Unsupervised Word Sense Disambiguation Rivaling Supervised Methods[A].In:the 33rd Annual Meeting of ACL[C].Massachusetts,1995:181-188.
7H.T.Ng,Exemplar-based Word Sense Disambiguation:Some Recent Improvements[A].In:proceeding of the2nd Conference on Empirical Methods in Natural Language Processing,EMNLP,1997.
8Peter F.Brown,Stephen A.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer.Word-sense disambiguation using statistical methods[A].In:proceedings of the 29th conference on Association for Computational Linguistics[C].California,June 1991,264-270
9G.Towell,E.M.Voorhees,Disambiguating Highly Ambiguous Words[J].Computational Linguistics,ACL,1998.24(1).
10S.Abney,R.E.Schapire,Y.Singer.Boosting Applied to Tagging and PP-attachment[A].In:proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Proceeding and Very larger Corpora[C].1999.

共引文献25

1刘莉,谈文蓉.统计学习方法在语义消歧中的应用研究[J].西南民族大学学报（自然科学版）,2007,33(1):193-196.
2孟维娟.自然语言处理中的歧义[J].上海电机学院学报,2006,9(S1):16-19. 被引量：2
3卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
4谈文蓉,符红光,刘莉,杨宪泽.一种基于贝叶斯分类与机读词典的多义词排歧方法[J].计算机应用,2006,26(6):1389-1391. 被引量：5
5王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2006,20(6):31-37. 被引量：14
6汤小娜,苏劲松.贝叶斯分类在词义消歧中的分析[J].黑龙江科技信息,2007(04S):38-38.
7谢宇,张仰森,肖建涛.规则与统计相结合的汉语词义消歧模型[J].北京机械工业学院学报,2007,22(3):5-9. 被引量：1
8石琳,王志良,李志刚.基于BBN情感模型的和谐人机交互研究[J].计算机应用研究,2007,24(12):77-79. 被引量：2
9李纲,寇广增,夏晨曦,全吉,张东赫.中文词义消歧上下文最优边界问题研究[J].现代图书情报技术,2009(7):49-53. 被引量：1
10于丽丽,丁德鑫,曲维光,陈小荷,李惠.基于条件随机场的古汉语词义消歧研究[J].微电子学与计算机,2009,26(10):45-48. 被引量：13

同被引文献190

1陈佳,罗振声.一种基于语义搭配的汉语词义消歧方法[J].微计算机信息,2008,24(3):187-188. 被引量：1
2陈明,肖庆华.社会生活演讲的人际意义——对英国伦敦申奥演讲的人际意义分析[J].华东交通大学学报,2006,23(6):110-113. 被引量：3
3王健昆.副词“顿时”的语义和句法分析[J].语言文字应用,2005(S1):156-158. 被引量：4
4董秀芳.“X说”的词汇化[J].语言科学,2003,2(2):46-57. 被引量：216
5杨华.试论心理状态动词及其宾语的类型[J].汉语学习,1994(3):33-36. 被引量：18
6桂诗春.认知和语言[J].外语教学与研究,1991,23(3):3-9. 被引量：93
7孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：58
8王明华.能带小句宾语的动词[J].杭州大学学报（哲学社会科学版）,1989,19(2):110-121. 被引量：6
9周有斌,邵敬敏.汉语心理动词及其句型[J].语文研究,1993(3):32-36. 被引量：61
10黄昌宁,童翔.汉语真实文本的语义自动标注[J].语言文字应用,1993(4):18-25. 被引量：7

引证文献10

1范冬梅,卢志茂,张汝波,潘树燊.基于信息增益改进贝叶斯模型的汉语词义消歧[J].电子与信息学报,2008,30(12):2926-2929. 被引量：8
2吴云芳.词义消歧研究:资源、方法与评测[J].当代语言学,2009,11(2):113-123. 被引量：9
3刘商飞,张志祥.基于改进的Bayes判别法的中文多义词消歧[J].计算机与数字工程,2009,37(10):32-35. 被引量：3
4范冬梅,卢志茂,张汝波.词义刻画与词义识别[J].计算机工程与设计,2011,32(1):270-273.
5张明辉.认知类动词的界定[J].宁夏大学学报（人文社会科学版）,2011,33(1):32-38. 被引量：4
6张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
7管君,谢玮,张仰森.基于多知识源的语义搭配知识库的构建及应用[J].计算机工程与设计,2013,34(6):2136-2140. 被引量：3
8李国臣,张立凡,李茹,刘海静,石佼.基于词元语义特征的汉语框架排歧研究[J].中文信息学报,2013,27(4):44-51. 被引量：7
9戴洪涛,侯开虎,周洲,肖灵云.基于VCK-vector模型的词义消歧方法[J].软件,2020,41(2):134-140. 被引量：1
10闫亚亚,邢红兵.基于节点词全句共现的动态词义消歧研究[J].语言科学,2024,23(4):354-364. 被引量：1

二级引证文献40

1王冠桥,李潜波.韩语新闻语篇的及物性分析[J].外国语言与文化,2021(1):144-156.
2苑春燕,李爱华.基于信息增益和相关性的贝叶斯分类算法研究[J].网络与信息,2010,24(2):30-31.
3苏新春,李安,洪桂治.机用义项库在词义标注中的作用及其完善[J].厦门大学学报（哲学社会科学版）,2010,60(3):137-144. 被引量：9
4吴云芳.词义消歧相关术语简介[J].术语标准化与信息技术,2010(3):18-20. 被引量：1
5孙超,张仰森.利用浅层句法分析提取特征的词义消歧[J].计算机工程与设计,2010,31(21):4704-4707.
6冯文贺,姬东鸿.命题库:分析与展望[J].外语电化教学,2010(6):25-31. 被引量：3
7张明辉,赵黎明.能动获知义句式的语义分析[J].宁夏大学学报（人文社会科学版）,2011,33(2):24-27.
8张震,胡学钢.基于互信息量的分类模型[J].计算机应用,2011,31(6):1678-1680. 被引量：5
9徐金安.理性主义与经验主义相结合的机器翻译研究策略[J].计算机科学,2011,38(6):223-229. 被引量：5
10黄冬梅,顾兢兢.基于Bayes算法的态势评估[J].舰船电子工程,2012,32(5):46-47. 被引量：1

1张元清,包骏杰.基于推进贝叶斯分类法的入侵检测引擎研究[J].计算机科学,2007,34(9):87-89. 被引量：2
2李成录,王启林.数据分类及判定树、贝叶斯分类法[J].青海师范大学民族师范学院学报,2004,15(2):81-83.
3黄捷,彭宏,林嘉宜.一种新的正态分布实例的贝叶斯分类算法[J].华南理工大学学报（自然科学版）,2001,29(12):46-48. 被引量：8
4刘延玫.浅谈商务英语的翻译策略[J].科技信息,2010(8). 被引量：1
5王旭仁,许榕生.基于机器学习的入侵检测系统研究[J].计算机工程,2006,32(14):107-108. 被引量：4
6李傅冬,沈毅,刘碧瑶,林君芬,何凡,王臻.贝叶斯分类法在计算机疾病辅助诊断中的应用[J].中国预防医学杂志,2015,16(10):801-804. 被引量：7
7乔剑敏,张仰森.词义标注一致性检验系统的设计与实现[J].中文信息学报,2010,24(4):44-51. 被引量：3
8聂永红.计算机等级考试信息的数据挖掘分析[J].微计算机信息,2008(6):178-179. 被引量：7
9赵英,谭杨.基于相关信息的网络流量贝叶斯分类法改进[J].计算机工程,2016,42(3):80-83. 被引量：4
10时海亮,汪远征,徐雅静,辛向军.基于NSCT和LSSVM的Landsat ETM+图像土地覆盖分类[J].计算机工程与应用,2011,47(28):188-190. 被引量：1

中文信息学报

2007年第2期

浏览历史

内容加载中请稍等...

基于词典属性特征的粗粒度词义消歧被引量：10

参考文献8

二级参考文献26

共引文献25

同被引文献190

引证文献10

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于词典属性特征的粗粒度词义消歧 被引量：10

参考文献8

二级参考文献26

共引文献25

同被引文献190

引证文献10

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于词典属性特征的粗粒度词义消歧被引量：10