基于语境信息的汉语组合型歧义消歧方法被引量：7

Context-based Approach to Combinational Ambiguity Resolution in Chinese Word Segmentation

下载PDF

导出

摘要组合型歧义切分字段一直是汉语自动分词的难点,难点在于消歧依赖其上下文语境信息。本文采集、统计了组合型歧义字段的前后语境信息,应用对数似然比建立了语境计算模型,并考虑了语境信息的窗口大小、位置和频次对消歧的影响而设计了权值计算公式。在此基础上,1.使用语境信息中对数似然比的最大值进行消歧;2.使用语境信息中合、分两种情况下各自的对数似然比之和,取值大者进行消歧。对高频出现的14个组合型分词歧义进行实验,前者的平均准确率为84.93%,后者的平均准确率为95.60%。实验证明使用语境信息之和对消解组合型分词歧义具有良好效果。 Combinational ambiguity is a challenging issue in Chinese word segmentation in that its disambiguation depends on the contextual information. This paper collected contextual information statistics of combinational ambiguity words and establishes a context model using log likelihood ratio. A weight calculation formula is designed considering contextual information＇s window size, location and the frequency. Based on this, two methods are investigated for disambiguation. One uses the maximum log likelihood ratio in contextual information; the other uses the maximum sum of log likelihood ratio between the situation of combination and separation in contextual information. Tested on 14 high-frequence ambiguous words, the average accuracy of the former method reaches 84.93M, and that of the latter reaches 95.60 %. The result of the experiment reveals that using the combination of contextual information is effective for disambiguation.

作者冯素琴陈惠明

机构地区忻州师范学院计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2007年第6期13-16,42,共5页 Journal of Chinese Information Processing

基金山西省忻州师范学院基金资助项目(200307)

关键词计算机应用中文信息处理自然语言处理汉语自动分词组合型切分歧义对数似然比语境信息 computer application Chinese information processing natural language processing Chinese word segmentatiom combinational ambiguity log likelihood ratio contextual information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127. 被引量：29
2孙茂松．汉语自动分词研究的若干最新进展[A]．中国中文信息学会20周年学术会议论文集[C]．北京：清华大学出版社，2001.
3俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：132
4肖云,孙茂松,邹嘉彦.利用上下文信息解决汉语自动分词中的组合型歧义[J].计算机工程与应用,2001,37(19):87-89. 被引量：24
5郑家恒,吴芳芳.多义歧义切分方法研究[A].计算机语言学文集[C].清华大学出版社,1999,129-134.
6ZHANG HP. Chinese Lexical Analysis using Hierarchical Hidden Markov Model [A]. Second SIGHAN workshop affiliated with 41th ACL[C].2003,63-70.
7曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10
8曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
9鲁松,白硕.自然语言处理中词语上下文有效范围的定量描述[J].计算机学报,2001,24(7):742-747. 被引量：47

二级参考文献19

1梅家驹,竺一鸣,高蕴琦,殷鸿翔.编纂汉语类义词典的尝试——《同义词词林》简介[J].辞书研究,1983(1):133-138. 被引量：15
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：200
3曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：20
4黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
5孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
6白硕，语言学知识的计算机辅助发现，1995年
7方开泰，实用多元统计分析，1989年
8MANNING C, SCHüTZE H. Foundations of Statistical Natural Language Processing[M] MIT Press. Cambridge, MA: 1999.
9ZHANG HP. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model[A]. Second SIGHAN workshop affiliated with 41th ACL[C], 2003.63 -70.
10曲维光.分词系统计量研究与改进方案[C].第二届全国学生计算语言学研讨会论文集,2004.

共引文献230

1杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
2吴先,胡俊峰.基于历时语料库的在线词典编纂系统设计[J].中文信息学报,2020(5):27-35. 被引量：1
3程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：15
4谭晓平.现代汉语文本语料库建设及应用现状研究[J].对外汉语研究,2018,0(1):20-29.
5姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
6化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
7刘亮.现代汉语广义助词知识库构建与应用[J].光盘技术,2008(4):14-16. 被引量：2
8刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
9杨芸,周昌乐,王雪梅,戴帅湘.基于机器理解的汉语隐喻分类研究初步[J].中文信息学报,2004,18(4):31-36. 被引量：15
10于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1

同被引文献144

1邱庆山.歧义句“连N也V”中N的“语义成分同词”类型考察[J].理论月刊,2008(12):109-111. 被引量：2
2侯敏,孙建军.汉语自动分词中的歧义问题[J].语言文字应用,1996(1):68-72. 被引量：8
3孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：58
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：200
5周明强.歧义、歧解和用歧的认知问题[J].语言文字应用,2004(3):83-90. 被引量：17
6孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
7王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：16
8张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报,2004,18(6):43-52. 被引量：9
9陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
10尤庆学.歧义度的调查与分析[J].汉语学习,2000(5):15-19. 被引量：24

引证文献7

1袁鼎荣,李新友,邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件,2011,28(6):57-58. 被引量：5
2于秒,冯玥.近十年来汉语歧义研究综观与展望[J].理论月刊,2011(11):64-67. 被引量：1
3尤慧丽,晏立,杨晓东.中文分词中组合型切分歧义的消解研究[J].计算机工程与应用,2011,47(31):125-127. 被引量：1
4张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
5尹倩.基于语义扩展度的中文分词交叉歧义处理方法[J].南昌工程学院学报,2016,35(1):56-60. 被引量：1
6郭丙华,俞亚堃,李中华.基于词语搭配关系的一种中文分词歧义性消除方法[J].计算机应用与软件,2016,33(10):94-97. 被引量：3
7李佳,郭剑毅,刘艳超,余正涛,线岩团,阮氏青娥.基于多分类器加权投票法的越南语组合歧义消歧[J].计算机科学,2018,45(1):167-172. 被引量：7

二级引证文献21

1丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
2赵衍,陈恒.一种提高中英文混编文本标引准确性的方法[J].现代图书情报技术,2012(6):36-42. 被引量：1
3王春桥.从语义和语用的角度看汉语歧义句的英译策略[J].齐齐哈尔大学学报（哲学社会科学版）,2013(6):124-125.
4木合亚提·尼亚孜别克,古力沙吾利·塔里甫,古丽拉·阿东别克.哈萨克语NP和VP结构的歧义类型与消除策略研究[J].西南师范大学学报（自然科学版）,2014,39(7):41-46.
5杜家利,于屏方.花园幽径现象理解折返性的数据结构分析[J].中文信息学报,2015,29(1):28-37. 被引量：2
6丁祥武,张夕华.医疗领域文本结构化[J].计算机工程与设计,2017,38(10):2873-2878. 被引量：4
7刘鑫童,刘立波.改进的Mmseg4j分词算法在农作物病虫害搜索中的应用[J].宁夏工程技术,2017,16(3):229-232. 被引量：1
8孙凡,苏垚开.基于XBRL的自然语言语句的形式化标注研究[J].会计之友,2017(24):70-73.
9申琳.中文分词算法及改进研究[J].电脑知识与技术,2017,13(11):199-200. 被引量：2
10拉巴顿珠,欧珠,祖漪清,裴春宝.藏语同形异音词的消歧方法研究[J].中文信息学报,2018,32(7):58-66. 被引量：4

1曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10
2尤慧丽,晏立,杨晓东.中文分词中组合型切分歧义的消解研究[J].计算机工程与应用,2011,47(31):125-127. 被引量：1
3尹倩.基于语境信息的中文分词交叉歧义处理方法[J].重庆工商大学学报（自然科学版）,2016,33(5):20-24. 被引量：3
4冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
5肖云,孙茂松,邹嘉彦.利用上下文信息解决汉语自动分词中的组合型歧义[J].计算机工程与应用,2001,37(19):87-89. 被引量：24
6袁鼎荣,李新友,邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件,2011,28(6):57-58. 被引量：5
7歆歆.巧解组策略之痛[J].黑客防线,2005(11):83-84.
8王娟,曹庆花,黄精籼,胡忠胜.基于受限领域的中文分词系统[J].信息系统工程,2011,24(11):106-106.
9姚忠,吴跃,常娜.集成项目类别与语境信息的协同过滤推荐算法[J].计算机集成制造系统,2008,14(7):1449-1456. 被引量：10
10赵婕,姚峰林.网络图像的语境信息研究[J].山西电子技术,2015(2):79-81.

中文信息学报

2007年第6期

浏览历史

内容加载中请稍等...

基于语境信息的汉语组合型歧义消歧方法被引量：7

参考文献9

二级参考文献19

共引文献230

同被引文献144

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于语境信息的汉语组合型歧义消歧方法 被引量：7

参考文献9

二级参考文献19

共引文献230

同被引文献144

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于语境信息的汉语组合型歧义消歧方法被引量：7