基于汉语二字应成词的歧义字段切分方法被引量：8

Ambiguity Word Segmentation Based on Two Chinese Characters Used as a Word in Chinese

下载PDF

导出

摘要文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。 This paper gives a new method to compute the two statistical measures,interact information and difference of three -character information of adjacent characters,by utilizing two Chinese characters used as a word in Chinese sentences.Further,it resolves ambiguity word automatic segmentation in Chinese.In this paper,the test results appear that the right rate of separating ambiguity is90%.Compared with those by other methods,it improves the accuracy of ambiguity word automatic segmentation,particularly,compared with document Ⅰ,the complexity of time that there are much more information will reduce.

作者郑德权于凤王开涛赵铁军

机构地区哈尔滨工业大学计算机科学与技术学院哈尔滨商业大学计算中心

出处《计算机工程与应用》 CSCD 北大核心 2003年第1期17-18,26,共3页 Computer Engineering and Applications

基金国家863高技术研究发展计划(编号:2001AA114101)

关键词汉语二字应成词歧义字段切分方法中文信息处理 t-信息差自动分词汉语文本 interact information,difference of t-information,two Chinese characters used as a word,word automatic segmentation,ambiguity word

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘挺,施洪滨,邵艳秋.中文计算机辅助校对系统原理[J].中文信息,1997,14(2):21-22. 被引量：6
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3郑德权.汉语自动分词最大匹配算法的改进[J].中文信息,1998,15(12):101-101. 被引量：2

二级参考文献5

1Lai B Y，Proc of ROCLING-IV，1991年
2Zhang J S，Proc of ROCLING-IV，1991年
3王晓龙，科学通报，1989年，13页
4梁南元，中文信息学报，1987年，1期
5冯志伟，数理语言学，1985年

共引文献70

1肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
2许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
5冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：7
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2

同被引文献41

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
2苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
3李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
4金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
7张先飞,李弼程,刘安斐.基于改进KNFL算法的海量文本分类研究[J].微计算机信息,2005,21(11S):159-160. 被引量：4
8刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
9蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3
10罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19

引证文献8

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2刘江,郑家恒,张虎.中文文本语料库分词一致性检验技术的初探[J].计算机应用研究,2005,22(9):52-54. 被引量：10
3张辉丽,孟昭鹏,王慧芝.汉语自动分词中的歧义处理[J].微计算机应用,2006,27(6):685-688. 被引量：3
4冯素琴,陈惠明.利用上下文信息解决汉语组合型歧义[J].电脑开发与应用,2007,20(1):23-25. 被引量：1
5冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
6郑家恒,张剑锋,谭红叶.中文分词中歧义切分处理策略[J].山西大学学报（自然科学版）,2007,30(2):163-167. 被引量：10
7冯素琴,陈惠明.一种基于搭配信息的汉语组合型消歧方法[J].山西大学学报（自然科学版）,2008,31(2):173-176.
8马新意,王剑辉.自动答疑系统中文分词模块的设计与实现[J].信息技术与信息化,2019(1):19-22.

二级引证文献34

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：53
2庞敏,杨进才,刘家武.动物信息平台物种类别树形关系的一致性实现[J].计算机与数字工程,2007,35(11):44-46.
3卢俊之.分词不一致不同成因的自动识别研究[J].现代语文（下旬．语言研究）,2007(11):87-88. 被引量：1
4张霄军.“切分变异”考证——兼谈“金本位”语言资源的建设[J].语文学刊（高等教育版）,2008(1):70-72.
5刘博,郑家恒,张虎.规则与统计相结合的分词一致性检验[J].计算机工程与设计,2008,29(7):1814-1816. 被引量：7
6张严虎,潘璐璐,彭子平,张靖波,于中华.基于规则挖掘和Nave Bayes方法的组合型歧义字段切分[J].计算机应用,2008,28(7):1686-1688. 被引量：5
7董宇.带标注语料库的分词不一致研究综述[J].现代语文（下旬．语言研究）,2008(8):106-108.
8李国和,刘光胜,吴卫江,孙红军,唐先明,韩宝东.基于最大匹配和歧义检测的中文分词粗分方法[J].北京信息科技大学学报（自然科学版）,2010,25(S2):84-88. 被引量：1
9李娟,周贤善.一种改进的逆向匹配快速切分算法[J].信息系统工程,2010,23(2):133-134. 被引量：1
10周宏宇,张政.中文分词技术综述[J].安阳师范学院学报,2010(2):54-56. 被引量：7

1张辉丽,孟昭鹏,王慧芝.汉语自动分词中的歧义处理[J].微计算机应用,2006,27(6):685-688. 被引量：3
2熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6
3严智敏,邵斌.基于模态逻辑的汉语信息过滤机制研究[J].微电子学与计算机,2004,21(11):96-98. 被引量：1
4唐涛,周俏丽,张桂平.统计与规则相结合的术语抽取[J].沈阳航空航天大学学报,2011,28(5):71-74. 被引量：7
5骆正清,陈增武,王泽兵,胡上序.汉语自动分词研究综述[J].浙江大学学报（自然科学版）,1997,31(3):306-312. 被引量：16
6谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
7窦家维,李顺东.一种新的语言信息计算模型[J].小型微型计算机系统,2005,26(10):1850-1853. 被引量：1
8张滨,晏蒲柳,李文翔,夏德麟.基于汉语句模的中文分词算法[J].计算机工程,2004,30(1):134-135. 被引量：10
9雷二毛.中文分词及其在信息检索中的影响研究综述[J].华中师范大学研究生学报,2012(2):89-92.
10黄德根,岳函,李丽双.开放式汉语自动分词的学习机制[J].小型微型计算机系统,2005,26(8):1406-1410.

计算机工程与应用

2003年第1期

浏览历史

内容加载中请稍等...

基于汉语二字应成词的歧义字段切分方法被引量：8

参考文献3

二级参考文献5

共引文献70

同被引文献41

引证文献8

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于汉语二字应成词的歧义字段切分方法 被引量：8

参考文献3

二级参考文献5

共引文献70

同被引文献41

引证文献8

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于汉语二字应成词的歧义字段切分方法被引量：8