提高汉语自动分词精度的多步处理策略被引量：30

Increasing Accuracy of Chinese Segmentation with Strategy of Multi step Processing

下载PDF

导出

摘要 :汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达 The automatic word segmentation of Chinese sentences is difficult when the processing mechanism faces large scale real texts.The crucial two issues in Chinese segmentation are the identification of unknown words and the disambiguation of segmentation strings.This paper describes a strategy based on multi steps processing for decreasing the difficulties and improving the accuracy of the segmentation.The processing steps include seven parts,i.e.,disambiguation of pseudo ambiguities,full segmentation of a sentence,determinate segmentation for some words,processing of numeral string,processing for reduplication of words,statistical identification for unknown words and final correction for segmentation ambiguities with part of speech which is integrated in the tagger.The output of this procedure is promising with above 98% accuracy in open test.

作者赵铁军吕雅娟于浩杨沐昀刘芳

机构地区哈尔滨工业大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2001年第1期13-18,共6页 Journal of Chinese Information Processing

基金国家自然科学基金! ( 697750 17)

关键词汉语自动分词多步处理消除伪岐义句子全切金部分确定性切分数词串处理重叠词处理 Chinese segmentation ambiguity multi step strategy

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1吕雅娟,赵铁军,杨沐昀,于浩,李生.基于分解与动态规划策略的汉语未登录词识别[J].中文信息学报,2001,15(1):28-33. 被引量：43
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
3孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51

二级参考文献10

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
3孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
4宋柔，计算语言学研究与应用，1993年
5孙茂松，计算语言学研究与应用，1993年
6郑家恒，计算语言学研究与应用，1993年
7张俊盛，中文信息学报，1992年，6卷，3期
8团体著者，姓氏人名用字分析统计，1990年
9孙茂松，汉语计量与计算研究，1998年
10刘开瑛，语言文字应用，1997年，1期

共引文献165

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
5曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
6郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
7陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
8黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
9曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
10苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13

同被引文献298

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
6噶玛降村.藏族人名的佛教文化内涵[J].中国西藏,1998,0(3):42-43. 被引量：5
7曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
9孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
10张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23

引证文献30

1LI Li.A Study on Improving Word-Segmentation Accuracy in Automatic Chinese Text Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):225-228.
2张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
5罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
6金华兴,戴新宇,陈家骏.可扩展统计分词系统的构造[J].计算机工程与应用,2005,41(23):176-178.
7蒋宏飞,杨沐昀,赵铁军.面向奥运的汉英RBMT与EBMT研究[J].中文信息学报,2006,20(B03):71-74. 被引量：1
8王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006,25(2):118-121. 被引量：1
9李中国,刘颖.边界模板和局部统计相结合的中国人名识别[J].中文信息学报,2006,20(5):44-50. 被引量：13
10秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11

二级引证文献195

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：53
2吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：11
3张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
4任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
5于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
6崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
7陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
8邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
9邵晓良,刘红.Web主题信息采集中信息主题的识别[J].现代图书情报技术,2004(10):51-54. 被引量：4
10梁华蓉.英汉、汉英机器翻译探析[J].福建农林大学学报（哲学社会科学版）,2004,7(4):78-81. 被引量：2

1唐涛,周俏丽,张桂平.统计与规则相结合的术语抽取[J].沈阳航空航天大学学报,2011,28(5):71-74. 被引量：7
2骆正清,陈增武,王泽兵,胡上序.汉语自动分词研究综述[J].浙江大学学报（自然科学版）,1997,31(3):306-312. 被引量：16
3刘震,李树楷.三“S”一体化技术和方法的探讨[J].环境遥感,1995,10(2):152-160. 被引量：24
4郑家恒,张剑锋,谭红叶.中文分词中歧义切分处理策略[J].山西大学学报（自然科学版）,2007,30(2):163-167. 被引量：10
5王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006,25(2):118-121. 被引量：1
6刘宇鹏,李生,赵铁军.基于超图的翻译模型融合的研究[J].软件学报,2012,23(9):2347-2357.
7章成志,苏新宁.面向信息检索的排除词识别研究[J].现代图书情报技术,2007(2):44-48.
8郑逢斌,付征叶,乔保军,毋琳.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报（自然科学版）,2004,34(4):49-52. 被引量：5
9通过国家保密局涉密信息系统安全保密测评中心检测的产品目录(2011年2月1日至2月29日)[J].保密科学技术,2012(3):79-80.
10通过国家保密局涉密信息系统安全保密测评中心检测的产品目录(2010年4月—2010年5月)[J].保密科学技术,2010(1):79-80.

中文信息学报

2001年第1期

浏览历史

内容加载中请稍等...

提高汉语自动分词精度的多步处理策略被引量：30

参考文献3

二级参考文献10

共引文献165

同被引文献298

引证文献30

二级引证文献195

相关作者

相关机构

相关主题

浏览历史

提高汉语自动分词精度的多步处理策略 被引量：30

参考文献3

二级参考文献10

共引文献165

同被引文献298

引证文献30

二级引证文献195

相关作者

相关机构

相关主题

浏览历史

提高汉语自动分词精度的多步处理策略被引量：30