自动分词中未登录词问题的一揽子解决方案被引量：26

A package scheme for identifying unlisted words in Chinese segmentation

导出

摘要确定未登录词边界是汉语自动分析中特有的一个问题，未登录词的种类和数量之多，是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案，提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽子解决方案，并报告一个初步的、令人鼓舞的开放测试结果。 Abstract Identifying unlisted words is a peculiar problem to Chinese segmentation. The variety and vast amount of unlisted words becomes a bottleneck in processing huge corpora. After discussing various methods,the paper proposes a new package scheme: segmenting twice and calculating the probability of Chinese characters as words vs. the probability of unlisted words in fragments. The result of a preliminary open test is guite inspiring.

作者陈小荷

机构地区北京语言文化大学

出处《语言文字应用》 CSSCI 北大核心 1999年第3期103-109,共7页 Applied Linguistics

关键词未登录词汉语自动分词单字词共现概率计算语言学语料库一揽子解决方案《现代汉语词典》词性标注最大匹配法

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：85
2沈达阳,孙茂松,黄昌宁.汉语分词系统中的信息集成和最佳路径搜索方法[J].中文信息学报,1997,11(2):34-47. 被引量：13
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：89
4张俊盛,陈舜德,郑萦,刘显仲,柯淑津.多语料库作法之中文姓名辨识[J].中文信息学报,1992,6(3):7-15. 被引量：14

二级参考文献32

1张小衡.从“qinghuadaxue”谈起逐步实现中文智能输入[J].中文信息,1996,13(5):3-5. 被引量：1
2Chang J S，1992年
3Chang J S，1991年
4Wang L J，1991年
5Chen K J，1988年
6Chen S I，1987年
7Kuo J J，1986年
8Ho W H，1983年
9Chang L L，1975年
10Liu I M，1975年

共引文献169

1姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
5郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
6王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
7黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
8罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：4
9曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
10季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13

同被引文献150

1张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
2林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5王德春.现代语言学的突破口[J].平顶山学院学报,1998,15(3):37-39. 被引量：1
6苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
7张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
9冯志伟.汉语书面语的分词连写[J].语文建设,2001(3):15-15. 被引量：9
10温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19

引证文献26

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2
3梁刚.基于机械分词与统计学的新词识别研究[J].情报理论与实践,2005,28(5):475-477. 被引量：6
4王美艳,赵伟.基于唐诗语料库“词”的提取及深入研究[J].长春工业大学学报,2005,26(3):217-220. 被引量：2
5黄水清,程冲.基于既定词表的自适应汉语分词技术研究[J].现代图书情报技术,2006(5):13-17. 被引量：4
6李斌,方芳.中文单字国名简称的自动识别[J].计算机工程与应用,2006,42(28):167-169. 被引量：2
7傅成宏.计算语言学对理论语言学的影响与启发[J].宿州教育学院学报,2006,9(6):150-151.
8周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
9张永奎,张彦,安增波,刘睿.Web新闻语料分词和标注错误分析[J].计算机工程与应用,2007,43(15):166-169. 被引量：4
10周蕾.基于碎片分词的未登录词识别方法[J].常熟理工学院学报,2007,21(2):77-81. 被引量：2

二级引证文献198

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
4徐艳华.新词语结构分析在自动分词中的作用[J].烟台职业学院学报,2007,13(4):57-63.
5才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
6曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
7文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
8文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
9邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
10刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4

1徐季平.低功耗设计一揽子解决方案——不可或缺还是精益求精?[J].电子设计技术 EDN CHINA,2007,14(4):175-176.
2杜飞龙.Microsoft SBS 2003中文版发布为中小企业IT建设提供一揽子解决方案[J].微电脑世界,2004(4):64-64.
3蓝色星际与安讯±结成战略合作关系[J].中国安防,2015,0(2):73-73.
4闫蓉,张蕾.基于遗传算法的汉语未登录词识别[J].计算机应用与软件,2008,25(7):88-90. 被引量：3
5姚兴山.基于词频的中文文本分类研究[J].现代情报,2009,29(2):179-181. 被引量：4
6秦文,苑春法.基于决策树的汉语未登录词识别[J].中文信息学报,2004,18(1):14-19. 被引量：23
7Open Sound System:Unix声卡驱动的一揽子解决方案[J].微电脑世界,2000(6):52-53.
8程传鹏.一种基于位置信息的未登录词的识别方法[J].中原工学院学报,2008,19(6):31-33. 被引量：1
9羊毛卓玛,高定国.藏文自动分词中未登录词处理方法研究[J].计算机工程,2012,38(17):46-48. 被引量：5
10电信运营商全面出击[J].互联网周刊,2004(31):50-50.

语言文字应用

1999年第3期

浏览历史

内容加载中请稍等...

自动分词中未登录词问题的一揽子解决方案被引量：26

参考文献4

二级参考文献32

共引文献169

同被引文献150

引证文献26

二级引证文献198

相关作者

相关机构

相关主题

浏览历史

自动分词中未登录词问题的一揽子解决方案 被引量：26

参考文献4

二级参考文献32

共引文献169

同被引文献150

引证文献26

二级引证文献198

相关作者

相关机构

相关主题

浏览历史

自动分词中未登录词问题的一揽子解决方案被引量：26