基于词典的中文分词算法研究被引量：22

Research on Chinese Word Segmentation Algorithm Based on the Dictionary

下载PDF

导出

摘要中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。 Chinese word segmentation is the base for Chinese information processing. By comparison commonly the advantages and disadvantages of the machinery word segmentation algorithm, then a lied verbatim binary algorithm has been presented, which integrated TRIE trees and verbatim binary search＇s characteristics, try to take the smaller overhead to achieve faster match speed. The results show that the algorithm in the comprehensive performance has made significant increase.

作者周程远朱敏杨云

机构地区华东师范大学计算中心

出处《计算机与数字工程》 2009年第3期68-71,87,共5页 Computer & Digital Engineering

关键词中文分词计算机应用中文信息处理 Chinese word segmentation, computer application, Chinese information processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
2李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：109
3韩利凯.一种快速Web中文分词算法的研究[J].航空计算技术,2007,37(6):68-69. 被引量：2
4罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
5湛燕,陈昊,袁方,王熙照.基于中文文本分类的分词方法研究[J].计算机工程与应用,2003,39(23):87-88. 被引量：22

二级参考文献28

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
4《中图法》编委会.中国分类主题词表[M].北京:华艺出版社,1994..
5马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
6Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491.
7Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56.
8Ji He,Ah-Hwee Tan,Chew-Lim Tan.A comparative Study on Chinese Text Categorization Methods[C].In:PRICAI 2000 Workshop on Text and Web Mining, Melbourne, 2000-08 : 24--25.
9Ronen Feldman et al.Text Mining via Information Extraction[J].Principles of Data Mining and Knowledge Discover, 1999 : 165-174.
10梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.

共引文献154

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
4叶施仁,严水歌,杨长春.新浪微博搜索排序方法研究[J].常州大学学报（自然科学版）,2013,25(3):71-75.
5冯蜀茗,张小真,奚晓霞.支持CSCL中相关度监控的领域词典构建研究[J].西南师范大学学报（自然科学版）,2005,30(3):430-434. 被引量：1
6解析慧聪资讯有限公司的经营策略[J].人才资源开发,2005(8):39-40.
7于源,衣袭.中文全切分快速分词方法[J].大连铁道学院学报,2005,26(2):84-85. 被引量：4
8尚文刚.医学文献全文检索的中文分词方法研究[J].广东医学院学报,2005,23(4):473-475. 被引量：1
9刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
10费洪晓,胡海苗,巩燕玲.基于Hash结构的机械统计分词系统研究[J].计算机工程与应用,2006,42(5):159-161. 被引量：8

同被引文献163

1俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：22
2张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
3李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
4刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
5黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
6林毅,宁洪,王挺,刘文杰.基于元数据的数据整合平台[J].计算机应用,2008,28(S2):209-212. 被引量：8
7马杰,付海波,刘菲.论《左传》的语言特色[J].辽宁工程技术大学学报（社会科学版）,2004,6(4):412-413. 被引量：2
8何晓阳,吴治蓉,连丽红.国内搜索引擎研究状况分析[J].现代情报,2005,25(2):165-167. 被引量：1
9林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：49
10苏云.搜索引擎Google检索技巧研究[J].甘肃科技,2005,21(2):69-71. 被引量：4

引证文献22

1吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：11
2时贵英,吕洪涛.可扩展数据库搜索引擎的研究和实现[J].长江大学学报（自科版）（上旬）,2010,7(1):216-218.
3徐济成,李绍稳,张友华,辜丽川.面向茶学领域本体的概念自动提取方法研究[J].农业网络信息,2010(8):13-15.
4吴小兰.基于有效反馈结果的元搜索引擎调度策略[J].科技信息,2010(12):11-12. 被引量：4
5羊毛卓玛,欧珠.一种改进的藏文分词交集型歧义消解方法[J].西藏科技,2012(1):66-68. 被引量：3
6张留禄,韩光辉.技术哲学领域语料库建设研究[J].上海应用技术学院学报（自然科学版）,2012,12(3):252-256. 被引量：1
7刘畅,张猛.中文全文检索系统中基于分词技术的研究[J].吉林大学学报（信息科学版）,2013,31(3):320-323. 被引量：2
8赵阳阳,王亮,仇阿根.地址要素识别机制的地名地址分词算法[J].测绘科学,2013,38(5):74-76. 被引量：26
9罗盘,许建南,李忠.基于Coreseek+Python的分布式全文检索方法[J].计算机与现代化,2014(6):7-11.
10文必龙,李云静,王琪超,金宗泽,高快.基于GATE的油田信息抽取技术研究[J].计算机与数字工程,2014,42(7):1223-1227. 被引量：4

二级引证文献120

1布占廷,吴亚静.PhilDEAP哲学学术英语语料库的创建[J].语料库语言学,2021,8(1):137-148.
2黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：7
4黄伟建,祝月红,杜巍.基于奖励机制的成员搜索引擎调度策略[J].图书馆学研究,2012(3):66-71. 被引量：1
5徐聪,张丰,杜震洪,张逸然,陈明,刘仁义.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报（理学版）,2014,41(2):217-222. 被引量：12
6薛玉倩,刘丽华,李丽平,石彦芳.基于语义Web的信息检索技术研究[J].内蒙古科技与经济,2014(6):97-97.
7项炜,金澎.基于词频学习和动态词频更新的藏文自动分词系统设计[J].计算机应用与软件,2014,31(5):106-109. 被引量：4
8应申,李威阳,贺彪,王维,万远.统计决策树下的城市地址集中文分词[J].武汉大学学报（信息科学版）,2019,44(2):302-309. 被引量：10
9刘丽华,薛玉倩,石彦芳.基于语义Web物流系统的研究[J].内蒙古科技与经济,2014(18):116-116.
10来继敏.基于MAS的物流治安管理信息系统[J].内蒙古科技与经济,2014(21):50-50.

1陈玉春,朱艳琴,刘月琴,王振中.亏格为2的超椭圆曲线上的二分算法及其优化[J].计算机应用与软件,2008,25(7):94-95. 被引量：1
2王民川.“C++”环境下的算法探讨[J].科技传播,2010,2(13):210-210.
3彭焕峰.基于Lucene的中文分词器的设计与实现[J].微型机与应用,2011,30(18):62-64. 被引量：5
4王文庆,杨振新.基于Mamdani的通用模糊逼近器的设计与实现[J].信息与控制,2015,44(1):51-55. 被引量：1
5李薇,张建军,纪祥鲲.一类非线性递推的变距二分算法[J].计算机与数字工程,2006,34(12):51-52.
6刘可,高传善,宫学庆.多级混洗交换网络开关选择的二分算法[J].计算机应用与软件,2002,19(8):51-53. 被引量：3
7卢建彪,雍俊海.二次Bézier曲线的双圆弧样条插值二分算法[J].计算机应用研究,2006,23(8):166-167. 被引量：3
8杨挺,袁博,赵承利,吴成,盆海波.电力通信网络边扩充二分算法[J].天津大学学报（自然科学与工程技术版）,2015,48(6):481-487. 被引量：5
9撖志恒,芮小平,董承玮,宋现锋,王静,徐江.多层分割算法在构建层次道路网络中的应用[J].计算机应用研究,2016,33(3):779-782. 被引量：1
10杨俊波,徐平,龚向东,黄海漩,鄢泽林,张卫平.光互连网络中排序算法研究[J].光电工程,2004,31(B12):169-172. 被引量：8

计算机与数字工程

2009年第3期

浏览历史

内容加载中请稍等...

基于词典的中文分词算法研究被引量：22

参考文献5

二级参考文献28

共引文献154

同被引文献163

引证文献22

二级引证文献120

相关作者

相关机构

相关主题

浏览历史

基于词典的中文分词算法研究 被引量：22

参考文献5

二级参考文献28

共引文献154

同被引文献163

引证文献22

二级引证文献120

相关作者

相关机构

相关主题

浏览历史

基于词典的中文分词算法研究被引量：22