基于双数组Trie树中文分词研究被引量：16

Research of Chinese Word Segmentation Based on Double-Array Trie

下载PDF

导出

摘要对双数组Trie树(Double-Array Trie)分词算法进行了优化:在采用Trie树构造双数组Trie树的过程中,优先处理分支节点多的结点,以减少冲突;构造一个空状态序列;将冲突的结点放入Hash表中,不需要重新分配结点.然后,利用这些方法构造了一个中文分词系统,并与其他几种分词方法进行对比,结果表明,优化后的双数组Trie树插入速度和空间利用率得到了很大提高,且分词查询效率也得到了提高. This paper proposed some improved strategies for the algorithm of Double-Array Trie. Firstly, the priority was given to the node with most child nodes in order to avoid the collision; secondly, an empty-list was defined; Finally, the collision node was added to a hash table, which avoided re-allocation. Then, we implemented a program for a Chinese word segmentation system based on the improved Double-Array Trie and compared it with several other methods. From the results, it turns out that the insertion time and the space efficiency are achieved, and that search efficiency is improved.

作者赵欢朱红权

机构地区湖南大学计算机与通信学院

出处《湖南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2009年第5期77-80,共4页 Journal of Hunan University:Natural Sciences

基金教育部科学技术研究重点项目资助(106458)

关键词自然语言处理双数组 TRIE树词典分词 natural language processing systems double-array trie lexicon word segmentation

分类号 TU471 [建筑科学—结构工程]

引文网络
相关文献

参考文献8

1殷人昆.数据结构(C++语言版)[M].北京:清华大学出版社.1999.
2杨文峰,陈光英,李星.基于PATRICIA tree的汉语自动分词词典机制[J].中文信息学报,2001,15(3):44-49. 被引量：30
3温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
4吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
5KAZUHIRO M, EL - SAYED A, MASAO F. Fast and compact updating algorithms of a double-array structure[J ]. Information Sciences, 2004,159 : 53 - 67.
6THEPPITAK K. An implementation of double-array trie [ Z]. http://linux, thai. net/-thep/datrie/datrie, html, 2006.
7JUN-ICHI A, SEIGO Y, TAKASHI S. An efficient digital seareh algorithm by using a double-array structure [ J ]. IEEE Transactions on Software Engineering, 1989, 15 ( 9 ) : 1066 - 1077.
8王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29

二级参考文献19

1马哲,姚敏.一种改进的基于PATRICIA树的汉语自动分词词典机制[J].华南理工大学学报（自然科学版）,2004,32(z1):28-31. 被引量：3
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：200
3徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：16
4骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
5吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
6关英春，中文信息学报，1996年，1期
7揭春雨，中文信息学报，1989年，1期
8赵珀璋，计算机中文信息处理，1989年
9Douglas C.Schmidt.GPERF:A Perfect Hash Function Generator[Z].1999.
10Theppitak Karoonboonyanan.An Implementation of Double-Array Trie[Z],http://linux.thai.net/～ thep/datrie/datrie,html,2003.

共引文献114

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
4乐娟.基于Trie树的京剧术语语义词典[J].计算机工程,2011,37(S1):30-32. 被引量：3
5金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
6温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
7张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9郑庆华,胡云华,张素娟.自然语言网络答疑系统的研究与实现[J].小型微型计算机系统,2005,26(3):554-560. 被引量：10
10吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8

同被引文献132

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：53
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
3丁伟,林容容,倪良胜.一种面向海量实时数据的信息检索算法[J].华南理工大学学报（自然科学版）,2004,32(z1):6-10. 被引量：1
4黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
5孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：200
7王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
8温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
9陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：30
10雷育生,甘仞初,杜顶.基于垂直网站的网络信息支持系统研究[J].计算机应用研究,2005,22(7):105-107. 被引量：7

引证文献16

1吴龙,吴健,任红民.基于双数组Trie树的嵌入式TTS系统研究[J].现代机械,2010(4):67-70.
2刘昌,王振武.基于LINQ技术的海量数据查询匹配算法研究[J].电脑编程技巧与维护,2010(24):53-54.
3李琪,郭敏.基于字典树的基数排序算法[J].硅谷,2011,4(14):192-193. 被引量：4
4罗会红,傅明.改进的基于位图的中文分词词典[J].微计算机信息,2011,27(10):159-161.
5戴耿毅,佘静涛.基于双数组Trie树算法的字典改进和实现[J].软件导刊,2012,11(7):17-19. 被引量：3
6张倩,郭嗣琮.基于有限状态机和Trie数的分级地址模型[J].计算机应用,2013,33(3):854-857. 被引量：5
7李慧,杨炳儒,潘丽芳,钱文彬.一种基于双数组Trie的B2B规则串提取方法[J].计算机科学,2013,40(5):206-208. 被引量：2
8徐聪,张丰,杜震洪,张逸然,陈明,刘仁义.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报（理学版）,2014,41(2):217-222. 被引量：12
9侯济恭,王维龙.海峡两岸农产品物流信息的汉字转换系统的研究[J].农业网络信息,2014(7):5-9. 被引量：1
10张启宇,于辉辉,陈英义,王磊.基于农业垂直搜索引擎中文分词词典的构建研究[J].广东农业科学,2015,42(3):165-169. 被引量：3

二级引证文献66

1简玲,叶天鹏,林祥,谢方军.多源融合的大数据网络安全态势感知平台研究与探索[J].信息网络安全,2020(S02):139-143. 被引量：10
2董坤,张海霞,刘艳梅,李洋.宽带卫星网络安全态势感知技术研究[J].信息网络安全,2020(S02):98-101. 被引量：4
3秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
4徐聪,张丰,杜震洪,张逸然,陈明,刘仁义.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报（理学版）,2014,41(2):217-222. 被引量：12
5施恒利,刘亮亮,王石,符建辉,张再跃,曹存根.汉字种子混淆集的构建方法研究[J].计算机科学,2014,41(8):229-232. 被引量：7
6侯济恭.海峡两岸农产品第四方物流关键技术研发[J].农业网络信息,2014(11):32-35.
7汪洋,刘师培,王峥.基于Trie树和有限状态自动机的中文地址解析模型[J].计算机与现代化,2016(7):60-67. 被引量：3
8罗明,黄海量.一种基于有限状态机的中文地址标准化方法[J].计算机应用研究,2016,33(12):3691-3695. 被引量：14
9方志民,戴洋洋,董淑珍,李渤,温芳馨,宋新航.新闻类垂直搜索引擎系统研究与设计[J].黑龙江工程学院学报,2016,30(6):35-37.
10胡晓燕.云计算存储数据动态访问控制方法研究与仿真[J].计算机仿真,2017,34(3):365-368. 被引量：21

1马连刚,夏克俭.中医方剂与图集的转换的设计与实现[J].网络安全技术与应用,2010(2):73-76. 被引量：1
2王卫明.勇闯五关,学好过去完成时[J].中学英语之友（新教材初三版）,2009(11):16-17.
3荆棘.非谓语动词考点要览[J].中学英语之友（新教材高二版）,2009(5):47-49.
4孙逊,梅洪元.冰雪体育建筑余温循环式空腔围护体系研究[J].建筑学报,2014(S1):158-160. 被引量：2
5胡光华.文本挖掘手册：分析非结构性数据的高级方法[J].国外科技新书评介,2008(3):14-14.
6林继德.计算框架和钢屋架的半刚架法[J].工程力学,1996,13(A01):386-389.
7张勇.用正交多项式回归方法构造用于矫直电梯导轨模型[J].物理测试,1994,12(6):32-34. 被引量：1
8夏逸鸣,赵惠麟,尚昊.筒体结构、悬挂结构地震反应的比较分析[J].工业建筑,2002,32(1):20-23.
9杨必胜,李清泉,梅宝燕.3维城市模型的可视化研究[J].测绘学报,2000,29(2):149-154. 被引量：114
10傅志坚,曾以成,徐茂林.基于单向耦合映象格子生成伪随机位序列的两种新方法[J].物理学报,2008,57(7):4014-4020. 被引量：5

湖南大学学报（自然科学版）

2009年第5期

浏览历史

内容加载中请稍等...

基于双数组Trie树中文分词研究被引量：16

参考文献8

二级参考文献19

共引文献114

同被引文献132

引证文献16

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

基于双数组Trie树中文分词研究 被引量：16

参考文献8

二级参考文献19

共引文献114

同被引文献132

引证文献16

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

基于双数组Trie树中文分词研究被引量：16