双数组Trie树算法优化及其应用研究被引量：29

Research of Optimization on Double-Array Trie and its Application

下载PDF

导出

摘要本文对双数组Trie树(Doub le-Array Trie)算法提出了一种优化策略,即在采用Trie树构造数组的过程中,优先处理分支结点数更多的结点。这种优化策略可以在保证该算法数据查找效率不变的同时,进一步减少数据稀疏,提高空间利用率。我们基于该优化算法实现了一个词典管理程序,并与利用其他索引机制的词典进行了实验对比。实验结果表明,利用优化的双数组Trie树算法的词典不仅在查询速度上优于用其他索引机制的词典,而且存储数据的空间占用也比较小。 This paper proposes an improved strategy for the algorithm of Double-Array Trie that is, the node with most child nodes is praessed firstly when constructing the array. This strategy can reduce the data sparseness and keep the search efficiency meanwhile. We implement a program for lexicon management base on the improved Double-Array Trie and compare it with other index mechanisms. The results clearly show that the improved Double-Array-Trie algorithm has a much higher search speed and needs a smaller space for data store than other index machanisms.

作者王思力张华平王斌

机构地区中国科学院计算技术研究所

出处《中文信息学报》 CSCD 北大核心 2006年第5期24-30,共7页 Journal of Chinese Information Processing

基金国家973项目资助(2004CB318109) 国家242信息安全计划资助课题成果(2005C36) 中国科学院计算所知识创新工程资助(20056550)

关键词计算机应用中文信息处理双数组 TRIE树词典分词 computer application Chinese information processing Double-Array TRIE lexicon word segmentation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Douglas C.Schmidt.GPERF:A Perfect Hash Function Generator[Z].1999.
2Theppitak Karoonboonyanan.An Implementation of Double-Array Trie[Z],http://linux.thai.net/～ thep/datrie/datrie,html,2003.
3Jun-Ichi Aoe,Katsushi Morimoto,Takashi Sato,An Efficient Implementation of Trie Structures[J].SoftwarePractice and Experience.1992,22 (9):695-721.
4Aoe,J.An Efficient Digital Search Algorithm by Using a Double-Array Structure[J].IEEE Transactions on Software Engineering.1989,15 (9):1066-1077.
5孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：119
6杨文峰,陈光英,李星.基于PATRICIA tree的汉语自动分词词典机制[J].中文信息学报,2001,15(3):44-49. 被引量：30
7马哲,姚敏.一种改进的基于PATRICIA树的汉语自动分词词典机制[J].华南理工大学学报（自然科学版）,2004,32(z1):28-31. 被引量：3
8路志英,林孔元,郭祺,段广玉.中文切分词典的最大匹配索引法[J].天津大学学报,1999,32(5):599-603. 被引量：4
9李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：109
10刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201

二级参考文献43

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2林亚平.异或哈希算法查找中文词组性能评价[J].湖南大学学报（自然科学版）,1994,21(5):101-106. 被引量：2
3张永奎,Cowie,JR.机器可读词典的快速查找技术[J].中文信息学报,1994,8(2):20-25. 被引量：2
4林亚平.异或哈希算法查找中文词组性能评价[J].中文信息学报,1995,9(1):42-48. 被引量：2
5周建钦,马述杰,李进忠.关于汉字的两个分组查找算法[J].中文信息学报,1995,9(2):45-50. 被引量：2
6刘东立,滕永林,姚天顺.一种汉语电子词典的新结构[J].中文信息学报,1995,9(3):59-68. 被引量：5
7路志英.书面汉语理解系统中句法分析器的研究：硕士学位论文[M].天津:天津大学自动化系,1992..
8段广玉.中文计算机词典组织与结构的研究：硕士学位论文[M].天津:天津大学自动化系,1997..
9马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
10H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999

共引文献387

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：13
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：10
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：53
4段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
5李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
6范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
7马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
8陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
9张玉华,周克兰.基于规则库的汉字输入法自动评测系统的设计[J].中文信息学报,2004,18(4):50-54. 被引量：5
10尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.

同被引文献183

1刘梦迪,梁循.基于偏旁部首知识表示学习的汉字字形相似度计算方法[J].中文信息学报,2021,35(12):47-59. 被引量：10
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
3易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
5温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
6郑丽英.数据结构Trie及其应用[J].现代计算机,2004,10(8):20-22. 被引量：6
7马金山,张宇,刘挺,李生.利用三元模型及依存分析查找中文文本错误[J].情报学报,2004,23(6):723-728. 被引量：7
8王兰成.基于EMM中文抽词算法的XMARC主题信息挖掘[J].情报学报,2005,24(1):82-86. 被引量：5
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10吴维宁,卢卫平.美国国家渔业信息网络建设及其启示[J].中国水产,2005(6):33-34. 被引量：12

引证文献29

1乐娟.基于Trie树的京剧术语语义词典[J].计算机工程,2011,37(S1):30-32. 被引量：3
2杨来,何清,许立达,史忠植.Dynamic Hash TRIE算法的研究与分析[J].广西师范大学学报（自然科学版）,2008,26(1):134-138.
3高艳萍,于红,尹祥贵,綦孝姬,王春永,赵志强.基于双数组Trie树的渔业领域分词研究[J].安徽农业科学,2008,36(11):4788-4790.
4赵欢,朱红权.基于双数组Trie树中文分词研究[J].湖南大学学报（自然科学版）,2009,36(5):77-80. 被引量：16
5吴晶晶,荆继武,聂晓峰,王平建.一种快速中文分词词典机制[J].中国科学院研究生院学报,2009,26(5):703-711. 被引量：16
6廖敏,褚颖娜,宋继华.双数组Trie树索引的可操作性研究[J].计算机系统应用,2009,18(10):53-56. 被引量：2
7王世昆,李绍滋,柯逍.基于遗传算法和舍伍德思想的双数组Trie树改进[J].计算机工程与应用,2009,45(29):128-130. 被引量：3
8褚颖娜,廖敏,宋继华.一种基于统计的分词标注一体化方法[J].计算机系统应用,2009,18(12):55-58. 被引量：3
9吴龙,吴健,任红民.基于双数组Trie树的嵌入式TTS系统研究[J].现代机械,2010(4):67-70.
10张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1

二级引证文献133

1简玲,叶天鹏,林祥,谢方军.多源融合的大数据网络安全态势感知平台研究与探索[J].信息网络安全,2020(S02):139-143. 被引量：10
2董坤,张海霞,刘艳梅,李洋.宽带卫星网络安全态势感知技术研究[J].信息网络安全,2020(S02):98-101. 被引量：4
3贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
4曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
5吴龙,吴健,任红民.基于双数组Trie树的嵌入式TTS系统研究[J].现代机械,2010(4):67-70.
6张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1
7刘昌,王振武.基于LINQ技术的海量数据查询匹配算法研究[J].电脑编程技巧与维护,2010(24):53-54.
8蒋才智,王浩.基于memcached的动态四字双向词典机制[J].计算机应用研究,2011,28(1):152-154. 被引量：1
9李琪,郭敏.基于字典树的基数排序算法[J].硅谷,2011,4(14):192-193. 被引量：4
10罗会红,傅明.改进的基于位图的中文分词词典[J].微计算机信息,2011,27(10):159-161.

1戴耿毅,佘静涛.基于双数组Trie树算法的字典改进和实现[J].软件导刊,2012,11(7):17-19. 被引量：3
2王博文.通用类trie树及自动生成[J].计算机应用,2000,20(12):74-75. 被引量：5
3郑丽英.一种基于trie的频繁项集发现算法[J].兰州铁道学院学报,2003,22(6):27-29. 被引量：2
4徐炜.基数树原理及在Linux内核中的应用分析[J].电脑编程技巧与维护,2013(17):28-34.
5华泽.HOT和BOT研究及改进[J].江南大学学报（自然科学版）,2004,3(6):591-594. 被引量：2
6Array Networks TM-X：性能加速器[J].网管员世界,2004(7):27-27.
7李方军,金炜东,徐永红,刘勇.嵌入式系统中实现拼音输入法[J].教学与科技,2005,18(2):1-6.
8田勇.DOUBLE SPACE使用技巧[J].电子与电脑,1994(9):121-121.
9刘阿娜.未来网络搜索引擎的探究[J].硅谷,2008,1(8).
10陈晶,肖丁.决策树算法在数据挖掘中的应用研究[J].教育技术导刊,2008(3):98-99. 被引量：2

中文信息学报

2006年第5期

浏览历史

内容加载中请稍等...

双数组Trie树算法优化及其应用研究被引量：29

参考文献10

二级参考文献43

共引文献387

同被引文献183

引证文献29

二级引证文献133

相关作者

相关机构

相关主题

浏览历史

双数组Trie树算法优化及其应用研究 被引量：29

参考文献10

二级参考文献43

共引文献387

同被引文献183

引证文献29

二级引证文献133

相关作者

相关机构

相关主题

浏览历史

双数组Trie树算法优化及其应用研究被引量：29