两种重复提取算法的研究比较被引量：1

导出

摘要在利用计算机处理文本信息时,为了能发现大文本信息中的重复词句,本文介绍两种用来发现重复词句的算法——基于后缀树的方法和基于倒排索引的方法。第一种ST算法使用树型数据结构,每个节点表示一个字并且根节点为空。第二种算法应用倒排索引,以及哈希表实现方法(HT)。对同一样本运行仿真后,在时间和空间复杂度上对实验结果进行比较。得出结论,尽管ST算法在考虑到时间成本时要更优,但在空间复杂度方面倒排索引方法更胜一筹。

作者殷波蒋华刘新平

机构地区桂林电子科技大学计算机学院

出处《网络安全技术与应用》 2009年第1期64-66,共3页 Network Security Technology & Application

关键词重复词句重复序列后缀树算法

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Grolmus P.,Hynek J.,Jezek K.User Profile Identification Based On Text Mining[].ProcOfth IntConfISIM‘.2003
2Debar H,et a1.Fixed vs.variable—length patterns for detecting suspicious process[].Procof theESORICS Conference.1998

同被引文献5

1胡吉祥,许洪波,刘悦,程学旗.重复串特征提取算法及其在文本聚类中的应用[J].计算机工程,2007,33(2):65-67. 被引量：6
2电子商务网站建设实例[M].北京:清华大学出版社,2003.4(第一版).
3庞国莉,高焕芝,孙旭光.浅析商务网站的管理与维护[J].集团经济研究,2007(11S):324-324. 被引量：1
4陈洪平.网络营销视角下的体育用品企业网站搜索引擎优化研究[J].乐山师范学院学报,2010,25(12):120-122. 被引量：1
5吴环伟.图书馆网站搜索引擎的优化[J].科技情报开发与经济,2011,21(1):62-64. 被引量：1

引证文献1

1杨锦宣.重复数据统计算法及在商务网站中的应用[J].科技信息,2011(20).

1殷波,蒋华,刘新平.关于重复词句提取的两种算法分析——基于Suffix Tree和重复序列两种算法的实验结果比较[J].内蒙古科技与经济,2009(1):73-77.
2蒋华,殷波.关于重复词提取的两种算法分析[J].计算机应用,2009,29(2):403-405.
3洪熹.树型数据结构中递归算法的实现[J].福建电脑,2012,28(6):124-126.
4陈俊伟,杨友斌.浅析树型数据结构中递归算法的实现[J].计算机光盘软件与应用,2013,16(23):301-301. 被引量：1
5任浩,莫文涛,赵广,刘硕.基于广度优先搜索的COSINE软件代码框架自动生成算法[J].原子能科学技术,2013,47(B12):717-720.
6宋文,余大为.有序树的遍历算法[J].四川工业学院学报,1996,15(3):50-55.
7陈松,周强,余斌,毛黎明.基于树的有线电视网络分析方法初探[J].有线电视技术,2006,13(3):43-46.
8蒋珊珊,唐文新.利用代码替换提高编辑效率[J].电脑爱好者,1995(3):11-11.
9王之怡,王卓飞.XML技术用于存取“树型”数据结构[J].电脑开发与应用,2004,17(3):43-43. 被引量：1
10叶军伟.树型数据结构存储方法的探讨[J].科技创业家,2014(7):155-155.

网络安全技术与应用

2009年第1期

浏览历史

内容加载中请稍等...

两种重复提取算法的研究比较被引量：1

参考文献2

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

两种重复提取算法的研究比较 被引量：1

参考文献2

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

两种重复提取算法的研究比较被引量：1