Cherry:一种无须子集检查的闭合频繁集挖掘算法被引量：6

Cherry: An Algorithm for Mining Frequent Closed Itemsets without Subset Checking

下载PDF

导出

摘要通过对一些著名的闭合频繁集挖掘算法(如CLOSET+,FP-CLOSE,DCI-CLOSED和LCMv2等)的研究并结合挖掘理论分析,提出了一种新的挖掘算法Cherry,它基于FP-tree结构,并采用了新颖的CherryItem检测技术,无须在内存中保留闭合频繁集而直接检测出会导致重复的频繁项前缀,从而极大地提高了挖掘效率.性能实验的比较和测试表明,该Cherry算法在低支持度的测试中要优于目前的一些主流挖掘算法,如LCMv2,DCI-CLOSE和FP-CLOSE等. Through the theoretical analysis and research works on some famous mining algorithms, a new mining algorithm named Cherry is proposed in this paper. It bases on FP-tree technology and adopts a novel Cherry-Items-detecting technology. This novel technology can find those prefixes which result to the unclosed or redundant frequent itemsets without maintaining the frequent closed itemsets mined so far in the main memory. In the performance test, the Cherry algorithm is compared with other state of the art algorithms, such as FP-CLOSE, LCMv2 and DCI-CLOSE, in many synthetic and real data sets. The experimental results demonstrate that the Cherry algorithm outperforms them in low support.

作者陶利民黄林鹏

机构地区上海交通大学计算机科学与工程系

出处《软件学报》 EI CSCD 北大核心 2008年第2期379-388,共10页 Journal of Software

基金 Supported by the National Natural Science Foundation of China under Grant No.60673116 (国家自然科学基金)

关键词关联规则闭合频繁集 association rule frequent closed itemset

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1宋余庆,朱玉全,孙志挥,陈耿.基于FP-Tree的最大频繁项目集挖掘及更新算法[J].软件学报,2003,14(9):1586-1592. 被引量：164
2陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
3颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：69

二级参考文献26

1宋余庆朱玉全孙志辉陈耿.基于FP—Tree的最大频繁项集挖掘及其更新算法.软件学报,2003,14(9):1586—1592[J].http://wwwjos.org.cn/1000-9825/14/1586.htm,:.
2Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Proc. of the 20th Int'l Conf. on VLDB. 1994. 487-499.http://www.almaden.ibm.conVcs/people/srikant/papers/vldb94.pdf.
3Bayardo R. Efficiently mining long patterns from databases. In: Haas LM, ed. Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. New York: ACM Press, 1998. 85-93.
4Burdick D, Calimlim M, Gehrke J. Mafia: A maximal frequent itemset algorithm for transactional databases. In: Proc. of the 17th Int'l Conf. on Data Engineering. 2001. 443-452. http://www.cs.cornell.edu/boom/2001 sp/yiu/mafia-camera.pdf.
5Gouda K, Zaki MJ. Efficiently mining maximal frequent itemsets. In: Proc. of the 1st IEEE Int'l Conf. on Data Mining. 2001.163-170. http ://www.cs .tau. ac .il/-fiat/dmsem03/E fficient%20Mining%20Maxmal%20Frequent%20Itemsets%20-%202001 .pdf.
6Wang H, Li QH. An improved maximal frequent itemset algorithm. In: Wang GY, eds. Proc of the Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, the 9th Int'l Conf (RSFDGrC 2003). LNCS 2639, Heidelberg: Springer-Verlag, 2003. 484-490.
7Zhou QH, Wesley C, Lu BJ. SmartMiner: A depth 1st algorithm guided by tail information for mining maximal frequent itemsets.In: Proc of the IEEE Int'l Conf on Data Mining (ICDM2002). 2002. 570-577. http://www.serviceware.com/pdffiles/datasheets/ServiceWare-Smartminer-Datasheet.pdf.
8Grahne G, Zhu JF. High performance mining of maximal frequent itemsets. In: Proc of the 6th SIAM Int'l Workshop on High Performance Data Mining (HPDM 2003). 2003. 135-143. http://www.cs.concordia.ca/db/dbdm/hpdm03.pdf.
9Agarwal RC, Aggarwal CC, Prasad VVV. Depth 1 st generation of long patterns. In: Proc. of the 6th ACM SIGKDD Int'l Conf on Knowledge Discovery and Data Mining. 2000. 108-118. http://www.cs.tau.ac.il/-fiat/dmsem03/Depth%20First%20Generation%20of%20Long%20Patterns%20-%202000.pdf.
10Wang H, Xiao ZJ, Zhang H J, Jiang SY. Parallel algorithm for mining maximal frequent patterns. In: Zhou XM, ed. Advanced Parallel Processing Technologies (APPT 2003). LNCS 2834, Heidelberg: Springer-Verlag, 2003. 241-248.

共引文献229

1谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
2姜晗,贾泂.基于标记域FP-Tree快速挖掘最大频繁项集[J].计算机研究与发展,2007,44(Z2):334-349.
3杨种学.基于并行FP-growth算法挖掘网上关联交易规则[J].南京晓庄学院学报,2005,21(5):65-70.
4王盛,董黎刚,李群.一种基于逆序编码的关联规则挖掘研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):169-172. 被引量：1
5朱玉全,宋余庆,陈耿.约束最大频繁项目集的增量式更新算法[J].计算机工程,2004,30(18):31-32.
6杨君锐,赵群礼.一种不产生候选集的最大频繁集快速挖掘算法[J].微电子学与计算机,2004,21(11):125-128. 被引量：4
7张莹,韩芳溪,柴乔林.基于频繁模式树的AOI聚类算法[J].计算机工程与应用,2004,40(35):178-179.
8李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3
9吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
10陈天敏,姜丽红.基于预制数据库的FP-tree构造算法[J].计算机工程,2004,30(B12):58-61.

同被引文献89

1易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
2王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
3陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
4吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
5颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：69
6陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
7宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
8陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
9郭山清,谢立,曾英佩.入侵检测在线规则生成模型[J].计算机学报,2006,29(9):1523-1532. 被引量：14
10刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26

引证文献6

1徐红艳,陈锋,张森林,冯勇.一种存在全局站点的分布式增量挖掘算法[J].辽宁大学学报（自然科学版）,2013,40(1):41-47.
2马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6
3李秦,张馨东,童甲佳,李宇博.基于频繁模式表的关联分类器构建算法研究[J].计算机应用与软件,2011,28(6):39-42.
4何波.基于FP-tree的快速挖掘全局最大频繁项集算法[J].计算机集成制造系统,2011,17(7):1547-1552. 被引量：2
5陈光鹏,杨育彬,高阳,商琳.一种基于MapReduce的频繁闭项集挖掘算法[J].模式识别与人工智能,2012,25(2):220-224. 被引量：18
6钱能武,郭卫斌,范贵生.基于关联规则挖掘的分布式小文件存储方法[J].华东理工大学学报（自然科学版）,2016,42(5):708-714. 被引量：8

二级引证文献34

1曾旭.计算机等级考试中的关联规则挖掘[J].成都信息工程学院学报,2012,27(1):59-62.
2吐尔地·托合提,维尼拉·木沙江,艾斯卡尔·艾木都拉.基于频繁模式挖掘的维吾尔文智能组词方法[J].计算机应用,2012,32(10):2920-2922. 被引量：6
3周兴华,陆建峰,汤九斌.基于多线程技术的数据流频繁模式挖掘[J].计算机应用,2013,33(A01):69-72.
4郭鑫,颜一鸣,徐洪智,覃遵跃.动态云平台下的快速闭树聚类并行算法[J].计算机工程,2013,39(9):80-83. 被引量：2
5郭鑫,颜一鸣.一种动态云模型下树数据挖掘算法[J].小型微型计算机系统,2013,34(12):2749-2752. 被引量：8
6杨泽民.云计算模型中关联规则增量更新方法[J].计算机工程与设计,2014,35(2):504-508. 被引量：5
7颜一鸣,郭鑫.一种基于Hadoop的动态树增量更新方法[J].计算机工程,2014,40(3):67-70. 被引量：1
8周爱武,王浩,温春林.基于AFOPT-tree的最大频繁项集挖掘[J].微型机与应用,2014,33(11):86-88.
9牛新征,杨健,佘堃.基于数组前缀树的频繁项集挖掘算法[J].小型微型计算机系统,2014,35(8):1693-1698. 被引量：5
10丁勇,朱辉生,高广银.改进的频繁闭情节挖掘算法[J].计算机工程与设计,2014,35(12):4213-4216.

1王华金,兰红.一种基于FP-tree挖掘最大频繁模式的改进算法[J].长春工程学院学报（自然科学版）,2007,8(1):59-62. 被引量：1
2冯志新,钟诚.基于FP-tree的最大频繁模式挖掘算法[J].计算机工程,2004,30(11):123-124. 被引量：18
3侯长满,余彪.关联规则算法FP-growth的研究与分析[J].计算机与网络,2016,42(24):58-61. 被引量：4
4杨敏,朱福喜,刘小丽,余永宏.CLOSET^+:基于CLOSET的改进算法[J].计算机应用研究,2006,23(11):43-46.
5赵昌赣.不确定性数据中的关联规则研究[J].中国科技信息,2010(2):48-49. 被引量：4
6郑海明.基于FP-tree最大频繁项集的FP-MFI算法研究[J].现代计算机,2008,14(10):37-39. 被引量：1
7柳玲,柳淑青.基于数据挖掘的流量异常分析模型[J].黑龙江科技信息,2008(9):62-62.
8陈晨,鞠时光.改进的最大频繁项集挖掘算法[J].计算机工程与设计,2010,31(18):4009-4011. 被引量：2
9刘迎意,吴春旭,沈陵峰.用变异FP-树改进CLOSET算法[J].计算机仿真,2010,27(3):98-101.
10王华,胡学钢,田卫东.特定数据最大频繁集挖掘算法[J].计算机工程,2008,34(14):63-65. 被引量：3

软件学报

2008年第2期

浏览历史

内容加载中请稍等...

Cherry:一种无须子集检查的闭合频繁集挖掘算法被引量：6

参考文献3

二级参考文献26

共引文献229

同被引文献89

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

Cherry:一种无须子集检查的闭合频繁集挖掘算法 被引量：6

参考文献3

二级参考文献26

共引文献229

同被引文献89

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

Cherry:一种无须子集检查的闭合频繁集挖掘算法被引量：6