频繁项集挖掘的研究与进展被引量：10

Research and Advances of Frequent Itemsets Mining

下载PDF

导出

摘要挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空间的类型、搜索方法和剪枝策略、数据库的表示方法、数据压缩技术等几个方面对频繁项集挖掘的基本策略进行了研究,对完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘的典型算法特别是最新算法进行了介绍和评述,并分析了各种算法的性能特点,指出其适于哪种类型的数据集。最后,对频繁项集挖掘算法的发展方向进行了初步的探讨。 Mining the frequent itemsets is a key problem in data mining. It is also the core of the algorithm for mining association rules. Therefore, to improve the efficiency of discovering the frequent itemsets is the issue in data mining area. Many researchers have done lots of work to improve the algorithms from different perspectives. In this paper, we present an overview of the basic strategies for mining the frequent itemsets from different aspects such as the types of search space, search methods and pruning strategies, the representation methods of the databases, data compression techniques. Some representative algorithms, especially new algorithms in all frequent itemsets, frequent closed itemsets and maximal frequent itemsets are introduced and commented. We analyze the performance of these algorithms and point out which kind of datasets the algorithm fit for. At last, the future directions of the algorithms for mining frequent itemsets are discussed.

作者陈慧萍王建东王煜

机构地区河海大学计算机信息工程学院南京航空航天大学信息科学与技术学院

出处《计算机仿真》 CSCD 2006年第4期68-73,共6页 Computer Simulation

基金国家基础研究发展基金(973计划 G1999032701) 江苏省自然科学基金(BK2002091)

关键词数据挖掘频繁项集搜索方法剪枝策略 Data mining Frequent itemsets Search method Pruning strategy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献21

1R Agrawal,T Imielinski and A Swami.Mining association rules between sets of items in large databases[M].Washington,D.C.SIGMOD'93,207-216.
2R Agrawal and R Srikant.Fast algorithms for mining association rules[C].In J.B.Bocca,M.Jarke,and C.Zaniolo,editors,Proceedings 20th International Conference on Very Large Databases,Morgan Kaufmann,1994.487-499.
3S Brin,et al.Dynamic Itemset Counting and Implication Rules for Market Basket Analysis[M].In SIGMOD'97,1997.255-264.
4Ashoka Savasere,Edward Omiecinski,Shamkant B Navathe.An Efficient Algorithm for Mining Association Rules in Large Databases[M].VLDB 1995.432-444.
5J S Park,M S Chen and P S Yu.An effective hash-based algorithm for mining association rules[M].SIGMOD'95,San Jose,CA,May 1995.
6Zaki and Hsiao.CHARM:An Efficient Algorithm for Closed Itemset Mining,Proc.2002 SIAM Int.Conf[M].Data Mining (SDM'02),Arlington,VA,April 2002.457-473.
7R J Bayardo,Jr.Efficiently mining long patterns from databases[C].In L.M.Haas and A.Tiwary,editors,Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data,SIGMOD Record,ACM Press,1998,27(2):85-93.
8J Han,J Pei and Y Yin.Mining Frequent Patterns without Candidate Generation[C].,Proc.2000 ACM-SIGMOD Int.Conf.on Management of Data (SIGMOD'00),Dallas,TX,May 2000.
9R Agarwal,C Aggarwal and V V V Prasad.A tree projection algorithm for generation of frequent itemsets[J].In Journal of Parallel and Distributed Computing,2000.
10M J Zaki.Scalable algorithms for association mining[J].IEEE Transactions on Knowledge and Data Engineering,2000,12(3):372-390.

同被引文献64

1秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(Z1):244-249.
2颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：69
3秦亮曦,史忠植.SFPMax——基于排序FP树的最大频繁模式挖掘算法[J].计算机研究与发展,2005,42(2):217-223. 被引量：26
4王政伟,施润身.一种基于图的关联规则挖掘改进算法[J].计算机工程与科学,2005,27(5):48-51. 被引量：3
5刘泉凤,陆蓓.数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58. 被引量：9
6陈慧萍,王建东,叶飞跃.MAXFP-Miner:利用FP-tree快速挖掘最大频繁项集[J].控制与决策,2005,20(8):887-891. 被引量：4
7张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：62
8钱进.最大频繁项目集挖掘技术研究与展望[J].微计算机应用,2005,26(6):652-654. 被引量：7
9陈明,史忠植,王文杰.一种有效的基于图的关联规则挖掘算法[J].计算机应用,2006,26(11):2654-2656. 被引量：10
10刘胤田,唐常杰,吴征宇,曾涛,陈鹏.基于关联规则的HLA动态数据分发策略[J].系统仿真学报,2006,18(12):3415-3420. 被引量：4

引证文献10

1曾舸,刘先锋.关联规则挖掘中Apriori改进算法的研究[J].计算机与现代化,2007(1):46-48. 被引量：3
2谈丽,王建东.长项优先的产生算法——改进的Apriori算法[J].计算机与现代化,2007(8):53-55. 被引量：1
3刘红星,王崇骏,谢俊元.基于图的最大频繁项集的生成算法[J].南京大学学报（自然科学版）,2008,44(5):520-526. 被引量：2
4刘战东.Web数据挖掘与挖掘算法探讨[J].电脑与电信,2008(12):65-67. 被引量：1
5宋文军,刘红星,王崇骏,谢俊元.以图频繁集为基础的核心节点发现[J].计算机科学与探索,2010,4(1):82-88. 被引量：2
6刘迎意,吴春旭,沈陵峰.用变异FP-树改进CLOSET算法[J].计算机仿真,2010,27(3):98-101.
7田大钢,袁思明.关联规则中算法的研究[J].软件导刊,2010,9(10):64-65. 被引量：1
8王少茹.基于Web数据挖掘的探索[J].电子世界,2014(4):11-12.
9李广璞,黄妙华.频繁项集挖掘的研究进展及主流方法[J].计算机科学,2018,45(B11):1-11. 被引量：16
10蔡杰杰.基于编码的关联规则的挖掘算法[J].通讯世界,2019,26(7):27-28. 被引量：1

二级引证文献27

1李阳,王晓岩,王昆,沙瀛.基于社交网络的安全关系研究[J].计算机研究与发展,2012,49(S2):124-130. 被引量：10
2刘芳.基于图和双向搜索的频繁项集挖掘算法[J].计算机工程,2012,38(1):59-61. 被引量：2
3董振华,李喜艳,张开便.基于关联规则的经典Apriori算法研究[J].科技信息,2012(6):148-149. 被引量：1
4刘春贵,赵筱蓉.PLC控制在高压系统中的应用[J].四川冶金,2000,22(2):57-59.
5刘骋昊,王靖亚.一种从高维向低维扫描的Apriori改进算法[J].中国人民公安大学学报（自然科学版）,2012,18(4):56-59.
6王建,冯伟森,邱兴超,刘继,卢林.基于BP模型的KAD网络核心节点识别算法研究[J].计算机工程与应用,2013,49(7):72-75.
7邓奇强,熊燕,郭锋.文献老化在图书馆书目挖掘中的应用研究[J].图书情报工作,2013,57(6):91-96. 被引量：7
8李常先.大学校园用户网络行为分析系统研究[J].统计与管理,2013(4):144-145. 被引量：3
9王敏,李万春,扶彩霞,郭昱宁.基于Apriori算法的战术数据链层次关系挖掘[J].航天电子对抗,2018,34(6):29-33. 被引量：1
10王志丹.云环境下基于二进制编码的Apriori改进算法[J].中原工学院学报,2014,25(6):69-71.

1陈凤娟.基于FP树的最大频繁项集挖掘[J].电子世界,2014(17):119-119.
2陈晨.最大频繁项集挖掘算法综述[J].电脑知识与技术,2008,0(11Z):1030-1031.
3黄松英.基于最大频繁项集挖掘的入侵检测研究[J].绍兴文理学院学报,2007,27(10):32-36. 被引量：1
4邓忠军,宋威,郑雪峰,王少杰.P2P网络中最大频繁项集挖掘算法研究[J].计算机应用研究,2010,27(9):3490-3492. 被引量：1
5潘怡,杜红燕.数据流频繁闭项集挖掘研究[J].长沙大学学报,2010,24(5):64-67.
6陈凤娟.基于数据流的频繁闭项集挖掘[J].电子商务,2014,15(11):68-69.
7彭慧伶,舒云星,武新.基于FP-tree的最大频繁项集挖掘新算法[J].计算技术与自动化,2009,28(2):62-65.
8王磊,黄志球,朱小栋,沈国华,程亮.数据流中基于事务链表组的频繁闭项集挖掘[J].计算机工程与设计,2008,29(8):1896-1899.
9马志新,陈晓云,王雪,李龙杰.最大频繁项集挖掘中搜索空间的剪枝策略[J].清华大学学报（自然科学版）,2005,45(S1):1748-1752. 被引量：5
10张志刚,黄刘生,金宗安,项莉萍.基于父子等价剪枝策略的最大频繁项集挖掘[J].计算机工程,2013,39(4):219-221. 被引量：4

计算机仿真

2006年第4期

浏览历史

内容加载中请稍等...

频繁项集挖掘的研究与进展被引量：10

参考文献21

同被引文献64

引证文献10

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

频繁项集挖掘的研究与进展 被引量：10

参考文献21

同被引文献64

引证文献10

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

频繁项集挖掘的研究与进展被引量：10