基于分布数据库的快速关联规则挖掘算法被引量：13

A Fast Algorithm for Mining Association Rules in Distributed Databases

下载PDF

导出

摘要关联规则发现是数据挖掘的重要研究内容,随着数据库中数据的不断增加,大数据集环境下的关联规则发现日益受到重视,分布式关联规则发现是解决这一问题的有效方法。分布式数据库环境下的关联规则挖掘算法中,时间开销主要体现在两方面(:1)频繁项目集的确定;(2)网络的通讯量。为了解决第一个问题,文章提出了一种基于二进制形式的候选频繁项目集生成和相应的计算支持数算法,该算法只需对挖掘对象进行一些”或”、”与”、”异或”等逻辑运算操作,显著降低了算法的实现难度。将该算法与DMA算法相结合提出改进算法FDMA。理论分析和实验结果表明,算法FDMA大大提高了关联规则挖掘的效率,算法是有效可行的。 Association rule mining is an important issue in data mining.Distributed association mining is an effective method to solve the problem of association mining in large data set.The time complexity of association rule mining in distributed databases mainly focuses in the following aspects：（1）the generation of the frequent itemsets; （2）the communication consuming among each nodes.The article proposes a method to generate candidate frequent itemsets and corresponding supporting counts effficiently,which needs only some operations such as ＂and＂, ＂or＂and ＂xor＂,Applying this idea in the existed distributed association rule mining algorithm DMA,the improved algorithm FDMA is proposed,The theoretical analysis and experiment testify that FDMA is effective and efficient.

作者陈耿倪巍伟朱玉全孙志挥

机构地区南京审计学院东南大学计算机科学与工程系东南大学计算机科学与工程系江苏大学计算机科学与通信工程学院

出处《计算机工程与应用》 CSCD 北大核心 2006年第4期165-167,194,共4页 Computer Engineering and Applications

基金国家自然科学基金资助项目(编号:70371015) 江苏大学科研启动基金项目(编号:04KJD001)

关键词频繁项目集分布式关联规则挖掘数据挖掘布尔关联规则 frequent itemsets,distributed association rules mining,data mining,boolean association rules

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases[C].In :Proc ACM SIGMOD Int Conf Management of Date.Washington D C,1993:207-216.
2Han J Kamber.MData Mining:Concepts and Techniques[M].Beijing: High Education Press,2001.
3Goethals B.Survey on frequent pattern mining[R].Helsinki Institute for information Technology ,Technical report, 2003.
4Park J S,Chen M S,Yu P S.Efficient parallel data mining for association rules[C].In:Proceedings of the 4th International Conference on Information and Knowledge Management, Baltimore. Maryland, 1995:31-36.
5Agrawal R,Shafer J C.Parallel mining of association rules[J].IEEE Transactions on Knowledge and Data Engineering,1996;8(6):962-969.
6Cheung D W,Han J W,Ng V T et al.A fast distributed algorithm for mining association rules[C].In:Proceedings of IEEE 4th International Conference Parallel and Distributed Information Systems,Miami Beach, Florida, 1996 : 31 -44.
7Cheung David W,Ng Vincent T,Fu Ada W.Efficient Mining of Association Rules in Distributed Databases[J].IEEE Transactions On Knowledge And Data Engineering, 1996 ; 8 (6) : 911 -922.
8Cheung D W,Lee S D,Xiao Y Q.Effect of Data Skewness and Workload Balance in Parallel Data Mining[J].IEEE Transactions on Knowledge and Data Engineering.2002;14(3):498-514.
9Schuster A ,Wolff R.Communication efficient distributed mining of association rules[C].In:Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data,Santa Barbara,California, 2001:473-484.
10Zaki M J.Scalable Algorithms for Association Mining[J].IEEE Transactions on Knowledge and Data Engineering, 2000; 12 (3) : 372-390.

同被引文献57

1景永霞,王治和,苟和平.基于分布式数据库的关联规则挖掘算法[J].湛江师范学院学报,2007,28(6):74-77. 被引量：4
2何友全,肖建,黄碧霞,雷妍,熊启军.一种用于数据挖掘的二进制挖掘算法[J].计算机应用研究,2004,21(5):15-16. 被引量：3
3王芳,王万森.关系数据库中关联规则挖掘的一种高效算法[J].微机发展,2004,14(9):20-22. 被引量：13
4吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
5陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
6邹丽,孙辉,李浩.分布式系统下挖掘关联规则的两种方案[J].计算机应用研究,2006,23(1):77-78. 被引量：11
7陈涛,石伟胜,陈启买.关联规则的并行挖掘算法研究[J].现代计算机,2006,12(7):27-30. 被引量：1
8熊忠阳,任芳,张玉芳,毛嘉莉,周涓.基于XML描述的数据挖掘结果的存储方法[J].计算机工程与设计,2006,27(20):3874-3877. 被引量：2
9宋宝莉,覃征.分布式环境下关联规则的安全挖掘算法[J].计算机工程,2006,32(21):35-37. 被引量：6
10宋宝莉,覃征.分布式数据库关联规则的安全挖掘算法研究[J].计算机工程与应用,2007,43(6):181-183. 被引量：4

引证文献13

1景永霞,王治和,苟和平.基于分布式数据库的关联规则挖掘算法[J].湛江师范学院学报,2007,28(6):74-77. 被引量：4
2李娜,刘俊辉.基于分布式处理技术的物联网数据库研究和设计[J].现代电子技术,2012,35(4):120-122. 被引量：8
3黄贤英,王柯柯,范伟.基于星型网络的分布式关联规则挖掘算法研究[J].计算机科学,2007,34(12):180-181. 被引量：6
4刘雨露,方刚.一种事务互补挖掘算法的研究及应用[J].计算机工程与应用,2008,44(35):168-170. 被引量：7
5方刚.基于二进制的长频繁项目集挖掘算法[J].计算机工程与设计,2008,29(24):6246-6249. 被引量：1
6黄勇,赵靖.分布式系统下关联规则挖掘算法的分析[J].福建电脑,2009,25(5):14-15.
7黄勇,赵靖.基于分布式系统下的快速关联规则挖掘算法[J].农业网络信息,2009(4):138-140. 被引量：1
8安立奎,钱伟懿,韩丽艳.集群系统中基于MPI的关联规则快速挖掘算法[J].三峡大学学报（自然科学版）,2010,32(1):95-97. 被引量：5
9邓丽君.一种基于分布式数据库的全局频繁项挖掘算法[J].计算机与现代化,2010(6):17-20.
10黄勇,赵靖.一种基于分布式数据库的关联规则挖掘新算法[J].计算机技术与发展,2011,21(2):147-150. 被引量：2

二级引证文献37

1黄勇,赵靖.分布式系统下关联规则挖掘算法的分析[J].福建电脑,2009,25(5):14-15.
2黄勇,赵靖.基于分布式系统下的快速关联规则挖掘算法[J].农业网络信息,2009(4):138-140. 被引量：1
3罗爱萍.空间跨层关联规则挖掘算法的研究[J].西南师范大学学报（自然科学版）,2009,34(4):68-72. 被引量：5
4熊江,方刚,刘雨露,唐曙光.空间拓扑关联的双向挖掘研究[J].计算机工程与应用,2009,45(22):126-128. 被引量：4
5汤小斌,方刚.一种用于空间横向挖掘的拓扑关联规则算法[J].计算机工程与应用,2010,46(1):109-111. 被引量：4
6方刚,魏祖宽,刘雨露,唐曙光.挖掘空间拓扑关联的有效算法[J].计算机工程与设计,2010,31(6):1267-1270. 被引量：4
7邓丽君.一种基于分布式数据库的全局频繁项挖掘算法[J].计算机与现代化,2010(6):17-20.
8李金,李海霞.计算机集群技术探析[J].企业导报,2010(9):286-287. 被引量：1
9方刚.无候选项的频繁邻近类别集挖掘算法[J].计算机工程与应用,2010,46(25):149-152. 被引量：1
10方刚,熊江,应宏,涂承胜.面向用户的空间拓扑关联规则挖掘[J].计算机工程与应用,2010,46(31):148-151.

1黄勇,赵靖.基于分布式系统下的快速关联规则挖掘算法[J].农业网络信息,2009(4):138-140. 被引量：1
2郭有强,胡学钢.快速关联规则增量式更新算法研究[J].安庆师范学院学报（自然科学版）,2007,13(2):17-20.
3陈一明,李丽萍.XML快速关联规则挖掘算法的研究[J].微计算机信息,2009,25(12):221-222.
4任家东,何海涛,任东英.分布式关联规则挖掘中的聚类分区算法[J].计算机工程,2003,29(17):31-33.
5崔杰,任家东.分布式关联规则挖掘中的聚类分区算法[J].计算机工程,2004,30(23):67-68. 被引量：2
6邹丽,梁旭.分布式关联规则挖掘系统实现[J].科学技术与工程,2008,8(24):6496-6498.
7郭俊凤,刘大昕,王开铸.一种新型的分布式关联规则挖掘算法研究[J].电脑学习,2008(3):6-7. 被引量：1
8何宏,肖建华,肖伟平.基于数组的频繁项目集的挖掘算法[J].邵阳学院学报（自然科学版）,2005,2(4):52-54. 被引量：4
9吉根林,赵斌,孙志挥.利用Hash树生成频繁项目集的新方法[J].小型微型计算机系统,2004,25(10):1841-1843.
10陈雪飞.一种基于决策树的快速关联规则挖掘算法[J].计算机科学,2008,35(7):252-254. 被引量：3

计算机工程与应用

2006年第4期

浏览历史

内容加载中请稍等...

基于分布数据库的快速关联规则挖掘算法被引量：13

参考文献12

同被引文献57

引证文献13

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于分布数据库的快速关联规则挖掘算法 被引量：13

参考文献12

同被引文献57

引证文献13

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于分布数据库的快速关联规则挖掘算法被引量：13