海量数据下的并行频繁项集挖掘算法被引量：8

Parallel Frequent Itemset Mining Algorithm for Massive Data

下载PDF

导出

摘要文章针对频繁项集挖掘中传统串行Eclat算法面对海量数据时挖掘效率不高的问题,提出一种海量数据下的并行频繁项集挖掘算法,即I-SPEclat算法。首先,对Eclat算法存在的缺陷进行改进,引入图的邻接矩阵作为数据的存储结构,避免了大量的交集运算;其次,利用先验性质对候选项集进行预剪枝和后剪枝,减少无用候选项集的数量,节约存储空间;再次,根据项集的前缀对数据进行划分,平衡每个计算节点的工作负载;最后,将改进的Eclat算法在Spark分布式计算框架上实现并行化。实验结果表明,I-SPEclat算法较已有的改进Eclat算法在时间消耗和内存消耗方面均有减少,且面对不同规模的数据集也有着良好的扩展性。 Aiming at the problem that the traditional serial Eclat algorithm in frequent itemset mining is not efficient when faced with mass data,this paper proposes a parallel frequent itemset mining algorithm under massive data,that is,I-SPEclat algorithm.The algorithm first improves the defects of Eclat algorithm,and introduces the adjacency matrix of graph as the storage structure of data,which avoids a large number of intersection operations.Then,the paper uses a priori nature to pre-cut and post-cut the candidate set,reduces the number of useless candidate sets and saves storage space.After that,this paper divides the data according to the prefix of the itemset,and balances the workload of each computing node.Finally,the paper parallelizes the improved Eclat algorithm on the Spark distributed computing framework.The experimental results show that the I-SPEclat algorithm is less time-consuming and memory-consuming than the existing improved Eclat algorithm,and also very scalable in the face of data sets with different sizes.

作者敖孟飞石鸿雁 Ao Mengfei;Shi Hongyan(School of Science,Shenyang University of Technology,Shenyang 110870,China)

机构地区沈阳工业大学理学院

出处《统计与决策》 CSSCI 北大核心 2022年第18期48-53,共6页 Statistics & Decision

基金国家自然科学基金资助项目(61074005)。

关键词 Eclat算法 Spark框架邻接矩阵剪枝优化 Eclat algorithm Spark framework adjacency matrix pruning optimization

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1田庆,刘永梅.FP-Growth算法在购物篮分析研究中的应用[J].计算机科学与技术汇刊（中英文版）,2013,2(2):24-30. 被引量：2
2冯培恩,刘屿,邱清盈,李立新.提高Eclat算法效率的策略[J].浙江大学学报（工学版）,2013,47(2):223-230. 被引量：13
3向春梅,陈超.基于MapReduce的改进Eclat算法[J].成都信息工程大学学报,2019,34(4):369-374. 被引量：5
4吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：81
5冯兴杰,潘轩.基于Spark的并行Eclat算法[J].计算机应用研究,2019,36(1):18-21. 被引量：12
6刘军煜,贾修一.一种利用关联规则挖掘的多标记分类算法[J].软件学报,2017,28(11):2865-2878. 被引量：35
7戚荣志,王志坚,黄宜华,李水艳.基于Spark的并行化组合测试用例集生成方法[J].计算机学报,2018,41(6):1284-1299. 被引量：24
8殷茗,王文杰,张煊宇,姜继娇.一种基于邻接表的最大频繁项集挖掘算法[J].电子与信息学报,2019,41(8):2009-2016. 被引量：16
9张启徽.关联规则挖掘中查找频繁项集的改进算法[J].统计与决策,2015,31(4):32-35. 被引量：21

二级参考文献40

1易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
2陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
3吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
4李敏,李春平.频繁模式挖掘算法分析和比较[J].计算机应用,2005,25(B12):166-171. 被引量：11
5AGRAWAL R, SRIKANT R. Fast Algorithms for min- ing association rules [C]// Proceedings of 20th Interna- tional Conference on Very Large Data Bases. Santiago, Chile: Morgankaufman, 1994:487 - 499.
6HAN J, PEI J, YIN Y. Mining frequent patterns with- out candidate generation [C]/// Proeeedlngs of the 2000 ACM Data. Dallas, United States: ACM, 2000:1-12.
7FENG Pei-en, ZHANG Hui, QIU Qing-ying, et al. PCAR: an efficient approach for mining association rules [C]/// Proceedings of the ICNC-FSKD 2008 Inter- national Conference on Fussy Systems and Knowledge Dis- covery. Jinan: IEEE, 2008:605-609.
8ZAKI M J. Scalable algorithms for association mining[J]. IEEE Transactions on Knowledge and Data Engi- neering, 2000,12(3) : 372- 390.
9ZAKI M J. Fast vertical mining using diffsets [R]. Technical Report 01-1, Troy, New York: Rensselaer Polytechnic Institute. 2001.
10HAN J, KAMBE M. Data mining: concepts and Tech- niques [M]. San Francisco, United States: Morgan Kaufmann Publishers Inc, 2001 : 231.

共引文献196

1周晓,马圣杰.基于集成学习的转子部件脱落故障诊断方法[J].数字制造科学,2022(1):16-22.
2王瑞玺,尚东方,鲍可馨.基于大数据的海港船舶疫情风险防控平台设计与实现[J].中国水运(下半月),2022,22(8):42-44. 被引量：1
3廖纪勇,吴晟,刘爱莲.一种基于邻接矩阵的频繁项集挖掘算法[J].数据通信,2020(6):30-34. 被引量：1
4孙如飞,张焱,陈瑞祥,孙飞飞,陈龙赞.流处理技术在水利物联网领域的应用[J].人民黄河,2021,43(S02):264-267. 被引量：1
5危前进,魏继鹏,古天龙,常亮,文益民.粗糙集多目标并行属性约简算法[J].软件学报,2022,33(7):2599-2617. 被引量：14
6郑莉,陈素峰.航迹点搁浅风险数据关联规则挖掘方法研究[J].舰船科学技术,2019,41(24):43-45.
7孟敏.基于Apriori算法的船用物联网多来源数据深度挖掘方法[J].舰船科学技术,2019,0(24):193-195. 被引量：1
8徐霞军,秦绪涛,杨强,朱云飞.大数据技术在核电设备缺陷分析中的初步应用[J].核动力工程,2020,41(S01):68-72. 被引量：9
9万润君,郭嗣琮,刘海涛,曾繁慧.适于高维数据的多标记学习层次树模型[J].辽宁工程技术大学学报（自然科学版）,2022,41(1):73-78. 被引量：1
10刘念.四川浓香型白酒“五朵金花”制曲比较[J].酿酒科技,2000(2):25-27. 被引量：13

同被引文献65

1丁峰,高鑫磊,范海洋,高云柱.水利工程设计项目质量成本控制研究[J].水利水电技术（中英文）,2022,53(S02):346-349. 被引量：3
2周敏,任勇,张华,江志刚.基于CBR和RBR的再制造零件修复工艺智能决策系统[J].制造技术与机床,2014(1):111-117. 被引量：8
3徐嘉亿,李玉敏,赵晓玲,刘宁,付丹丹,马小鹏,魏海东.社区居家养老医疗服务需求分析[J].现代医院,2011,11(2):151-152. 被引量：32
4王霞,冯泽永,李秀明,冯丹.医疗服务融入居家养老服务模式中的探讨[J].医学与哲学（A）,2015,36(2):56-58. 被引量：57
5张秀芬,蔚刚,刘行.支持再制造设计的产品失效模式信息传递模型[J].机械工程学报,2017,53(3):201-208. 被引量：11
6刘璟莹,杨继鹏,刘彦慧.我国社区居家养老医疗服务满意度量表的构建及信效度研究[J].中国全科医学,2018,21(7):841-846. 被引量：22
7蒋华,季丰,王慧娇,王鑫,罗一迪.改进Kmeans算法的海洋数据异常检测[J].计算机工程与设计,2018,39(10):3132-3136. 被引量：30
8穆晓芳,邓红霞,郭虎升,赵鹏.基于快速高效用项集挖掘的大规模消息流预测算法研究与应用[J].计算机应用与软件,2019,36(11):243-249. 被引量：2
9柴欣,高一寒,武优西,刘靖宇.基于密度约束的对比模式挖掘[J].计算机科学,2019,46(12):26-30. 被引量：2
10王杉,肖朋,吴欣,宋爽,高亚娟.北京市朝阳区居家慢性病老年人上门医疗护理服务使用及需求现状研究[J].护理研究,2020,34(6):1070-1073. 被引量：60

引证文献8

1王景兰,丁丽,孙慧婷.基于局部重构树的数据流频繁项集挖掘方法[J].新乡学院学报,2023,40(3):22-25. 被引量：1
2吴军,魏丹丹.面向课程教学数据的差异模式挖掘与讨论[J].计算机应用文摘,2023,39(7):115-117.
3王蕾,郭妍,曹建华,郭钰瑶,夏绪辉.基于K-H-Mine算法的废旧机械产品失效信息与再制造加工方案关联规则挖掘[J].现代制造工程,2023(8):134-140. 被引量：3
4王景兰,王振.基于频繁模式树的大数据关联规则自动挖掘算法[J].上海电机学院学报,2023,26(6):356-360. 被引量：1
5冯鸽,刘文恒.居家医疗参与者满意度影响因素关联分析[J].中国卫生事业管理,2025,42(2):155-161.
6赵利月,王国庆,李鹏宇,张宇,李甜甜.大规模新能源电力系统数据中台交互信息并行挖掘算法[J].信息技术,2025,49(7):103-109. 被引量：1
7曹扬,陶文伟,苏扬,李孟阳,陆力瑜,张富川.基于频繁项集挖掘优化的新型电力系统分布式终端网络鲁棒安全资源分配算法[J].微型电脑应用,2025,41(6):54-57.
8陈付雷,赵迎迎,付安媛.输变电工程限价中关键参数挖掘算法设计[J].微型电脑应用,2025,41(8):216-219.

二级引证文献6

1杨晨.机械加工智能制造生产线控制系统的设计与实现[J].现代制造技术与装备,2024,60(1):209-211. 被引量：4
2白丽娟,朱兴广,蓝华青,童永胜,王峰.基于关联规则算法构建公立医院医疗设备分类管理模型及效果分析[J].中国医学装备,2024,21(10):135-140. 被引量：2
3张侃,王峻,李雍,张东东,刘亚飞.基于频繁项集挖掘优化的异常用电数据信息阈值自适应确认算法[J].微型电脑应用,2025,41(9):138-141.
4吴士斌.离散型制造业中机械加工制造技术及其应用研究[J].中国新技术新产品,2025(20):59-62. 被引量：1
5徐开强.废旧机械产品再制造工艺优化与性能恢复[J].中国建筑,2025,8(24):124-126.
6刘若飞,秦景振,段云涛,马国亮.电力企业一体化管控数据中台设计与测试分析[J].能源科技,2026,24(1):50-53.

1赵炎.基于人工智能的数据整合系统设计[J].自动化与仪器仪表,2022(7):339-343. 被引量：3
2李成严,辛雪,赵帅,冯世祥.Sp-IEclat:一种大数据并行关联规则挖掘算法[J].哈尔滨理工大学学报,2021,26(4):109-118. 被引量：25
3叶得学.融合BPEclat与K-Means++算法的关联规则数据挖掘技术研究[J].贵阳学院学报（自然科学版）,2022,17(2):39-43. 被引量：8
4涂之艺,陈亮亮,伍家驹,马航,熊茹,吴剑,李志农.基于多维可视化的高速永磁电机转子强度优化设计[J].振动与冲击,2022,41(18):236-243. 被引量：12
5Abstracts Selected from Naihuo Cailiao (Befractories) --A Bimonthly in Chinese[J].China's Refractories,2022,31(3):48-54.
6杨丽琼,吴瑞阳,杨梁,王焕东.基于解耦De-skew PLL的处理器低功耗同步间歇时钟系统设计[J].计算机学报,2022,45(10):2207-2220. 被引量：3
7Haifeng Yin,Yu Su,Size Liu,Xiangjun Li,Xianwei Li,Chuan Fan,Pingting Guan,Zhijing Xie,Simin Wang,Stefan Scheu,Valentyna Krashevska.Consistent response of nematode communities to management of coniferous plantations[J].Forest Ecosystems,2022,9(4):483-490. 被引量：1

统计与决策

2022年第18期

浏览历史

内容加载中请稍等...

海量数据下的并行频繁项集挖掘算法被引量：8

参考文献9

二级参考文献40

共引文献196

同被引文献65

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

海量数据下的并行频繁项集挖掘算法 被引量：8

参考文献9

二级参考文献40

共引文献196

同被引文献65

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

海量数据下的并行频繁项集挖掘算法被引量：8