基于Spark平台的FP-Growth算法优化与实现被引量：3

Optimization and Implementation of FP-Growth Algorithm Based on Spark Platform

下载PDF

导出

摘要针对FP-Growth算法面对海量数据挖掘时串行操作机制出现内存瓶颈或者数据挖掘失效等问题,提出将基于Spark平台的FP-Growth算法在数据分组策略和项头表结构两方面进行优化。一方面提出一种S型的负载权值均衡分组的方式;另一方面,设计出一种新的项头表结构,此结构包含Hash查找表,能有效降低查找时间复杂度。实验证明,优化的基于Spark平台的FP-Growth算法(OptFP-Spark算法)具有更高的并行运算加速比、更好的并行挖掘效果及更高效的计算效率。 In view of the defect of memory bottleneck or data mining failure found in FP growth algorithm when processing massive data mining,a new method has thus been proposed to optimize FP growth algorithm based on spark platform in data grouping strategy and item header table structure.On the one hand,an S-typed grouping method has been proposed,which can realize a balanced grouping of load weights.On the other hand,a new item header table structure of FP-Growth with a hash look-up table has been proposed,which can effectively reduce the complexity of look-up time.Experimental results show that,characterized with a very high computational efficiency,the optimized FP-Growth algorithm,which is based on Spark platform,has a higher speedup of parallel computing and better parallel mining efficiency.

作者黄婕 HUANG Jie(Hunan Provincial Engineering Research Center for Aircraft Maintenance,Changsha 410124,China;Department of Aviation Electronic Equipment Maintenance,Changsha Aeronautical Vocational and Technical College,Changsha 410124,China;School of Software,Central South University,Changsha 410075,China)

机构地区湖南省飞机维修工程技术研究中心长沙航空职业技术学院航空电子设备维修学院中南大学软件学院

出处《湖南工业大学学报》 2020年第1期77-84,共8页 Journal of Hunan University of Technology

基金湖南省教育厅科学研究基金资助项目(17C0009)

关键词 SPARK 关联规则频繁项集 FP-GROWTH Spark association rule frequent item set FP-Growth

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1金宗泽,冯亚丽,纪博,张希,高快.大数据分析中的关联挖掘[J].计算机与数字工程,2014,42(10):1924-1928. 被引量：11
2黎丹雨,陈怡华.一种多层多维的关联规则挖掘算法在推荐系统中的应用[J].计算机与现代化,2019,0(6):44-48. 被引量：6
3厍向阳,张玲.基于Hadoop的FP-Growth关联规则并行改进算法[J].计算机应用研究,2018,35(1):109-112. 被引量：15
4马强,杨金民.基于MapReduce的频繁项集并行挖掘算法[J].计算机应用与软件,2015,32(9):13-16. 被引量：9
5韩天鹏,王峰,王浩.基于FP-Growth算法构造批量增量的FP-tree[J].嘉应学院学报,2017,35(8):21-25. 被引量：3
6吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量：18
7石陆魁,张欣,师胜利.基于Spark的FP_Growth算法的并行与优化[J].计算机工程与应用,2018,54(13):52-58. 被引量：4

二级参考文献57

1邱勇,兰永杰.高效FP-TREE创建算法[J].计算机科学,2004,31(10):98-100. 被引量：4
2冀俊忠,沙志强,刘椿年.贝叶斯网模型在推荐系统中的应用研究[J].计算机工程,2005,31(13):32-34. 被引量：9
3Han Jiawei,Kamber Micheline,范明,孟小峰,等译.数据挖掘概念与技术[M].北京:机械工业出版社,2007:424-479.
4Han Jiawei, Pei Jian, ytin Yiwen. Mining frequent patterns without candidate generation [ C ]//SIGMOD' 00. [ s. 1.] :[ s. n. ] ,2000.
5Agrawal R, Shafer J C. Parallel mining of association rules[J].1EEE Transactions on knowledge and date engineering, 1996,8(6) :962-969.
6Jeffrey D, Sanjay G. MapReduce: Simplified Data Processing on Large Clusters [ J ]. Commun. ACM, 2008,51 ( 1 ) : 107 -113.
7Chu C, Kim S,Lin Y,et al. Map-Reduce for machine learning on nlulticore [ C ]//NIPS' 06. Cambridge, MA: MIT Press, 2O06.
8Hadoep. The Apache Software Foundation [ EB/OL ]. 2010. ht- tp ://hadoop. apache, org/.
9Bill Franks.驾驭大数据[M].黄海,车皓阳,王悦,等,译.北京:人民邮电出版社,2013.
10城田真琴.大数据的冲击[M].北京:人民邮电出版社,2013.

共引文献59

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2宋鸣程,贾立,叶灵芝.基于Spark的火电大数据挖掘方法的研究[J].控制工程,2018,25(12):2158-2165. 被引量：11
3郑志娴.基于云计算的Apriori算法设计[J].莆田学院学报,2014,21(5):61-64. 被引量：2
4杜焕强,俞立峰.一种高效的关联规则连续增量更新改进算法[J].哈尔滨师范大学自然科学学报,2015,31(3):49-52. 被引量：1
5施亮,钱雪忠.基于MapReduce的约束频繁项集挖掘算法[J].计算机工程与设计,2015,36(10):2725-2728. 被引量：3
6杨向荣,王希武.基于规则约束的并行FP-Growth算法研究[J].计算机与数字工程,2015,43(11):1933-1936. 被引量：2
7包磊.一种云计算环境下的改进FP-GROWTH算法[J].软件导刊,2016,15(1):57-60.
8曹军威,袁仲达,明阳阳,张华赢.能源互联网大数据分析技术综述[J].南方电网技术,2015,9(11):1-12. 被引量：68
9方向,张功萱.基于Spark的PFP-Growth并行算法优化实现[J].现代电子技术,2016,39(8):9-13. 被引量：6
10马月坤,刘鹏飞,张振友,孙燕,丁铁凡.改进的FP-Growth算法及其分布式并行实现[J].哈尔滨理工大学学报,2016,21(2):20-27. 被引量：15

同被引文献28

1阚威,李云.基于LSTM的脑电情绪识别模型[J].南京大学学报（自然科学版）,2019,55(1):110-116. 被引量：20
2顾淑红,周燕蓉.基于灰色关联分析的广西区域物流与经济发展的互动研究[J].数学的实践与认识,2019,49(2):35-42. 被引量：24
3马云彤.PDF文档视频和动画添加——科技论文可视化发表探讨[J].中国科技期刊研究,2016,27(7):767-773. 被引量：15
4邱辉,李国平.基于Lempel-Ziv复杂度的车削颤振预报[J].机械设计与研究,2016,32(5):136-138. 被引量：3
5蒋小梅,张俊然,陈富琴,黄江涛.基于J48决策树分类器的情绪识别与结果分析[J].计算机工程与设计,2017,38(3):761-767. 被引量：10
6Xiaoming Ye,Xingshu Chen,Dunhu Liu,Wenxian Wang,Li Yang,Gang Liang,Guolin Shao.Efficient Feature Extraction Using Apache Spark for Network Behavior Anomaly Detection[J].Tsinghua Science and Technology,2018,23(5):561-573. 被引量：2
7范振东,陈晖,王海涛,胡强,何柳.基于大数据的智慧校园学生综合测评系统[J].电信快报（网络与通信）,2018(11):25-27. 被引量：3
8周庆,王卫芳,葛亮,肖逸枫,唐代.基于一卡通数据与课程分类的学生成绩预测[J].电脑知识与技术,2018,14(8X):236-239. 被引量：4
9陈萌,李幼军,刘岩.脑电信号与个人情绪状态关联性分析研究[J].计算机科学与探索,2017,11(5):794-801. 被引量：8
10薛松,蒋新生,段纪淼,张培理.一种改进的图像盒子维计算方法[J].中国科学技术大学学报,2018,48(6):504-511. 被引量：5

引证文献3

1茆灵铖,谢桂芳,邵周伟,时海茹,蒋秀莲.基于大数据的高校智慧校园学生综合测评系统设计与研究[J].软件工程,2020,23(5):43-45. 被引量：14
2车敏诗,聂春燕,杨承金,阮新磊,范如俊.基于灰色关联法的生理信号与情绪关联度研究[J].计算机工程与应用,2021,57(11):168-172. 被引量：2
3孙艳华.声同文、声辅文、人工音、AI音:有声读物审校方案探究[J].北京印刷学院学报,2025,33(10):8-13.

二级引证文献16

1蔡创.高职院校困难生认定与资助管理系统的设计与实现[J].电子技术与软件工程,2020(9):48-52.
2禹云.大数据时代背景下的高校学生综合测评系统设计与实现[J].科技创新与应用,2020(30):37-38. 被引量：4
3聂娟.“互联网+”背景下智慧校园建设模式研究[J].信息通信,2020(7):165-166. 被引量：1
4段蔓.大数据环境下智慧校园的设计与实现[J].电脑编程技巧与维护,2021(2):133-134.
5许沥文,王默玉,申晓留.基于标签体系的高校学生立体画像研究[J].长江信息通信,2021(3):155-158.
6周易欣,刘禹佳,杜轶男.物联网技术环境下的智慧校园系统设计[J].电子技术与软件工程,2021(6):146-147. 被引量：6
7焦鹏,姚瑶.面向大数据智慧化校园系统的设计和实现[J].电子元器件与信息技术,2021,5(7):55-56. 被引量：1
8张睿.高校智慧校园大数据一体化平台的研究与实践[J].科技经济市场,2022(10):28-30.
9刘佰明.基于深度强化学习的VR大数据智能测评方法[J].软件工程,2023,26(3):6-8. 被引量：2
10李钟郁.浅析大数据技术在高校智慧校园中的应用[J].信息记录材料,2023,24(1):110-113. 被引量：5

1狄永伟.中职计算机教学合作学习法的几点思考[J].中国多媒体与网络教学学报（电子版）,2019(7X):74-75.
2丁立志.基于云计算的海量数据挖掘研究[J].科学与信息化,2019,0(33):47-47.
3刘思怡,苏运,张焰.基于FP-Growth算法的10kV配电网分支线断线故障诊断与定位方法[J].电网技术,2019,43(12):4575-4581. 被引量：51
4常颖舒,庞海云.乡村振兴战略视阈下扶贫模式优化与实现路径[J].山西农经,2019,0(22):26-27.
5姚红梅.区块链技术在化工企业环境污染治理上的应用研究[J].化工管理,2020,0(1):35-36. 被引量：6
6张立智.配电线路接地故障的探测及定位方法研究[J].市场周刊·理论版,2019(33):218-218.
7曹素娥.云计算下海量数据挖掘的优化方法探讨[J].通讯世界,2019,26(12):127-128. 被引量：1
8杨光伟.基于分布式计算的电子渠道智能推荐系统[J].现代经济信息,2019,0(22):317-318.
9赵雅慧,刘芳霖,罗琳.大数据背景下的用户画像研究综述:知识体系与研究展望[J].图书馆学研究,2019,0(24):13-24. 被引量：55
10王沿.基于FPGA的拟色电子系统设计、测试与分析[J].电子制作,2020,0(1):57-58.

湖南工业大学学报

2020年第1期

浏览历史

内容加载中请稍等...

基于Spark平台的FP-Growth算法优化与实现被引量：3

参考文献7

二级参考文献57

共引文献59

同被引文献28

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Spark平台的FP-Growth算法优化与实现 被引量：3

参考文献7

二级参考文献57

共引文献59

同被引文献28

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Spark平台的FP-Growth算法优化与实现被引量：3