基于Hadoop、Spark及Flink大规模数据分析的性能评价被引量：31

Framework Performance Evaluation Based on Hadoop,Spark and Flink Large-scale Data Analysis

下载PDF

导出

摘要针对目前缺少大型数据分析框架间的横向比较问题,使用有代表性的大数据工作负载,对Hadoop、Spark和Flink进行性能和可扩展性等因素的比较评价。此外,通过调整工作负载的一些主要参数,例如HDFS块大小、输入数据大小、互连网络或线程配置等,描述了这些框架的行为模式特征。实验结果分析表明,对于非排序的基准测试程序,使用Spark或Flink替代Hadoop,分别带来平均77%和70%执行时间的降低。整体上,Spark的性能结果最好;而Flink通过使用的显式迭代程序,极大提高了迭代算法的性能。 In view of the lack of lateral comparison between large data analysis frameworks,the representative big data workload and the factors such as performance and scalability is considered for comparing and evaluating Hadoop,Spark and Flink,which fills gaps in research. In addition,describing the characteristics of these frameworks＇ behavior patterns by adjusting some main parameters of workload,such as HDFS block size,input data size,interconnection network or thread configuration. The experimental results show that for non sorting benchmark programs,the use of Spark or Flink instead of Hadoop brings average execution time reduction of 77% and 70%,respectively. On the whole,Spark has the best performance results. And the performance of the iterative algorithm is greatly improved by the explicit iterative program used by Flink.

作者代明竹高嵩峰 DAI Ming-zhu;GAO Song-feng(Beijing University of Civil Engineering and Architecture, Beijing 100044, China)

机构地区北京建筑大学

出处《中国电子科学研究院学报》北大核心 2018年第2期149-155,共7页 Journal of China Academy of Electronics and Information Technology

关键词大数据分析框架基准测试程序模型 Big data Analytical Framework Benchmarking Program Model

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：725
2徐计,王国胤,于洪.基于粒计算的大数据处理[J].计算机学报,2015,38(8):1497-1517. 被引量：123
3孙竞,余宏亮,郑纬民.支持分布式存储删冗的相似文件元数据集合索引[J].计算机研究与发展,2013,50(1):197-205. 被引量：5
4宋杰,孙宗哲,毛克明,鲍玉斌,于戈.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(3):514-543. 被引量：97
5王李进,尹义龙,钟一文.逐维改进的布谷鸟搜索算法[J].软件学报,2013,24(11):2687-2698. 被引量：92
6冯兴杰,王文超.Hadoop与Spark应用场景研究[J].计算机应用研究,2018,35(9):2561-2566. 被引量：34
7林香,黄致建,郝艳华.弧形燕尾型榫连接组件三维接触分析[J].武汉理工大学学报（信息与管理工程版）,2010,32(3):427-429. 被引量：4
8王慧贤,靳惠佳,王娇龙,江万寿.k均值聚类引导的遥感影像多尺度分割优化方法[J].测绘学报,2015,44(5):526-532. 被引量：67

二级参考文献263

1杨小斐,白万民.基于UG的飞机发动机叶片造型的方法研究[J].机械设计与制造,2008(2):124-126. 被引量：11
2刘常昱,冯芒,戴晓军,李德毅.基于云X信息的逆向云新算法[J].系统仿真学报,2004,16(11):2417-2420. 被引量：198
3李志永.基于逆向工程的发动机叶片实体建模关键技术研究[J].机械设计与制造,2005(9):119-121. 被引量：9
4杜伟林,苗夺谦,李道国,张年琴.概念格与粒度划分的相关性分析[J].计算机科学,2005,32(12):181-183. 被引量：5
5张浩然,汪晓东.回归最小二乘支持向量机的增量和在线式学习算法[J].计算机学报,2006,29(3):400-406. 被引量：112
6秦昆,李德毅,许凯.基于云模型的图像分割方法研究[J].测绘信息与工程,2006,31(5):3-5. 被引量：31
7张玉伟,付秀琢,苏国胜.基于NURBS的风机叶片造型研究[J].山东轻工业学院学报（自然科学版）,2006,20(3):21-23. 被引量：2
8陈建裕,潘德炉,毛志华.高分辨率海岸带遥感影像中简单地物的最优分割问题[J].中国科学（D辑）,2006,36(11):1044-1051. 被引量：17
9肖鹏峰,冯学智,赵书河,佘江峰.基于相位一致的高分辨率遥感图像分割方法[J].测绘学报,2007,36(2):146-151. 被引量：55
10胡峰,王国胤.属性序下的快速约简算法[J].计算机学报,2007,30(8):1429-1435. 被引量：49

共引文献1136

1王楚鑫,王迎超,董传新,武佩锋,张政.基于时间序列聚类和粒模型的地面沉降模式分析[J].岩土力学,2024,45(S01):631-644. 被引量：1
2张丛铄.基于大数据的研究生心理危机预警机制的构建[J].中国新通信,2020,0(2):80-81. 被引量：2
3岳兆新,艾萍,熊传圣,宋艳红,洪敏,于家瑞.基于改进深度信念网络模型的中长期径流预测[J].水力发电学报,2020,39(10):33-46. 被引量：24
4王加阳,帅勇,张炜.覆盖多粒度粗糙集的数值特征[J].控制与决策,2020,35(1):123-130. 被引量：3
5吴嘉琪.一种基于ELK框架的地理信息动态时空数据获取与挖掘方法[J].测绘通报,2020(1):45-49. 被引量：3
6林禹,赵泉华,沈昭宇,李玉.改进SegNet与迁移学习的遥感建筑物分割方法[J].测绘科学,2022,47(6):78-89. 被引量：9
7陈鹏.治理的算法和算法的治理[J].观察与思考,2020,0(1):95-104. 被引量：12
8谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
9韩益亮,卢万谊,武光明,杨晓元.适用于网络大数据的属性基广义签密方案[J].计算机研究与发展,2013,50(S2):23-29. 被引量：2
10邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10

同被引文献185

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：145
2徐晶,许炜.消息中间件综述[J].计算机工程,2005,31(16):73-76. 被引量：85
3宋铁英.面向森林经营的决策支持系统FMDSS[J].北京林业大学学报,1990,12(4):28-34. 被引量：13
4肖胜.省级林业数据中心建设及信息服务的研究——以福建省数字林业项目为例[J].林业资源管理,2006(5):71-74. 被引量：10
5黄心渊,王海.“数字林业”及其技术与发展[J].北京林业大学学报,2006,28(6):142-147. 被引量：19
6王李军,陶明亮,张曙,莫琪叶.面向业务规则引擎研究[J].计算机工程,2007,33(24):52-56. 被引量：27
7方陆明,童再康,陈建秀,何湘忠.林木良种管理信息系统的建立[J].浙江林学院学报,1998,15(1):96-100. 被引量：11
8王爱平,王占凤,陶嗣干,燕飞飞.数据挖掘中常用关联规则挖掘算法[J].计算机技术与发展,2010,20(4):105-108. 被引量：69
9方明霞.PI数据库在浙江电网的应用现状与展望[J].浙江电力,2010,29(4):51-54. 被引量：16
10费廷伟,刘淑芬,屈志勇,韩乃夫.Java反射驱动的规则引擎技术研究[J].计算机应用,2010,30(5):1324-1326. 被引量：8

引证文献31

1吴庭天,田蜜,陈宗铸,雷金睿,陈小花,李苑菱,黄绪壮.基于Hadoop的森林资源信息平台研究[J].热带林业,2019,47(1):43-47. 被引量：3
2赵冉.基于云计算平台的图书馆混合推荐技术研究[J].现代电子技术,2019,42(23):145-149. 被引量：5
3宋灵城.Flink和Spark Streaming流式计算模型比较分析[J].通信技术,2020,53(1):59-62. 被引量：12
4刘昕林,邓巍,黄萍,刘睿臻.基于Hadoop和Spark的可扩展性大数据分析系统设计[J].自动化与仪器仪表,2020,0(3):132-136. 被引量：12
5袁海飞.基于分布式实时计算架构的生产设备数据分析平台[J].电子技术与软件工程,2020(4):217-219. 被引量：3
6范旭辉.基于Hadoop的工业大数据存储分析系统[J].科技创新与应用,2020(23):18-20. 被引量：5
7骆魁永,罗丹.不同应用场景下的大数据处理框架研究[J].信息技术与信息化,2020(6):239-241. 被引量：2
8樊春美,朱建生,单杏花,杨立鹏,李雯.基于Flink实时计算的自动化流控制算法[J].计算机技术与发展,2020,30(8):66-72. 被引量：7
9孙学忠,胡伟.大数据流计算特点及“单一窗口”适用场景探讨[J].中国口岸科学技术,2020,2(8):26-30. 被引量：1
10卢万杰,徐青,蓝朝桢,吕亮,周杨.遥感卫星区域覆盖实时分析与可视化[J].测绘学报,2020,49(10):1321-1330. 被引量：3

二级引证文献96

1李山,王涛.流计算平台技术框架比较分析研究[J].中国口岸科学技术,2023,5(S01):94-100. 被引量：3
2黄涛,高丽婷.基于Spark的实时数据采集与处理[J].河北建筑工程学院学报,2022,40(4):176-179. 被引量：6
3封宇,周杰.基于Flink的景区人数监测平台设计[J].电子技术（上海）,2021,50(11):80-81.
4欧琼妍.智慧校园背景下图书馆个性化推荐服务系统设计[J].图书馆学刊,2020,42(10):93-96. 被引量：7
5李剑,曹文雅.基于大数据的机动车环污检测系统的研究与应用[J].电子技术与软件工程,2020(19):176-177.
6莫洪波,常琪,熊文红,薛振泽.设备全生命周期数字化平台设计与实现[J].软件导刊,2021,20(1):11-15. 被引量：5
7杨宇,徐万明.基于Storm技术的实时数据处理平台研究与实现[J].电脑与电信,2021(1):51-54. 被引量：1
8阳馨,张晓,张修阳,刘语欢.基于有限计算环境的推荐信息过滤算法[J].太赫兹科学与电子信息学报,2021,19(2):319-323.
9闫芳.智慧校园背景下图书馆个性化推荐服务系统设计[J].电子技术与软件工程,2021(6):170-171. 被引量：2
10尹旭熙.基于Hadoop和Spark的可扩展性化工类大数据分析系统设计[J].粘接,2021(6):81-83. 被引量：3

1莫皓颖,户江民,罗文,何维武.基于北斗短消息信道的云通信技术研究[J].中国信息化,2017,0(11):46-47. 被引量：1
22007下半年《中国美容医学》征订征稿启事[J].口腔颌面外科杂志,2007,17(3):234-234.
3石原健,张基明.汽车轮胎的结构分析[J].橡胶参考资料,1994,24(5):49-53.
4江俊彦,宗丹,林锐.分布式文件系统简要对比与分析[J].内燃机与配件,2018(1):200-201. 被引量：1
5陶维成,党耀国.基于灰色关联聚类的协同过滤推荐算法[J].运筹与管理,2018,27(1):84-88. 被引量：17
6唐翔勇.某银行数据灾备中心电气设计[J].建筑电气,2018,37(4):77-82. 被引量：2
7范炜昊,徐健.基于网络用户评论情感计算的用户痛点分析——以手机评论为例[J].情报理论与实践,2018,41(1):94-99. 被引量：24
8高述勇,周粉粉,符朝兴,孟含.卷积网络样本数和迭代数与识别结果关系研究[J].青岛大学学报（工程技术版）,2018,33(1):51-54.
9郑天.数据新闻的叙事创新研究——以《数说命运共同体》为例[J].新闻知识,2018(4):16-18.
10王永坤,罗萱,金耀辉.基于私有云和物理机的混合型大数据平台设计及实现[J].计算机工程与科学,2018,40(2):191-199. 被引量：31

中国电子科学研究院学报

2018年第2期

浏览历史

内容加载中请稍等...

基于Hadoop、Spark及Flink大规模数据分析的性能评价被引量：31

参考文献8

二级参考文献263

共引文献1136

同被引文献185

引证文献31

二级引证文献96

相关作者

相关机构

相关主题

浏览历史

基于Hadoop、Spark及Flink大规模数据分析的性能评价 被引量：31

参考文献8

二级参考文献263

共引文献1136

同被引文献185

引证文献31

二级引证文献96

相关作者

相关机构

相关主题

浏览历史

基于Hadoop、Spark及Flink大规模数据分析的性能评价被引量：31