CSPRJ:基于数据倾斜的MapReduce连接查询算法被引量：2

CSPRJ:MapReduce Join Query Algorithm Based on Data Skew

下载PDF

导出

摘要数据倾斜是海量数据分析与处理中常见场景之一.在数据倾斜场景下,传统MapReduce连接查询算法并不能充分利用Hadoop平台并行计算编程模型特性.本文主要研究基于数据倾斜的M apReduce连接查询算法.针对传统多表连接查询算法不能有效解决数据倾斜导致的性能瓶颈问题,设计并实现统计倾斜轮询分区连接查询优化算法,该算法以HDFS作为数据存储层,通过统计倾斜与轮询分区策略有效将数据分发到Hadoop集群各个计算节点.实验表明,本文提出的算法在不同数据倾斜率下均能有效实现负载均衡,充分利用MapReduce并行计算特性,并已在实际应用场景中获得较好性能提升. Data skew is one of the common scenarios in massive data analysis and processing.In the data skew scene,traditional MapReduce join query algorithm cannot take full advantage of Hadoop platform parallel computing programming model characteristics.In this paper,we mainly study the MapReduce join query algorithm based on data skew.Aiming at the problem that the traditional multi-table join query algorithm cannot solve the performance bottleneck of data skew,we design and implement count skew polling repartition join query optimization algorithm.The algorithm uses HDFS as the storage layers,and distributes the data to the Hadoop cluster calculation nodes through count skew and polling repartition strategy.Experimental results show that the proposed algorithm can achieve load balancing effectively under different skew rates,make full use of the characteristics of MapReduce parallel computing,and has received a good performance in practical application scenarios.

作者周娅魏夏飞熊晗胡彩林李玲

机构地区桂林电子科技大学计算机与信息安全学院

出处《小型微型计算机系统》 CSCD 北大核心 2018年第2期367-371,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金委项目(61662015)资助广西科技厅科技开发重点项目(桂科攻1598019-3)资助 NSFC-广东联合基金重点项目(U1501252)资助

关键词数据倾斜 MAPREDUCE HADOOP 连接查询查询优化负载均衡 data skew MapReduce Hadoop join query query optimization load balancing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1赵彦荣,王伟平,孟丹,张书彬,李均.基于Hadoop的高效连接查询处理算法CHMJ[J].软件学报,2012,23(8):2032-2041. 被引量：36
2刘贤熜,宋斌.基于Hadoop的海量数据TCP报文重组技术[J].计算机工程,2016,42(10):113-117. 被引量：5

二级参考文献37

1郭世泽,何韶军,牛伟.基于HASH表和SYN计算的TCP包重组方法[J].信息安全与通信保密,2006(2):18-19. 被引量：5
2Ghemawat S, Gobioff H, Leung ST. The Google file system. In: Proc. of the SOSP 2003. 2003.20-43. [doi: 10.1145/1165389. 945450].
3Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. In: Proc. of the OSDI 2004. 2004. 137-150. [doi: 10.1145/1327452.1327492].
4Yang HC, Dasdan A, Hsiao RL, Parker DS. Map-Reduce-Merge: Simplified relational data processing on large cluster. In: Proc. of the SIGMOD 2007. 2007. 1029-1040. [doi: 10.1145/1247480.1247602].
5Lammel R. Google's MapReduce programming model Revisited. Science Computer Program, 2008,70(1):1-30. [doi: 10.1016/ j .scico .2007.07.001 ].
6Thusoo A, Sarma JS, Jain N, Shao Z, Chakka P, Anthony S, Liu H, Wyckoff P, Murthy R. Hi:ce: A warehousing solution over a map-reduce framework. Proc. of the VLDB Endowment, 2009,2(2): 1626-1627.
7Thusoo A, Sarma JS, Jain N, Shao Z, Chakka P, Zhang N, Antony S, Liu H, Murthy R. Hive--A petabyte scale data warehouse using Hadoop data engineering. In: Proc. of the ICDE. 2010. 996-1005. [doi: 10.1109/ICDE.2010.5447738].
8Olston C, Reed B, Sirvastava U, Kumar R, Tomkins A. Pig Latin: A not-so-foreign language for data processing. In: Proc. of the SIGMOD. 2008. 1099-1110. [doi: 10.1145/1376616.1376726].
9White T. Hadoop: The Definitive Guide. O'Reilly, 2009.
10Apache Hadoop. http://hadoop.apache.org/.

共引文献39

1郭宁,张新.一致性哈希算法在多处理机进程分配的应用[J].计算机与现代化,2013(9):71-74. 被引量：5
2朱潜,吴辰铌,朱志良,刘洪娟.Hadoop云平台下Nutch中文分词的研究与实现[J].小型微型计算机系统,2013,34(12):2772-2776. 被引量：5
3杨苗苗,李跃辉,刘静,许静.基于云平台的电信数据仓库文件备份和分布动态调整算法[J].南京邮电大学学报（自然科学版）,2014,34(1):111-115.
4王永贵,李鸿绪,宋晓.MapReduce模型下的并行线性时间选择算法研究[J].计算机工程与设计,2014,35(4):1242-1246. 被引量：2
5周文琼,王乐球,叶玫.云环境下Hadoop平台的作业调度算法[J].计算机系统应用,2014,23(5):177-181. 被引量：1
6代亮,陈婷,许宏科,钱超,梁殿鹏.大数据测试技术研究[J].计算机应用研究,2014,31(6):1606-1611. 被引量：23
7孙小雁.云存储技术及其发展[J].玉林师范学院学报,2014,35(2):136-140. 被引量：2
8何涛,刘强,郑泽忠,刘帅.基于MapRedue的大规模矢量空间数据选择查询处理[J].科技创新导报,2014,11(9):193-194. 被引量：2
9张桂刚.一种大数据放置方法[J].计算机科学,2014,41(6):1-4. 被引量：3
10王永贵,李鸿绪,宋晓.MapReduce模型下的模糊C均值算法研究[J].计算机工程,2014,40(10):47-51. 被引量：10

同被引文献10

1程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：770
2翟红敏,刘国华,赵威,刘源源,翟红坤.MapReduce中连接负载均衡优化研究[J].计算机工程与科学,2014,36(10):1860-1865. 被引量：4
3高宇飞,曹仰杰,陶永才,石磊.MapReduce计算模型下基于虚拟分区的数据倾斜处理方法[J].小型微型计算机系统,2015,36(8):1706-1710. 被引量：5
4王卓,陈群,李战怀,潘巍,尤立.基于增量式分区策略的MapReduce数据均衡方法[J].计算机学报,2016,39(1):19-35. 被引量：25
5梁俊杰,何利民.基于MapReduce的数据倾斜连接算法[J].计算机科学,2016,43(9):27-31. 被引量：7
6赵宇兰.基于MapReduce的两表数据倾斜连接的优化算法[J].吉林大学学报（理学版）,2016,54(6):1383-1387. 被引量：3
7陶永才,丁雷道,石磊,卫琳.MapReduce在线抽样分区负载均衡研究[J].小型微型计算机系统,2017,38(2):238-242. 被引量：6
8卞琛,于炯,修位蓉,英昌甜,钱育蓉.基于迭代填充的内存计算框架分区映射算法[J].计算机应用,2017,37(3):647-653. 被引量：5
9张敬伟,尚宏佳,钱俊彦,周萍,杨青.非均匀数据分布下的MapReduce连接查询算法优化[J].计算机科学与探索,2017,11(5):752-767. 被引量：1
10张元鸣,蒋建波,陆佳炜,徐俊,肖刚.面向MapReduce的迭代式数据均衡分区策略[J].计算机学报,2019,42(8):1873-1885. 被引量：15

引证文献2

1郑钤,向军.一种基于负载代价的MapReduce等值连接优化算法[J].湖北民族学院学报（自然科学版）,2018,36(3):342-347.
2杨迪,赵家伟,王鹏,赵建平.面向负载均衡的动态均衡分区策略[J].计算机应用与软件,2024,41(8):46-52. 被引量：3

二级引证文献3

1王超杰,魏慧,张建,王宜怀.基于GEC框架的LiteOS在CH32V30X芯片上驻留方法[J].现代电子技术,2025,48(20):63-68.
2加春燕.基于药盒尺寸数据的储药槽优化设计研究[J].北京工业职业技术学院学报,2025,24(4):5-9.
3何玉林,吴东彤,黄哲学.自适应的Spark数据均衡分区方法[J].电子学报,2025,53(8):2764-2778.

1一种胎面分区的非充气车轮[J].橡塑技术与装备,2017,43(21):69-69.
2杨朝辉,康磊.Hadoop平台中的MapReduce模型及优化[J].信息技术与信息化,2017(12):82-85. 被引量：2
3王丽娟,靳继红.基于MySQL的查询优化技术研究[J].电脑知识与技术,2017,13(10X):35-36. 被引量：6
4丁琳琳,李晓燕,韩百硕,刘思平,宋宝燕.MapReduce环境下面向用户偏好的top-k连接查询处理方法[J].小型微型计算机系统,2017,38(11):2511-2516.
5黄艳梅.谈统计数据的挖掘发展与方法[J].才智,2017,0(36):242-243. 被引量：1
6侯伟凡,樊玮,张宇翔.改进的Spark Shuffle内存分配算法[J].计算机应用,2017,37(12):3401-3405. 被引量：2
7农健.基于HDFS的分布式存储中负载均衡技术探析[J].电脑知识与技术,2017,13(11X):4-6.
8李晓玮.浅谈大数据Hadoop技术[J].电脑知识与技术（过刊）,2017,23(11X):10-11.
9付艳丽,吴艳民,张金标,郑坤,赵长虹,郑康,方发林.基于MapReduce的空间数据并行划分算法[J].测绘通报,2017(11):96-100. 被引量：4
10韩继英.SQL Server中select语句的使用技巧[J].山西电子技术,2017(6):62-65. 被引量：4

小型微型计算机系统

2018年第2期

浏览历史

内容加载中请稍等...

CSPRJ:基于数据倾斜的MapReduce连接查询算法被引量：2

参考文献2

二级参考文献37

共引文献39

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

CSPRJ:基于数据倾斜的MapReduce连接查询算法 被引量：2

参考文献2

二级参考文献37

共引文献39

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

CSPRJ:基于数据倾斜的MapReduce连接查询算法被引量：2