面向超级计算机系统的大规模图遍历优化被引量：2

Optimization of large-scale graph traversal for supercomputers

下载PDF

导出

摘要现实中的数据问题通常被抽象为图。在大数据时代,图数据趋于复杂,这是因为数据量大幅提升,所需要的计算规模迅速增长。大规模的图数据问题对超算平台的存储运算能力具有广泛需求,并对此提出了更高的要求。为了高效地处理大规模图数据,发挥天河超级计算机实验平台的图处理能力,基于现实世界中图结构的小世界性和无尺度性特征,面向评测超级计算机图处理能力的重要基准Graph500,提出一种主要应用于大规模图的图遍历优化方法。这一方法结合了天河平台的体系结构特征,在图结构上应用了顶点排序和优先缓存策略,即将图中顶点按度数从高到低排序,令程序在图遍历阶段优先访问高度数邻居顶点,并将部分关键高度数顶点缓存至天河系统核组内的高速缓存中,以此来减少Graph500基准程序中的无效访存,降低进程间的通信开销,提高访存带宽利用率,从而有效地提升Graph500基准测试程序在天河平台上的性能。面向天河超级计算机系统实验平台提出的应用顶点排序与优先缓存优化方法的VS-Graph500程序,其加速的效果显著,可扩展性好。当图测试规模为2^(37)时,全系统稳定测试性能为2547.13 GTEPS,超过2020年11月Graph500国际排名榜上第7名的数据。 In the big data era,with the significant development of graph data,the demand for computing resources is growing rapidly.Supercomputers are applied to process large-scale graph data,which puts forward higher requirements for the storage and computing capabilities of supercomputers.In order to efficiently process large-scale graph data and evaluate the graph processing capabilities of the Tianhe supercomputer,in this paper we propose a graph traversal optimization technique for improving the efficiency of the benchmark program of Graph500,an important benchmark for evaluating graph processing capabilities of supercomputer.The technique mainly adopts the vertex sorting and priority caching strategy,where the vertices in the graph are sorted by degree in a descending order and some key vertices are stored in the cache of the core group of the Tianhe system.Therefore,this technique cuts down on invalid memory access and reduces the communication overhead between processes for maximizing the usage of the bandwidth for the supercomputer system.In order to validate graph traversal based on vertex sorting and buffering,an optimized graph500 version named VS-graph500 is customized for the Tianhe supercomputer,experimental results demonstrate that the VS-graph500 has a significant acceleration and good scalability in the supercomputers testing system,and attains a stable testing performance at 2547.13EGTEPS when the graph testing scale is 37,which is superior to the 7th in Graph500 list in June 2020.

作者谭雯甘新标白皓肖调杰陈旭光雷书梦刘杰 TAN Wen;GAN Xinbiao;BAI Hao;XIAO Tiaojie;CHEN Xuguang;LEI Shumeng;LIU Jie(College of Computer Science and Technology,National University of Defense Technology,Changsha 410073,China;College of General Education,Information College of Hunan,Changsha 410217,China)

机构地区国防科技大学计算机学院湖南信息学院通识教育学院

出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 2021年第6期84-95,共12页 Journal of Xidian University

基金国家重点研究与发展计划(2018YFB0204301) 国家自然科学基金(61902411) 国家数值风洞项目(NNW2019ZT6-B21,NNW2019ZT6-B20,NNW2019ZT5-A10) PDL基金(6142110190206,6142110180203) 湖南省自然科学基金(2020JJ4669)。

关键词 Graph500基准图结构顶点排序优先缓存超级计算机系统 Graph500 graph structures vertex sorting buffer storage supercomputers

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张承龙,曹华伟,王国波,郝沁汾,张洋,叶笑春,范东睿.面向高通量计算机的图算法优化技术[J].计算机研究与发展,2020,57(6):1152-1163. 被引量：11
2甘新标,谭雯,刘杰.基于双向位图的CSR大规模图存储优化[J].计算机研究与发展,2021,58(3):458-466. 被引量：3
3石嵩,李宏亮,朱巍.阵列众核处理器上的高效归并排序算法[J].计算机研究与发展,2016,53(2):362-373. 被引量：6

二级参考文献28

1Ramey C. Tile-gxl00 manycore processor: Acceleration interfaces and architecture [OL]. San Jose, CA: Tilera Corporation, 2011 [2014-10-25]. http://www, hotchips, org/ wp eontent/uploads/hc archives/hc23/HC23. 18. 2-security/ HC23, 18, 220-TILE-GX100 Ramey Tilera-e. pdf.
2Mitsuhisa S. Feasibility study on future HPC infrastructure [OL]. Tsukuba, Janpan: University of Tsukuba, 2014 [2014-10-25]. http://www, ccs. tsukuba, ac. jpjfiles/exreview/FS-ccs eval-2014. pdf.
3Gwennup L. Adapteva: More flops, less watts lOLl. Mountain View, CA: The Linley Group, 2011 [2014-10-25]. http://www, adapteva, com/wp content/uploads/2011/ 06/adapteva mpr. pdf.
4Dinechin B D, Ayrignac R, Beaucamps P E, et al. A clustered manycore processor architecture for embedded and accelerated applications [C] //Proc of the 17th IEEE Conf on High Performance Extreme Computing. Piscataway, NJ: IEEE, 2013: 1-6.
5Merrill D G, Grimshaw A S. Revisiting sorting for GPGPU stream architectures [C] //Proc of the 19th Int Conf on Parallel Architectures and Compilation Techniques. New York: ACM, 2010: 545-546.
6Davidson A, Tarjan D, Garland M, et al. Efficient parallel merge sort for fixed and variable length keys [C] //Proc of Innovative Parallel Computing. Piscataway, NJ: IEEE, 2012, 1-9.
7Satish N, Kim C, Chhugani J, et al. Fast sort on CPUs, GPUs and Intel MIC architectures [OL]. Santa Clara, CA: Intel I.abs, 2010 [2014-10-25]. http://www, intel, corn/ content/www/us/en/research/intel-labs-radix-sort mic report. html.
8Tian X, Kamil R, Reiii S. Register level sort algorithm on multi-core SIMD processors [C]//Proc of the 3rd Workshop on Irregular Applications: Architecture and Algorithms. New York: ACM, 2013: No 9.
9Sengupta S, Harris M, Zhang Yao, et al. Scan primitives for GPU computing [C] //Proc of the 22nd ACM SIGGRAPH/ EUROGRAPHICS Symp on Graphics hardware. Aire-la Ville, Switzerland: Eurographics Association, 2002: 97-106.
10Satish N, Harris M, Garland M. Designing efficient sorting algorithms for manycore GPUs, NVR-2008 001 [R]. Santa Clara, CA: NVIDIA Corporation, 2008.

共引文献17

1秦玉平,刘晴,冷强奎.几种排序算法在链式存储结构上的递归实现[J].渤海大学学报（自然科学版）,2023,44(2):166-171. 被引量：1
2山蕊,沈绪榜,蒋林,朱筠,宋辉.面向阵列处理器的分布式共享存储结构设计[J].北京邮电大学学报,2017,40(4):9-15. 被引量：4
3应沈静,方奇,陶骏,马利祥.快速排序教学探讨[J].科技风,2020(36):39-41.
4刘建友,蒋春霞.一种基于高通量计算机的图算法优化技术[J].信息与电脑,2020,32(22):69-71. 被引量：1
5孙学军.基于大数据的计算机基础教学改革研究[J].电脑知识与技术,2021,17(28):237-238. 被引量：1
6刘勇.基于图算法的定向越野数据智能分析系统设计[J].自动化与仪器仪表,2022(8):159-164. 被引量：1
7李策,章隆兵.基于顶点度数的图数据分区域重排序[J].高技术通讯,2022,32(9):903-913.
8轩瑞,陈磊,石海鹤.图类算法可重用设计及其实现[J].江西师范大学学报（自然科学版）,2023,47(1):52-60. 被引量：2
9李策,章隆兵.基于社区结构的图数据预取器设计[J].高技术通讯,2022,32(12):1251-1261.
10郭晓龙,牛晋宇,杜永萍.基于树莓派的高效卷积优化方法[J].计算机技术与发展,2023,33(5):96-104.

同被引文献17

1张玉,王楠,梁昌洪.PC集群MPI并行矩量法分析复杂平台多天线特性[J].电子学报,2006,34(3):478-482. 被引量：10
2杨超,郭立新,李宏强,吴振森.大气波导中电波传播特性的研究[J].西安电子科技大学学报,2009,36(6):1097-1102. 被引量：18
3刘艳阳,李真芳,杨娟娟,保铮.分布式卫星InSAR目标定位近似闭式解[J].西安电子科技大学学报,2012,39(4):87-93. 被引量：12
4张丽果,杜慧敏,韩俊刚.PMC模型下超立方体的一种条件诊断算法[J].西安电子科技大学学报,2012,39(5):148-153. 被引量：3
5李伟,郑航,钱肇钧,李明明.基于信道测量的3～6GHz城市环境传播特性研究[J].南京邮电大学学报（自然科学版）,2016,36(4):28-34. 被引量：7
6梁家荣,陈秒江.基于比较模型的扩展立方体网络的(t,k)-诊断度研究[J].通信学报,2017,38(8):9-18. 被引量：6
7郭晨,冷明,彭硕,王博.交换交叉立方网络在MM模型下的条件诊断度研究[J].通信学报,2017,38(9):106-124. 被引量：6
8陈保家,贺王鹏,胡洁,王赓,郭宝龙.数据驱动的GMC稀疏增强诊断方法[J].西安电子科技大学学报,2019,46(4):74-79. 被引量：4
9刘峰,梁家荣,郭杨,谢敏,莫海淼.PMC模型下网络故障的节点可诊断研究[J].计算机应用研究,2019,36(11):3467-3470. 被引量：2
10赵延安,侯鹏,王大鹏,王楠,张玉.2.5 GHz城市环境电磁态势的计算与补偿[J].微波学报,2020,36(2):94-97. 被引量：2

引证文献2

1刘三阳,党拓,白艺光.对称PMC(SPMC)模型下节点可诊断性研究[J].西安电子科技大学学报,2023,50(1):109-117. 被引量：1
2王楠,刘俊志,陈贵齐,赵延安,张玉.电大山区地物环境中电波传播的电磁计算[J].西安电子科技大学学报,2024,51(1):21-28. 被引量：2

二级引证文献3

1宫峰勋,张英.非视距信号传播场强特性的分析与研究[J].电信科学,2024,40(2):83-95. 被引量：1
2王光磊,薛莉,杨夏祎,陈亚天,吕东东.嵌入式SMP环境下电力设备TCP/IP通信协议栈并行优化[J].微型电脑应用,2025,41(5):70-74.
3关策,宋欣蔚,岳云涛.基于多通道U-Net的室内电磁波传播路径损耗预测方法[J].电波科学学报,2026,41(1):79-88.

1温锦辉,李坤,黄江兰,田立勤,栾尚敏.两凸多边形交集面积的计算机算法[J].数学建模及其应用,2021,10(2):44-48. 被引量：3
2谢景明,胡伟方,韩林,赵荣彩,荆丽娜.基于“嵩山”超级计算机系统的量子傅里叶变换模拟[J].计算机科学,2021,48(12):36-42. 被引量：6
3舒玉泉.冶金自动化技术应用现状和发展趋势微探[J].冶金与材料,2021,41(6):85-86. 被引量：3
4刘沛.云计算环境下大规模图数据处理技术研究[J].电子世界,2021(19):37-38. 被引量：5
5孟慧玲,王耀彬,李凌,杨洋,王欣夷,刘志勤.TACLeBench中内核程序循环级推测并行性分析[J].计算机应用,2021,41(9):2652-2657.
6文敏华,胡广超,王一超.基于Singularity的分子动力学软件Quantum Espresso容器部署与测试[J].软件导刊,2021,20(12):78-82. 被引量：1
7李卫龙,李云俊,时运通,夏晨阳.分段导轨式动态无线充电系统电压波动性研究[J].广东电力,2022,35(1):30-41. 被引量：3
8洪思扬,程涛,王红瑞.长江经济带水资源-能源网络特征[J].资源科学,2021,43(9):1794-1807. 被引量：10
9程义,庄毅,曹子宁.利用随机森林的单粒子翻转软件故障注入方法[J].小型微型计算机系统,2021,42(11):2452-2458. 被引量：5
10赵港,王千阁,姚烽,张岩峰,于戈.大规模图神经网络系统综述[J].软件学报,2022,33(1):150-170. 被引量：23

西安电子科技大学学报

2021年第6期

浏览历史

内容加载中请稍等...

面向超级计算机系统的大规模图遍历优化被引量：2

参考文献3

二级参考文献28

共引文献17

同被引文献17

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向超级计算机系统的大规模图遍历优化 被引量：2

参考文献3

二级参考文献28

共引文献17

同被引文献17

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向超级计算机系统的大规模图遍历优化被引量：2