期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
1
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout optimization CUDA Performance optimization GPU memory optimization Dynamic Programming Matrix Multiplication memory access Pattern optimization in CUDA
在线阅读 下载PDF
Research on optimization of virtual machine memory access based on NUMA architecture 被引量:2
2
作者 He Mujun Zheng Linjiang +2 位作者 Yang Kai Liu Runfeng Liu Weining 《High Technology Letters》 EI CAS 2021年第4期347-356,共10页
With the rapid development of big data and artificial intelligence(AI),the cloud platform architecture system is constantly developing,optimizing,and improving.As such,new applications,like deep computing and high-per... With the rapid development of big data and artificial intelligence(AI),the cloud platform architecture system is constantly developing,optimizing,and improving.As such,new applications,like deep computing and high-performance computing,require enhanced computing power.To meet this requirement,a non-uniform memory access(NUMA)configuration method is proposed for the cloud computing system according to the affinity,adaptability,and availability of the NUMA architecture processor platform.The proposed method is verified based on the test environment of a domestic central processing unit(CPU). 展开更多
关键词 cloud computing VIRTUALIZATION non-uniform memory access(NUMA)virtual machine memory access optimization
在线阅读 下载PDF
Optimized CUDA Implementation to Improve the Performance of Bundle Adjustment Algorithm on GPUs
3
作者 Pranay R. Kommera Suresh S. Muknahallipatna John E. McInroy 《Journal of Software Engineering and Applications》 2024年第4期172-201,共30页
The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its p... The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its performance by implementing the algorithm on GPUs. In the previous research work, “Improving Accuracy and Computational Burden of Bundle Adjustment Algorithm using GPUs,” the authors demonstrated first the Bundle Adjustment algorithmic performance improvement by reducing the mean square error using an additional radial distorting parameter and explicitly computed analytical derivatives and reducing the computational burden of the Bundle Adjustment algorithm using GPUs. The naïve implementation of the CUDA code, a speedup of 10× for the largest dataset of 13,678 cameras, 4,455,747 points, and 28,975,571 projections was achieved. In this paper, we present the optimization of the Bundle Adjustment algorithm CUDA code on GPUs to achieve higher speedup. We propose a new data memory layout for the parameters in the Bundle Adjustment algorithm, resulting in contiguous memory access. We demonstrate that it improves the memory throughput on the GPUs, thereby improving the overall performance. We also demonstrate an increase in the computational throughput of the algorithm by optimizing the CUDA kernels to utilize the GPU resources effectively. A comparative performance study of explicitly computing an algorithm parameter versus using the Jacobians instead is presented. In the previous work, the Bundle Adjustment algorithm failed to converge for certain datasets due to several block matrices of the cameras in the augmented normal equation, resulting in rank-deficient matrices. In this work, we identify the cameras that cause rank-deficient matrices and preprocess the datasets to ensure the convergence of the BA algorithm. Our optimized CUDA implementation achieves convergence of the Bundle Adjustment algorithm in around 22 seconds for the largest dataset compared to 654 seconds for the sequential implementation, resulting in a speedup of 30×. Our optimized CUDA implementation presented in this paper has achieved a 3× speedup for the largest dataset compared to the previous naïve CUDA implementation. 展开更多
关键词 Scene Reconstruction Bundle Adjustment LEVENBERG-MARQUARDT Non-Linear Least Squares memory Throughput Computational Throughput Contiguous memory access CUDA optimization
在线阅读 下载PDF
面向LoongArch边界检查访存指令的GCC优化
4
作者 舒燕君 郑翔宇 +5 位作者 徐成华 黄沛 王永琪 周凡 张展 左德承 《计算机研究与发展》 北大核心 2025年第5期1136-1150,共15页
为了减少内存安全检查的开销,LoongArch指令集架构引入了边界检查访存类指令.然而,作为一种新的内存访问指令,目前GCC(GNU compiler collection)编译器不支持该类指令,LoongArch硬件能力不能得到充分利用.针对此LoongArch边界检查访存... 为了减少内存安全检查的开销,LoongArch指令集架构引入了边界检查访存类指令.然而,作为一种新的内存访问指令,目前GCC(GNU compiler collection)编译器不支持该类指令,LoongArch硬件能力不能得到充分利用.针对此LoongArch边界检查访存指令改进了GCC编译器,实现利用该类指令优化程序的内存安全检查.具体而言,完成了3个方面的工作:1)设计实现了针对边界检查访存指令的内建函数;2)改进GCC RTL(register transfer language)阶段的优化器,使其能够识别无异常处理和带异常处理2种情况的边界检查访存语义,并自动优化;3)面向LoongArch边界检查访存指令触发的边界检查异常(bound check exception,BCE),设计了新的Linux内核异常信号SIGBCE和相应的运行时库glibc(GNU C library)的信号处理函数,实现了BCE处理.通过在GCC 12.2.0和龙芯3C5000L服务器进行实验,验证了改进后的编译器不仅能正确使用新引入的边界检查访存指令,而且在某些安全函数中带来接近20%的性能提升.完善了LoongArch生态,推进了LoongArch指令集发展,对此类特定指令编译器优化工作有一定的借鉴意义. 展开更多
关键词 编译器优化 LoongArch GCC 边界检查访存 龙芯CPU 异常处理 内存安全
在线阅读 下载PDF
基于Matrix Core的小尺寸批量矩阵乘法设计与优化
5
作者 陆璐 赵容 +1 位作者 梁志宏 索思亮 《华南理工大学学报(自然科学版)》 北大核心 2025年第9期48-58,共11页
通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM(即FP16)一直是许多深度学... 通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM(即FP16)一直是许多深度学习框架的核心操作。目前AMD GPU上半精度批处理GEMM的访存和计算利用率不足,急需优化。为此,该文提出了一种半精度批处理GEMM(HGEMM)的图形处理器(GPU)优化方案。分块策略方面,根据输入矩阵块大小为线程分配相同的访存量和计算量,同时线程计算多个矩阵乘法,以提高计算单元的利用率。访存优化方面,以多读数据为代价,为每个线程分配相同访存量以便于编译器优化,保证访存和计算时间相互掩盖。对于矩阵尺寸小于16的极小尺寸批处理HGEMM,该文利用4×4×4的Matrix Core及其对应的分块方案,在提升访存性能的同时减少Matrix Core计算资源的浪费,并提供是否使用共享内存的选项来达到最高性能。在AMD GPU MI210平台上,将该方案与rocBLAS的2个算子进行性能对比,结果表明:该方案在AMD GPU MI210上的平均性能为rocBLASHGEMMBatched的4.14倍,rocBLASGEMMExBatched的4.96倍;对于极小尺寸批处理HGEMM,平均性能为rocBLASHGEMMBatched的18.60倍,rocBLASGEMMExBatched的14.02倍。 展开更多
关键词 图形处理器 Matrix Core 矩阵乘法 访存优化
在线阅读 下载PDF
面向DCU的流固耦合浸没边界算法异构实现
6
作者 商建东 熊威 +3 位作者 华浩波 宋昭璐 郭恒亮 张军 《计算机工程》 北大核心 2025年第7期263-274,共12页
直接力浸没边界法是求解流固耦合问题的常见方法之一,其可以有效地处理复杂的几何形状,包括移动和变形的固体。然而,三维复杂流动模拟具有网格规模大、耗时多的特点,在单核处理器上使用传统的串行算法往往无法满足计算要求。目前,在国... 直接力浸没边界法是求解流固耦合问题的常见方法之一,其可以有效地处理复杂的几何形状,包括移动和变形的固体。然而,三维复杂流动模拟具有网格规模大、耗时多的特点,在单核处理器上使用传统的串行算法往往无法满足计算要求。目前,在国产平台上对流固耦合问题的研究较少,而在国产平台上实现直接力浸没边界算法能够丰富平台的应用生态。为此,使用国产DCU(Deep Compute Unit)加速器,基于CPU-DCU异构编程,设计并实现利用三维直接力浸没边界算法求解流固耦合问题的并行程序。首先,在CPU上实现串行算法并进行热点分析,对程序热点部分使用DCU加速器进行异构加速;其次,在异构实现的基础上,结合DCU硬件特性,使用共享内存、循环分块、调整访存顺序等优化手段对核函数进行优化;最后,通过圆球绕流和仿生鱼自主游动算例对程序进行正确性验证和性能测试。实验结果表明,在雷诺数分别为100和200时,圆球的阻力系数分别为1.11和0.78,计算结果均与相关文献吻合;在雷诺数为7142的仿生鱼自主游动实验中,游动稳定后的平均前进速度为0.396,该结果与相关文献结果一致。在圆球绕流实验中,在5033万网格规模下该并行程序较串行程序获得了83.7倍的加速效果。通过两类流固耦合数值实验,验证了CPU-DCU并行直接力浸没边界算法在国产异构平台上进行计算的有效性和准确性,这为国产平台上CFD(Computational Fluid Dynamics)算法的研究提供了坚实基础。 展开更多
关键词 异构计算 DCU加速器件 访存优化 直接力浸没边界法 流固耦合
在线阅读 下载PDF
以太网RDMA网卡综述
7
作者 黄曼蒂 李韬 +3 位作者 杨惠 李成龙 张毓涛 孙志刚 《计算机研究与发展》 北大核心 2025年第5期1262-1289,共28页
目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处... 目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望. 展开更多
关键词 远程直接内存访问 以太网RDMA网卡 RoCEv2 网卡架构 网卡优化 数据中心网络
在线阅读 下载PDF
海光处理器上后量子签名算法的AVX2优化实现
8
作者 王悦彤 周璐 +1 位作者 杨昊 刘哲 《计算机学报》 北大核心 2025年第7期1714-1732,共19页
随着量子计算技术的快速发展,传统密码体系面临着巨大的安全威胁,后量子密码学(PQC)的研究迫在眉睫。在此背景下,格密码凭借其出色的抗量子攻击能力,成为后量子数字签名算法的重要基础。HuFu算法是我国自主研发的后量子数字签名算法,基... 随着量子计算技术的快速发展,传统密码体系面临着巨大的安全威胁,后量子密码学(PQC)的研究迫在眉睫。在此背景下,格密码凭借其出色的抗量子攻击能力,成为后量子数字签名算法的重要基础。HuFu算法是我国自主研发的后量子数字签名算法,基于格密码学中的通用格问题,具有良好的安全性和应用前景,目前已提交至美国国家标准技术研究院(NIST)进行标准化评估。但HuFu算法在性能上仍有提升空间,特别是在算法复杂度、内存效率和并行计算能力方面,同时还需增强对不同硬件和指令集的兼容性。为此,本文基于国产的海光处理器,充分发挥其高并行性、低能耗和高吞吐量的优势,为HuFu算法的高效实现提供了强有力的硬件支持。同时,结合256位高级向量扩展(AVX2)指令集,这一广泛应用的单指令多数据(SIMD)技术,进一步增强了算法的并行计算能力,从而有效提升了整体性能。本文综合考虑矩阵乘法优化、指令集加速、编码处理简化和内存访问效率等多个方面,采用一系列算法和技术优化,旨在显著提升计算速度、减少资源消耗,并提高签名生成与验证的整体性能。具体而言,本文的优化方案包括多个关键技术点:首先,结合Strassen算法优化矩阵乘法,显著提升了计算速度并减少了资源消耗;其次,采用AVX2指令集对非对称数字的范围变体编码(rANS)进行了优化,加快了签名生成与验证的速度;此外,针对rANS编码中符号位处理复杂且耗时的问题,采用无符号参数来实现高效的签名和验证处理,简化了计算流程并减少了运算开销;最后,通过设计合理的函数接口和内存访问优化技术,提高了签名和验证阶段的内存使用效率,减少了寄存器的频繁写入。与原有的HuFu算法AVX2实现方案相比,本文提出的优化方案在密钥生成、签名在线阶段、签名离线阶段以及总的签名和验证阶段的时钟周期消耗分别减少了约46%、54%、45%、30%和46%。高效的签名算法能够在高并发环境中提升处理能力,增强系统的稳定性和安全性,更好地保护后量子密码数据免受量子计算威胁,同时推动国产后量子密码技术的发展。 展开更多
关键词 后量子密码 格密码 高级向量拓展 矩阵乘法 内存访问优化 海光处理器
在线阅读 下载PDF
Memory Access Optimization of Molecular Dynamics Simulation Software Crystal-MD on Sunway Taihu Light
9
作者 Jianjiang Li Jie Lin +2 位作者 Panpan Du Kai Zhang Jie Wu 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2021年第3期296-308,共13页
The radiation damage effect of key structural materials is one of the main research subjects of the numerical reactor.From the perspective of experimental safety and feasibility,Molecular Dynamics(MD)in the materials ... The radiation damage effect of key structural materials is one of the main research subjects of the numerical reactor.From the perspective of experimental safety and feasibility,Molecular Dynamics(MD)in the materials field is an ideal method for simulating the radiation damage of structural materials.The Crystal-MD represents a massive parallel MD simulation software based on the key material characteristics of reactors.Compared with the Large-scale Atomic/Molecurlar Massively Parallel Simulator(LAMMPS)and ITAP Molecular Dynamics(IMD)software,the Crystal-MD reduces the memory required for software operation to a certain extent,but it is very time-consuming.Moreover,the calculation results of the Crystal-MD have large deviations,and there are also some problems,such as memory limitation and frequent communication during its migration and optimization.In this paper,in order to solve the above problems,the memory access mode of the Crystal-MD software is studied.Based on the memory access mode,a memory access optimization strategy is proposed for a unique architecture of China’s supercomputer Sunway Taihu Light.The proposed optimization strategy is verified by the experiments,and experimental results show that the running speed of the Crystal-MD is increased significantly by using the proposed optimization strategy. 展开更多
关键词 molecular dynamics simulation Crystal-MD Sunway Taihu Light memory access optimization
原文传递
Memory access optimization for particle operations in computational fluid dynamics-discrete element method simulations
10
作者 Deepthi Vaidhynathan Hariswaran Sitaraman +3 位作者 Ray Grout Thomas Hauser Christine M.Hrenya Jordan Musser 《Particuology》 SCIE EI CAS CSCD 2023年第7期97-110,共14页
Computational Fluid Dynamics-Discrete Element Method is used to model gas-solid systems in several applications in energy,pharmaceutical and petrochemical industries.Computational performance bot-tlenecks often limit ... Computational Fluid Dynamics-Discrete Element Method is used to model gas-solid systems in several applications in energy,pharmaceutical and petrochemical industries.Computational performance bot-tlenecks often limit the problem sizes that can be simulated at industrial scale.The data structures used to store several millions of particles in such large-scale simulations have a large memory footprint that does not fit into the processor cache hierarchies on current high-performance-computing platforms,leading to reduced computational performance.This paper specifically addresses this aspect of memory access bottlenecks in industrial scale simulations.The use of space-flling curves to improve memory access patterns is described and their impact on computational performance is quantified in both shared and distributed memory parallelization paradigms.The Morton space flling curve applied to uniform grids and k-dimensional tree partitions are used to reorder the particle data-structure thus improving spatial and temporal locality in memory.The performance impact of these techniques when applied to two benchmark problems,namely the homogeneous-cooling-system and a fluidized-bed,are presented.These optimization techniques lead to approximately two-fold performance improvement in particle focused operations such as neighbor-list creation and data-exchange,with~1.5 times overall improvement in a fluidization simulation with 1.27 million particles. 展开更多
关键词 CFD-DEM memory access optimization Spatial reordering Performance optimization
原文传递
Bowtie 2-NUMA:具有NUMA体系结构适应性的基因序列比对应用
11
作者 王强 孙彦洁 +1 位作者 齐星云 徐佳庆 《计算机工程与科学》 CSCD 北大核心 2024年第12期2117-2127,共11页
Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架... Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架构下内存访问拥塞和最后一级缓存命中率低的结构性瓶颈。然后,基于Bowtie 2在不同非一致性访存平台的表现特点,在复制索引、内存分配以及数据划分3个方面进行优化,提出了Bowtie 2-NUMA。最后,通过实验表明,Bowtie 2-NUMA面向不同计算平台,能够基于体系结构进行适应性优化,实现并行效率的提升。 展开更多
关键词 非一致性访存 Bowtie 2 适应性优化 体系结构 内存带宽 最后一级缓存
在线阅读 下载PDF
面向多核CPU/众核GPU架构的非结构CFD共享内存并行计算技术 被引量:5
12
作者 张健 李瑞田 +3 位作者 邓亮 代喆 刘杰 徐传福 《航空学报》 EI CAS CSCD 北大核心 2024年第7期108-121,共14页
针对现代高性能计算机架构开展非结构CFD节点内共享内存并行,是提升浮点计算效率、实现更大规模流体仿真应用能力的关键。然而由于非结构网格CFD计算存在拓扑关系复杂、数据局部性差、数据写冲突等问题,传统算法如何共享内存并行化以高... 针对现代高性能计算机架构开展非结构CFD节点内共享内存并行,是提升浮点计算效率、实现更大规模流体仿真应用能力的关键。然而由于非结构网格CFD计算存在拓扑关系复杂、数据局部性差、数据写冲突等问题,传统算法如何共享内存并行化以高效发挥多核CPU/众核GPU的硬件能力,成为一个重大的挑战。从一个工业级非结构CFD软件出发,通过深入分析其计算行为和访存模式,设计实现了多种共享内存并行算法,采用了网格重排序、循环融合、多级访存等数据局部性优化技术进一步提升性能。面向多核CPU架构,系统开展了循环级与任务级两种并行模式的对比研究;面向众核GPU架构,创新地提出了一种基于多级访存优化方法的规约并行策略。利用M6机翼和CHN-T1飞机算例对所有并行算法及优化技术进行了全面验证与评估。结果表明:在多核CPU平台上,基于剖分复制的任务级并行策略性能最好,采用Cuthill-McKee重排序以及循环融合分别使整体性能提升10%。在众核GPU平台上,基于多级访存的规约策略具有显著的加速效果,优化后热点函数的性能相比优化前提升了3倍,相比CPU串行性能整体加速比可达127。 展开更多
关键词 非结构网格 CFD 共享内存并行 GPU 访存优化
原文传递
swLLVM:面向神威新一代超级计算机的优化编译器 被引量:2
13
作者 沈莉 周文浩 +5 位作者 王飞 肖谦 武文浩 张鲁飞 安虹 漆锋滨 《软件学报》 EI CSCD 北大核心 2024年第5期2359-2378,共20页
异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申... 异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro.为了发挥新一代众核处理器的性能优势,支撑新兴科学计算应用的开发和优化,设计并实现面向SW26010Pro平台的优化编译器swLLVM.该编译器支持Athread和SDAA双模态异构编程模型,提供多级存储层次描述及向量操作扩展,并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化.测试结果表明,所设计并实现的编译优化效果显著,其中,控制流向量化和节点合并优化的平均加速比分别为1.23和1.11,而访存相关优化最高可获得2.49倍的性能提升.最后,使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估,相较于SWGCC的相同优化级别,swLLVM整型课题性能平均下降0.12%,浮点型课题性能平均提升9.04%,整体性能平均提升5.25%,编译速度平均提升79.1%,代码尺寸平均减少1.15%. 展开更多
关键词 异构众核 编译系统 编程模型 存储层次 向量化 节点合并 访存优化
在线阅读 下载PDF
基于重用距离的访存指令优化
14
作者 魏雨桐 顾乃杰 +2 位作者 黄章进 苏俊杰 齐东升 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2784-2789,共6页
随着机器学习、推荐系统和社交网络等数据驱动类技术的发展,数据正在以流的形式呈现.传统的缓存替换算法无法有效适应应用程序的流式访问行为,导致数据流程序带来了大量的缓存未命中与严重的缓存污染问题.本文依据数据流程序变化带来的... 随着机器学习、推荐系统和社交网络等数据驱动类技术的发展,数据正在以流的形式呈现.传统的缓存替换算法无法有效适应应用程序的流式访问行为,导致数据流程序带来了大量的缓存未命中与严重的缓存污染问题.本文依据数据流程序变化带来的新的局部性优化挑战,提出了一种基于重用距离和非时态访存指令的优化方法RDNT.该方法首先筛选内存访问指令,然后计算重用距离,最后用非时态内存访问指令替换重用距离过大的常规内存访问指令.在SPEC CPU 2017测试集的实验结果表明,RDNT能够有效提高程序性能,与常规访存方式相比产生了8%的加速比,降低了程序的运行时间. 展开更多
关键词 LLVM编译器 缓存污染 内存访问指令 编译器优化
在线阅读 下载PDF
A Study on Modeling and Optimization of Memory Systems
15
作者 Jason Liu Pedro Espina Xian-He Sun 《Journal of Computer Science & Technology》 SCIE EI CSCD 2021年第1期71-89,共19页
Accesses Per Cycle(APC),Concurrent Average Memory Access Time(C-AMAT),and Layered Performance Matching(LPM)are three memory performance models that consider both data locality and memory assess concurrency.The APC mod... Accesses Per Cycle(APC),Concurrent Average Memory Access Time(C-AMAT),and Layered Performance Matching(LPM)are three memory performance models that consider both data locality and memory assess concurrency.The APC model measures the throughput of a memory architecture and therefore reflects the quality of service(QoS)of a memory system.The C-AMAT model provides a recursive expression for the memory access delay and therefore can be used for identifying the potential bottlenecks in a memory hierarchy.The LPM method transforms a global memory system optimization into localized optimizations at each memory layer by matching the data access demands of the applications with the underlying memory system design.These three models have been proposed separately through prior efforts.This paper reexamines the three models under one coherent mathematical framework.More specifically,we present a new memorycentric view of data accesses.We divide the memory cycles at each memory layer into four distinct categories and use them to recursively define the memory access latency and concurrency along the memory hierarchy.This new perspective offers new insights with a clear formulation of the memory performance considering both locality and concurrency.Consequently,the performance model can be easily understood and applied in engineering practices.As such,the memory-centric approach helps establish a unified mathematical foundation for model-driven performance analysis and optimization of contemporary and future memory systems. 展开更多
关键词 performance modeling performance optimization memory architecture memory hierarchy concurrent average memory access time
原文传递
CPU和GPU协同处理的光学卫星遥感影像正射校正方法 被引量:36
16
作者 方留杨 王密 李德仁 《测绘学报》 EI CSCD 北大核心 2013年第5期668-675,共8页
系统地探讨基于CPU和GPU协同处理的光学卫星遥感影像正射校正方法。首先使用"层次性分块"策略设计基于CPU和GPU协同处理的正射校正方法,然后通过配置选择优化和存储层次性访问等手段进一步提高方法执行效率。在Tesla M2050 GP... 系统地探讨基于CPU和GPU协同处理的光学卫星遥感影像正射校正方法。首先使用"层次性分块"策略设计基于CPU和GPU协同处理的正射校正方法,然后通过配置选择优化和存储层次性访问等手段进一步提高方法执行效率。在Tesla M2050 GPU上对资源三号卫星下视全色影像进行正射校正的试验结果表明,本文方法可大幅提高光学卫星遥感影像正射校正效率,与传统串行正射校正算法相比,加速比最高达到110倍以上,相应的处理时间压缩至5 s以内,可满足对海量数据光学卫星遥感影像进行快速正射校正的要求。 展开更多
关键词 正射校正 CPU和GPU协同处理 层次性分块 配置选择优化 存储层次性访问
在线阅读 下载PDF
用于DDR3访存优化的数据缓冲机制 被引量:7
17
作者 陈胜刚 付兴飞 +1 位作者 曾思 刘胜 《国防科技大学学报》 EI CAS CSCD 北大核心 2017年第6期39-44,共6页
为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统... 为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。 展开更多
关键词 DDR3控制器 访存优化 数据缓冲
在线阅读 下载PDF
一种支持多种访存技术的CBEA片上多核MPI并行编程模型 被引量:6
18
作者 冯国富 董小社 +2 位作者 胡冰 王旭昊 王恩东 《计算机学报》 EI CSCD 北大核心 2008年第11期1965-1974,共10页
现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI... 现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI并行编程模型,将通信分解在PPE(PowerPC Processing Element)上,拓宽模型的适用范围;在统一访存接口下,通过运行时访存剖分信息指导选择和优化访存以提高计算效率.实验结果表明,文中提出的编程模型支持多种访存模式并具有很好的并行加速比,可获得较同类相关技术30%-50%左右的性能提升. 展开更多
关键词 异构多核 CBE架构 并行编程模型 MPI 访存技术 剖分优化
在线阅读 下载PDF
面向异构众核从核的数学函数库访存优化方法 被引量:6
19
作者 许瑾晨 郭绍忠 +1 位作者 黄永忠 王磊 《计算机科学》 CSCD 北大核心 2014年第6期12-17,共6页
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种... 数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。 展开更多
关键词 异构众核 数学函数库 访存优化 指令调度 局部数据存储空间
在线阅读 下载PDF
NVIDIA Tegra K1异构计算平台访存优化研究 被引量:3
20
作者 梁军 李威 +1 位作者 肖琳 徐歆恺 《计算机工程》 CAS CSCD 北大核心 2016年第12期44-49,共6页
在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和... 在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上的实现和访存性能优化进行研究。实验结果表明,采用优化方法后的矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上取得了较大的访存性能提升,并且具有较好的实时性。 展开更多
关键词 GPU优化 访存带宽 数据本地化 向量化 合并访问 拉普拉斯滤波算法
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部