期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
高性能机器学习SIMT处理器的调度机制设计与实现 被引量:2
1
作者 贾蕊 李涛 +1 位作者 冯臻夫 张宏伟 《微电子学与计算机》 北大核心 2019年第9期67-72,共6页
针对面向机器学习的高性能单指令多线程(Single Instruction Multiple Threads,SIMT)处理器提出了结构简单且高效的调度机制,支持4个区块、8个warp、64个线程的并行运算,并采用两种可配置调度模式相结合的动态调度方式.该设计使用可综合... 针对面向机器学习的高性能单指令多线程(Single Instruction Multiple Threads,SIMT)处理器提出了结构简单且高效的调度机制,支持4个区块、8个warp、64个线程的并行运算,并采用两种可配置调度模式相结合的动态调度方式.该设计使用可综合的Verilog HDL语言实现其硬件电路,并搭建基于FPGA的验证平台对整体电路进行功能验证,结果表明,本文设计的调度机制满足SIMT处理器需求,且该调度机制使得处理器整体性能提升了82.17%.在Xilinx公司的FPGA芯片xcvu440-flga-2892-2-e上综合最大时钟频率可达到181 MHz. 展开更多
关键词 机器学习 simt处理器 simt调度机制 多线程并行处理 动态调度
在线阅读 下载PDF
面向机器学习的高性能SIMT处理器cache的设计与实现 被引量:3
2
作者 许晓燕 李涛 +1 位作者 孙哲 邢立冬 《计算机应用与软件》 北大核心 2019年第7期282-286,333,共6页
为了满足机器学习中大数据、并行计算及降低处理器与主存之间的差距等要求,设计基于自主研发的SIMT处理器的流水线cache结构。依据局部性原理与LRU替换算法相结合设计专用的伪LRU替换算法,与通用的轮询、LFU、LRU替换算法共同完成cache... 为了满足机器学习中大数据、并行计算及降低处理器与主存之间的差距等要求,设计基于自主研发的SIMT处理器的流水线cache结构。依据局部性原理与LRU替换算法相结合设计专用的伪LRU替换算法,与通用的轮询、LFU、LRU替换算法共同完成cache替换算法的可配置要求,实现处理器与主存之间的快速交互。采用Xilinx公司virtex ultrascale系列的xcvu440-flga2892-2-e FPGA芯片对设计进行综合。结果表明该结构指令cache最大时延为2.923 ns,数据cache最大时延为3.258 ns,满足SIMT处理器性能要求。 展开更多
关键词 simt处理器 流水线cache结构 替换算法
在线阅读 下载PDF
面向机器学习的高性能SIMT处理器存储系统设计与实现 被引量:1
3
作者 孙哲 李涛 +1 位作者 邢立冬 许晓燕 《微电子学与计算机》 北大核心 2019年第8期72-76,共5页
针对自主研发的高性能SIMT处理器中多线程运算时并行数据的快速存取问题,设计了一种适用于SIMT架构的存储系统,其主要包含存储控制器、数据缓存(cache)和指令缓存等设备.该设计使用可综合的Verilog HDL语言实现其硬件电路,同时搭建基于F... 针对自主研发的高性能SIMT处理器中多线程运算时并行数据的快速存取问题,设计了一种适用于SIMT架构的存储系统,其主要包含存储控制器、数据缓存(cache)和指令缓存等设备.该设计使用可综合的Verilog HDL语言实现其硬件电路,同时搭建基于FPGA的验证平台对存储系统进行功能验证.在Xilinx公司的FPGA芯片xcvu440-flga-2892-2-e上综合最大时钟频率可达到285 MHz.通过各方面验证,表明所设计的存储系统满足系统要求. 展开更多
关键词 simt 多线程 CACHE FPGA
在线阅读 下载PDF
机器学习高性能SIMT处理器的设计与实现
4
作者 张宏伟 李涛 +1 位作者 冯臻夫 贾蕊 《微电子学与计算机》 北大核心 2019年第9期79-83,共5页
针对机器学习中出现的大数据量运算的问题,自主研发了一款高性能SIMT(Single Instruction Multiple Threads)架构处理器.采用特殊的四级流水线结构,通过可综合的Verilog HDL语言对电路进行描述,完成了数据的多线程并行运算.在XiLinx公司... 针对机器学习中出现的大数据量运算的问题,自主研发了一款高性能SIMT(Single Instruction Multiple Threads)架构处理器.采用特殊的四级流水线结构,通过可综合的Verilog HDL语言对电路进行描述,完成了数据的多线程并行运算.在XiLinx公司VirtexUltraSacle系列的xcvu440-flga2892-2-e FPGA上搭建仿真验证平台对整体电路进行功能验证,结果表明,本设计电路满足多线程并行处理机制.采用SYNOPSYS公司Design-Compile在SMIC 65nm CMOS工艺标准单元库进行综合验证,系统时钟最高工作频率为370 MHz,系统最大功耗为4.251 mw. 展开更多
关键词 simt 流水线 多线程 并行运算 FPGA
在线阅读 下载PDF
采用SIMT结构GPU的二维离散哈尔小波变换的优化
5
作者 李一芒 孙凤全 《计算机测量与控制》 2023年第2期185-189,222,共6页
为了解决CPU环境下小波变换在运行时对高分辨率图片处理速度较慢的问题,利用GPU有大量可编程核心的特点,针对二维离散哈尔小波变换进行了在SIMT(单指令多线程)体系结构GPU环境下的并行推导,同时调整GPU的逻辑布局,将数据分割,更改了数... 为了解决CPU环境下小波变换在运行时对高分辨率图片处理速度较慢的问题,利用GPU有大量可编程核心的特点,针对二维离散哈尔小波变换进行了在SIMT(单指令多线程)体系结构GPU环境下的并行推导,同时调整GPU的逻辑布局,将数据分割,更改了数据同步方式,并且采用了虚拟寻址,将速度进一步提升到了0.92 ms,比CPU环境下效率提升51.1%,比SIMD架构效率提升16.3%,效果显著,满足实时性要求。 展开更多
关键词 哈尔小波 GPU simt 优化
在线阅读 下载PDF
基于并行SIMT平台的电网系统造价数据分析研究
6
作者 郭嘉成 宋妙环 王炳文 《电子设计工程》 2021年第20期129-133,共5页
电网工程造价数据庞杂、分析难度高,而传统基于CPU的数据分析方法效率与精度均较低。针对此问题,文中使用SIMT CPU平台设计了一款高效、迅速的电网工程造价数据分析系统。针对电网数据的特点,分别设计了GPU加速混合多网格算法、GPU HMD... 电网工程造价数据庞杂、分析难度高,而传统基于CPU的数据分析方法效率与精度均较低。针对此问题,文中使用SIMT CPU平台设计了一款高效、迅速的电网工程造价数据分析系统。针对电网数据的特点,分别设计了GPU加速混合多网格算法、GPU HMD算法及工作负载分区策略。为解决运算速度与内存访问之间的平衡问题,文中通过减少随机内存访问模式简化了控制,有效提高了计算效率。实验结果表明,文中所提数据分析系统可以在直接求解器上实现100倍的运行时加速,且较基于CPU的多网格分析方案速度提高了15倍以上。 展开更多
关键词 图形处理器 simt 电网工程 数据分析
在线阅读 下载PDF
Convolutional neural network adaptation and optimization method in SIMT computing mode
7
作者 Feng Zhenfu Zhang Yaying +1 位作者 Yang Lele Xing Lidong 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2024年第2期105-112,共8页
For studying and optimizing the performance of general-purpose computing on graphics processing units(GPGPU)based on single instruction multiple threads(SIMT)processor about the neural network application,this work co... For studying and optimizing the performance of general-purpose computing on graphics processing units(GPGPU)based on single instruction multiple threads(SIMT)processor about the neural network application,this work contributes a self-developed SIMT processor named Pomelo and correlated assembly program.The parallel mechanism of SIMT computing mode and self-developed Pomelo processor is briefly introduced.A common convolutional neural network(CNN)is built to verify the compatibility and functionality of the Pomelo processor.CNN computing flow with task level and hardware level optimization is adopted on the Pomelo processor.A specific algorithm for organizing a Z-shaped memory structure is developed,which addresses reducing memory access in mass data computing tasks.Performing the above-combined adaptation and optimization strategy,the experimental result demonstrates that reducing memory access in SIMT computing mode plays a crucial role in improving performance.A 6.52 times performance is achieved on the 4 processing elements case. 展开更多
关键词 parallel computing single instruction multiple threads(simt) convolutional neural network(CNN) memory optimization
原文传递
面向对象的化工模拟系统工具的组织 被引量:4
8
作者 刘新彦 袁一 《大连理工大学学报》 CAS CSCD 北大核心 1996年第2期165-169,共5页
介绍了面向对象的化工模拟系统工具SIMT的组织方法、适用于化工模拟系统的一种类划分方法,以及各类中的属性和方法的组织方法.给出了用非面向对象语言实现面向对象的程序设计思想的方法,用此方法可提高软件的重用性.利用SIM... 介绍了面向对象的化工模拟系统工具SIMT的组织方法、适用于化工模拟系统的一种类划分方法,以及各类中的属性和方法的组织方法.给出了用非面向对象语言实现面向对象的程序设计思想的方法,用此方法可提高软件的重用性.利用SIMT生成新的模拟系统,可用于化工系统的模拟分析、Case研究、查定数据的核算等. 展开更多
关键词 化工过程 模拟系统 面向对象 simt
在线阅读 下载PDF
开源GPU研究综述 被引量:3
9
作者 贾珍珍 杨凌 +5 位作者 黄立波 郭辉 王勇 刘胜 常俊胜 王永文 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2294-2304,共11页
近年来,深度学习、科学计算等需要大量数据并行处理的应用蓬勃发展,高算力GPU愈发受到关注.相比于传统的CPU计算平台,GPU并发高、带宽高,可以大幅提升计算效率.然而,GPU的硬件架构和设计细节通常闭源,且GPU厂商提供的驱动程序也是闭源的... 近年来,深度学习、科学计算等需要大量数据并行处理的应用蓬勃发展,高算力GPU愈发受到关注.相比于传统的CPU计算平台,GPU并发高、带宽高,可以大幅提升计算效率.然而,GPU的硬件架构和设计细节通常闭源,且GPU厂商提供的驱动程序也是闭源的,尽管其会提供一定的文档和技术支持,但GPU研究者难以深入了解GPU的具体架构和细节实现,这增加了GPU的开发门槛.开源可以解决这一问题,目前已有开源的编程模型如OpenCL等,帮助开发者更好的利用GPU进行并行计算,开源GPU生态初具雏形.本文以开源GPU为中心,首先阐述开源GPU的发展背景及相关概念,介绍开源GPU的生态,指出开源GPU当前发展的契机,并对现有开源GPU的架构实现进行总结,最后在此基础上对未来发展进行展望. 展开更多
关键词 开源硬件 GPU 综述 simt
在线阅读 下载PDF
一种含富锰偏析带的热轧临界退火中锰钢的组织调控及强化机制 被引量:3
10
作者 陈学双 黄兴民 +2 位作者 刘俊杰 吕超 张娟 《金属学报》 SCIE EI CAS CSCD 北大核心 2023年第11期1448-1456,共9页
对含偏析带的热轧中锰钢进行临界退火处理,通过合理控制非偏析带区的逆奥氏体转变程度,获得了超高强塑积(PSE> 70 GPa·%)。结果表明,经不同温度热处理后,包(由原奥氏体晶粒边界定义)内晶粒的尺寸、取向显著影响中锰钢的力学性... 对含偏析带的热轧中锰钢进行临界退火处理,通过合理控制非偏析带区的逆奥氏体转变程度,获得了超高强塑积(PSE> 70 GPa·%)。结果表明,经不同温度热处理后,包(由原奥氏体晶粒边界定义)内晶粒的尺寸、取向显著影响中锰钢的力学性能和变形组织。在拉伸过程中,沿着拉伸方向,非偏析带内有利取向的包倾向形成拉长的条状细晶区,而不利取向的包倾向形成碎块状晶区。通过协调变形,相邻包将最终倾向形成上述2种微区亚结构的交替分布。非偏析带内的逆转变奥氏体因晶粒尺寸广泛分布而可承受较大的变形,从而使得偏析带内奥氏体发生足够的应变诱发马氏体相变(SIMT),最终获得优异的强度和韧性匹配。 展开更多
关键词 偏析带 中锰钢 临界退火 超高强塑积 马氏体包 simt
原文传递
基于多GPU的Harris角点检测并行算法 被引量:13
11
作者 肖汉 周清雷 张祖勋 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2012年第7期876-881,共6页
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共... 提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在统一计算设备架构(com-pute unified device archetecture,CUDA)上完成影像角点检测的全过程。实验结果表明,基于多GPU的Har-ris角点检测并行算法比CPU上的串行算法可获得最高达60倍的加速比,其执行效率明显提高,对于大规模数据处理呈现出良好的实时处理能力。 展开更多
关键词 图形处理器 统一计算设备架构 单指令多线程 角点检测 HARRIS算子
原文传递
基于CUDA技术的卷积神经网络识别算法 被引量:9
12
作者 张佳康 陈庆奎 《计算机工程》 CAS CSCD 北大核心 2010年第15期179-181,共3页
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP... 针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。 展开更多
关键词 流处理器 单指令多线程 GTX200硬件架构 CUDA技术 卷积神经网络
在线阅读 下载PDF
GPU-Based Non-Binary LDPC Decoder with Weighted Bit-Reliability Based Algorithm 被引量:2
13
作者 Zhanxian Liu Rongke Liu Ling Zhao 《China Communications》 SCIE CSCD 2020年第5期78-88,共11页
In this paper, we present a graphics processing unit(GPU)-based implementation of a weighted bit-reliability based(w BRB) decoder for non-binary LDPC(NB-LDPC) codes. To achieve coalesced memory accesses, an efficient ... In this paper, we present a graphics processing unit(GPU)-based implementation of a weighted bit-reliability based(w BRB) decoder for non-binary LDPC(NB-LDPC) codes. To achieve coalesced memory accesses, an efficient data structure for the w BRB algorithm is proposed. Based on the Single-Instruction Multiple-Threads(SIMT) programming model, a novel mapping strategy with high intra-frame parallelism is presented to improve the latency and throughput performance. Moreover, by using Single-Instruction Multiple-Data(SIMD) intrinsics, four 8-bit message elements are packed into a 32-bit unit and simultaneously processed. Experimental results show that the proposed w BRB decoder provides good tradeoff between error performance and throughput for the codes with relatively large column degrees or high rates. 展开更多
关键词 non-binary LDPC bit-reliability GPU simt SIMD
在线阅读 下载PDF
基于CUDA的图像径向基模糊实现方法研究
14
作者 陈浩 陈兆学 喻海中 《中国医学物理学杂志》 CSCD 2012年第6期3772-3776,共5页
目的:为了克服传统高斯模糊方法处理速度容易受模板大小局限和图像边界处不能真实反映高斯模糊结果的缺陷,本文提出了一种基于计算统一设备架构CUDA的图像高斯径向基模糊的实现方法。方法:采用连续的高斯径向基函数对图像直接在时域进... 目的:为了克服传统高斯模糊方法处理速度容易受模板大小局限和图像边界处不能真实反映高斯模糊结果的缺陷,本文提出了一种基于计算统一设备架构CUDA的图像高斯径向基模糊的实现方法。方法:采用连续的高斯径向基函数对图像直接在时域进行乘积运算,使高斯模糊后图像每一像素点值(包括图像边界处的像素值)与原始图像所有像素点的值相关联。根据高斯径向基函数径向对称的特点以及CUDA单指令多线程(SIMT)的并行执行模型,并且使用合并访存、共享内存、常量内存等合适的内存优化措施,对运算的过程进行GPU并行加速。结果:对尿沉渣图像进行高斯径向基模糊结果表明:图像在模糊过程中克服了模板的局限,在边界质量上得到了极大的改善;处理速度上也达到了较大的提高。结论:基于CUDA平台能很好的并行实现高斯径向基模糊,与串行运算速度相比,在大尺寸图像处理时加速比可望达到20倍以上。 展开更多
关键词 高斯径向基模糊 计算统一设备架构 单指令多线程 内存优化 加速比
在线阅读 下载PDF
CUDA架构下的快速Wallis影像增强算法
15
作者 肖汉 吴庆双 冯娜 《沈阳工业大学学报》 EI CAS 2011年第3期293-298,共6页
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形... 针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间. 展开更多
关键词 图形处理器 统一计算设备架构 单指令多线程 Wallis变换 影像增强 CUDA核 并行 滤波
在线阅读 下载PDF
Belief Propagation List Decoding for Polar Codes:Performance Analysis and Software Implementation on GPU
16
作者 Zhanxian Liu Wei Li +3 位作者 Lei Sun Wei Li Jianquan Wang Haijun Zhang 《China Communications》 SCIE CSCD 2023年第9期115-126,共12页
Belief propagation(BP)decoding outputs soft information and can be naturally used in iterative receivers.BP list(BPL)decoding provides comparable error-correction performance to the successive cancellation list(SCL)de... Belief propagation(BP)decoding outputs soft information and can be naturally used in iterative receivers.BP list(BPL)decoding provides comparable error-correction performance to the successive cancellation list(SCL)decoding.In this paper,we firstly introduce an enhanced code construction scheme for BPL decoding to improve its errorcorrection capability.Then,a GPU-based BPL decoder with adoption of the new code construction is presented.Finally,the proposed BPL decoder is tested on NVIDIA RTX3070 and GTX1060.Experimental results show that the presented BPL decoder with early termination criterion achieves above 1 Gbps throughput on RTX3070 for the code(1024,512)with 32 lists under good channel conditions. 展开更多
关键词 polar code belief propagation simt list decoding GPU
在线阅读 下载PDF
Image Application in Single Isocenter Multiple Target SRS
17
作者 Junfang Gao Jeffrey P. Limmer 《International Journal of Medical Physics, Clinical Engineering and Radiation Oncology》 2024年第2期27-40,共14页
Single isocenter multiple target stereotactic radiosurgery (SIMT-SRS) has potentially emerged as a new pillar in radio-immune combination therapy for the management of brain metastasis. Accuracy and efficiency are pus... Single isocenter multiple target stereotactic radiosurgery (SIMT-SRS) has potentially emerged as a new pillar in radio-immune combination therapy for the management of brain metastasis. Accuracy and efficiency are pushed to a higher level in the era of the linear accelerator-based SIMT-SRS. This short review focuses on patient selection, image preparation, patient simulation, electronic portal imaging device (EPID) QA, and the patient treatment process in the SIMT-SRS treatment only. Image-relevant recommendations and guidelines are presented and contrast application, acquisition efficiency, and alignment accuracy of CT and MRI images are explored. With guidance, the SIMT-SRS can be implemented with high precision and efficiency. 1 mm or 0.5 mm and non-uniform PTV margin expansion for all targets would become possible. It will enhance cancer killing effect in radio-immune combination therapy. General routine daily, monthly, and annual linear accelerator image quality assurances are excluded. 展开更多
关键词 simt-SRS Image Application
暂未订购
一种面向55nm工艺的可扩展统一架构图形处理器设计与实现 被引量:2
18
作者 黄亮 秦信刚 +1 位作者 武玲娟 熊庭刚 《计算机工程与科学》 CSCD 北大核心 2014年第12期2418-2423,共6页
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形... 现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。 展开更多
关键词 图形处理器 统一架构 着色器 单指令多线程 单指令多数据
在线阅读 下载PDF
飞机燃油系统油箱超压故障分析 被引量:7
19
作者 邢荣英 练夏林 +2 位作者 李静洪 熊小峰 唐高虎 《机床与液压》 北大核心 2018年第2期145-148,共4页
针对某型飞机燃油系统在地面模拟试验时出现的油箱超压故障,分析了地面模拟试验的油箱增压原理,从台架系统、试验燃油系统两方面提出了改进措施,设置了相应的排故试验,逐步定位了故障原因。试验结果表明:台架系统、燃油系统管路设计不... 针对某型飞机燃油系统在地面模拟试验时出现的油箱超压故障,分析了地面模拟试验的油箱增压原理,从台架系统、试验燃油系统两方面提出了改进措施,设置了相应的排故试验,逐步定位了故障原因。试验结果表明:台架系统、燃油系统管路设计不合理是造成油箱超压故障的原因。试验燃油系统的改进措施用于指导真实飞机的燃油系统改进设计,为飞机飞行安全提供了保障。 展开更多
关键词 油箱超压 故障分析 地面模拟试验 燃油系统 飞机
在线阅读 下载PDF
面向DCU非一致控制流的编译优化 被引量:2
20
作者 杨小艺 赵荣彩 +2 位作者 王洪生 韩林 徐坤坤 《计算机应用》 CSCD 北大核心 2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化... 国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。 展开更多
关键词 DCU 单指令多线程 线程束分化 复杂控制流 编译优化
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部