期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
面向机器学习的高性能SIMT处理器cache的设计与实现 被引量:3
1
作者 许晓燕 李涛 +1 位作者 孙哲 邢立冬 《计算机应用与软件》 北大核心 2019年第7期282-286,333,共6页
为了满足机器学习中大数据、并行计算及降低处理器与主存之间的差距等要求,设计基于自主研发的SIMT处理器的流水线cache结构。依据局部性原理与LRU替换算法相结合设计专用的伪LRU替换算法,与通用的轮询、LFU、LRU替换算法共同完成cache... 为了满足机器学习中大数据、并行计算及降低处理器与主存之间的差距等要求,设计基于自主研发的SIMT处理器的流水线cache结构。依据局部性原理与LRU替换算法相结合设计专用的伪LRU替换算法,与通用的轮询、LFU、LRU替换算法共同完成cache替换算法的可配置要求,实现处理器与主存之间的快速交互。采用Xilinx公司virtex ultrascale系列的xcvu440-flga2892-2-e FPGA芯片对设计进行综合。结果表明该结构指令cache最大时延为2.923 ns,数据cache最大时延为3.258 ns,满足SIMT处理器性能要求。 展开更多
关键词 simt处理器 流水线cache结构 替换算法
在线阅读 下载PDF
高性能机器学习SIMT处理器的调度机制设计与实现 被引量:2
2
作者 贾蕊 李涛 +1 位作者 冯臻夫 张宏伟 《微电子学与计算机》 北大核心 2019年第9期67-72,共6页
针对面向机器学习的高性能单指令多线程(Single Instruction Multiple Threads,SIMT)处理器提出了结构简单且高效的调度机制,支持4个区块、8个warp、64个线程的并行运算,并采用两种可配置调度模式相结合的动态调度方式.该设计使用可综合... 针对面向机器学习的高性能单指令多线程(Single Instruction Multiple Threads,SIMT)处理器提出了结构简单且高效的调度机制,支持4个区块、8个warp、64个线程的并行运算,并采用两种可配置调度模式相结合的动态调度方式.该设计使用可综合的Verilog HDL语言实现其硬件电路,并搭建基于FPGA的验证平台对整体电路进行功能验证,结果表明,本文设计的调度机制满足SIMT处理器需求,且该调度机制使得处理器整体性能提升了82.17%.在Xilinx公司的FPGA芯片xcvu440-flga-2892-2-e上综合最大时钟频率可达到181 MHz. 展开更多
关键词 机器学习 simt处理器 simt调度机制 多线程并行处理 动态调度
在线阅读 下载PDF
基于并行SIMT平台的电网系统造价数据分析研究
3
作者 郭嘉成 宋妙环 王炳文 《电子设计工程》 2021年第20期129-133,共5页
电网工程造价数据庞杂、分析难度高,而传统基于CPU的数据分析方法效率与精度均较低。针对此问题,文中使用SIMT CPU平台设计了一款高效、迅速的电网工程造价数据分析系统。针对电网数据的特点,分别设计了GPU加速混合多网格算法、GPU HMD... 电网工程造价数据庞杂、分析难度高,而传统基于CPU的数据分析方法效率与精度均较低。针对此问题,文中使用SIMT CPU平台设计了一款高效、迅速的电网工程造价数据分析系统。针对电网数据的特点,分别设计了GPU加速混合多网格算法、GPU HMD算法及工作负载分区策略。为解决运算速度与内存访问之间的平衡问题,文中通过减少随机内存访问模式简化了控制,有效提高了计算效率。实验结果表明,文中所提数据分析系统可以在直接求解器上实现100倍的运行时加速,且较基于CPU的多网格分析方案速度提高了15倍以上。 展开更多
关键词 图形处理器 simt 电网工程 数据分析
在线阅读 下载PDF
基于CUDA技术的卷积神经网络识别算法 被引量:9
4
作者 张佳康 陈庆奎 《计算机工程》 CAS CSCD 北大核心 2010年第15期179-181,共3页
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP... 针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。 展开更多
关键词 流处理器 单指令多线程 GTX200硬件架构 CUDA技术 卷积神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部