期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
标量处理机流水线性能分析研究 被引量:1
1
作者 陈利军 高秀峰 +1 位作者 崔静 李芳 《计算机技术与发展》 2016年第11期82-85,共4页
目前标量处理机提高指令执行速度的途径除提高处理机工作频率外,常采用流水线技术和资源重复技术等。为研究这些技术对标量处理机性能的影响和这些技术使用中潜在的问题,利用一款具有32位精简指令集的虚拟处理器Win DLX对这些技术进行... 目前标量处理机提高指令执行速度的途径除提高处理机工作频率外,常采用流水线技术和资源重复技术等。为研究这些技术对标量处理机性能的影响和这些技术使用中潜在的问题,利用一款具有32位精简指令集的虚拟处理器Win DLX对这些技术进行仿真研究。对Win DLX虚拟处理器的寄存器、指令集等结构特征进行详细介绍,然后对标量流水线处理机的工作原理、潜在问题和Win DLX对这些问题的解决办法进行说明。在此基础上,通过一个矩阵乘法运算程序分析了设置相关专用通路和提前形成条件码两种针对数据相关的解决办法及其实际效果。该实例揭示了提高标量处理机指令执行速度的有效途径,为设计和改进流水线结构及提高流水线的执行效率提供了参考依据。 展开更多
关键词 标量处理机 流水线 WinDLX 虚拟处理器 精简指令集
在线阅读 下载PDF
面向飞腾迈创数字处理器的内核代码自动生成框架 被引量:4
2
作者 赵宵磊 陈照云 +2 位作者 时洋 文梅 张春元 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1232-1245,共14页
数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入... 数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入式系统等各个领域.飞腾迈创数字处理器(FT-Matrix)作为国防科技大学自主研制的高性能通用数字信号处理器,其极致计算性能的体现依赖于对VLIW与SIMD架构特点的充分挖掘.不止是飞腾迈创系列,绝大多数处理器上高度优化的内核代码或核心库函数都依赖于底层汇编级工具或手工开发.然而,手工编写内核算子的开发方法总是需要大量的时间和人力开销来充分释放硬件的性能潜力.尤其是VLIW+SIMD的处理器,专家级汇编开发的难度更为突出.针对这些问题,提出一种面向飞腾迈创数字处理器的高性能的内核代码自动生成框架(automatic kernel code-generation framework on FT-Matrix),将飞腾迈创处理器的架构特性引入到多层次的内核代码优化方法中.该框架包括3层优化组件:自适应循环分块、标向量协同的自动向量化和细粒度的指令级优化.该框架可以根据硬件的内存层次结构和内核的数据布局自动搜索最优循环分块参数,并进一步引入标量-向量单元协同的自动向量化指令选择与数据排布,以提高内核代码执行时的数据复用和并行性.此外,该框架提供了类汇编的中间表示,以应用各种指令级优化来探索更多指令级并行性(ILP)的优化空间,同时也为其他硬件平台提供了后端快速接入和自适应代码生成的模块,以实现高效内核代码开发的敏捷设计.实验表明,该框架生成的内核基准测试代码的平均性能是目标-数字信号处理器(DSP)--的手工函数库的3.25倍,是使用普通向量C语言编写的内核代码的20.62倍. 展开更多
关键词 内核代码生成 超长指令字-单指令多数据 循环分块 标量-向量协同 数字信号处理器
在线阅读 下载PDF
超长指令字DSP标量访存单元的设计与优化 被引量:4
3
作者 郑康 李晨 +2 位作者 陈海燕 刘胜 方粮 《计算机工程与科学》 CSCD 北大核心 2023年第11期1929-1940,共12页
近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字... 近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字DSP在访存实时性、顺序与固定延迟、高效数据一致性方面的需求,设计了一种适用于DSP的标量访存单元,可配置的设计能够满足DSP的访存实时性;基于ID的顺序机制保证超长指令字架构对Load指令返回数据的顺序与固定延迟要求,存储开销为87.5 B;硬件查找“首1”加速了数据一致性所需的写回操作。当Cache中25%,50%和75%的行需要写回时,优化后的一致性写回开销为逐行扫描方法的26.4%,51.3%和76.2%,只与有效脏行数量成正比,与Cache容量无关。 展开更多
关键词 标量访存单元 DSP 超长指令字
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部