基于软件实现的多核系统模拟器执行计算密集/数据密集任务的时效性极差,且存在模拟精度和性能评估准确性差的不足,限制其在多核系统结构优化探索中的应用。文章提出一种周期精确的软硬件协同多核系统模拟器(cycle accurate hardware-sof...基于软件实现的多核系统模拟器执行计算密集/数据密集任务的时效性极差,且存在模拟精度和性能评估准确性差的不足,限制其在多核系统结构优化探索中的应用。文章提出一种周期精确的软硬件协同多核系统模拟器(cycle accurate hardware-software co-simulator,CAHSCS),通过在传统模拟器架构中引入硬件计算和存储模块,CAHSCS能有效改善全系统的模拟速度、精度,提高性能评估的准确性。复杂真实任务加载实验结果表明,CAHSCS将大规模复杂数据的运算效率提高了10倍,显著加快了系统设计收敛速度。展开更多
随着超大规模集成电路(Very Large Scale Integration Circuit,VLSI)制造工艺的快速发展以及其对应集成度的不断提高,数字集成电路的设计迎来了许多挑战。时钟树综合是数字后端设计的重要部分,现有的时钟树综合算法开始面临迭代效率变...随着超大规模集成电路(Very Large Scale Integration Circuit,VLSI)制造工艺的快速发展以及其对应集成度的不断提高,数字集成电路的设计迎来了许多挑战。时钟树综合是数字后端设计的重要部分,现有的时钟树综合算法开始面临迭代效率变低和收敛速度变慢的问题。因此,提出了一种同步并发时钟树分级聚类算法(Synchronous Clock-tree Hierarchical Partitioning and Clustering,SC-HPC)。从系统优化的角度出发,SC-HPC将原始的寄存器聚类过程转化为粗聚类和细聚类两步。粗聚类将布局完成的寄存器分为N大簇群,进一步把N个簇的细化任务分配给用户可调度的线程中进行加速处理。细聚类是根据缓冲器最大扇出的规则进行更加细致地划分寄存器。实验结果表明,相较于现有方法,SC-HPC算法降低了缓冲器数量(30%以上)和程序运行时长(20%以上)。展开更多
MCU(Micro Control Unit)是神经网络模型硬件端在部署推理时常用的数据流控制手段,访存操作是MCU数据流控制中的主要执行内容。针对传统指令集架构的MCU所支持的访存指令存在效率低、灵活性差等问题,文中基于RISC-V(Reduced Instruction...MCU(Micro Control Unit)是神经网络模型硬件端在部署推理时常用的数据流控制手段,访存操作是MCU数据流控制中的主要执行内容。针对传统指令集架构的MCU所支持的访存指令存在效率低、灵活性差等问题,文中基于RISC-V(Reduced Instruction Set Computer V)指令集展开了SIMD(Single Instruction Multiple Data)扩展研究。根据RISC-V官方预留的指令扩展编码空间设计了高效的访存指令。为支持新扩展指令的正确执行,基于芯来科技开源的蜂鸟E203内核扩展相关硬件电路。通过对比基本内核和扩展内核针对相同功能软件负载的执行结果来评估扩展内核的性能。结果表明扩展E203内核在16 Byte地址空间连续访存时,指令数同比缩减了65.23%,执行周期缩减了66.12%,并且随着访存数量的增加,扩展内核的能效比也越高。展开更多
文摘基于软件实现的多核系统模拟器执行计算密集/数据密集任务的时效性极差,且存在模拟精度和性能评估准确性差的不足,限制其在多核系统结构优化探索中的应用。文章提出一种周期精确的软硬件协同多核系统模拟器(cycle accurate hardware-software co-simulator,CAHSCS),通过在传统模拟器架构中引入硬件计算和存储模块,CAHSCS能有效改善全系统的模拟速度、精度,提高性能评估的准确性。复杂真实任务加载实验结果表明,CAHSCS将大规模复杂数据的运算效率提高了10倍,显著加快了系统设计收敛速度。
文摘随着超大规模集成电路(Very Large Scale Integration Circuit,VLSI)制造工艺的快速发展以及其对应集成度的不断提高,数字集成电路的设计迎来了许多挑战。时钟树综合是数字后端设计的重要部分,现有的时钟树综合算法开始面临迭代效率变低和收敛速度变慢的问题。因此,提出了一种同步并发时钟树分级聚类算法(Synchronous Clock-tree Hierarchical Partitioning and Clustering,SC-HPC)。从系统优化的角度出发,SC-HPC将原始的寄存器聚类过程转化为粗聚类和细聚类两步。粗聚类将布局完成的寄存器分为N大簇群,进一步把N个簇的细化任务分配给用户可调度的线程中进行加速处理。细聚类是根据缓冲器最大扇出的规则进行更加细致地划分寄存器。实验结果表明,相较于现有方法,SC-HPC算法降低了缓冲器数量(30%以上)和程序运行时长(20%以上)。