基于软件实现的多核系统模拟器执行计算密集/数据密集任务的时效性极差,且存在模拟精度和性能评估准确性差的不足,限制其在多核系统结构优化探索中的应用。文章提出一种周期精确的软硬件协同多核系统模拟器(cycle accurate hardware-sof...基于软件实现的多核系统模拟器执行计算密集/数据密集任务的时效性极差,且存在模拟精度和性能评估准确性差的不足,限制其在多核系统结构优化探索中的应用。文章提出一种周期精确的软硬件协同多核系统模拟器(cycle accurate hardware-software co-simulator,CAHSCS),通过在传统模拟器架构中引入硬件计算和存储模块,CAHSCS能有效改善全系统的模拟速度、精度,提高性能评估的准确性。复杂真实任务加载实验结果表明,CAHSCS将大规模复杂数据的运算效率提高了10倍,显著加快了系统设计收敛速度。展开更多
MCU(Micro Control Unit)是神经网络模型硬件端在部署推理时常用的数据流控制手段,访存操作是MCU数据流控制中的主要执行内容。针对传统指令集架构的MCU所支持的访存指令存在效率低、灵活性差等问题,文中基于RISC-V(Reduced Instruction...MCU(Micro Control Unit)是神经网络模型硬件端在部署推理时常用的数据流控制手段,访存操作是MCU数据流控制中的主要执行内容。针对传统指令集架构的MCU所支持的访存指令存在效率低、灵活性差等问题,文中基于RISC-V(Reduced Instruction Set Computer V)指令集展开了SIMD(Single Instruction Multiple Data)扩展研究。根据RISC-V官方预留的指令扩展编码空间设计了高效的访存指令。为支持新扩展指令的正确执行,基于芯来科技开源的蜂鸟E203内核扩展相关硬件电路。通过对比基本内核和扩展内核针对相同功能软件负载的执行结果来评估扩展内核的性能。结果表明扩展E203内核在16 Byte地址空间连续访存时,指令数同比缩减了65.23%,执行周期缩减了66.12%,并且随着访存数量的增加,扩展内核的能效比也越高。展开更多
文摘基于软件实现的多核系统模拟器执行计算密集/数据密集任务的时效性极差,且存在模拟精度和性能评估准确性差的不足,限制其在多核系统结构优化探索中的应用。文章提出一种周期精确的软硬件协同多核系统模拟器(cycle accurate hardware-software co-simulator,CAHSCS),通过在传统模拟器架构中引入硬件计算和存储模块,CAHSCS能有效改善全系统的模拟速度、精度,提高性能评估的准确性。复杂真实任务加载实验结果表明,CAHSCS将大规模复杂数据的运算效率提高了10倍,显著加快了系统设计收敛速度。