期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
便笺式存储器中一种新颖的交错映射数据布局
1
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
在线阅读 下载PDF
嵌入式软硬件低功耗优化研究综述 被引量:17
2
作者 周宽久 迟宗正 西方 《计算机应用研究》 CSCD 北大核心 2010年第2期423-428,共6页
随着时代的进步,制约着嵌入式设备广泛应用的障碍不再是处理器的速度、芯片的工艺,而是设备功耗。如何在相同能量的供给情况下工作时间最长、完成的任务最多,或者是运行相同的程序使用较少的能量成为嵌入式领域备受关注的研究方向。从... 随着时代的进步,制约着嵌入式设备广泛应用的障碍不再是处理器的速度、芯片的工艺,而是设备功耗。如何在相同能量的供给情况下工作时间最长、完成的任务最多,或者是运行相同的程序使用较少的能量成为嵌入式领域备受关注的研究方向。从硬件级、指令级和编译过程三个层次,由各层次相应公式的各个参数展开,对国内外的功耗优化研究现状进行综述和评价,并最终结合实验室SPARC仿真项目,提出基于SPARC仿真功耗优化研究的三个方向。 展开更多
关键词 功耗优化 硬件级 指令级 编译优化 静态功耗 漏电流 内联优化 高速暂存区
在线阅读 下载PDF
基于调用链分析的低功耗编译优化 被引量:6
3
作者 蒋湘涛 胡志刚 贺建飚 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第1期143-147,共5页
现有的许多研究提出用各种编译器导向的方法来静态或动态地管理SPM(Scratch-Pad Memory)内容,以取得对SPM部件的最佳利用,其关键问题是如何最大化地重复访问SPM中的内容。针对此问题,通过分析程序调用序列,构造低功耗编译优化,使无调用... 现有的许多研究提出用各种编译器导向的方法来静态或动态地管理SPM(Scratch-Pad Memory)内容,以取得对SPM部件的最佳利用,其关键问题是如何最大化地重复访问SPM中的内容。针对此问题,通过分析程序调用序列,构造低功耗编译优化,使无调用链关联函数的局部变量共享全局存储单元,以降低程序运行时对内存的需求,并提高相应存储单元的利用率。该优化编译可以与现有编译器导向的数据SPM管理策略相结合,提高现有方法的性能和功耗效果。 展开更多
关键词 计算机软件 低功耗 编译优化 SPM管理 调用链分析
在线阅读 下载PDF
基于扩展控制流图的片上存储器分配策略 被引量:6
4
作者 王学香 浦汉来 杨军 《电子学报》 EI CAS CSCD 北大核心 2007年第8期1558-1562,共5页
本文提出一种基于扩展控制流图(ECFG)的片上存储器(Scratch-Pad Memory,SPM)分配策略,该策略首先把程序划分为全局变量、全局堆栈、指令块等节点,用包含节点和节点间关系的ECFG来描述应用程序,接着采用考虑了节点间关系的改进的背包算... 本文提出一种基于扩展控制流图(ECFG)的片上存储器(Scratch-Pad Memory,SPM)分配策略,该策略首先把程序划分为全局变量、全局堆栈、指令块等节点,用包含节点和节点间关系的ECFG来描述应用程序,接着采用考虑了节点间关系的改进的背包算法把选中的节点分配到SPM中.实验表明该策略比采用单纯背包算法的SPM分配策略减少应用程序执行时间11%,比不使用SPM时减少56%,大大提高了SoC存储子系统的性能. 展开更多
关键词 片上存储器 分配策略 控制流图
在线阅读 下载PDF
基于电路活跃度的SPM低功耗管理策略 被引量:1
5
作者 胡志刚 袁名举 蒋湘涛 《计算机工程》 CAS CSCD 北大核心 2010年第19期250-252,共3页
针对现有的功耗管理未考虑高速暂存存储器(SPM)中不同的地址访问序列对功耗的影响问题,提出一种基于电路活跃度的SPM低功耗管理策略。通过重新组织指令与数据在SPM中的布局,降低SPM中存储对象访问时的电路活跃度,从而降低功耗。实验结... 针对现有的功耗管理未考虑高速暂存存储器(SPM)中不同的地址访问序列对功耗的影响问题,提出一种基于电路活跃度的SPM低功耗管理策略。通过重新组织指令与数据在SPM中的布局,降低SPM中存储对象访问时的电路活跃度,从而降低功耗。实验结果表明,与不考虑电路活跃度的基本策略相比,该分配策略可平均减少功耗15%以上。 展开更多
关键词 电路活跃度 编译优化 功耗 高速暂存存储器
在线阅读 下载PDF
嵌入式视频解码器运动补偿的数据布局优化 被引量:1
6
作者 郭红星 王恒伟 +2 位作者 田婷 张爱华 余胜生 《计算机技术与发展》 2013年第4期24-28,共5页
针对数字信号处理器的片上存取结构特点,提出了一个优化视频解码运动补偿过程数据布局的方案。在片上便签式存储器(SPM)中设置一个乒乓缓冲存储区用于保存运动补偿所需的数据。在对当前宏块进行运动补偿的同时,预取后续运动补偿所需的... 针对数字信号处理器的片上存取结构特点,提出了一个优化视频解码运动补偿过程数据布局的方案。在片上便签式存储器(SPM)中设置一个乒乓缓冲存储区用于保存运动补偿所需的数据。在对当前宏块进行运动补偿的同时,预取后续运动补偿所需的数据替换其中不再使用的数据;同时,通过数据索引算法获得运动补偿所需的数据的地址,从而实现数据处理与数据存取的并行流水优化。基于TMS320DM642处理器的实验结果表明,优化后MPEG-4视频解码器的解码速度平均提高了6.7%,整个解码过程中DM642的片上二级缓存的能耗平均降低了18.5%。由此可见,对运动补偿过程进行数据布局优化确实可以提高解码性能并降低能耗。 展开更多
关键词 嵌入式系统 流计算 视频解码器 便签式存储器 数据布局
在线阅读 下载PDF
一种SPM周期准确功耗模型分析与实现
7
作者 胡志刚 赵庆福 蒋湘涛 《计算机工程与应用》 CSCD 北大核心 2010年第2期63-65,173,共4页
功耗问题是限制嵌入式设备发展的瓶颈之一。嵌入式系统中,为了降低嵌入式处理器的整体功耗,使用SPM(Scratch-Pad Memory)部件来替换cache部件。提出了一个SPM周期准确功耗模型。模型通过扩展SimpleScalar模拟器模拟程序执行时对SPM的访... 功耗问题是限制嵌入式设备发展的瓶颈之一。嵌入式系统中,为了降低嵌入式处理器的整体功耗,使用SPM(Scratch-Pad Memory)部件来替换cache部件。提出了一个SPM周期准确功耗模型。模型通过扩展SimpleScalar模拟器模拟程序执行时对SPM的访问,获得电路输入状态,并利用集成到模拟器中周期准确的SPM功耗模型计算SPM功耗,模型克服了电路级模型可扩展性较差的缺陷,通过在SimpleScalar中配置相关参数,模拟不同大小和结构SPM的功耗。实验表明模型能够准确模拟SPM功耗(误差不超过10%)。对SPM低功耗设计和优化具有一定的指导意义。 展开更多
关键词 SimpleScalar模拟器 片上存储器 周期准确 功耗模型
在线阅读 下载PDF
用于低功耗编译的SPM部件功耗模型研究
8
作者 蒋湘涛 胡志刚 贺建飚 《电子与信息学报》 EI CSCD 北大核心 2009年第4期963-967,共5页
为了获得SPM(Scratch-Pad Memory)部件最佳的使用效果,需要合适的SPM性能和功耗模型来指导编译优化过程。现有的功耗模型只提供SPM部件的平均访问功耗,没有反映电路实际功耗随电路不同输入而改变的特征,限制了更进一步的优化。该文提出... 为了获得SPM(Scratch-Pad Memory)部件最佳的使用效果,需要合适的SPM性能和功耗模型来指导编译优化过程。现有的功耗模型只提供SPM部件的平均访问功耗,没有反映电路实际功耗随电路不同输入而改变的特征,限制了更进一步的优化。该文提出依照电路结构生成SPM部件的基本功耗模型,并使用程序运行时信息生成模型中的参数因子,用来反映不同应用程序运行时电路的实际活跃度。实验结果表明,该功耗模型测量的能耗值在总体上与现有基于统计方法生成的功耗模型结果相一致,同时能反映不同应用程序访问SPM部件时的功耗差异,对编译器优化SPM部件的访问方式具有重要的指导意义。 展开更多
关键词 SPM 低功耗 编译优化 功耗模型
在线阅读 下载PDF
MPSoc上动静态结合的SPM分配策略 被引量:3
9
作者 罗飞 过敏意 陈英 《计算机工程》 CAS CSCD 北大核心 2010年第21期275-276,279,共3页
基于片上多处理器系统,提出一种动静态结合的便签式内存分配策略,采用整数线性规划方法将全局变量静态地分配到SPM中,使用拓展的数据程序关系图来描述任务和数据,根据贪心算法将合适的局部变量动态的分配到SPM中。实验结果表明,该分配... 基于片上多处理器系统,提出一种动静态结合的便签式内存分配策略,采用整数线性规划方法将全局变量静态地分配到SPM中,使用拓展的数据程序关系图来描述任务和数据,根据贪心算法将合适的局部变量动态的分配到SPM中。实验结果表明,该分配策略比纯静态分配策略平均减少程序执行时间27%,比不使用SPM时减少35%。 展开更多
关键词 片上多处理器系统 便签式内存 调度
在线阅读 下载PDF
层次化共享多通道便签存储器的嵌入式多核体系 被引量:1
10
作者 刘彩霞 石峰 +1 位作者 薛立成 宋红 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第8期1390-1398,共9页
为了支持嵌入式应用的实时、低延迟访存,提出并实现了一种面向嵌入式应用的多核存储架构——HSMC-SPM.采用低地址多体交叉的硬件组织模式设计实现可共享多通道便签存储器,根据并发应用的大小自动分配共享便签存储器空间,以支持核间数据... 为了支持嵌入式应用的实时、低延迟访存,提出并实现了一种面向嵌入式应用的多核存储架构——HSMC-SPM.采用低地址多体交叉的硬件组织模式设计实现可共享多通道便签存储器,根据并发应用的大小自动分配共享便签存储器空间,以支持核间数据的流水传输并提高共享便签存储器体系存储空间的利用率.实验结果表明,无论与传统只共享Cache的多核体系相比,还是与其他使用片上便签存储器的多核体系相比,HSMC-SPM都是一种性能有效的低能耗多核架构. 展开更多
关键词 嵌入式多核系统 共享便签存储器体系 多通道便签存储器
在线阅读 下载PDF
基于CK-CPU的Linux2.6实时性能优化 被引量:1
11
作者 江健勇 李春强 胡军山 《计算机工程》 CAS CSCD 北大核心 2011年第17期236-238,共3页
针对Linux2.6在实时中断应用上的局限性,提出一种基于CK-CPU的实时性能优化方案。设计用于实时中断的快速中断请求(FIQ)机制,在FIQ处理程序退出时增加实时进程调度策略,将FIQ服务程序的公共代码和堆栈保留在便笺式存储器中,减少FIQ服务... 针对Linux2.6在实时中断应用上的局限性,提出一种基于CK-CPU的实时性能优化方案。设计用于实时中断的快速中断请求(FIQ)机制,在FIQ处理程序退出时增加实时进程调度策略,将FIQ服务程序的公共代码和堆栈保留在便笺式存储器中,减少FIQ服务程序的内存访问次数并加快其执行速度。实验结果证明,该方案可显著提高Linux2.6的实时性能。 展开更多
关键词 LINUX2.6内核 实时性能 便笺式存储器 CK-CPU微处理器
在线阅读 下载PDF
一种基于访问计数的SPM管理策略 被引量:1
12
作者 李嘉欣 邓宁 《计算机工程》 CAS CSCD 2013年第9期109-113,共5页
传统便签存储器(SPM)管理方法依赖于编译器提供支持,不利于应用程序的移植和跨平台部署,且难以反映程序动态运行特征。为件,提出一种基于访问计数的SPM动态管理策略方法,通过在程序运行时对访存地址进行访问计数,预测程序核心工作集并指... 传统便签存储器(SPM)管理方法依赖于编译器提供支持,不利于应用程序的移植和跨平台部署,且难以反映程序动态运行特征。为件,提出一种基于访问计数的SPM动态管理策略方法,通过在程序运行时对访存地址进行访问计数,预测程序核心工作集并指导SPM动态分配。实验结果表明,与单纯Cache系统相比,该方法在保持程序执行性能稳定的基础上,能耗降低了约32.5%. 展开更多
关键词 嵌入式处理器 便签存储器 动态存储管理 核心工作集 能耗
在线阅读 下载PDF
纳米聚集氧化硅固定磨料抛光布的抛光特性 被引量:2
13
作者 高绮 《光学精密工程》 EI CAS CSCD 北大核心 2016年第10期2490-2497,共8页
针对传统磨料的固定磨料抛光布容易在加工表面产生划伤,以及材料去除效率低等问题,提出了采用微米级球形聚集氧化硅粒子的固定磨料抛光布。将纳米聚集氧化硅粒子添加到抛光布中,用pH为10.5的碱性水溶液替代传统的抛光液,进行了Si基板的... 针对传统磨料的固定磨料抛光布容易在加工表面产生划伤,以及材料去除效率低等问题,提出了采用微米级球形聚集氧化硅粒子的固定磨料抛光布。将纳米聚集氧化硅粒子添加到抛光布中,用pH为10.5的碱性水溶液替代传统的抛光液,进行了Si基板的的抛光加工试验。与传统采用不规则形状天然氧化硅及球形熔融氧化硅固定磨料抛光布进行了比较,得到了纳米聚集氧化硅的固定磨料抛光布的加工特性,并讨论了它的基本参数对加工特性的影响。实验得到了与现行纳米抛光液(重量百分比为3%,pH=10.5)相同的材料去除率,加工表面粗糙度降低了约30%。与传统不规则形状天然氧化硅磨料抛光布相比,纳米聚集氧化硅抛光布的磨料为球形,弹性系数仅为其1.4%-60%,因此不易划伤抛光表面。与熔融氧化硅抛光布相比,纳米聚集氧化硅抛光布在pH为10.5的碱性水溶液中磨料表面可吸附的[-OH]离子提高了25倍,使得液相化学去除作用增大至去除率的70%以上。另外,随着纳米聚集氧化硅的微米粒径的增大,固定磨料抛光布的纳米级加工表面粗糙度几乎不变,但对前加工面表面粗糙度的去除能力明显增大,表现出微米粒径效应。 展开更多
关键词 固定磨料抛光布 纳米聚集氧化硅 化学去除材料 表面划伤 微米粒径效应
在线阅读 下载PDF
飞针测试划伤板面问题分析研究
14
作者 梁丽娟 张文晗 《印制电路信息》 2014年第9期51-54,共4页
从电路板的焊盘划伤问题入手,并对相应时间段的质量数据分析统计,初步确定发生电路板焊盘划伤主要是由于飞针的技术参数设置不合理造成。进一步试验验证并参阅相关资料,最终确定根据测试板厚来设置飞针的抬针高度及移动速度。并对改善... 从电路板的焊盘划伤问题入手,并对相应时间段的质量数据分析统计,初步确定发生电路板焊盘划伤主要是由于飞针的技术参数设置不合理造成。进一步试验验证并参阅相关资料,最终确定根据测试板厚来设置飞针的抬针高度及移动速度。并对改善后的效果进行了跟踪验证。 展开更多
关键词 焊盘划伤 飞针测试 抬针高度 移动速度
在线阅读 下载PDF
MuDP:multi-granularity data placement for uniform loops on SPM-DRAM architectures to minimize latency
15
作者 Yixuan DU Edwin Hsing-Mean SHA +3 位作者 Yuhong SONG Yibo GUO Longshan XU Qingfeng ZHUGE 《Frontiers of Computer Science》 2025年第5期13-25,共13页
Scratch-pad memory(SPM)has been widely used in embedded systems because it allows software-controlled data placement.By designing data placement strategies,optimal solutions with minimal memory access latency for loop... Scratch-pad memory(SPM)has been widely used in embedded systems because it allows software-controlled data placement.By designing data placement strategies,optimal solutions with minimal memory access latency for loops on SPM-DRAM architecture can be explored.Although existing works effectively reduce the latency by using fine-grained data placement methods,they fail in solving the case of inconsecutive array access.Meanwhile,fine-grained strategy can lead to excessive memory activation overhead,making it less efficient.Therefore,in this paper,we first propose a finegrained dynamic programming algorithm,called FiDP,to tackle unsolved case and minimize latency.In order to mitigate the frequent activation before data access,we then add a medium-grained scheme to our strategy.It can achieve a better solution than FiDP by strictly formulating an integer linear programming(ILP)problem and considering multiple granularities,which is called MuILP.Furthermore,to compensate for the high time complexity of ILP,we develop a heuristic multi-granularity data placement algorithm,called HMuDP,which achieves a near-optimal solution with lower complexity.Experimental results show that our FiDP reduces the total latency by 75.90%,47.70% and 12.34% compared with LRU-cache,a greedy-based comparison method(called Uday)and a dynamic programming-based comparison method(called DLAA).Besides,our MuILP and HMuDP yield less latency than FiDP with 45.10%and 43.14%average improvement,respectively. 展开更多
关键词 scratch-pad memory data placement LOOPS embedded system
原文传递
有效利用片上分块存储器
16
作者 温淑鸿 崔慧娟 唐昆 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第1期31-34,共4页
为了提高嵌入式多媒体应用的实时性能,提出了一种最大化数据并行访问以便充分发挥CPU处理能力的片上存储器分配方法。CPU指令的并行数据访问以及CPU与直接存储器存取(DM A)的并行访问都可能导致冲突,片外存储器的慢速存取也会导致CPU流... 为了提高嵌入式多媒体应用的实时性能,提出了一种最大化数据并行访问以便充分发挥CPU处理能力的片上存储器分配方法。CPU指令的并行数据访问以及CPU与直接存储器存取(DM A)的并行访问都可能导致冲突,片外存储器的慢速存取也会导致CPU流水线停止。根据CPU处理数据的需要分配片上存储器,采用DM A动态地将数据转移到片上,减小存取慢速片外存储器带来的延时;充分利用CPU多条数据总线并行访问多个存储器块的能力和双端口存储器(DARAM)一个周期两次访问的能力,减小存储器带宽的限制。实验结果表明:合理分配存储器,程序执行时间最多减少了48%。存储器分配该方法简单,易于实现。 展开更多
关键词 存储器 动态分配 片上存储器 双端口存储器
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部