期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
Architecture-level performance/power tradeoff in network processor design
1
作者 陈红松 季振洲 胡铭曾 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2007年第1期45-48,共4页
Network processors are used in the core node of network to flexibly process packet streams. With the increase of performance, the power of network processor increases fast, and power and cooling become a bottleneck. A... Network processors are used in the core node of network to flexibly process packet streams. With the increase of performance, the power of network processor increases fast, and power and cooling become a bottleneck. Architecture-level power conscious design must go beyond low-level circuit design. Architectural power and performance tradeoff should be considered at the same time. Simulation is an efficient method to design modem network processor before making chip. In order to achieve the tradeoff between performance and power, the processor simulator is used to design the architecture of network processor. Using Netbeneh, Commubench benchmark and processor simulator-SimpleScalar, the performance and power of network processor are quantitatively evaluated. New performance tradeoff evaluation metric is proposed to analyze the architecture of network processor. Based on the high performance lnteI IXP 2800 Network processor eonfignration, optimized instruction fetch width and speed ,instruction issue width, instruction window size are analyzed and selected. Simulation resuits show that the tradeoff design method makes the usage of network processor more effectively. The optimal key parameters of network processor are important in architecture-level design. It is meaningful for the next generation network processor design. 展开更多
关键词 network processor design performance/power simulation tradeoff evaluation optimization
在线阅读 下载PDF
处理器硅前性能评估仿真点全局贪心分配方法
2
作者 韩晨吉 薛峰 +2 位作者 吴钰轩 汪文祥 张福新 《高技术通讯》 北大核心 2026年第1期29-40,共12页
仿真点(simulation point,SimPoint)作为一种代表性采样技术被广泛应用于处理器硅前性能评估中。SimPoint为每个待评估的程序根据贝叶斯信息准则确定仿真点数目。然而,标准测试集内不同程序有着不同的行为复杂程度,需要不同数目的仿真... 仿真点(simulation point,SimPoint)作为一种代表性采样技术被广泛应用于处理器硅前性能评估中。SimPoint为每个待评估的程序根据贝叶斯信息准则确定仿真点数目。然而,标准测试集内不同程序有着不同的行为复杂程度,需要不同数目的仿真点来准确刻画其程序行为。SimPoint无法识别出不同程序间的复杂度差异,无法做到在总仿真点数目一定的情况下,将更多的仿真点分配给行为复杂的程序以降低这些程序的性能评估误差,将更少的仿真点分配给行为简单的程序而不损失这些程序的性能评估精度。由于没有在测试集内合理地进行仿真点分配,SimPoint虽然可以给出比较准确的平均性能评估误差,但是某些行为复杂的测试子项的性能评估误差依然较大。针对这一问题,本文优化了SimPoint的仿真点局部分配方式,提出了一种全局贪心分配方法———贪心点(greedy point,GreedyPoint)方法。该方法将仿真点的分配问题抽象为含约束的优化问题,使用微架构无关特征计算表征误差,通过全局贪心算法来求解该优化问题。实验数据表明,在相同仿真开销下,与SimPoint相比,GreedyPoint可以将SPEC CPU 2017测试套件的平均性能评估误差由3.23%降低到2.08%,最大性能评估误差由21.22%大幅降低至7.01%。 展开更多
关键词 处理器硅前性能评估 代表性采样 程序微架构无关特征
在线阅读 下载PDF
超标量处理器动态分支预测算法的硬件实现
3
作者 霍甜甜 杨文霞 《办公自动化》 2025年第15期17-19,共3页
随着超标量处理器性能的不断提升,分支指令引起的控制流不确定性成为性能瓶颈。传统静态分支预测方法因缺乏动态适应性,无法满足现代处理器对高并行性和高吞吐量的需求。动态分支预测技术通过对程序执行路径的历史行为建模,提升了预测... 随着超标量处理器性能的不断提升,分支指令引起的控制流不确定性成为性能瓶颈。传统静态分支预测方法因缺乏动态适应性,无法满足现代处理器对高并行性和高吞吐量的需求。动态分支预测技术通过对程序执行路径的历史行为建模,提升了预测准确性,减少了流水线冲刷代价。主要的动态预测算法包括两位饱和计数器和锦标赛预测器,二者分别通过状态机和分层决策机制优化预测精度。实验测试表明,混合预测器在SPECint2017测试集中的准确率达96.1%,较传统方法提高了7.2个百分点,并在实际处理器中取得了显著的性能提升。 展开更多
关键词 动态分支预测 超标量处理器 硬件优化 性能测试
在线阅读 下载PDF
异构机群系统中的最优处理机分配算法 被引量:8
4
作者 温钰洪 王鼎兴 郑纬民 《计算机学报》 EI CSCD 北大核心 1996年第3期161-167,共7页
在异构机群系统的并行计算中,处理机结点的划分及并行子任务在处理机上的映射将直接影响到应用程序并行计算的性能.本论文将通过对影响并行计算性能的主要参数的分析,提出一个基于人工智能A*算法的最优处理机分配算法,为高性能的... 在异构机群系统的并行计算中,处理机结点的划分及并行子任务在处理机上的映射将直接影响到应用程序并行计算的性能.本论文将通过对影响并行计算性能的主要参数的分析,提出一个基于人工智能A*算法的最优处理机分配算法,为高性能的异构机群系统并行计算提供理论支持. 展开更多
关键词 异构机群系统 处理机 分配 算法
在线阅读 下载PDF
一种同构机群系统中的处理机分配算法 被引量:7
5
作者 温钰洪 王鼎兴 沈美明 《软件学报》 EI CSCD 北大核心 1997年第3期161-169,共9页
机群系统的分布式计算环境为并行处理技术带来了新的研究与应用问题,正成为并行计算的热点问题.如何合理、有效地将并行任务划分到机群系统的结点上,将直接影响系统的执行性能.本文分析影响系统执行效率的执行开销因素。
关键词 处理机分配 工作站 机群系统 算法
在线阅读 下载PDF
面向基于x86处理器和AMBA的系统芯片的全系统模拟器PKUsim-86 被引量:2
6
作者 庞九凤 佟冬 +2 位作者 李皓 何浪 程旭 《电子学报》 EI CAS CSCD 北大核心 2011年第2期351-357,共7页
基于周期级全系统模拟器对微体系结构进行系统性能评估成为芯片设计必不可少的环节.虽然x86处理器是当前商业和科学计算领域最广泛采用的处理器,很少有开源的x86模拟器能够满足研究需要.本文面向基于Geode GX x86处理器和AMBA总线的PKUn... 基于周期级全系统模拟器对微体系结构进行系统性能评估成为芯片设计必不可少的环节.虽然x86处理器是当前商业和科学计算领域最广泛采用的处理器,很少有开源的x86模拟器能够满足研究需要.本文面向基于Geode GX x86处理器和AMBA总线的PKUnity-86系统芯片,设计并实现了周期级全系统模拟器PKUsim-86.它可以启动Microsoft DOS、Windows 98、Windows XP等操作系统,运行典型的x86应用程序.PKUsim-86支持功能模拟和性能模拟的在线切换,其指令模拟速度为0.86MIPS,与真实硬件的对比表明,PKUsim-86具有较高的相对准确度. 展开更多
关键词 全系统模拟 性能评估 系统芯片 X86处理器
在线阅读 下载PDF
Proto-Perf:快速精确的通用处理器原型系统性能评估方法 被引量:3
7
作者 郭辉 黄立波 +2 位作者 郑重 隋兵才 王永文 《计算机工程与科学》 CSCD 北大核心 2021年第4期579-585,共7页
性能验证及评估是通用处理器设计实现过程中最重要且必须实施的关键步骤之一。高效的通用处理器原型系统性能评估方法不仅可以帮助处理器设计人员在处理器设计阶段尽早地定位性能设计缺陷,而且还可以在设计流片前验证处理器能否达到性... 性能验证及评估是通用处理器设计实现过程中最重要且必须实施的关键步骤之一。高效的通用处理器原型系统性能评估方法不仅可以帮助处理器设计人员在处理器设计阶段尽早地定位性能设计缺陷,而且还可以在设计流片前验证处理器能否达到性能设计预期。然而,对处理器原型系统进行完整的性能测试需要运行较长的时间,这样巨大的时间开销导致设计人员无法及时进行性能设计分析,进而导致处理器原型系统的性能评估成为整个项目的瓶颈。提出了一种快速精确的通用处理器原型系统性能评估方法Proto-Perf。Proto-Perf性能评估方法使用动态程序分析方法和基本块聚合技术抽取测试程序的特征程序片段进行测试,显著地缩短了性能测试时间。实验结果表明,相比于完整运行SPEC CPU2006 REF数据规模测试程序获得的性能数据,使用Proto-Perf测试得到的性能数据的绝对误差平均达到1.53%,其中最高达到7.86%。并且,对于实验中的每个程序,使用Proto-Perf方法进行测试的时间都明显缩短。 展开更多
关键词 性能评估 验证 FPGA原型系统 通用处理器
在线阅读 下载PDF
基于SPEC 2000的桌面操作系统与处理器适配评测 被引量:1
8
作者 罗军 吕宏峰 +1 位作者 王小强 孙宇 《计算机工程与科学》 CSCD 北大核心 2016年第4期693-698,共6页
桌面操作系统与处理器的适配评测是提升国产计算机系统质量的重要途径,传统桌面操作系统的评测侧重于软件本身的测试,不能够全面反映其与处理器的适配性能。基于SPEC 2000基准程序集,提出通过比较基准程序集在不同桌面操作系统下的评测... 桌面操作系统与处理器的适配评测是提升国产计算机系统质量的重要途径,传统桌面操作系统的评测侧重于软件本身的测试,不能够全面反映其与处理器的适配性能。基于SPEC 2000基准程序集,提出通过比较基准程序集在不同桌面操作系统下的评测分值差异来反映桌面操作系统与处理器的适配性能。进一步提出了剔除程度因子(λ)用以分析不同基准程序对任意两个桌面操作系统评测分值差值的影响,并选用了三种典型的桌面操作系统进行了验证。实验结果表明,剔除对两桌面操作系统差值较大的基准程序或者差值较小的基准程序在一定的λ值下会使不同桌面操作系统下的SPEC 2000整点运算评测分值发生逆转。文中提出的方法是相关软件评测标准在软硬件适配性能维度上的扩展,剔除程度因子的提出有利于判定对桌面操作系统评测分值差值影响较大的基准程序,进而可用于指导桌面操作系统和基准程序的改进和优化。 展开更多
关键词 操作系统 SPEC 2000 适配性能 处理器 评测
在线阅读 下载PDF
科学计算程序在FT64流处理器上的实现、优化和评测
9
作者 邓宇 晏小波 +2 位作者 杜静 张英 杨学军 《计算机工程与科学》 CSCD 2008年第9期107-110,共4页
流体系结构是一种适应VLSI工艺发展的新型体系结构,它是否对科学计算程序有效是一个广泛关注的问题。本文选取NASA并行测试程序集中的一个数据密集型程序MG,研究了它在一个64位的面向科学计算设计的流处理器FT64上的实现和优化问题。在F... 流体系结构是一种适应VLSI工艺发展的新型体系结构,它是否对科学计算程序有效是一个广泛关注的问题。本文选取NASA并行测试程序集中的一个数据密集型程序MG,研究了它在一个64位的面向科学计算设计的流处理器FT64上的实现和优化问题。在FT64上的实测表明,经过面向片上存储层次的优化,FT64能够达到与Itanium 2处理器相当的性能。 展开更多
关键词 FT64 流处理器 存储层次 性能评测
在线阅读 下载PDF
多处理机环境下线程模型性能评测与分析
10
作者 杨沙洲 戴华东 杨学军 《计算机工程与应用》 CSCD 北大核心 2005年第27期1-3,6,共4页
在线程环境设计中存在三种结构不同的线程模型:多对一、一对一和多对多,一直以来,线程模型的特性分析仍然主要位于感性层面,缺乏完整的测试数据验证。FreeBSD5提供了基于三种线程模型的线程环境,为评测不同线程环境的性能提供了条件。... 在线程环境设计中存在三种结构不同的线程模型:多对一、一对一和多对多,一直以来,线程模型的特性分析仍然主要位于感性层面,缺乏完整的测试数据验证。FreeBSD5提供了基于三种线程模型的线程环境,为评测不同线程环境的性能提供了条件。论文以FreeBSD5下的测试结果为基础,结合Linux下一对一模型线程库NPTL的测试结果,分析了三种模型的不同特点,指出一对一模型和多对多模型均具有良好的性能,同时,基于SchedulerActivations的多对多模型也有很大的发展空间。 展开更多
关键词 线程模型 性能评测 多处理机
在线阅读 下载PDF
行列式求值在多处理机系统性能评价中的应用
11
作者 刘德才 王鼎兴 +1 位作者 沈美明 郑纬民 《计算机学报》 EI CSCD 北大核心 1994年第3期227-231,共5页
本文通过分析行列式求值的特点和行列式求值的并行处理技术与10阶行列式对PGR系统测试的结果,阐述了行列式求值在多处理机系统性能评价中的应用,并对多处理机系统的加速比进行了分析.
关键词 多处理机系统 性能评价 行列式
在线阅读 下载PDF
流寄存器文件的实现及性能测评
12
作者 陈海燕 齐树波 +2 位作者 衣晓飞 邓让钰 李春江 《计算机工程与科学》 CSCD 北大核心 2009年第1期125-129,共5页
FT64是一款自主研发的面向科学计算的64位流处理器。本文介绍了该处理器的微体系结构及其编程模型,重点讨论了片内流寄存器文件实现的关键技术;该流寄存器文件具有硬件代价低、支持多流虚拟并发访问等特性。测试结果表明,流寄存器文件... FT64是一款自主研发的面向科学计算的64位流处理器。本文介绍了该处理器的微体系结构及其编程模型,重点讨论了片内流寄存器文件实现的关键技术;该流寄存器文件具有硬件代价低、支持多流虚拟并发访问等特性。测试结果表明,流寄存器文件满足某些类科学计算与工程应用的带宽需求。 展开更多
关键词 FT64流处理器 流寄存器文件 虚拟并发访问 性能评测
在线阅读 下载PDF
高性能网络处理器同时多线程结构设计与研究
13
作者 陈红松 季振洲 胡铭曾 《微处理机》 2005年第6期17-20,共4页
网络带宽的快速增长使得网络的瓶颈由带宽逐渐变成了节点设备。网络处理器则通过良好的体系结构设计和专门针对网络处理优化的部件,为上层提供了一个良好的可编程环境。系统级模拟是在制造芯片前设计现代网络处理器的有效方法。本文基... 网络带宽的快速增长使得网络的瓶颈由带宽逐渐变成了节点设备。网络处理器则通过良好的体系结构设计和专门针对网络处理优化的部件,为上层提供了一个良好的可编程环境。系统级模拟是在制造芯片前设计现代网络处理器的有效方法。本文基于专用的网络处理器测试基准和处理器模拟器设计了适合于网络处理的同时多线程结构,它结合了指令级并行和线程级并行的优点,经过测试获得了高性能。同时分析了线程个数对系统性能和处理器面积的影响,并根据综合评价函数选择了优化的线程数为6。 展开更多
关键词 网络处理器 同时多线程结构 模拟器 综合性能评价
在线阅读 下载PDF
多模复合制导数据融合器性能评估系统方案设计
14
作者 裴虎城 《战术导弹技术》 2003年第4期55-59,64,共6页
从构建多模复合制导数据融合器性能评估系统的需求出发 ,详细介绍了多模复合制导数据融合器性能评估系统的构建方案 。
关键词 复合制导 融合器 性能评估
在线阅读 下载PDF
面向流处理结构的Barrier同步实现 被引量:1
15
作者 黄万荣 唐玉华 易晓东 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期245-250,共6页
Barrier同步操作是能够直接影响处理器性能的一类操作.针对流处理器体系结构,提出并实现了2种软件同步机制和1种硬件同步机制,即基于互斥计数器的Barrier同步、基于共享状态寄存器的Lock-free Barrier同步和基于专用硬件管理单元的Barr... Barrier同步操作是能够直接影响处理器性能的一类操作.针对流处理器体系结构,提出并实现了2种软件同步机制和1种硬件同步机制,即基于互斥计数器的Barrier同步、基于共享状态寄存器的Lock-free Barrier同步和基于专用硬件管理单元的Barrier同步;在一款流处理器原型系统中测试并分析了在不同负载规模、不同负载分布、典型应用情况下3种同步机制的性能.结果表明,基于专用硬件管理单元的Barrier同步机制性能更优. 展开更多
关键词 Barrier同步 流处理器 软件方法 硬件机制 性能评估
在线阅读 下载PDF
嵌入式异构多核处理器核间的通信性能评估与优化 被引量:4
16
作者 罗殊彦 朱怡安 曾诚 《计算机科学》 CSCD 北大核心 2018年第B06期262-265,274,共5页
随着嵌入式技术的不断发展,越来越多的平台采用异构多核处理器(Heterogeneous Multi-Processor Unit,HMPU)进行高性能计算,但多核处理器的核间通信效率严格地制约着系统的高性能计算能力。针对HMPU的核间通信性能难以量化的问题,提出了... 随着嵌入式技术的不断发展,越来越多的平台采用异构多核处理器(Heterogeneous Multi-Processor Unit,HMPU)进行高性能计算,但多核处理器的核间通信效率严格地制约着系统的高性能计算能力。针对HMPU的核间通信性能难以量化的问题,提出了基于通信粒度、通信缓存和消息传输机制的阶段评价模型,并通过实验验证了这3个影响因子对不同阶段的核间通信性能的影响。此外,由于嵌入式系统环境多变、资源有限,使得静态通信策略对系统性能优化具有局限性。针对该问题,提出了基于系统内存约束、时间约束和性能目标的动态通信策略优化模型(Dynamic Communication Strategy Optimization Model,DCSOM)。通过实验证明:在数据量较小、通信周期较长的异构多核处理器中,DCSOM更具优越性。 展开更多
关键词 异构多核处理器 核间通信 性能评价模型 动态通信策略优化模型
在线阅读 下载PDF
一种ARM处理器面向高性能计算的性能评估 被引量:5
17
作者 王一超 廖秋承 +2 位作者 左思成 谢锐 林新华 《计算机科学》 CSCD 北大核心 2019年第8期95-99,共5页
为探索ARM架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。实验结果显示... 为探索ARM架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。实验结果显示,该处理器的双精度浮点计算能力约为475 GFLOPS,相较于Xeon E5-2680v3,低了33%,访存带宽约为105 GB/s,优于Xeon平台。在应用层面,选取4个高性能计算领域的典型应用,包含Stencil并行计算方法等,在该处理器实现移植和编译,并采用线程绑定的运行方法,提升缓存局部性,优化计算性能。实验结果显示,ARM指令集处理器的应用移植简单,其优化思路与主流商用处理器(如Intel Xeon)类似,但在计算密集和随机访存型应用上存在提升空间,在Stencil应用上性能近似,结合低功耗特点,在“绿色计算”领域具有竞争力。后续将持续基于最新的ARM指令集芯片做相关研究。 展开更多
关键词 处理器 ARMv8 性能评估
在线阅读 下载PDF
地球引力位函数在流处理器上的实现与分析
18
作者 曹维 车永刚 王正华 《计算机工程》 CAS CSCD 北大核心 2009年第6期248-250,共3页
流处理器是新型高性能微处理器的代表之一。该文通过分析Imagine流处理器体系结构,实现某卫星轨道预报系统核心子程序CBPTRB,对基于Imagine的钟精确模拟器ISim进行性能测试,并将结果与该程序在普通x86处理器上的性能进行对比,同时根据... 流处理器是新型高性能微处理器的代表之一。该文通过分析Imagine流处理器体系结构,实现某卫星轨道预报系统核心子程序CBPTRB,对基于Imagine的钟精确模拟器ISim进行性能测试,并将结果与该程序在普通x86处理器上的性能进行对比,同时根据实验结果提出改进方法。 展开更多
关键词 Imagine流处理器 流编程模型 CBPTRB程序 性能评估
在线阅读 下载PDF
面向处理器设计的快速性能评测方法
19
作者 邓林 张瑶 罗家豪 《计算机科学》 CSCD 北大核心 2023年第11期15-22,共8页
面对日益复杂的处理器设计和有限的设计周期,如何有效地快速进行性能评估,是每一个处理器设计团队需要解决的问题。完整的性能测试集需要运行较长的时间,特别是在硅前验证阶段,高昂的时间成本导致设计团队无法使用完整的性能测试集进行... 面对日益复杂的处理器设计和有限的设计周期,如何有效地快速进行性能评估,是每一个处理器设计团队需要解决的问题。完整的性能测试集需要运行较长的时间,特别是在硅前验证阶段,高昂的时间成本导致设计团队无法使用完整的性能测试集进行性能评估分析。文中介绍了一种通用处理器快速性能评测方法(Fast-Eval),Fast-Eval性能评测方法基于SimPoint技术,使用FastParallel-BBV方法、最优模拟点的选取以及模拟点的热迁移等方法,显著缩短了BBV生成时间和性能测试时间。实验结果表明,相比完整运行SPEC CPU 2006 REF数据规模测试程序获得的性能数据,所提方法在ARM64处理器上BBV生成时间缩短为原来的16.88%,性能评估时间缩短为原来的1.26%,性能评估结果的平均相对误差为0.53%;在FPGA开发板上测试集的平均相对误差可以达到0.40%,运行时间仅为完整运行时间的0.93%。 展开更多
关键词 快速BBV生成 性能评测 SimPoint 处理器 验证
在线阅读 下载PDF
基于混合踪迹的智能处理器模型和评估分析
20
作者 郭宏晴 张盛兵 +1 位作者 李楚曦 张萌 《微电子学与计算机》 2023年第6期90-99,共10页
近年来,紧耦合智能处理器在资源受限的边缘侧智能处理器应用中受到了广泛关注.但是针对主协处理器在流水线耦合关系做早期设计空间探索时,存在硬件资源关系共享性,数据通路结构复杂多样化以及片上主协计算特征异构性的特点,使得针对智... 近年来,紧耦合智能处理器在资源受限的边缘侧智能处理器应用中受到了广泛关注.但是针对主协处理器在流水线耦合关系做早期设计空间探索时,存在硬件资源关系共享性,数据通路结构复杂多样化以及片上主协计算特征异构性的特点,使得针对智能处理器的仿真评估建模面临着挑战.本文针对紧耦合智能处理器的结构特点,将硬件结构抽象成为软件仿真模型框架,通过对主协处理器基本硬件资源分析,分解指令控制的不同数据通路,设计智能处理器仿真模型.将主处理器与智能协处理器分别采用踪迹仿真和模型解析的方法,引入混合踪迹记录时间戳以统计部件访问信息,结合基于解析的性能评估算法,实现对智能处理器的性能评估.实验结果表明,基于混合踪迹的智能处理器模型和评估分析可以有效的解出智能计算的实际执行结果,并评估得到硬件的性能,包括延时,能耗和功耗等重要参数. 展开更多
关键词 RISC-V 智能处理器 踪迹 仿真模型 性能评估
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部