期刊文献+
共找到345篇文章
< 1 2 18 >
每页显示 20 50 100
Shared Cache Based on Content Addressable Memory in a Multi-Core Architecture
1
作者 Allam Abumwais Mahmoud Obaid 《Computers, Materials & Continua》 SCIE EI 2023年第3期4951-4963,共13页
Modern shared-memory multi-core processors typically have shared Level 2(L2)or Level 3(L3)caches.Cache bottlenecks and replacement strategies are the main problems of such architectures,where multiple cores try to acc... Modern shared-memory multi-core processors typically have shared Level 2(L2)or Level 3(L3)caches.Cache bottlenecks and replacement strategies are the main problems of such architectures,where multiple cores try to access the shared cache simultaneously.The main problem in improving memory performance is the shared cache architecture and cache replacement.This paper documents the implementation of a Dual-Port Content Addressable Memory(DPCAM)and a modified Near-Far Access Replacement Algorithm(NFRA),which was previously proposed as a shared L2 cache layer in a multi-core processor.Standard Performance Evaluation Corporation(SPEC)Central Processing Unit(CPU)2006 benchmark workloads are used to evaluate the benefit of the shared L2 cache layer.Results show improved performance of the multicore processor’s DPCAM and NFRA algorithms,corresponding to a higher number of concurrent accesses to shared memory.The new architecture significantly increases system throughput and records performance improvements of up to 8.7%on various types of SPEC 2006 benchmarks.The miss rate is also improved by about 13%,with some exceptions in the sphinx3 and bzip2 benchmarks.These results could open a new window for solving the long-standing problems with shared cache in multi-core processors. 展开更多
关键词 multi-core processor shared cache content addressable memory dual port CAM replacement algorithm benchmark program
在线阅读 下载PDF
A VLIW Architecture Stream Cryptographic Processor for Information Security 被引量:4
2
作者 Longmei Nan Xuan Yang +4 位作者 Xiaoyang Zeng Wei Li Yiran Du Zibin Dai Lin Chen 《China Communications》 SCIE CSCD 2019年第6期185-199,共15页
As an important branch of information security algorithms,the efficient and flexible implementation of stream ciphers is vital.Existing implementation methods,such as FPGA,GPP and ASIC,provide a good support,but they ... As an important branch of information security algorithms,the efficient and flexible implementation of stream ciphers is vital.Existing implementation methods,such as FPGA,GPP and ASIC,provide a good support,but they could not achieve a better tradeoff between high speed processing and high flexibility.ASIC has fast processing speed,but its flexibility is poor,GPP has high flexibility,but the processing speed is slow,FPGA has high flexibility and processing speed,but the resource utilization is very low.This paper studies a stream cryptographic processor which can efficiently and flexibly implement a variety of stream cipher algorithms.By analyzing the structure model,processing characteristics and storage characteristics of stream ciphers,a reconfigurable stream cryptographic processor with special instructions based on VLIW is presented,which has separate/cluster storage structure and is oriented to stream cipher operations.The proposed instruction structure can effectively support stream cipher processing with multiple data bit widths,parallelism among stream cipher processing with different data bit widths,and parallelism among branch control and stream cipher processing with high instruction level parallelism;the designed separate/clustered special bit registers and general register heaps,key register heaps can satisfy cryptographic requirements.So the proposed processor not only flexibly accomplishes the combination of multiple basic stream cipher operations to finish stream cipher algorithms.It has been implemented with 0.18μm CMOS technology,the test results show that the frequency can reach 200 MHz,and power consumption is 310 mw.Ten kinds of stream ciphers were realized in the processor.The key stream generation throughput of Grain-80,W7,MICKEY,ACHTERBAHN and Shrink algorithm is 100 Mbps,66.67 Mbps,66.67 Mbps,50 Mbps and 800 Mbps,respectively.The test result shows that the processor presented can achieve good tradeoff between high performance and flexibility of stream ciphers. 展开更多
关键词 STREAM CIPHER VLIW architecture processor RECONFIGURABLE application-specific instruction-set
在线阅读 下载PDF
Multi-core optimization for conjugate gradient benchmark on heterogeneous processors
3
作者 邓林 窦勇 《Journal of Central South University》 SCIE EI CAS 2011年第2期490-498,共9页
Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at t... Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at this problem,a parallelization approach was proposed with six memory optimization schemes for CG,four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20,the parallelization approach can reach up to 21 and 133 times speedups with size A and B,respectively,compared with single power processor element. Finally,the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV,simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores. 展开更多
关键词 multi-core processor NAS parallelization CG memory optimization
在线阅读 下载PDF
Parallel Processing Design for LTE PUSCH Demodulation and Decoding Based on Multi-Core Processor
4
作者 Zhang Ziran,Li Jun,Li Changxiao(ZTE Corporation,Shenzhen 518057,P.R.China) 《ZTE Communications》 2009年第1期54-58,共5页
The Long Term Evolution (LTE) system imposes high requirements for dispatching delay.Moreover,very large air interface rate of LTE requires good processing capability for the devices processing the baseband signals.Co... The Long Term Evolution (LTE) system imposes high requirements for dispatching delay.Moreover,very large air interface rate of LTE requires good processing capability for the devices processing the baseband signals.Consequently,the single-core processor cannot meet the requirements of LTE system.This paper analyzes how to use multi-core processors to achieve parallel processing of uplink demodulation and decoding in LTE systems and designs an approach to parallel processing.The test results prove that this approach works quite well. 展开更多
关键词 CORE LTE Parallel Processing Design for LTE PUSCH Demodulation and Decoding Based on multi-core processor Design
在线阅读 下载PDF
Energy Aware Processor Architecture for Effective Scheduling and Power Management in Cloud Using Inclusive Power-Cognizant Processor Controller
5
作者 Suma Sira Jacob C. Kezi Selva Vijila 《Circuits and Systems》 2016年第8期1822-1833,共13页
The fast acceptance of cloud technology to industry explains increasing energy conservation needs and adoption of energy aware scheduling methods to cloud. Power consumption is one of the top of mind issues in cloud, ... The fast acceptance of cloud technology to industry explains increasing energy conservation needs and adoption of energy aware scheduling methods to cloud. Power consumption is one of the top of mind issues in cloud, because the usage of cloud storage by the individuals or organization grows rapidly. Developing an efficient power management processor architecture has gained considerable attention. However, the conventional power management mechanism fails to consider task scheduling policies. Therefore, this work presents a novel energy aware framework for power management. The proposed system leads to the development of Inclusive Power-Cognizant Processor Controller (IPCPC) for efficient power utilization. To evaluate the performance of the proposed method, simulation experiments inputting random tasks as well as tasks collected from Google Trace Logs were conducted to validate the supremacy of IPCPC. The research based on Real world Google Trace Logs gives results that proposed framework leads to less than 9% of total power consumption per task of server which proves reduction in the overall power needed. 展开更多
关键词 Energy Efficiency Power Management Task Scheduling Virtual Machine processor architecture
在线阅读 下载PDF
EIA的基于NIT和Multi-Core的面向应用调节架构
6
作者 张炯 金惠华 《计算机工程与应用》 CSCD 北大核心 2007年第11期113-116,共4页
资源受限的嵌入式系统中运行的应用程序与运行于桌面系统的应用程序有显著的不同,需要考虑应用本身的需求,也要更多地关注体系结构对于计算所提供的指令级和微指令级的支持。阐述了与嵌入式Intel架构(EIA)研究有关的重要问题,提出了一... 资源受限的嵌入式系统中运行的应用程序与运行于桌面系统的应用程序有显著的不同,需要考虑应用本身的需求,也要更多地关注体系结构对于计算所提供的指令级和微指令级的支持。阐述了与嵌入式Intel架构(EIA)研究有关的重要问题,提出了一个基于Intel多处理器核技术的嵌入式应用处理器解决方案,其核心思想是提供可定制的计算单元用于对特定计算的适应。这个方案与普通多核技术及可配置处理器架构的差别在于通过粗粒度并行机制获得计算资源的定制以便适应嵌入式系统计算的特殊性。 展开更多
关键词 嵌入式系统 测试 嵌入式英特尔架构 可配置处理器
在线阅读 下载PDF
ASIP for Elliptic Curve Cryptography Based on VLIW Architecture 被引量:1
7
作者 YANG Xiaohui DAI Zibin ZHANG Jun ZHANG Yongfu 《China Communications》 SCIE CSCD 2010年第4期161-166,共6页
The requirement of the flexible and effective implementation of the Elliptic Curve Cryptography (ECC) has become more and more exigent since its dominant position in the public-key cryptography application.Based on an... The requirement of the flexible and effective implementation of the Elliptic Curve Cryptography (ECC) has become more and more exigent since its dominant position in the public-key cryptography application.Based on analyzing the basic structure features of Elliptic Curve Cryptography (ECC) algorithms,the parallel schedule algorithm of point addition and doubling is presented.And based on parallel schedule algorithm,the Application Specific Instruction-Set Co-Processor of ECC that adopting VLIW architecture is also proposed in this paper.The coprocessor for ECC is implemented and validated using Altera’s FPGA.The experimental result shows that our proposed coprocessor has advantage in high performance and flexibility. 展开更多
关键词 Elliptic Curve Cryptography Application Specific Instruction-Set processor VLIW architecture
在线阅读 下载PDF
System Architecture of Godson-3 Multi-Core Processors 被引量:7
8
作者 高翔 陈云霁 +2 位作者 王焕东 唐丹 胡伟武 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期181-191,共11页
Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This pa... Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This paper introduces the system architecture of Godson-3 from various aspects including system scalability, organization of memory hierarchy, network-on-chip, inter-chip connection and I/O subsystem. 展开更多
关键词 multi-core processor scalable interconnection cache coherent non-uniform memory access/non-uniform cache access (CC-NUMA/NUCA) MESH CROSSBAR cache coherence reliability availability and serviceability (RAS)
原文传递
处理器数据预取器安全研究综述
9
作者 刘畅 黄祺霖 +4 位作者 刘煜川 林世鸿 秦中元 陈立全 吕勇强 《电子与信息学报》 北大核心 2025年第9期3038-3056,共19页
数据预取器是现代处理器用于提高性能的重要微架构组件。然而,由于在设计之初缺乏系统性的安全评估与考量,主流商用处理器中的预取器近年来被揭示出存在严重安全隐患,已被用于针对浏览器、操作系统和可信执行环境的侧信道攻击。面对这... 数据预取器是现代处理器用于提高性能的重要微架构组件。然而,由于在设计之初缺乏系统性的安全评估与考量,主流商用处理器中的预取器近年来被揭示出存在严重安全隐患,已被用于针对浏览器、操作系统和可信执行环境的侧信道攻击。面对这类新型微架构攻击,处理器安全研究亟需解决以下关键问题:如何系统性地分析攻击方法,全面认识预取器潜在风险,量化评估预取器安全程度,从而设计更加安全的数据预取器。为解决这些问题,该文系统调研了商用处理器中已知预取器设计及相关侧信道攻击,通过提取内存访问模式,为7种预取器建立行为模型,并基于此为20种侧信道攻击建立攻击模型,系统整理了各类攻击的触发条件和泄露信息,并分析可能存在的其他攻击方法。在此基础上,该文提出1套包含3个维度和24个指标的安全性评估体系,为数据预取器的安全性提供全面量化评估。最后,该文深入探讨了防御策略、安全预取器设计思路及未来研究方向。作为首篇聚焦于商用处理器数据预取器安全问题的综述性文章,该文有助于深入了解数据预取器面临的安全挑战,推动预取器的安全性量化评估体系构建,从而为设计更加安全的数据预取器提供指导。 展开更多
关键词 计算机体系结构 处理器 数据预取器 微架构安全 侧信道攻击
在线阅读 下载PDF
面向数据密集型应用的近数据处理架构设计 被引量:1
10
作者 谢洋 李晨 陈小文 《计算机工程与科学》 北大核心 2025年第5期797-810,共14页
大数据时代,多核处理器在处理数据密集型应用时,面临着数据局部性低、访存延迟高和内核计算效率低等挑战。近数据处理对于降低访存延迟、提高内核计算效率具有重要潜力。设计了一种计算访存松耦合的近数据处理架构(LcNDP),部署在多核处... 大数据时代,多核处理器在处理数据密集型应用时,面临着数据局部性低、访存延迟高和内核计算效率低等挑战。近数据处理对于降低访存延迟、提高内核计算效率具有重要潜力。设计了一种计算访存松耦合的近数据处理架构(LcNDP),部署在多核处理器的共享缓存端和内存端。一方面通过迁移内核的访存任务,实现内核计算与访存的并行,隐藏访存开销;另一方面通过近数据计算单元,处理流数据计算,降低内核计算量和访存开销。实验结果表明LcNDP相较于传统多核架构,平均延迟降低了43%,与传统近数据处理的多核架构相比平均延迟降低了23%。 展开更多
关键词 近数据 数据密集型应用 计算机体系结构 多核处理器
在线阅读 下载PDF
面向昇腾处理器的高性能同步原语自动插入方法
11
作者 李帅江 张馨元 +4 位作者 赵家程 田行辉 石曦予 徐晓忻 崔慧敏 《计算机研究与发展》 北大核心 2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限... 指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平. 展开更多
关键词 昇腾处理器 同步原语 异构编程 领域定制架构 自动插入
在线阅读 下载PDF
最坏执行时间分析中的时序异常问题
12
作者 蒋滨泽 朱钇宣 +3 位作者 陈香兰 龚小航 高银康 李曦 《计算机研究与发展》 北大核心 2025年第4期1033-1049,共17页
时序异常是一种程序在最坏执行时间(worst-case execution time,WCET)分析中反直觉的时间行为,其特征在于,尽管局部执行速度更快,但整体的执行时间可能会增加,因此WCET分析必须以保守的态度考虑所有可能的执行情况,以确保分析结果的安全... 时序异常是一种程序在最坏执行时间(worst-case execution time,WCET)分析中反直觉的时间行为,其特征在于,尽管局部执行速度更快,但整体的执行时间可能会增加,因此WCET分析必须以保守的态度考虑所有可能的执行情况,以确保分析结果的安全性,这使得WCET分析变得非常困难.相反地,如果能够确保要分析的程序与平台不存在时序异常,将大大减少WCET分析需要考虑的状态以及所花费的时间.因此,时序异常问题是WCET分析中的关键挑战.然而,尽管历经20多年的研究,学术界对时序异常问题仍未形成统一的定义和共识.自时序异常概念提出以来,学术界涌现出了各种文献描述时序异常,对于这些定义,可以根据定义方式和描述内容对它们进行分类,并分析它们各自的优劣.进一步地,如果对导致时序异常的原因进行研究,可以将其归结为调度策略、高速缓存以及组件影响这3个方面.此外,目前也有一些验证与消除时序异常的相关研究工作,这些工作也存在一些问题和不足.WCET分析的未来应当以分析方式为基础进行时序异常相关的研究,以更好地解决时序异常问题. 展开更多
关键词 最坏执行时间 处理器架构 时序异常 时间可预测 实时系统
在线阅读 下载PDF
便携式矢量信号源的设计
13
作者 李敬军 王博 李力 《今日自动化》 2025年第3期67-70,共4页
在雷达和通信测试中,常需要信号源模拟一些特殊多变的信号,如无线信道模拟、复杂电磁环境模拟等。针对这一需求,文章设计了一款灵活性高、适应性强的多通道便携式矢量信号源,介绍了该信号源的硬件电路及控制逻辑设计,并通过系统测试验... 在雷达和通信测试中,常需要信号源模拟一些特殊多变的信号,如无线信道模拟、复杂电磁环境模拟等。针对这一需求,文章设计了一款灵活性高、适应性强的多通道便携式矢量信号源,介绍了该信号源的硬件电路及控制逻辑设计,并通过系统测试验证了该信号源的可行性。 展开更多
关键词 矢量信号源 AD9361 零中频架构 基带处理器
在线阅读 下载PDF
Parallel computing of discrete element method on multi-core processors 被引量:6
14
作者 Yusuke Shigeto Mikio Sakai 《Particuology》 SCIE EI CAS CSCD 2011年第4期398-405,共8页
This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer ... This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer simulations in various fields. We propose a new algorithm for multi-thread parallel computation of DEM, which makes effective use of the available memory and accelerates the computation. This study shows that memory usage is drastically reduced by using this algorithm. To show the practical use of DEM in industry, a large-scale powder system is simulated with a complicated drive unit. We compared the performance of the simulation between the latest GPU and CPU processors with optimized programs for each processor. The results show that the difference in performance is not substantial when using either GPUs or CPUs with a multi-thread parallel algorithm. In addition, DEM algorithm is shown to have high scalabilitv in a multi-thread parallel computation on a CPU. 展开更多
关键词 Discrete element method Parallel computing multi-core processor GPGPU
原文传递
基三众核架构中基于同步哈密顿环的无死锁策略
15
作者 李春峰 Karim Soliman +1 位作者 计卫星 石峰 《计算机研究与发展》 北大核心 2025年第4期930-949,共20页
确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性.现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点... 确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性.现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点和优势,甚至可能会增加网络延迟、功耗以及硬件复杂性.另外,由于路由级和协议级死锁存在显著差异,现有无死锁方案较难同时解决这2类死锁问题,影响了MPSoC的可靠性.利用基三众核架构(triplet-based many-core architecture,TriBA)中拓扑结构自身具有的哈密顿特性提出了基于同步哈密顿环的无死锁策略,该策略依据拓扑结构自身的对称轴和哈密顿边对数据传输进行分类,预防了协议级死锁并提高了数据传输速度;同时使用循环链表技术判断同一缓冲区内数据同步传输方向,消除了路由级死锁并降低了数据传输延迟.在优化前瞻路由算法基础上,设计了基于同步哈密顿环的无死锁路由机制HamSPR(Hamiltonian shortest path routing).GEM5仿真结果表明,与TriBA现有方法相比,HamSPR在合成流量下的平均数据包延迟和功耗分别降低了8.78%~65.40%和6.94%~34.15%,吞吐量提高了8.00%~59.17%;在PARSEC测试集下的应用运行时间和平均数据包延迟分别最高实现了16.51%和42.75%的降低.与2D-Mesh架构相比,TriBA在PARSEC测试集下的应用性能实现了1%~10%的提升. 展开更多
关键词 众核处理器 片上网络 基三众核架构 哈密顿特性 路由算法 死锁预防
在线阅读 下载PDF
融合循环展开的向量VLIW体系结构软件流水研究
16
作者 汤卓悠 胡勇华 +1 位作者 程奥博 刘澎 《软件导刊》 2025年第6期95-101,共7页
基于超长指令字(VLIW)体系结构的处理器具有丰富的寄存器与计算资源,充分利用这些资源可以极大地提升程序运行速度。软件流水是位于编译器后端的一项优化技术,可以提高硬件资源利用率。目前的软件流水算法对原循环次数的考虑往往不够周... 基于超长指令字(VLIW)体系结构的处理器具有丰富的寄存器与计算资源,充分利用这些资源可以极大地提升程序运行速度。软件流水是位于编译器后端的一项优化技术,可以提高硬件资源利用率。目前的软件流水算法对原循环次数的考虑往往不够周全,得到的新循环体对寄存器资源的利用率有待提高。因此,提出一种融合循环展开的软件流水优化方法。该方法首先将循环展开,然后进行软件流水处理。一方面改进软件流水序言、主体与尾声排列方式,另一方面分析在不同启动间距下经过软件流水优化后循环主体内执行包的数量,确定最佳的软件流水启动间距。使用该方法优化后的循环体具有更高的指令调度自由度,有利于得到运行速度更快的目标代码。经过实验验证,该方法优化后的代码与仅进行循环展开优化的代码相比,平均速度提升了5%。 展开更多
关键词 VLIW体系结构 高性能处理器 编译优化 软件流水 指令级并行优化
在线阅读 下载PDF
电力物联网终端RISC-V架构内存隔离机制研究 被引量:1
17
作者 覃宗涛 谢为炜 +1 位作者 黄桂健 聂辉 《电子设计工程》 2025年第2期121-124,129,共5页
针对电力物联网终端RISC-V架构中增设内存隔离机制会增加终端开销,降低性能的问题,设计电力物联网终端RISC-V架构内存隔离机制。基于RISC-V架构指令编码格式,设计RISC-V架构内存软件与硬件隔离机制。其中,内存软件隔离机制为强制访问控... 针对电力物联网终端RISC-V架构中增设内存隔离机制会增加终端开销,降低性能的问题,设计电力物联网终端RISC-V架构内存隔离机制。基于RISC-V架构指令编码格式,设计RISC-V架构内存软件与硬件隔离机制。其中,内存软件隔离机制为强制访问控制机制与虚拟内存机制,构建可信的内存隔离运行环境;内存硬件隔离机制为处理器执行单元内存分配机制。通过上述内存软件隔离与硬件隔离的联合应用,实现了电力物联网终端RISC-V架构内存隔离功能。实验数据显示,在不同实验工况背景下,设计机制应用后获得的RISC-V架构运行应用程序内存分配结果与最优结果一致,应用程序运行过程中受干扰程度最小值为4%,证实了设计机制具备较佳的应用效果。 展开更多
关键词 RISC-V架构 物联网终端 处理器 电力物联网 内存隔离机制
在线阅读 下载PDF
体系结构模拟器的研究现状、挑战与展望
18
作者 张锦 陈铸 +2 位作者 陈照云 时洋 陈冠军 《计算机工程》 北大核心 2025年第7期1-11,共11页
在众多科学领域的研究与开发中,模拟器都扮演着不可替代的角色。在体系结构领域尤其如此,模拟器提供了一个安全、成本低廉的虚拟环境,使研究人员能够快速开展实验分析和评测。同时,模拟器还可以加速芯片设计和验证的过程,从而节省时间... 在众多科学领域的研究与开发中,模拟器都扮演着不可替代的角色。在体系结构领域尤其如此,模拟器提供了一个安全、成本低廉的虚拟环境,使研究人员能够快速开展实验分析和评测。同时,模拟器还可以加速芯片设计和验证的过程,从而节省时间和资源成本。然而,随着处理器体系结构的演化进步,尤其是专用处理器发展呈现多元化特点,为了能够对体系结构设计探索提供重要的反馈,模拟器的重要作用日益凸显。综述了体系结构模拟器目前的发展与应用现状,重点介绍了几种目前较为典型的体系结构模拟器。通过对专用于不同处理器的模拟器技术手段的分析,深入了解不同架构下模拟器的侧重点及技术难点。此外,还对体系结构模拟器未来发展的关键点进行了思考与评述,以展望其在处理器设计研究领域的前景。 展开更多
关键词 模拟器 体系结构 处理器 芯片设计反馈 虚拟化
在线阅读 下载PDF
动态翻译软件流水线代码
19
作者 廖开来 梁洪亮 《计算机系统应用》 2025年第8期197-206,共10页
动态二进制翻译(DBT)技术是一种高效的指令集仿真技术,常用于构建CPU的仿真模型.但是,该技术在仿真数字信号处理器(DSP)时面临诸多挑战.高性能DSP(例如TI的TMS320C6X系列)常采用超长指令字(VLIW)架构,而且设计了专用的硬件和指令来简化... 动态二进制翻译(DBT)技术是一种高效的指令集仿真技术,常用于构建CPU的仿真模型.但是,该技术在仿真数字信号处理器(DSP)时面临诸多挑战.高性能DSP(例如TI的TMS320C6X系列)常采用超长指令字(VLIW)架构,而且设计了专用的硬件和指令来简化软件流水线循环的使用.由于软件流水线循环代码中缺少显式的条件跳转指令和循环计数器修改操作,而且循环内的指令会被重排、重叠和屏蔽,因此使用DBT技术翻译这类循环非常困难.为此,本文提出了一种新型动态翻译方案,通过将并行执行的循环迭代串行化,生成不同状态的翻译块,以及将内循环和外循环的指令重叠并按照周期对齐,以同步翻译外循环和内循环,来正确地模拟软件流水线循环的执行.实验表明,在运行含有软件流水线的常用代码时(如dsplib),采用该翻译方案的仿真器能够得到和硬件开发板相同的结果,证明了本文方案的正确性,且本文的仿真器性能是TI官方仿真器的3.25倍. 展开更多
关键词 动态二进制翻译 超长指令字 软件流水线 数字信号处理器 指令集架构仿真
在线阅读 下载PDF
Exploring high-performance processor architecture beyond the exascale
20
作者 Xiang-hui XIE Xun JIA 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2018年第10期1224-1229,共6页
The ever-increasing need for high performance in scientific computation and engineering applications will push high-perfornlance computing beyond the exascale. As an integral part of a supercomputing system, high- per... The ever-increasing need for high performance in scientific computation and engineering applications will push high-perfornlance computing beyond the exascale. As an integral part of a supercomputing system, high- performance processors and their architecture designs are crucial in improving system performance. In this paper, three architecture design goals for high-performance processors beyond the exa.scale are introduced, including effective performance scaling, efficient resource utilization, and adaptation to diverse applications. Then a high-performance many-core processor architecture with scalar processing and application-specific acceleration (Massa) is proposed, which aims to achieve the above three goals by employing the techniques of distributed computational resources and application-customized hardware. Finally, some future research directions regarding the Massa architecture are discussed. 展开更多
关键词 HIGH-PERFORMANCE computing BEYOND the EXASCALE processor architecture Application-customized HARDWARE Distributed computational RESOURCES
原文传递
上一页 1 2 18 下一页 到第
使用帮助 返回顶部