期刊文献+
共找到764篇文章
< 1 2 39 >
每页显示 20 50 100
Using Tensilica Xtensa configures a dual-core processor based-on SoC
1
作者 TU Jih -Fu WU Chang-Jo 《通讯和计算机(中英文版)》 2009年第2期1-10,共10页
关键词 多核心处理器 数字信号 计算机技术 虚拟内存
在线阅读 下载PDF
Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture 被引量:13
2
作者 郑方 李宏亮 +3 位作者 吕晖 过锋 许晓红 谢向辉 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第1期145-162,共18页
Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out efficiently due to the memory wall, which h... Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out efficiently due to the memory wall, which has become a bottleneck in many-core processors. In this paper, we present a novel heterogeneous many-core processor architecture named deeply fused many-core (DFMC) for high performance computing systems. DFMC integrates management processing ele- ments (MPEs) and computing processing elements (CPEs), which are heterogeneous processor cores for different application features with a unified ISA (instruction set architecture), a unified execution model, and share-memory that supports cache coherence. The DFMC processor can alleviate the memory wall problem by combining a series of cooperative computing techniques of CPEs, such as multi-pattern data stream transfer, efficient register-level communication mechanism, and fast hardware synchronization technique. These techniques are able to improve on-chip data reuse and optimize memory access performance. This paper illustrates an implementation of a full system prototype based on FPGA with four MPEs and 256 CPEs. Our experimental results show that the effect of the cooperative computing techniques of CPEs is significant, with DGEMM (double-precision matrix multiplication) achieving an efficiency of 94%, FFT (fast Fourier transform) obtaining a performance of 207 GFLOPS and FDTD (finite-difference time-domain) obtaining a performance of 27 GFLOPS. 展开更多
关键词 heterogeneous many-core processor data stream transfer register-level communication mechanism hardwaresynchronization technique processor prototype
原文传递
System Architecture of Godson-3 Multi-Core Processors 被引量:7
3
作者 高翔 陈云霁 +2 位作者 王焕东 唐丹 胡伟武 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期181-191,共11页
Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This pa... Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This paper introduces the system architecture of Godson-3 from various aspects including system scalability, organization of memory hierarchy, network-on-chip, inter-chip connection and I/O subsystem. 展开更多
关键词 multi-core processor scalable interconnection cache coherent non-uniform memory access/non-uniform cache access (CC-NUMA/NUCA) MESH CROSSBAR cache coherence reliability availability and serviceability (RAS)
原文传递
Parallel computing of discrete element method on multi-core processors 被引量:6
4
作者 Yusuke Shigeto Mikio Sakai 《Particuology》 SCIE EI CAS CSCD 2011年第4期398-405,共8页
This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer ... This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer simulations in various fields. We propose a new algorithm for multi-thread parallel computation of DEM, which makes effective use of the available memory and accelerates the computation. This study shows that memory usage is drastically reduced by using this algorithm. To show the practical use of DEM in industry, a large-scale powder system is simulated with a complicated drive unit. We compared the performance of the simulation between the latest GPU and CPU processors with optimized programs for each processor. The results show that the difference in performance is not substantial when using either GPUs or CPUs with a multi-thread parallel algorithm. In addition, DEM algorithm is shown to have high scalabilitv in a multi-thread parallel computation on a CPU. 展开更多
关键词 Discrete element method Parallel computing Multi-core processor GPGPU
原文传递
Fault Tolerance Mechanism in Chip Many-Core Processors 被引量:1
5
作者 张磊 韩银和 +1 位作者 李华伟 李晓维 《Tsinghua Science and Technology》 SCIE EI CAS 2007年第S1期169-174,共6页
As semiconductor technology advances, there will be billions of transistors on a single chip. Chip many-core processors are emerging to take advantage of these greater transistor densities to deliver greater performan... As semiconductor technology advances, there will be billions of transistors on a single chip. Chip many-core processors are emerging to take advantage of these greater transistor densities to deliver greater performance. Effective fault tolerance techniques are essential to improve the yield of such complex chips. In this paper, a core-level redundancy scheme called N+M is proposed to improve N-core processors’ yield by providing M spare cores. In such architecture, topology is an important factor because it greatly affects the processors’ performance. The concept of logical topology and a topology reconfiguration problem are introduced, which is able to transparently provide target topology with lowest performance degradation as the presence of faulty cores on-chip. A row rippling and column stealing (RRCS) algorithm is also proposed. Results show that PRCS can give solutions with average 13.8% degradation with negligible computing time. 展开更多
关键词 chip many-core processors YIELD fault tolerance RECONFIGURATION NETWORK-ON-CHIP
原文传递
Energy Efficiency of a Multi-Core Processor by Tag Reduction
6
作者 郑龙 董冕雄 +3 位作者 Kaoru Ota 金海 Song Guo 马俊 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第3期491-503,共13页
We consider the energy saving problem for caches on a multi-core processor. In the previous research on low power processors, there are various methods to reduce power dissipation. Tag reduction is one of them. This p... We consider the energy saving problem for caches on a multi-core processor. In the previous research on low power processors, there are various methods to reduce power dissipation. Tag reduction is one of them. This paper extends the tag reduction technique on a single-core processor to a multi-core processor and investigates the potential of energy saving for multi-core processors. We formulate our approach as an equivalent problem which is to find an assignment of the whole instruction pages in the physical memory to a set of cores such that the tag-reduction conflicts for each core can be mostly avoided or reduced. We then propose three algorithms using different heuristics for this assignment problem. We provide convincing experimental results by collecting experimental data from a real operating system instead of the traditional way using a processor simulator that cannot simulate operating system functions and the full memory hierarchy. Experimental results show that our proposed algorithms can save total energy up to 83.93% on an 8-core processor and 76.16% on a 4-core processor in average compared to the one that the tag-reduction is not used for. They also significantly outperform the tag reduction based algorithm on a single-core processor. 展开更多
关键词 tag reduction multi-core processor energy efficiency
原文传递
Schedule refinement for homogeneous multi-core processors in the presence of manufacturing-caused heterogeneity
7
作者 Zhi-xiang CHEN Zhao-lin LI +2 位作者 Shan CAO Fang WANG Jie ZHOU 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第12期1018-1033,共16页
Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturin... Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturing process lead to a significant spread in the operating speeds of cores within homogeneous multi-core processors. Task scheduling approaches, which do not consider such heterogeneity caused by within-die variations,can lead to an overly pessimistic result in terms of performance. To realize an optimal performance according to the actual maximum clock frequencies at which cores can run, we present a heterogeneity-aware schedule refining(HASR) scheme by fully exploiting the heterogeneities of homogeneous multi-core processors in embedded domains.We analyze and show how the actual maximum frequencies of cores are used to guide the scheduling. In the scheme,representative chip operating points are selected and the corresponding optimal schedules are generated as candidate schedules. During the booting of each chip, according to the actual maximum clock frequencies of cores, one of the candidate schedules is bound to the chip to maximize the performance. A set of applications are designed to evaluate the proposed scheme. Experimental results show that the proposed scheme can improve the performance by an average value of 22.2%, compared with the baseline schedule based on the worst case timing analysis. Compared with the conventional task scheduling approach based on the actual maximum clock frequencies, the proposed scheme also improves the performance by up to 12%. 展开更多
关键词 Schedule refining Multi-core processor HETEROGENEITY Representative chip operating point
原文传递
多核处理器的符合性验证要求研究
8
作者 徐见源 张平 戴璧彦 《民用飞机设计与研究》 2025年第3期164-170,共7页
讨论了多核处理器的特点及其在运行中可能出现的资源争用、时间干扰、行为不确定等问题。基于多核处理器在民用飞机机载系统和设备中的使用现状,研究了多核处理器的适航符合性验证要求。从多核处理器项目规划,资源设置,干扰通道和使用,... 讨论了多核处理器的特点及其在运行中可能出现的资源争用、时间干扰、行为不确定等问题。基于多核处理器在民用飞机机载系统和设备中的使用现状,研究了多核处理器的适航符合性验证要求。从多核处理器项目规划,资源设置,干扰通道和使用,软件验证,错误检测和处理及安全网的使用,补充数据并完成总结等六个方面,提出了使用多核处理器的系统和设备在适航符合性验证活动中应该满足的10个目标要求,并对目标提出的背景和目标的适用性进行了说明。研究成果可对使用多核处理器的机载系统和设备的设计和合格审定提供指导。 展开更多
关键词 多核处理器 符合性方法 符合性验证 型号合格审定 民用飞机 适航
在线阅读 下载PDF
面向数据密集型应用的近数据处理架构设计 被引量:1
9
作者 谢洋 李晨 陈小文 《计算机工程与科学》 北大核心 2025年第5期797-810,共14页
大数据时代,多核处理器在处理数据密集型应用时,面临着数据局部性低、访存延迟高和内核计算效率低等挑战。近数据处理对于降低访存延迟、提高内核计算效率具有重要潜力。设计了一种计算访存松耦合的近数据处理架构(LcNDP),部署在多核处... 大数据时代,多核处理器在处理数据密集型应用时,面临着数据局部性低、访存延迟高和内核计算效率低等挑战。近数据处理对于降低访存延迟、提高内核计算效率具有重要潜力。设计了一种计算访存松耦合的近数据处理架构(LcNDP),部署在多核处理器的共享缓存端和内存端。一方面通过迁移内核的访存任务,实现内核计算与访存的并行,隐藏访存开销;另一方面通过近数据计算单元,处理流数据计算,降低内核计算量和访存开销。实验结果表明LcNDP相较于传统多核架构,平均延迟降低了43%,与传统近数据处理的多核架构相比平均延迟降低了23%。 展开更多
关键词 近数据 数据密集型应用 计算机体系结构 多核处理器
在线阅读 下载PDF
GroupUCP:按需动态调节的细粒度缓存划分策略
10
作者 张传奇 王卅 +1 位作者 孙凝晖 包云岗 《计算机研究与发展》 北大核心 2025年第4期989-1002,共14页
随着现代计算机技术的进步,内存墙问题越发严重.在此背景下,多级缓存中的末级缓存成为了影响性能的关键资源.近年来各项研究通过拓展尺寸,以及动态资源管理的手段优化末级缓存.路划分技术是缓存资源管理的主要方法,通过将缓存按路为单... 随着现代计算机技术的进步,内存墙问题越发严重.在此背景下,多级缓存中的末级缓存成为了影响性能的关键资源.近年来各项研究通过拓展尺寸,以及动态资源管理的手段优化末级缓存.路划分技术是缓存资源管理的主要方法,通过将缓存按路为单位划分后分配给各个应用使用,实现系统性能优化.然而路划分粒度较粗,要求缓存的所有组(set)都遵循同样的路划分方案.实际上,应用在不同组可能会有不同的空间需求,路划分技术限制了缓存的空间利用,造成资源浪费.GroupUCP是一种按需调节的细粒度缓存资源管理技术,其设计思路是根据每个应用对各缓存组的不同需求,采用动态分组和实时评估的方式,将各个缓存组聚合成组,分组进行按需分配.这一设计允许各个组进行独立的路划分分配,从而提高缓存使用率和整体系统性能.实验证明,相较于传统的UCP方法,GroupUCP利用更少的硬件资源实现了更细粒度资源按需分配,在对缓存资源敏感且需求不均衡的应用组合下获得了更高的系统性能提升. 展开更多
关键词 多核处理器 共享缓存 动态划分 动态分组 元数据压缩
在线阅读 下载PDF
一种新的异构多核平台下多类型DAG调度方法
11
作者 左俊杰 肖锋 +3 位作者 黄姝娟 沈超 郝鹏涛 陈磊 《计算机应用研究》 北大核心 2025年第2期514-518,共5页
异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时... 异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时间开销较大,处理器资源未充分利用,任务效率低。针对上述问题,提出了PNIF(processor-node impact factor)算法。该算法引入了两个对节点优先级具有重大影响的比例因子,将它们加入到节点优先级的计算中从而确定任务执行顺序。实验结果表明,PNIF比PEFT、HEFT、CPOP在调度长度上分别平均提升5.902%、19.402%、25.831%,有效缩短了整体调度长度,提升了处理器资源利用率。 展开更多
关键词 异构多核处理器 多类型DAG任务 任务调度 影响因子 PNIF算法
在线阅读 下载PDF
基三众核架构中基于同步哈密顿环的无死锁策略
12
作者 李春峰 Karim Soliman +1 位作者 计卫星 石峰 《计算机研究与发展》 北大核心 2025年第4期930-949,共20页
确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性.现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点... 确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性.现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点和优势,甚至可能会增加网络延迟、功耗以及硬件复杂性.另外,由于路由级和协议级死锁存在显著差异,现有无死锁方案较难同时解决这2类死锁问题,影响了MPSoC的可靠性.利用基三众核架构(triplet-based many-core architecture,TriBA)中拓扑结构自身具有的哈密顿特性提出了基于同步哈密顿环的无死锁策略,该策略依据拓扑结构自身的对称轴和哈密顿边对数据传输进行分类,预防了协议级死锁并提高了数据传输速度;同时使用循环链表技术判断同一缓冲区内数据同步传输方向,消除了路由级死锁并降低了数据传输延迟.在优化前瞻路由算法基础上,设计了基于同步哈密顿环的无死锁路由机制HamSPR(Hamiltonian shortest path routing).GEM5仿真结果表明,与TriBA现有方法相比,HamSPR在合成流量下的平均数据包延迟和功耗分别降低了8.78%~65.40%和6.94%~34.15%,吞吐量提高了8.00%~59.17%;在PARSEC测试集下的应用运行时间和平均数据包延迟分别最高实现了16.51%和42.75%的降低.与2D-Mesh架构相比,TriBA在PARSEC测试集下的应用性能实现了1%~10%的提升. 展开更多
关键词 众核处理器 片上网络 基三众核架构 哈密顿特性 路由算法 死锁预防
在线阅读 下载PDF
面向SW26010P的异形矩阵乘法众核并行优化技术研究
13
作者 胡怡 陈道琨 杨超 《计算机工程与应用》 北大核心 2025年第6期150-163,共14页
矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010... 矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010P众核处理器,探讨异形矩阵乘法的众核并行优化技术。具体而言,结合SW26010P的硬件特性和异形矩阵的数据布局,设计了多样化任务划分映射的并行算法,提高直接内存访问(direct memory access,DMA)访存带宽利用率。结合SW26010P的硬件流水线和向量化访存/计算指令,抽象运算中涉及的计算类型进行底层汇编优化,提高了计算效率。提出了远程内存访问(remote memory access,RMA)点对点机制下的数据共享策略,降低数据访存和传输开销,并提出了嵌套双缓冲技术进一步提高异形矩阵乘法的性能。此外,针对不同种类异形矩阵乘法行实现时面临的分块参数适配问题,基于SW26010P众核处理器进行实验分析研究,确定了各函数并行化时的最优分块参数。实验结果显著,所优化的异形矩阵乘法的性能最高可达roofline模型预测性能上限的93%,相较于常规大规模矩阵乘法算法平均获得了5.43倍的性能加速,最高可获得51.5倍的性能加速。 展开更多
关键词 异形矩阵乘法 SW26010P众核处理器 多样化任务划分映射 RMA点对点机制 嵌套双缓冲技术
在线阅读 下载PDF
MIPS处理器核及其定制化AXI总线设计
14
作者 周艳娇 贾艳双 杜军 《集成电路与嵌入式系统》 2025年第3期33-40,共8页
针对使用现成AXI接口IP核存在资源占用较大、可定制性差等问题,提出一种分阶段自主设计、添加AXI总线的方式,为设计好的MIPS处理器核增加AXI总线的支持。设计使用Verilog HDL编写RTL代码,在Vivado仿真环境下验证了处理器的总体逻辑功能... 针对使用现成AXI接口IP核存在资源占用较大、可定制性差等问题,提出一种分阶段自主设计、添加AXI总线的方式,为设计好的MIPS处理器核增加AXI总线的支持。设计使用Verilog HDL编写RTL代码,在Vivado仿真环境下验证了处理器的总体逻辑功能,并将比特流文件下载至FPGA开发板中进行原型验证,得到资源利用率及时序情况。最终使用DC(Design Compiler)工具对处理器进行综合,得到处理器的总体面积和功耗。验证结果表明,自主设计、添加AXI总线相较于直接添加AXI接口IP核所消耗的资源和面积更小,且可以确保在处理器核心架构不变的情况下添加总线,大大降低了将处理器核中原有接口直接更改为AXI总线接口的难度,既减轻了集成的复杂性又兼顾高度定制化,以满足特定的系统需求和性能要求。 展开更多
关键词 AXI IP核 MIPS 处理器核 六级流水线
在线阅读 下载PDF
多核处理器容错实时调度算法
15
作者 朱扬烁 吕海玉 +1 位作者 李奕晨 张凤登 《电子科技》 2025年第1期73-80,共8页
针对系统故障模式下容错公平调度FT-FS(Fault Tolerate Fair Scheduler)算法存在拒绝任务次数较多和资源浪费等问题,文中在FT-FS算法的基础上融入了主/替代版本PA(Primary Alternate)容错策略,提出了新的公平调度算法PA-FTFS(Primary-Al... 针对系统故障模式下容错公平调度FT-FS(Fault Tolerate Fair Scheduler)算法存在拒绝任务次数较多和资源浪费等问题,文中在FT-FS算法的基础上融入了主/替代版本PA(Primary Alternate)容错策略,提出了新的公平调度算法PA-FTFS(Primary-Alternate and Fault Tolerant Fair Scheduling)。该算法能够在多核处理器系统中减少资源浪费的同时更好地减少拒绝任务的次数。利用MATLAB仿真软件对上述算法进行了仿真验证,实验结果表明在内核发生永久性故障后,采用比例替代任务策略的PA-FTFS算法相较于FT-FS算法拒绝任务的次数明显减少。通过数据分析表明,PA-FTFS算法相较于FT-FS算法在故障率和调度率上具有较大改进。 展开更多
关键词 多核处理器 故障 容错 公平调度 主/替代版本 拒绝任务 替代任务 MATLAB仿真
在线阅读 下载PDF
基于FT-MT的RDSAR算法优化实现
16
作者 郑利华 杨辉 +2 位作者 文楚 王耀华 时洋 《计算机应用文摘》 2025年第9期88-93,96,共7页
合成雷达孔径(Synthetic Aperture Radar,SAR)成像回波数据量大且算法复杂,这使得其在实时应用中的实现面临挑战。针对国防科技大学自主研制的高性能异构多核数字信号处理器(Digital Signal Processor,DSP)FT-MT的体系结构特征及距离-... 合成雷达孔径(Synthetic Aperture Radar,SAR)成像回波数据量大且算法复杂,这使得其在实时应用中的实现面临挑战。针对国防科技大学自主研制的高性能异构多核数字信号处理器(Digital Signal Processor,DSP)FT-MT的体系结构特征及距离-多普勒(Range-Doppler,RD)SAR成像算法的特点,设计了一种面向多核DSP架构的高性能并行RD SAR算法。该算法基于DSP的向量部件,实现了有限脉冲响应滤波(Finite Impulse Response,FIR)、行向和列向快速傅里叶变换(Fast Fourier Transform,FFT)以及快速傅里叶逆变换(Inverse Fast Fourier Transform,IFFT)的向量化计算。同时,结合算子融合、双缓冲和多核并行的优化策略,充分发挥FT-MT架构的优势,显著提升了计算密集型算法的运行效率。实验结果表明,采用并行RD SAR算法相比传统的串行算法具有明显的性能优势;在1.0 GHz频率下,FT-MT单个DSP核处理512 kB(1024×512)图像的时间为23.23 ms,而与德州仪器(Texas Instruments,TI)TMS320C6678在1.2 GHz频率下的单核运行相比,性能加速比可高达20.536;FT-MT四核并行处理512 kB图像的时间为6.089 ms,成功实现了实时性。 展开更多
关键词 合成孔径雷达 多核数字信号处理器 距离-多普勒 向量化
在线阅读 下载PDF
Rubyphi:面向gem5的Cache一致性协议自动化模型检验
17
作者 徐学政 方健 +4 位作者 梁少杰 王璐 黄安文 隋京高 李琼 《计算机工程与科学》 北大核心 2025年第7期1141-1151,共11页
Cache一致性协议是多核系统数据一致性的保障,也直接影响内存子系统的性能,一直是微处理器设计和验证的重点。Cache一致性协议的设计和优化通常需借助gem5等软件模拟器快速实现。同时,由于协议设计中存在的错误在仿真测试中具有难触发... Cache一致性协议是多核系统数据一致性的保障,也直接影响内存子系统的性能,一直是微处理器设计和验证的重点。Cache一致性协议的设计和优化通常需借助gem5等软件模拟器快速实现。同时,由于协议设计中存在的错误在仿真测试中具有难触发、难定位和难修复的特点,需借助Murphi等模型检验工具进行形式化验证。然而,基于模拟器的协议设计优化和基于模型检验的协议验证在编程语言和抽象层次上存在巨大差异,设计者需要分别进行模拟器实现和模型检验建模,这不仅增加了时间成本,也为二者的等价性带来了隐患。设计并实现了面向gem5模拟器的Cache一致性协议自动化模型检验方法Rubyphi,通过提取gem5中实现的协议,自动完成基于Murphi的模型检验建模,进而对协议进行形式化验证。实验表明,Rubyphi能够有效地完成gem5中一致性协议的建模和验证,并成功发现了2个gem5现有协议中存在的错误,相关问题和解决方案已得到社区确认。 展开更多
关键词 CACHE一致性协议 多核处理器 模型检验 形式化验证
在线阅读 下载PDF
高并行性能Intel Core i7多核处理器及其关键技术研究
18
作者 王文义 王杰 《中原工学院学报》 CAS 2011年第5期23-26,共4页
介绍了Intel Nehalem多核处理器微架构的组成及其独特的三级缓存模式,同时针对并行计算机对处理器在计算性能(Gflops)和能耗比(Mflop/W)两方面的特殊要求,介绍了Nehalem Core i7处理器所采用的一些关键技术,如超线程,QPI总线,内核加速... 介绍了Intel Nehalem多核处理器微架构的组成及其独特的三级缓存模式,同时针对并行计算机对处理器在计算性能(Gflops)和能耗比(Mflop/W)两方面的特殊要求,介绍了Nehalem Core i7处理器所采用的一些关键技术,如超线程,QPI总线,内核加速模式和SSE4.2指令集等,这些技术对高效使用并行计算机是非常必要的. 展开更多
关键词 Nehalem微架构 多核多线程处理器 超线程技术 QPI总线
在线阅读 下载PDF
基于ARM架构的多核处理器SPI总线扩展及应用
19
作者 王晓鸽 董兴武 包文帆 《长江信息通信》 2025年第7期123-125,129,共4页
SPI(Serial Peripheral Interface,串行外设接口)是一种同步串行通信接口,该接口在嵌入式环境中常用于板内芯片之前的数据交换。由于其电路实现简单,占用资源少,该通信方式在性能和数据传输要求更高的多核处理系统中应用广泛。文章主要... SPI(Serial Peripheral Interface,串行外设接口)是一种同步串行通信接口,该接口在嵌入式环境中常用于板内芯片之前的数据交换。由于其电路实现简单,占用资源少,该通信方式在性能和数据传输要求更高的多核处理系统中应用广泛。文章主要通过ARM架构的多核处理器设计时需关注的该总线的接口特征和时序特性,文章主要关注与分析SPI接口的使用特征、访问延迟、传输带宽等,基于这些技术特征,能够为嵌入式软硬件设计提供相应参考。 展开更多
关键词 ARM架构 多核处理器 SPI总线 访问延迟
在线阅读 下载PDF
一种空间阵列式处理器内核设计
20
作者 刘玉 张杰 刘谷 《集成电路与嵌入式系统》 2025年第10期75-81,共7页
提出一种空间阵列式处理器内核设计,处理器运算单元通过互联总线进行数据通信,基于本地存储完成运算,无需通过集中式寄存器文件,本地运算单元的处理结果通过广播总线传播给其他运算单元使用。这种运算单元组织形式具有线性可扩展的特点... 提出一种空间阵列式处理器内核设计,处理器运算单元通过互联总线进行数据通信,基于本地存储完成运算,无需通过集中式寄存器文件,本地运算单元的处理结果通过广播总线传播给其他运算单元使用。这种运算单元组织形式具有线性可扩展的特点,运算单元规模不受限于集中式部件,同时具有灵活的广播和规约机制,更符合算法的数据通信特点,易于算法映射与物理实现。基于该设计实现的运算单元阵列具有较好的可扩展性,单位面积性能可以达到1.4 TOPS/mm^(2)@INT8,性能功耗比达到2.47 TOPS/W,适合作为高算力处理器运算核心进行大量部署。 展开更多
关键词 处理器 内核 阵列 扩展性 数字信号
在线阅读 下载PDF
上一页 1 2 39 下一页 到第
使用帮助 返回顶部