期刊文献+
共找到770篇文章
< 1 2 39 >
每页显示 20 50 100
Using Tensilica Xtensa configures a dual-core processor based-on SoC
1
作者 TU Jih -Fu WU Chang-Jo 《通讯和计算机(中英文版)》 2009年第2期1-10,共10页
关键词 多核心处理器 数字信号 计算机技术 虚拟内存
在线阅读 下载PDF
Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture 被引量:13
2
作者 郑方 李宏亮 +3 位作者 吕晖 过锋 许晓红 谢向辉 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第1期145-162,共18页
Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out efficiently due to the memory wall, which h... Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out efficiently due to the memory wall, which has become a bottleneck in many-core processors. In this paper, we present a novel heterogeneous many-core processor architecture named deeply fused many-core (DFMC) for high performance computing systems. DFMC integrates management processing ele- ments (MPEs) and computing processing elements (CPEs), which are heterogeneous processor cores for different application features with a unified ISA (instruction set architecture), a unified execution model, and share-memory that supports cache coherence. The DFMC processor can alleviate the memory wall problem by combining a series of cooperative computing techniques of CPEs, such as multi-pattern data stream transfer, efficient register-level communication mechanism, and fast hardware synchronization technique. These techniques are able to improve on-chip data reuse and optimize memory access performance. This paper illustrates an implementation of a full system prototype based on FPGA with four MPEs and 256 CPEs. Our experimental results show that the effect of the cooperative computing techniques of CPEs is significant, with DGEMM (double-precision matrix multiplication) achieving an efficiency of 94%, FFT (fast Fourier transform) obtaining a performance of 207 GFLOPS and FDTD (finite-difference time-domain) obtaining a performance of 27 GFLOPS. 展开更多
关键词 heterogeneous many-core processor data stream transfer register-level communication mechanism hardwaresynchronization technique processor prototype
原文传递
System Architecture of Godson-3 Multi-Core Processors 被引量:7
3
作者 高翔 陈云霁 +2 位作者 王焕东 唐丹 胡伟武 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期181-191,共11页
Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This pa... Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This paper introduces the system architecture of Godson-3 from various aspects including system scalability, organization of memory hierarchy, network-on-chip, inter-chip connection and I/O subsystem. 展开更多
关键词 multi-core processor scalable interconnection cache coherent non-uniform memory access/non-uniform cache access (CC-NUMA/NUCA) MESH CROSSBAR cache coherence reliability availability and serviceability (RAS)
原文传递
Parallel computing of discrete element method on multi-core processors 被引量:6
4
作者 Yusuke Shigeto Mikio Sakai 《Particuology》 SCIE EI CAS CSCD 2011年第4期398-405,共8页
This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer ... This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer simulations in various fields. We propose a new algorithm for multi-thread parallel computation of DEM, which makes effective use of the available memory and accelerates the computation. This study shows that memory usage is drastically reduced by using this algorithm. To show the practical use of DEM in industry, a large-scale powder system is simulated with a complicated drive unit. We compared the performance of the simulation between the latest GPU and CPU processors with optimized programs for each processor. The results show that the difference in performance is not substantial when using either GPUs or CPUs with a multi-thread parallel algorithm. In addition, DEM algorithm is shown to have high scalabilitv in a multi-thread parallel computation on a CPU. 展开更多
关键词 Discrete element method Parallel computing Multi-core processor GPGPU
原文传递
Fault Tolerance Mechanism in Chip Many-Core Processors 被引量:1
5
作者 张磊 韩银和 +1 位作者 李华伟 李晓维 《Tsinghua Science and Technology》 SCIE EI CAS 2007年第S1期169-174,共6页
As semiconductor technology advances, there will be billions of transistors on a single chip. Chip many-core processors are emerging to take advantage of these greater transistor densities to deliver greater performan... As semiconductor technology advances, there will be billions of transistors on a single chip. Chip many-core processors are emerging to take advantage of these greater transistor densities to deliver greater performance. Effective fault tolerance techniques are essential to improve the yield of such complex chips. In this paper, a core-level redundancy scheme called N+M is proposed to improve N-core processors’ yield by providing M spare cores. In such architecture, topology is an important factor because it greatly affects the processors’ performance. The concept of logical topology and a topology reconfiguration problem are introduced, which is able to transparently provide target topology with lowest performance degradation as the presence of faulty cores on-chip. A row rippling and column stealing (RRCS) algorithm is also proposed. Results show that PRCS can give solutions with average 13.8% degradation with negligible computing time. 展开更多
关键词 chip many-core processors YIELD fault tolerance RECONFIGURATION NETWORK-ON-CHIP
原文传递
Energy Efficiency of a Multi-Core Processor by Tag Reduction
6
作者 郑龙 董冕雄 +3 位作者 Kaoru Ota 金海 Song Guo 马俊 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第3期491-503,共13页
We consider the energy saving problem for caches on a multi-core processor. In the previous research on low power processors, there are various methods to reduce power dissipation. Tag reduction is one of them. This p... We consider the energy saving problem for caches on a multi-core processor. In the previous research on low power processors, there are various methods to reduce power dissipation. Tag reduction is one of them. This paper extends the tag reduction technique on a single-core processor to a multi-core processor and investigates the potential of energy saving for multi-core processors. We formulate our approach as an equivalent problem which is to find an assignment of the whole instruction pages in the physical memory to a set of cores such that the tag-reduction conflicts for each core can be mostly avoided or reduced. We then propose three algorithms using different heuristics for this assignment problem. We provide convincing experimental results by collecting experimental data from a real operating system instead of the traditional way using a processor simulator that cannot simulate operating system functions and the full memory hierarchy. Experimental results show that our proposed algorithms can save total energy up to 83.93% on an 8-core processor and 76.16% on a 4-core processor in average compared to the one that the tag-reduction is not used for. They also significantly outperform the tag reduction based algorithm on a single-core processor. 展开更多
关键词 tag reduction multi-core processor energy efficiency
原文传递
Schedule refinement for homogeneous multi-core processors in the presence of manufacturing-caused heterogeneity
7
作者 Zhi-xiang CHEN Zhao-lin LI +2 位作者 Shan CAO Fang WANG Jie ZHOU 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第12期1018-1033,共16页
Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturin... Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturing process lead to a significant spread in the operating speeds of cores within homogeneous multi-core processors. Task scheduling approaches, which do not consider such heterogeneity caused by within-die variations,can lead to an overly pessimistic result in terms of performance. To realize an optimal performance according to the actual maximum clock frequencies at which cores can run, we present a heterogeneity-aware schedule refining(HASR) scheme by fully exploiting the heterogeneities of homogeneous multi-core processors in embedded domains.We analyze and show how the actual maximum frequencies of cores are used to guide the scheduling. In the scheme,representative chip operating points are selected and the corresponding optimal schedules are generated as candidate schedules. During the booting of each chip, according to the actual maximum clock frequencies of cores, one of the candidate schedules is bound to the chip to maximize the performance. A set of applications are designed to evaluate the proposed scheme. Experimental results show that the proposed scheme can improve the performance by an average value of 22.2%, compared with the baseline schedule based on the worst case timing analysis. Compared with the conventional task scheduling approach based on the actual maximum clock frequencies, the proposed scheme also improves the performance by up to 12%. 展开更多
关键词 Schedule refining Multi-core processor HETEROGENEITY Representative chip operating point
原文传递
高并行性能Intel Core i7多核处理器及其关键技术研究
8
作者 王文义 王杰 《中原工学院学报》 CAS 2011年第5期23-26,共4页
介绍了Intel Nehalem多核处理器微架构的组成及其独特的三级缓存模式,同时针对并行计算机对处理器在计算性能(Gflops)和能耗比(Mflop/W)两方面的特殊要求,介绍了Nehalem Core i7处理器所采用的一些关键技术,如超线程,QPI总线,内核加速... 介绍了Intel Nehalem多核处理器微架构的组成及其独特的三级缓存模式,同时针对并行计算机对处理器在计算性能(Gflops)和能耗比(Mflop/W)两方面的特殊要求,介绍了Nehalem Core i7处理器所采用的一些关键技术,如超线程,QPI总线,内核加速模式和SSE4.2指令集等,这些技术对高效使用并行计算机是非常必要的. 展开更多
关键词 Nehalem微架构 多核多线程处理器 超线程技术 QPI总线
在线阅读 下载PDF
基于Core i7处理器的高性能计算机主模块设计 被引量:2
9
作者 黄斌 《计算机测量与控制》 CSCD 北大核心 2012年第10期2763-2765,共3页
为了提高基于Compact PCI的抗恶劣环境计算机的处理能力,提出了一种基于Intel Core i7低功耗双核处理器的Compact PCI计算模块的设计方法;该方法中包括了基于Intel Core i7低功耗双核处理器的计算模块的主要设计思路和实现过程;该方法... 为了提高基于Compact PCI的抗恶劣环境计算机的处理能力,提出了一种基于Intel Core i7低功耗双核处理器的Compact PCI计算模块的设计方法;该方法中包括了基于Intel Core i7低功耗双核处理器的计算模块的主要设计思路和实现过程;该方法通过采用In-tel Core i7 620LE处理器提高了计算机性能,采用热设计保证了被动散热的效果;该计算机主模块已经投入应用,在应用过程中取得了良好的效果。 展开更多
关键词 core I7 处理器 计算机主模块 Compact PCI
在线阅读 下载PDF
Multiple MIPS 4Kc cores based interrupt controller design and its implementation on HDTV SoC platform 被引量:2
10
作者 陈颖琪 Lin Guixu Wang Feng Hu Jianling Tan Zhiming 《High Technology Letters》 EI CAS 2007年第3期297-301,共5页
A multiple MIPS 4Kc processor cores based interrupt processing system is introduced. The interrupt controller plays a key role in the high definition television (HDTV) system-on-a-chip (SoC) platform, especially w... A multiple MIPS 4Kc processor cores based interrupt processing system is introduced. The interrupt controller plays a key role in the high definition television (HDTV) system-on-a-chip (SoC) platform, especially when it is a multiple processor system. Based on a general introduction to the whole HDTV SoC platform, a layered interrupt controller and its implementation are discussed in detail. The proposed scheme was implemented in our FPGA verification board. The results indicate that our scheme is reliable and efficient. Meanwhile, as a functional intellectual property (IP), the interrupt controller has reusability and expandability with the layered structure. 展开更多
关键词 HDTV SoC interrupt controller MIPS processor core
在线阅读 下载PDF
基于六代Core i7处理器的加固计算机设计技术研究 被引量:2
11
作者 张平峰 《工业控制计算机》 2019年第4期42-44,共3页
为了更好地适应高性能加固计算机需求发展,提供基于六代Core i7的高性能平台,掌握基于六代Core i7加固计算机系统的设计技术。对计算机主模块的硬件电路设计技术、计算机主模块的软件设计技术、计算机主模块的加固散热设计技术等内容开... 为了更好地适应高性能加固计算机需求发展,提供基于六代Core i7的高性能平台,掌握基于六代Core i7加固计算机系统的设计技术。对计算机主模块的硬件电路设计技术、计算机主模块的软件设计技术、计算机主模块的加固散热设计技术等内容开展了研究,特别是基于六代Core i7处理器的电源设计技术、基于六代Core i7处理器的DDR4内存设计、基于CM236芯片组的外围接口电路设计技术等关键技术作了深入阐述。最终实现了基于六代Core i7处理器的加固计算机的研制,形成高性能加固计算机设计开发的技术基础,为其更好的发展作好技术铺垫。 展开更多
关键词 六代corei7 高性能 IPMI
在线阅读 下载PDF
Optimized Processor for Sensor Networks Applications
12
作者 Ali Elkateeb 《通讯和计算机(中英文版)》 2012年第3期311-316,共6页
关键词 嵌入式处理器 传感器节点 网络应用 优化 节点设计 软核处理器 可重构系统 核心处理器
在线阅读 下载PDF
多核处理器的符合性验证要求研究
13
作者 徐见源 张平 戴璧彦 《民用飞机设计与研究》 2025年第3期164-170,共7页
讨论了多核处理器的特点及其在运行中可能出现的资源争用、时间干扰、行为不确定等问题。基于多核处理器在民用飞机机载系统和设备中的使用现状,研究了多核处理器的适航符合性验证要求。从多核处理器项目规划,资源设置,干扰通道和使用,... 讨论了多核处理器的特点及其在运行中可能出现的资源争用、时间干扰、行为不确定等问题。基于多核处理器在民用飞机机载系统和设备中的使用现状,研究了多核处理器的适航符合性验证要求。从多核处理器项目规划,资源设置,干扰通道和使用,软件验证,错误检测和处理及安全网的使用,补充数据并完成总结等六个方面,提出了使用多核处理器的系统和设备在适航符合性验证活动中应该满足的10个目标要求,并对目标提出的背景和目标的适用性进行了说明。研究成果可对使用多核处理器的机载系统和设备的设计和合格审定提供指导。 展开更多
关键词 多核处理器 符合性方法 符合性验证 型号合格审定 民用飞机 适航
在线阅读 下载PDF
一种基于VCD表示的CHI协议事务解析验证方法
14
作者 张剑锋 邵靖杰 +1 位作者 廖湘龙 曾聘 《集成电路与嵌入式系统》 2025年第12期66-75,共10页
传统硬件验证依赖人工分析波形信号,面临效率低、易出错、事务级行为难以追溯等问题,文中提出一种基于VCD数据和PyVCD库的多核处理器中CHI协议验证的辅助工具,可以提高事务波形分析的效率。VCD(Value Change Dump)是国际标准的Verilog... 传统硬件验证依赖人工分析波形信号,面临效率低、易出错、事务级行为难以追溯等问题,文中提出一种基于VCD数据和PyVCD库的多核处理器中CHI协议验证的辅助工具,可以提高事务波形分析的效率。VCD(Value Change Dump)是国际标准的Verilog波形数据文件格式,PyVCD是一个开源的纯Python代码库,用于解析VCD文件。通过tcl脚本从各种仿真工具中导出指定信号的波形数据,并将其转换为VCD格式。再使用PyVCD库对波形进行算法分析,实现波形结构化解析与事务重构算法,将分布的Flit数据聚合为完整事务对象序列。获取波形数据并将不同节点不同通道的离散Flit组合为完整的事务。在获得事务对象序列后,将事务对象转换为ASCII字符串,生成字符信号序列并生成VCD文件,用于在波形软件中查看事务级波形,解析协议中事务的性能参数,而且开发了Goldmemory工具,分析系统中多个节点的事务对象序列,自动判断数据错误等场景。基于该方法的平台已在多核处理器工程中部署,通过波形分析CHI事务,大幅提高了仿真验证的效率,同时能够快速定位架构设计的性能瓶颈以实现架构的快速迭代优化。 展开更多
关键词 集成验证 VCD文件 系统级芯片 多核处理器 仿真验证
在线阅读 下载PDF
一种新的异构多核平台下多类型DAG调度方法 被引量:1
15
作者 左俊杰 肖锋 +3 位作者 黄姝娟 沈超 郝鹏涛 陈磊 《计算机应用研究》 北大核心 2025年第2期514-518,共5页
异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时... 异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时间开销较大,处理器资源未充分利用,任务效率低。针对上述问题,提出了PNIF(processor-node impact factor)算法。该算法引入了两个对节点优先级具有重大影响的比例因子,将它们加入到节点优先级的计算中从而确定任务执行顺序。实验结果表明,PNIF比PEFT、HEFT、CPOP在调度长度上分别平均提升5.902%、19.402%、25.831%,有效缩短了整体调度长度,提升了处理器资源利用率。 展开更多
关键词 异构多核处理器 多类型DAG任务 任务调度 影响因子 PNIF算法
在线阅读 下载PDF
面向数据密集型应用的近数据处理架构设计 被引量:1
16
作者 谢洋 李晨 陈小文 《计算机工程与科学》 北大核心 2025年第5期797-810,共14页
大数据时代,多核处理器在处理数据密集型应用时,面临着数据局部性低、访存延迟高和内核计算效率低等挑战。近数据处理对于降低访存延迟、提高内核计算效率具有重要潜力。设计了一种计算访存松耦合的近数据处理架构(LcNDP),部署在多核处... 大数据时代,多核处理器在处理数据密集型应用时,面临着数据局部性低、访存延迟高和内核计算效率低等挑战。近数据处理对于降低访存延迟、提高内核计算效率具有重要潜力。设计了一种计算访存松耦合的近数据处理架构(LcNDP),部署在多核处理器的共享缓存端和内存端。一方面通过迁移内核的访存任务,实现内核计算与访存的并行,隐藏访存开销;另一方面通过近数据计算单元,处理流数据计算,降低内核计算量和访存开销。实验结果表明LcNDP相较于传统多核架构,平均延迟降低了43%,与传统近数据处理的多核架构相比平均延迟降低了23%。 展开更多
关键词 近数据 数据密集型应用 计算机体系结构 多核处理器
在线阅读 下载PDF
GroupUCP:按需动态调节的细粒度缓存划分策略
17
作者 张传奇 王卅 +1 位作者 孙凝晖 包云岗 《计算机研究与发展》 北大核心 2025年第4期989-1002,共14页
随着现代计算机技术的进步,内存墙问题越发严重.在此背景下,多级缓存中的末级缓存成为了影响性能的关键资源.近年来各项研究通过拓展尺寸,以及动态资源管理的手段优化末级缓存.路划分技术是缓存资源管理的主要方法,通过将缓存按路为单... 随着现代计算机技术的进步,内存墙问题越发严重.在此背景下,多级缓存中的末级缓存成为了影响性能的关键资源.近年来各项研究通过拓展尺寸,以及动态资源管理的手段优化末级缓存.路划分技术是缓存资源管理的主要方法,通过将缓存按路为单位划分后分配给各个应用使用,实现系统性能优化.然而路划分粒度较粗,要求缓存的所有组(set)都遵循同样的路划分方案.实际上,应用在不同组可能会有不同的空间需求,路划分技术限制了缓存的空间利用,造成资源浪费.GroupUCP是一种按需调节的细粒度缓存资源管理技术,其设计思路是根据每个应用对各缓存组的不同需求,采用动态分组和实时评估的方式,将各个缓存组聚合成组,分组进行按需分配.这一设计允许各个组进行独立的路划分分配,从而提高缓存使用率和整体系统性能.实验证明,相较于传统的UCP方法,GroupUCP利用更少的硬件资源实现了更细粒度资源按需分配,在对缓存资源敏感且需求不均衡的应用组合下获得了更高的系统性能提升. 展开更多
关键词 多核处理器 共享缓存 动态划分 动态分组 元数据压缩
在线阅读 下载PDF
基于共享总线互连的多核堆栈处理器架构设计
18
作者 陈林 周永录 +1 位作者 刘宏杰 代红兵 《计算机应用与软件》 北大核心 2025年第12期51-57,70,共8页
随着嵌入式系统的发展,单核堆栈处理器在开发成本、执行速度和功耗等方面已不能满足现实应用需求。为提升堆栈处理器性能,探索多核堆栈处理器价值,该文采用WISHBONE共享总线互连架构,通过对多核堆栈处理器架构、Forth系统指令、总线仲... 随着嵌入式系统的发展,单核堆栈处理器在开发成本、执行速度和功耗等方面已不能满足现实应用需求。为提升堆栈处理器性能,探索多核堆栈处理器价值,该文采用WISHBONE共享总线互连架构,通过对多核堆栈处理器架构、Forth系统指令、总线仲裁以及UART的设计,初步构建一种基于共享总线互连的多核堆栈处理器。该处理器运用Verilog和VHDL语言进行结构描述,使用ISim工具进行功能仿真,最终在FPGA芯片上实现。实验结果表明,该设计使用有效总线仲裁,以较低的硬件开销和功耗获得了较高的计算性能,为多核堆栈处理器架构的深入研究与应用奠定了良好基础。 展开更多
关键词 Forth系统 堆栈处理器 多核处理器 总线仲裁
在线阅读 下载PDF
基三众核架构中基于同步哈密顿环的无死锁策略
19
作者 李春峰 Karim Soliman +1 位作者 计卫星 石峰 《计算机研究与发展》 北大核心 2025年第4期930-949,共20页
确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性.现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点... 确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性.现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点和优势,甚至可能会增加网络延迟、功耗以及硬件复杂性.另外,由于路由级和协议级死锁存在显著差异,现有无死锁方案较难同时解决这2类死锁问题,影响了MPSoC的可靠性.利用基三众核架构(triplet-based many-core architecture,TriBA)中拓扑结构自身具有的哈密顿特性提出了基于同步哈密顿环的无死锁策略,该策略依据拓扑结构自身的对称轴和哈密顿边对数据传输进行分类,预防了协议级死锁并提高了数据传输速度;同时使用循环链表技术判断同一缓冲区内数据同步传输方向,消除了路由级死锁并降低了数据传输延迟.在优化前瞻路由算法基础上,设计了基于同步哈密顿环的无死锁路由机制HamSPR(Hamiltonian shortest path routing).GEM5仿真结果表明,与TriBA现有方法相比,HamSPR在合成流量下的平均数据包延迟和功耗分别降低了8.78%~65.40%和6.94%~34.15%,吞吐量提高了8.00%~59.17%;在PARSEC测试集下的应用运行时间和平均数据包延迟分别最高实现了16.51%和42.75%的降低.与2D-Mesh架构相比,TriBA在PARSEC测试集下的应用性能实现了1%~10%的提升. 展开更多
关键词 众核处理器 片上网络 基三众核架构 哈密顿特性 路由算法 死锁预防
在线阅读 下载PDF
面向SW26010P的异形矩阵乘法众核并行优化技术研究
20
作者 胡怡 陈道琨 杨超 《计算机工程与应用》 北大核心 2025年第6期150-163,共14页
矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010... 矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010P众核处理器,探讨异形矩阵乘法的众核并行优化技术。具体而言,结合SW26010P的硬件特性和异形矩阵的数据布局,设计了多样化任务划分映射的并行算法,提高直接内存访问(direct memory access,DMA)访存带宽利用率。结合SW26010P的硬件流水线和向量化访存/计算指令,抽象运算中涉及的计算类型进行底层汇编优化,提高了计算效率。提出了远程内存访问(remote memory access,RMA)点对点机制下的数据共享策略,降低数据访存和传输开销,并提出了嵌套双缓冲技术进一步提高异形矩阵乘法的性能。此外,针对不同种类异形矩阵乘法行实现时面临的分块参数适配问题,基于SW26010P众核处理器进行实验分析研究,确定了各函数并行化时的最优分块参数。实验结果显著,所优化的异形矩阵乘法的性能最高可达roofline模型预测性能上限的93%,相较于常规大规模矩阵乘法算法平均获得了5.43倍的性能加速,最高可获得51.5倍的性能加速。 展开更多
关键词 异形矩阵乘法 SW26010P众核处理器 多样化任务划分映射 RMA点对点机制 嵌套双缓冲技术
在线阅读 下载PDF
上一页 1 2 39 下一页 到第
使用帮助 返回顶部