期刊文献+
共找到162篇文章
< 1 2 9 >
每页显示 20 50 100
Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture 被引量:13
1
作者 郑方 李宏亮 +3 位作者 吕晖 过锋 许晓红 谢向辉 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第1期145-162,共18页
Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out efficiently due to the memory wall, which h... Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out efficiently due to the memory wall, which has become a bottleneck in many-core processors. In this paper, we present a novel heterogeneous many-core processor architecture named deeply fused many-core (DFMC) for high performance computing systems. DFMC integrates management processing ele- ments (MPEs) and computing processing elements (CPEs), which are heterogeneous processor cores for different application features with a unified ISA (instruction set architecture), a unified execution model, and share-memory that supports cache coherence. The DFMC processor can alleviate the memory wall problem by combining a series of cooperative computing techniques of CPEs, such as multi-pattern data stream transfer, efficient register-level communication mechanism, and fast hardware synchronization technique. These techniques are able to improve on-chip data reuse and optimize memory access performance. This paper illustrates an implementation of a full system prototype based on FPGA with four MPEs and 256 CPEs. Our experimental results show that the effect of the cooperative computing techniques of CPEs is significant, with DGEMM (double-precision matrix multiplication) achieving an efficiency of 94%, FFT (fast Fourier transform) obtaining a performance of 207 GFLOPS and FDTD (finite-difference time-domain) obtaining a performance of 27 GFLOPS. 展开更多
关键词 heterogeneous many-core processor data stream transfer register-level communication mechanism hardwaresynchronization technique processor prototype
原文传递
Typhoon Case Comparison Analysis Between Heterogeneous Many-Core and Homogenous Multicore Supercomputing Platforms
2
作者 LIU Xin YU Xiaolin +5 位作者 ZHAO Haoran HAN Qiqi ZHANG Jie WANG Chengzhi MA Weiwei XU Da 《Journal of Ocean University of China》 SCIE CAS CSCD 2023年第2期324-334,共11页
In this paper,a typical experiment is carried out based on a high-resolution air-sea coupled model,namely,the coupled ocean-atmosphere-wave-sediment transport(COAWST)model,on both heterogeneous many-core(SW)and homoge... In this paper,a typical experiment is carried out based on a high-resolution air-sea coupled model,namely,the coupled ocean-atmosphere-wave-sediment transport(COAWST)model,on both heterogeneous many-core(SW)and homogenous multicore(Intel)supercomputing platforms.We construct a hindcast of Typhoon Lekima on both the SW and Intel platforms,compare the simulation results between these two platforms and compare the key elements of the atmospheric and ocean modules to reanalysis data.The comparative experiment in this typhoon case indicates that the domestic many-core computing platform and general cluster yield almost no differences in the simulated typhoon path and intensity,and the differences in surface pressure(PSFC)in the WRF model and sea surface temperature(SST)in the short-range forecast are very small,whereas a major difference can be identified at high latitudes after the first 10 days.Further heat budget analysis verifies that the differences in SST after 10 days are mainly caused by shortwave radiation variations,as influenced by subsequently generated typhoons in the system.These typhoons generated in the hindcast after the first 10 days attain obviously different trajectories between the two platforms. 展开更多
关键词 heterogeneous many-core supercomputing platform homogenous multicore supercomputing platform comparison analysis typhoon case
在线阅读 下载PDF
Optimization Task Scheduling Using Cooperation Search Algorithm for Heterogeneous Cloud Computing Systems 被引量:2
3
作者 Ahmed Y.Hamed M.Kh.Elnahary +1 位作者 Faisal S.Alsubaei Hamdy H.El-Sayed 《Computers, Materials & Continua》 SCIE EI 2023年第1期2133-2148,共16页
Cloud computing has taken over the high-performance distributed computing area,and it currently provides on-demand services and resource polling over the web.As a result of constantly changing user service demand,the ... Cloud computing has taken over the high-performance distributed computing area,and it currently provides on-demand services and resource polling over the web.As a result of constantly changing user service demand,the task scheduling problem has emerged as a critical analytical topic in cloud computing.The primary goal of scheduling tasks is to distribute tasks to available processors to construct the shortest possible schedule without breaching precedence restrictions.Assignments and schedules of tasks substantially influence system operation in a heterogeneous multiprocessor system.The diverse processes inside the heuristic-based task scheduling method will result in varying makespan in the heterogeneous computing system.As a result,an intelligent scheduling algorithm should efficiently determine the priority of every subtask based on the resources necessary to lower the makespan.This research introduced a novel efficient scheduling task method in cloud computing systems based on the cooperation search algorithm to tackle an essential task and schedule a heterogeneous cloud computing problem.The basic idea of thismethod is to use the advantages of meta-heuristic algorithms to get the optimal solution.We assess our algorithm’s performance by running it through three scenarios with varying numbers of tasks.The findings demonstrate that the suggested technique beats existingmethods NewGenetic Algorithm(NGA),Genetic Algorithm(GA),Whale Optimization Algorithm(WOA),Gravitational Search Algorithm(GSA),and Hybrid Heuristic and Genetic(HHG)by 7.9%,2.1%,8.8%,7.7%,3.4%respectively according to makespan. 展开更多
关键词 heterogeneous processors cooperation search algorithm task scheduling cloud computing
在线阅读 下载PDF
基于任务同步的异构多核实时系统节能调度算法
4
作者 赵小松 黄超 +1 位作者 李鉴 康玉龙 《计算机科学》 北大核心 2026年第1期241-251,共11页
目前,多核实时系统中同步任务的节能调度研究主要针对的是同构多核处理器平台,而异构多核处理器架构能够更有效地发挥系统性能。将现有的研究直接应用于异构多核系统,在保证可调度性的情况下会导致能耗变高。对此,通过使用动态电压与频... 目前,多核实时系统中同步任务的节能调度研究主要针对的是同构多核处理器平台,而异构多核处理器架构能够更有效地发挥系统性能。将现有的研究直接应用于异构多核系统,在保证可调度性的情况下会导致能耗变高。对此,通过使用动态电压与频率调节(Dynamic Voltage Frequency Scaling,DVFS)技术,研究异构多核实时系统中基于任务同步的节能调度问题,提出同步感知的最大能耗节省优先算法(Synchronization Aware-Largest Energy Saved First,SA-LESF)。该算法针对所有任务的速度配置进行迭代优化,直至所有任务均达到其最大限度节能的速度配置。此外,进一步提出基于动态松弛时间回收的同步感知最大能耗节省优先算法(Synchronization Aware-Largest Energy Saved First with Dynamic Reclamation,SA-LESF-DR)。该算法在保证实时任务可调度的同时,实施相应的回收策略,进一步降低系统能耗。实验结果表明,SA-LESF与SA-LESF-DR算法在能耗表现上具有优势,在相同任务集下,相比其他算法可节省高达30%的能耗。 展开更多
关键词 实时系统 异构多核处理器 任务同步 节能调度
在线阅读 下载PDF
基于AG32异构处理器的数字锁相放大器设计
5
作者 刘国福 柳革命 +1 位作者 李岩 刘婵娟 《仪表技术》 2026年第1期13-16,77,共5页
锁相放大器因其优异的噪声抑制能力而被广泛应用于精密测量。为满足现场应用对设备便携性、低成本及小体积的需求,基于国产AG32系列异构双核(RISC-V+FPGA)处理器,设计了一款集成混合型数字锁相放大器。该设计利用AG32的外设资源简化了... 锁相放大器因其优异的噪声抑制能力而被广泛应用于精密测量。为满足现场应用对设备便携性、低成本及小体积的需求,基于国产AG32系列异构双核(RISC-V+FPGA)处理器,设计了一款集成混合型数字锁相放大器。该设计利用AG32的外设资源简化了系统结构,借助其FPGA资源提升了频率测量精度,并通过RISC-V处理器增强了系统功能。实验表明,当信噪比为1时,在1 Hz~10 kHz信号频率范围内,该放大器的幅度相对误差绝对值≤1.25%,相位绝对误差绝对值≤0.5°;当信噪比为0.1时,幅度相对误差绝对值≤4.50%,相位绝对误差绝对值≤2.0°。研究成果为矢量电压测量、频谱分析等领域提供了新的技术途径。 展开更多
关键词 数字锁相放大器 异构双核处理器 第五代精简指令集架构 现场可编程逻辑门阵列
原文传递
面向智能物联网异构嵌入式芯片的自适应算子并行分割方法 被引量:2
6
作者 林政 刘思聪 +2 位作者 郭斌 丁亚三 於志文 《计算机科学》 北大核心 2025年第2期299-309,共11页
随着人民生活质量的持续提升与科技发展的日新月异,智能手机等移动设备在全球范围内得到了广泛普及。在这一背景下,深度神经网络在移动端的部署与应用成为了研究的热点。深度神经网络不仅推动了移动应用领域的显著进步,同时也对使用电... 随着人民生活质量的持续提升与科技发展的日新月异,智能手机等移动设备在全球范围内得到了广泛普及。在这一背景下,深度神经网络在移动端的部署与应用成为了研究的热点。深度神经网络不仅推动了移动应用领域的显著进步,同时也对使用电池供电的移动设备的能效管理提出了更高要求。当今移动设备中异构处理器的兴起给优化能效带来了新的挑战,在不同处理器间分配计算任务以实现深度神经网络并行处理和加速,并不一定能够优化能耗,甚至可能会增加能耗。针对这一问题,提出了一种能效优化的深度神经网络自适应并行计算调度系统。该系统包括一个运行时能耗分析器与在线算子划分执行器,能够根据动态设备条件动态调整算子分配,在保持高响应性的同时,优化了移动设备异构处理器上的计算能效。实验结果证明,相比基准方法,能效优化的深度神经网络自适应并行计算调度系统在移动设备深度神经网络上的平均能耗和平均时延减少了5.19%和9.0%,最大能耗和最大时延减少了18.35%和21.6%。 展开更多
关键词 深度神经网络 移动设备 能效优化 异构处理器 能耗预测
在线阅读 下载PDF
一种新的异构多核平台下多类型DAG调度方法 被引量:1
7
作者 左俊杰 肖锋 +3 位作者 黄姝娟 沈超 郝鹏涛 陈磊 《计算机应用研究》 北大核心 2025年第2期514-518,共5页
异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时... 异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时间开销较大,处理器资源未充分利用,任务效率低。针对上述问题,提出了PNIF(processor-node impact factor)算法。该算法引入了两个对节点优先级具有重大影响的比例因子,将它们加入到节点优先级的计算中从而确定任务执行顺序。实验结果表明,PNIF比PEFT、HEFT、CPOP在调度长度上分别平均提升5.902%、19.402%、25.831%,有效缩短了整体调度长度,提升了处理器资源利用率。 展开更多
关键词 异构多核处理器 多类型DAG任务 任务调度 影响因子 PNIF算法
在线阅读 下载PDF
面向昇腾处理器的高性能同步原语自动插入方法
8
作者 李帅江 张馨元 +4 位作者 赵家程 田行辉 石曦予 徐晓忻 崔慧敏 《计算机研究与发展》 北大核心 2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限... 指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平. 展开更多
关键词 昇腾处理器 同步原语 异构编程 领域定制架构 自动插入
在线阅读 下载PDF
面向天河新一代超算系统的大规模精确对角化方法
9
作者 李彪 刘杰 王庆林 《计算机研究与发展》 北大核心 2025年第6期1347-1362,共16页
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的... 精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上. 展开更多
关键词 精确对角化 HUBBARD模型 异构并行计算 MT-3000处理器 量子多体系统
在线阅读 下载PDF
一种板级异构核间多模通信的软硬件设计方法 被引量:2
10
作者 李锐 杜彬 王远波 《汽车电器》 2025年第6期100-102,共3页
随着车联网技术的高速发展和车载电控单元复杂性的提升,传统的单处理器难以满足数据交互与处理日益复杂和多样化的需求。文章提出一种板级异构核间多模通信机制,设计集成高实时性MCU和高性能SOC的硬件平台,并对异构多模通信的硬件结构... 随着车联网技术的高速发展和车载电控单元复杂性的提升,传统的单处理器难以满足数据交互与处理日益复杂和多样化的需求。文章提出一种板级异构核间多模通信机制,设计集成高实时性MCU和高性能SOC的硬件平台,并对异构多模通信的硬件结构进行阐述。在此基础上,提出分层、低耦合、高内聚的轻量级组件化软件设计方案,阐明驱动层、接口层、网络层、协议层、传输层和应用层的通信机制。该机制在提升异构多核环境运算效率的同时,实现处理器性能的优化,提高通信传输数据的品质。 展开更多
关键词 车联网 核间通信 MCU SOC 异构处理器
在线阅读 下载PDF
Fault Tolerance Mechanism in Chip Many-Core Processors 被引量:1
11
作者 张磊 韩银和 +1 位作者 李华伟 李晓维 《Tsinghua Science and Technology》 SCIE EI CAS 2007年第S1期169-174,共6页
As semiconductor technology advances, there will be billions of transistors on a single chip. Chip many-core processors are emerging to take advantage of these greater transistor densities to deliver greater performan... As semiconductor technology advances, there will be billions of transistors on a single chip. Chip many-core processors are emerging to take advantage of these greater transistor densities to deliver greater performance. Effective fault tolerance techniques are essential to improve the yield of such complex chips. In this paper, a core-level redundancy scheme called N+M is proposed to improve N-core processors’ yield by providing M spare cores. In such architecture, topology is an important factor because it greatly affects the processors’ performance. The concept of logical topology and a topology reconfiguration problem are introduced, which is able to transparently provide target topology with lowest performance degradation as the presence of faulty cores on-chip. A row rippling and column stealing (RRCS) algorithm is also proposed. Results show that PRCS can give solutions with average 13.8% degradation with negligible computing time. 展开更多
关键词 chip many-core processors YIELD fault tolerance RECONFIGURATION NETWORK-ON-CHIP
原文传递
一种异构多核系统动态调度协处理器设计 被引量:1
12
作者 曾树铭 倪伟 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期185-195,共11页
为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理... 为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。 展开更多
关键词 动态调度 硬件调度器 异构多核系统 任务级并行 编程模型 片上缓存 片上网络
在线阅读 下载PDF
Parallelization and sustainability of distributed genetic algorithms on many-core processors
13
作者 Yuji Sato Mikiko Sato 《International Journal of Intelligent Computing and Cybernetics》 EI 2014年第1期2-23,共22页
Purpose–The purpose of this paper is to propose a fault-tolerant technology for increasing the durability of application programs when evolutionary computation is performed by fast parallel processing on many-core pr... Purpose–The purpose of this paper is to propose a fault-tolerant technology for increasing the durability of application programs when evolutionary computation is performed by fast parallel processing on many-core processors such as graphics processing units(GPUs)and multi-core processors(MCPs).Design/methodology/approach–For distributed genetic algorithm(GA)models,the paper proposes a method where an island’s ID number is added to the header of data transferred by this island for use in fault detection.Findings–The paper has shown that the processing time of the proposed idea is practically negligible in applications and also shown that an optimal solution can be obtained even with a single stuck-at fault or a transient fault,and that increasing the number of parallel threads makes the system less susceptible to faults.Originality/value–The study described in this paper is a new approach to increase the sustainability of application program using distributed GA on GPUs and MCPs. 展开更多
关键词 Evolutionary computation Genetic algorithms Fault identification many-core processors PARALLELIZATION
在线阅读 下载PDF
面向人工智能的半导体加速单元架构设计
14
作者 孙彦德 《电子工业专用设备》 2025年第3期70-74,共5页
设计了一种适用于深度学习和大型语言模型的高效半导体加速单元架构。通过设计并行计算单元结构、建立多级片上存储体系、优化数据流传输以及实现异构系统互联与功耗管理等方法,构建了完整的加速器架构系统。实验结果表明,该架构在8 nm... 设计了一种适用于深度学习和大型语言模型的高效半导体加速单元架构。通过设计并行计算单元结构、建立多级片上存储体系、优化数据流传输以及实现异构系统互联与功耗管理等方法,构建了完整的加速器架构系统。实验结果表明,该架构在8 nm工艺下实现了3.8 TOPS/mm^(2)的计算密度和12.5 TOPS/W的功耗效率,可支持ResNet-50等典型神经网络模型的高效处理。研究证实,所提出的加速单元架构能够满足现代人工智能应用的计算需求,具有重要的实践价值。 展开更多
关键词 半导体技术 AI加速器架构 并行计算优化 神经网络处理器 片上存储系统 异构计算 功耗管理
在线阅读 下载PDF
基于异构多核处理器的嵌入式数控系统研究 被引量:11
15
作者 陆小虎 于东 +1 位作者 胡毅 林立明 《中国机械工程》 EI CAS CSCD 北大核心 2013年第19期2623-2628,共6页
针对传统嵌入式数控系统性能差、可扩展性差、人机界面不友好等特点,结合异构多核技术和现场总线技术的优点,提出并开发了一种基于异构处理器和现场总线技术的嵌入式数控系统。该数控系统运行在异构多核处理器之上,通过在不同的处理器... 针对传统嵌入式数控系统性能差、可扩展性差、人机界面不友好等特点,结合异构多核技术和现场总线技术的优点,提出并开发了一种基于异构处理器和现场总线技术的嵌入式数控系统。该数控系统运行在异构多核处理器之上,通过在不同的处理器核心上同时运行通用系统和实时系统,采用静态划分的方式将数控系统内部的任务分配到不同的处理器核心上,使用现场总线技术实现嵌入式数控系统与伺服电机之间的连接,简化数控系统与伺服驱动器之间的连线。实验证明,开发的数控系统具有良好的实时性和扩展性,验证了设计的合理性。 展开更多
关键词 嵌入式 数控系统 异构多核处理器 现场总线
在线阅读 下载PDF
基于OpenCL的异构系统并行编程 被引量:23
16
作者 詹云 赵新灿 谭同德 《计算机工程与设计》 CSCD 北大核心 2012年第11期4191-4195,4293,共6页
针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算... 针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算统一设备架构CUDA(compute unified device architecture)及其它通用计算技术进行对比。对比结果表明,OpenCL能够充分发挥异构处理平台上各种处理器的性能潜力,充分合理地分配任务,为进行大规模并行计算提供了新的强有力的工具。 展开更多
关键词 异构处理器 通用计算 开放计算语言(OpenCL) 性能优化 计算统一设备架构(CUDA)
在线阅读 下载PDF
多核处理器的关键技术及其发展趋势 被引量:49
17
作者 黄国睿 张平 魏广博 《计算机工程与设计》 CSCD 北大核心 2009年第10期2414-2418,共5页
多核处理器以其高性能、低功耗优势正逐步取代传统的单处理器成为市场的主流。介绍了Hydra、Cell、RAW这3种典型的多核处理器结构,重点讨论了核心结构选择、存储结构设计、片上通信、低功耗、操作系统设计、软件应用开发等7个影响当前... 多核处理器以其高性能、低功耗优势正逐步取代传统的单处理器成为市场的主流。介绍了Hydra、Cell、RAW这3种典型的多核处理器结构,重点讨论了核心结构选择、存储结构设计、片上通信、低功耗、操作系统设计、软件应用开发等7个影响当前多核处理器发展的关键技术,最后得出多核处理器的未来将呈现众核、低功耗和异构结构3种发展趋势。 展开更多
关键词 多核处理器结构 存储结构 片上通信 低功耗 异构
在线阅读 下载PDF
异构多核处理器体系结构设计研究 被引量:24
18
作者 陈芳园 张冬松 王志英 《计算机工程与科学》 CSCD 北大核心 2011年第12期27-36,共10页
多核技术成为当今处理器发展的重要方向,异构多核处理器由于可将不同类型的计算任务分配到不同类型的处理器核上并行处理,从而为不同需求的应用提供更加灵活、高效的处理机制而成为当今研究的热点。本文从体系结构的角度探讨了异构多核... 多核技术成为当今处理器发展的重要方向,异构多核处理器由于可将不同类型的计算任务分配到不同类型的处理器核上并行处理,从而为不同需求的应用提供更加灵活、高效的处理机制而成为当今研究的热点。本文从体系结构的角度探讨了异构多核处理器设计中的关键点,从内核结构、互连方式、存储系统、操作系统支持、测试与验证、动态电压调节等方面分析了异构多核处理器对体系结构设计带来的挑战。最后本文针对高性能应用和嵌入式实时应用分析了异构多核在这两种应用中的设计关键点,指出了高性能异构多核在性能提升、内核数量以及嵌入式异构多核在实时性、低能耗需求等方面的设计难点和研究方向。 展开更多
关键词 多核处理器 异构多核处理器 体系结构 嵌入式实时系统
在线阅读 下载PDF
面向分组密码的可重构异构多核并行处理架构 被引量:7
19
作者 冯晓 李伟 +2 位作者 戴紫彬 马超 李功丽 《电子学报》 EI CAS CSCD 北大核心 2017年第6期1311-1320,共10页
现有的可重构分组密码实现结构中,专用指令处理器吞吐率不高,阵列结构资源利用率低、算法映射过程复杂.为此,设计了分组密码可重构异构多核并行处理架构RAMCA(Reconfigurable Asymmetrical Multi-Core Architecture),分析了典型SP(AES-1... 现有的可重构分组密码实现结构中,专用指令处理器吞吐率不高,阵列结构资源利用率低、算法映射过程复杂.为此,设计了分组密码可重构异构多核并行处理架构RAMCA(Reconfigurable Asymmetrical Multi-Core Architecture),分析了典型SP(AES-128)、Feistel(SMS4)、L-M(IDEA)及MISTY(KASUMI)结构算法在RAMCA上的映射过程.在65nm CMOS工艺下完成了逻辑综合和功能仿真.实验表明,RAMCA工作频率可达到1GHz,面积约为1.13mm2,消除工艺影响后,对各分组密码算法的运算速度均高于现有专用指令处理器以及Celator、RCPA和BCORE等阵列结构密码处理系统. 展开更多
关键词 分组密码 异构多核 可重构 并行处理 密码处理器
在线阅读 下载PDF
基于机器学习的异构多核处理器系统在线映射方法 被引量:16
20
作者 安鑫 张影 +2 位作者 康安 陈田 李建华 《计算机应用》 CSCD 北大核心 2019年第6期1753-1759,共7页
异构多核处理器(HMPs)平台已成为现代嵌入式系统的主流解决方案,其中在线映射或调度对充分发挥其高性能和低功耗的优势起着至关重要的作用。针对HMPs的应用任务动态映射问题,提出了一种基于机器学习预测模型的在线映射调度解决方案。一... 异构多核处理器(HMPs)平台已成为现代嵌入式系统的主流解决方案,其中在线映射或调度对充分发挥其高性能和低功耗的优势起着至关重要的作用。针对HMPs的应用任务动态映射问题,提出了一种基于机器学习预测模型的在线映射调度解决方案。一方面,构建了一个可以快速高效地预测和评估不同映射方案性能的机器学习模型,为在线调度提供支持;另一方面,将该机器学习模型整合到遗传算法中以高效地找到(接近)最优的资源分配方案。最后,通过一个M-JPEG解码器验证了所提方法的有效性。实验结果表明,该方法的平均执行时间相较于常见的轮询调度和抽样调度方法分别降低了28%和19%左右。 展开更多
关键词 异构多核处理器 机器学习 动态资源分配 性能预测 映射和调度
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部