期刊文献+
共找到168篇文章
< 1 2 9 >
每页显示 20 50 100
Multi-core optimization for conjugate gradient benchmark on heterogeneous processors
1
作者 邓林 窦勇 《Journal of Central South University》 SCIE EI CAS 2011年第2期490-498,共9页
Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at t... Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at this problem,a parallelization approach was proposed with six memory optimization schemes for CG,four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20,the parallelization approach can reach up to 21 and 133 times speedups with size A and B,respectively,compared with single power processor element. Finally,the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV,simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores. 展开更多
关键词 multi-core processor NAS parallelization CG memory optimization
在线阅读 下载PDF
Parallel Processing Design for LTE PUSCH Demodulation and Decoding Based on Multi-Core Processor
2
作者 Zhang Ziran,Li Jun,Li Changxiao(ZTE Corporation,Shenzhen 518057,P.R.China) 《ZTE Communications》 2009年第1期54-58,共5页
The Long Term Evolution (LTE) system imposes high requirements for dispatching delay.Moreover,very large air interface rate of LTE requires good processing capability for the devices processing the baseband signals.Co... The Long Term Evolution (LTE) system imposes high requirements for dispatching delay.Moreover,very large air interface rate of LTE requires good processing capability for the devices processing the baseband signals.Consequently,the single-core processor cannot meet the requirements of LTE system.This paper analyzes how to use multi-core processors to achieve parallel processing of uplink demodulation and decoding in LTE systems and designs an approach to parallel processing.The test results prove that this approach works quite well. 展开更多
关键词 CORE LTE Parallel Processing Design for LTE PUSCH Demodulation and Decoding Based on multi-core processor Design
在线阅读 下载PDF
Optimization Task Scheduling Using Cooperation Search Algorithm for Heterogeneous Cloud Computing Systems 被引量:2
3
作者 Ahmed Y.Hamed M.Kh.Elnahary +1 位作者 Faisal S.Alsubaei Hamdy H.El-Sayed 《Computers, Materials & Continua》 SCIE EI 2023年第1期2133-2148,共16页
Cloud computing has taken over the high-performance distributed computing area,and it currently provides on-demand services and resource polling over the web.As a result of constantly changing user service demand,the ... Cloud computing has taken over the high-performance distributed computing area,and it currently provides on-demand services and resource polling over the web.As a result of constantly changing user service demand,the task scheduling problem has emerged as a critical analytical topic in cloud computing.The primary goal of scheduling tasks is to distribute tasks to available processors to construct the shortest possible schedule without breaching precedence restrictions.Assignments and schedules of tasks substantially influence system operation in a heterogeneous multiprocessor system.The diverse processes inside the heuristic-based task scheduling method will result in varying makespan in the heterogeneous computing system.As a result,an intelligent scheduling algorithm should efficiently determine the priority of every subtask based on the resources necessary to lower the makespan.This research introduced a novel efficient scheduling task method in cloud computing systems based on the cooperation search algorithm to tackle an essential task and schedule a heterogeneous cloud computing problem.The basic idea of thismethod is to use the advantages of meta-heuristic algorithms to get the optimal solution.We assess our algorithm’s performance by running it through three scenarios with varying numbers of tasks.The findings demonstrate that the suggested technique beats existingmethods NewGenetic Algorithm(NGA),Genetic Algorithm(GA),Whale Optimization Algorithm(WOA),Gravitational Search Algorithm(GSA),and Hybrid Heuristic and Genetic(HHG)by 7.9%,2.1%,8.8%,7.7%,3.4%respectively according to makespan. 展开更多
关键词 heterogeneous processors cooperation search algorithm task scheduling cloud computing
在线阅读 下载PDF
Shared Cache Based on Content Addressable Memory in a Multi-Core Architecture
4
作者 Allam Abumwais Mahmoud Obaid 《Computers, Materials & Continua》 SCIE EI 2023年第3期4951-4963,共13页
Modern shared-memory multi-core processors typically have shared Level 2(L2)or Level 3(L3)caches.Cache bottlenecks and replacement strategies are the main problems of such architectures,where multiple cores try to acc... Modern shared-memory multi-core processors typically have shared Level 2(L2)or Level 3(L3)caches.Cache bottlenecks and replacement strategies are the main problems of such architectures,where multiple cores try to access the shared cache simultaneously.The main problem in improving memory performance is the shared cache architecture and cache replacement.This paper documents the implementation of a Dual-Port Content Addressable Memory(DPCAM)and a modified Near-Far Access Replacement Algorithm(NFRA),which was previously proposed as a shared L2 cache layer in a multi-core processor.Standard Performance Evaluation Corporation(SPEC)Central Processing Unit(CPU)2006 benchmark workloads are used to evaluate the benefit of the shared L2 cache layer.Results show improved performance of the multicore processor’s DPCAM and NFRA algorithms,corresponding to a higher number of concurrent accesses to shared memory.The new architecture significantly increases system throughput and records performance improvements of up to 8.7%on various types of SPEC 2006 benchmarks.The miss rate is also improved by about 13%,with some exceptions in the sphinx3 and bzip2 benchmarks.These results could open a new window for solving the long-standing problems with shared cache in multi-core processors. 展开更多
关键词 multi-core processor shared cache content addressable memory dual port CAM replacement algorithm benchmark program
在线阅读 下载PDF
面向智能物联网异构嵌入式芯片的自适应算子并行分割方法 被引量:1
5
作者 林政 刘思聪 +2 位作者 郭斌 丁亚三 於志文 《计算机科学》 北大核心 2025年第2期299-309,共11页
随着人民生活质量的持续提升与科技发展的日新月异,智能手机等移动设备在全球范围内得到了广泛普及。在这一背景下,深度神经网络在移动端的部署与应用成为了研究的热点。深度神经网络不仅推动了移动应用领域的显著进步,同时也对使用电... 随着人民生活质量的持续提升与科技发展的日新月异,智能手机等移动设备在全球范围内得到了广泛普及。在这一背景下,深度神经网络在移动端的部署与应用成为了研究的热点。深度神经网络不仅推动了移动应用领域的显著进步,同时也对使用电池供电的移动设备的能效管理提出了更高要求。当今移动设备中异构处理器的兴起给优化能效带来了新的挑战,在不同处理器间分配计算任务以实现深度神经网络并行处理和加速,并不一定能够优化能耗,甚至可能会增加能耗。针对这一问题,提出了一种能效优化的深度神经网络自适应并行计算调度系统。该系统包括一个运行时能耗分析器与在线算子划分执行器,能够根据动态设备条件动态调整算子分配,在保持高响应性的同时,优化了移动设备异构处理器上的计算能效。实验结果证明,相比基准方法,能效优化的深度神经网络自适应并行计算调度系统在移动设备深度神经网络上的平均能耗和平均时延减少了5.19%和9.0%,最大能耗和最大时延减少了18.35%和21.6%。 展开更多
关键词 深度神经网络 移动设备 能效优化 异构处理器 能耗预测
在线阅读 下载PDF
面向昇腾处理器的高性能同步原语自动插入方法
6
作者 李帅江 张馨元 +4 位作者 赵家程 田行辉 石曦予 徐晓忻 崔慧敏 《计算机研究与发展》 北大核心 2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限... 指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平. 展开更多
关键词 昇腾处理器 同步原语 异构编程 领域定制架构 自动插入
在线阅读 下载PDF
一种新的异构多核平台下多类型DAG调度方法
7
作者 左俊杰 肖锋 +3 位作者 黄姝娟 沈超 郝鹏涛 陈磊 《计算机应用研究》 北大核心 2025年第2期514-518,共5页
异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时... 异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时间开销较大,处理器资源未充分利用,任务效率低。针对上述问题,提出了PNIF(processor-node impact factor)算法。该算法引入了两个对节点优先级具有重大影响的比例因子,将它们加入到节点优先级的计算中从而确定任务执行顺序。实验结果表明,PNIF比PEFT、HEFT、CPOP在调度长度上分别平均提升5.902%、19.402%、25.831%,有效缩短了整体调度长度,提升了处理器资源利用率。 展开更多
关键词 异构多核处理器 多类型DAG任务 任务调度 影响因子 PNIF算法
在线阅读 下载PDF
面向天河新一代超算系统的大规模精确对角化方法
8
作者 李彪 刘杰 王庆林 《计算机研究与发展》 北大核心 2025年第6期1347-1362,共16页
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的... 精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上. 展开更多
关键词 精确对角化 HUBBARD模型 异构并行计算 MT-3000处理器 量子多体系统
在线阅读 下载PDF
一种板级异构核间多模通信的软硬件设计方法 被引量:1
9
作者 李锐 杜彬 王远波 《汽车电器》 2025年第6期100-102,共3页
随着车联网技术的高速发展和车载电控单元复杂性的提升,传统的单处理器难以满足数据交互与处理日益复杂和多样化的需求。文章提出一种板级异构核间多模通信机制,设计集成高实时性MCU和高性能SOC的硬件平台,并对异构多模通信的硬件结构... 随着车联网技术的高速发展和车载电控单元复杂性的提升,传统的单处理器难以满足数据交互与处理日益复杂和多样化的需求。文章提出一种板级异构核间多模通信机制,设计集成高实时性MCU和高性能SOC的硬件平台,并对异构多模通信的硬件结构进行阐述。在此基础上,提出分层、低耦合、高内聚的轻量级组件化软件设计方案,阐明驱动层、接口层、网络层、协议层、传输层和应用层的通信机制。该机制在提升异构多核环境运算效率的同时,实现处理器性能的优化,提高通信传输数据的品质。 展开更多
关键词 车联网 核间通信 MCU SOC 异构处理器
在线阅读 下载PDF
一种异构多核系统动态调度协处理器设计
10
作者 曾树铭 倪伟 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期185-195,共11页
为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理... 为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。 展开更多
关键词 动态调度 硬件调度器 异构多核系统 任务级并行 编程模型 片上缓存 片上网络
在线阅读 下载PDF
面向人工智能的半导体加速单元架构设计
11
作者 孙彦德 《电子工业专用设备》 2025年第3期70-74,共5页
设计了一种适用于深度学习和大型语言模型的高效半导体加速单元架构。通过设计并行计算单元结构、建立多级片上存储体系、优化数据流传输以及实现异构系统互联与功耗管理等方法,构建了完整的加速器架构系统。实验结果表明,该架构在8 nm... 设计了一种适用于深度学习和大型语言模型的高效半导体加速单元架构。通过设计并行计算单元结构、建立多级片上存储体系、优化数据流传输以及实现异构系统互联与功耗管理等方法,构建了完整的加速器架构系统。实验结果表明,该架构在8 nm工艺下实现了3.8 TOPS/mm^(2)的计算密度和12.5 TOPS/W的功耗效率,可支持ResNet-50等典型神经网络模型的高效处理。研究证实,所提出的加速单元架构能够满足现代人工智能应用的计算需求,具有重要的实践价值。 展开更多
关键词 半导体技术 AI加速器架构 并行计算优化 神经网络处理器 片上存储系统 异构计算 功耗管理
在线阅读 下载PDF
Schedule refinement for homogeneous multi-core processors in the presence of manufacturing-caused heterogeneity
12
作者 Zhi-xiang CHEN Zhao-lin LI +2 位作者 Shan CAO Fang WANG Jie ZHOU 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第12期1018-1033,共16页
Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturin... Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturing process lead to a significant spread in the operating speeds of cores within homogeneous multi-core processors. Task scheduling approaches, which do not consider such heterogeneity caused by within-die variations,can lead to an overly pessimistic result in terms of performance. To realize an optimal performance according to the actual maximum clock frequencies at which cores can run, we present a heterogeneity-aware schedule refining(HASR) scheme by fully exploiting the heterogeneities of homogeneous multi-core processors in embedded domains.We analyze and show how the actual maximum frequencies of cores are used to guide the scheduling. In the scheme,representative chip operating points are selected and the corresponding optimal schedules are generated as candidate schedules. During the booting of each chip, according to the actual maximum clock frequencies of cores, one of the candidate schedules is bound to the chip to maximize the performance. A set of applications are designed to evaluate the proposed scheme. Experimental results show that the proposed scheme can improve the performance by an average value of 22.2%, compared with the baseline schedule based on the worst case timing analysis. Compared with the conventional task scheduling approach based on the actual maximum clock frequencies, the proposed scheme also improves the performance by up to 12%. 展开更多
关键词 Schedule refining multi-core processor heterogenEITY Representative chip operating point
原文传递
YHFT-QDSP:High-Performance Heterogeneous Multi-Core DSP
13
作者 陈书明 万江华 +8 位作者 鲁建壮 刘仲 孙海燕 孙永节 刘衡竹 刘祥远 李振涛 徐毅 陈小文 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期214-224,共11页
Multi-core architectures are widely used to in time-to-market and power consumption of the chips enhance the microprocessor performance within a limited increase Toward the application of high-density data signal pro... Multi-core architectures are widely used to in time-to-market and power consumption of the chips enhance the microprocessor performance within a limited increase Toward the application of high-density data signal processing, this paper presents a novel heterogeneous multi-core architecture digital signal processor (DSP), YHFT-QDSP, with one RISC CPU core and 4 VLIW DSP cores. By three kinds of interconnection, YHFT-QDSP provides high efficiency message communication for inner-chip RISC core and DSP cores, inner-chip and inter-chip DSP cores. A parallel programming platform is specifically developed for the heterogeneous nmlti-core architecture of YHFT-QDSP. This parallel programming environment provides a parallel support library and a friendly interface between high level application softwares and multi- core DSP. The 130 nm CMOS custom chip design results benchmarks show that the interconnection structure of in a high speed and moderate power design. The results of typical YHFT-QDSP is much better than other related structures and achieves better speedup when using the interconnection facilities in combing methods. YHFT-QDSP has been signed off and manufactured presently. The future applications of the multi-core chip could be found in 3G wireless base station, high performance radar, industrial applications, and so on. 展开更多
关键词 digital signal processor (DSP) multi-core ARCHITECTURE parallel programming custom design
原文传递
ChipletNP:基于芯粒的敏捷可定制网络处理器架构 被引量:2
14
作者 李韬 杨惠 +2 位作者 厉俊男 刘汝霖 孙志刚 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期2952-2968,共17页
5G,8K视频等新业务类型不断涌现,使得网络处理器(network processor,NP)的应用场景日趋复杂多样.为满足多样化网络应用在性能、灵活性以及服务质量保证等方面的差异化需求,传统NP试图在片上系统(system on chip,SoC)上集成大量处理器核... 5G,8K视频等新业务类型不断涌现,使得网络处理器(network processor,NP)的应用场景日趋复杂多样.为满足多样化网络应用在性能、灵活性以及服务质量保证等方面的差异化需求,传统NP试图在片上系统(system on chip,SoC)上集成大量处理器核、高速缓存、加速器等异质处理资源,提供面向多样化应用场景的敏捷可定制能力.然而,随着摩尔定律和登纳德缩放定律失效问题的逐渐凸显,单片NP芯片研制在研发周期、成本、创新迭代等方面面临巨大挑战,越来越难以为继.针对上述问题,提出新型敏捷可定制NP架构ChipletNP,基于芯粒化(Chiplet)技术解耦异质资源,在充分利用成熟芯片产品及工艺的基础上,通过多个芯粒组合,满足不同应用场景下NP的快速定制和演化发展需求.基于ChipletNP设计实现了一款集成商用CPU、FPGA(field programmable gate array)和自研敏捷交换芯粒的银河衡芯敏捷NP芯片(YHHX-NP).基于该芯片的应用部署与实验结果表明,ChipletNP可支持NP的快速敏捷定制,能够有效承载SRv6(segment routing over IPv6)等新型网络协议与网络功能部署.其中,核心的敏捷交换芯粒相较于同级商用芯片能效比提升2倍以上,延迟控制在2.82μs以内,可以有效支持面向NP的Chiplet统一通信与集成. 展开更多
关键词 网络处理器 芯粒技术 敏捷交换 分组处理 异构资源
在线阅读 下载PDF
基于Amdahl定律的异构多核密码处理器能效模型研究 被引量:1
15
作者 李伟 郎俊豪 +1 位作者 陈韬 南龙梅 《电子学报》 EI CAS CSCD 北大核心 2024年第3期849-862,共14页
边缘计算安全的资源受限特征及各种新型密码技术的应用,对多核密码处理器的高能效、异构性提出需求,但当前尚缺乏相关的异构多核能效模型研究.本文基于扩展Amdahl定律,引入密码串并特征、异构多核结构、数据准备时间、动态电压频率调节... 边缘计算安全的资源受限特征及各种新型密码技术的应用,对多核密码处理器的高能效、异构性提出需求,但当前尚缺乏相关的异构多核能效模型研究.本文基于扩展Amdahl定律,引入密码串并特征、异构多核结构、数据准备时间、动态电压频率调节等因素,将核划分空闲、活跃状态,建立异构多核密码处理器的能效模型.MATLAB仿真结果表明,数据准备时间占比小于10%时,对能效的负面影响大幅下降;固定电压,频率缩放会影响能效值大小;处理器核空闲/活跃能耗比例越小,能效值越大.架构上,固定异构核,同构核数量与密码任务最大并行度相等时能效值最大,最佳异构核数可由模型变化参数仿真得到;多任务调度执行上,流水与并发执行有利于能效值的进一步提升.多核密码处理器芯片板级测试结果表明,仿真结果与实测数据相关系数接近1,芯片实测的数据准备时间、电压频率缩放等因素的影响与仿真分析基本一致,验证了所提能效模型的有效性.该文重点从影响能效变化趋势因素上,为多核密码处理器异构、高能效设计提供一定的理论分析基础与建议. 展开更多
关键词 密码处理器 多核处理器 异构 AMDAHL定律 能效模型
在线阅读 下载PDF
一种基于异构处理器的可动态布署设计与实现 被引量:1
16
作者 钱宏文 陈光威 《电子技术应用》 2024年第1期93-100,共8页
针对卫星支持的多种生活服务需求实时切换、资源灵活智能调用需求,基于无线广域信号服务异构处理器,设计了一种即时高效、动态切换部署处理器功能的方案。通过对大资源FPGA及多片8核DSP多种功能定制结合动态部署设计,实现实时动态可重... 针对卫星支持的多种生活服务需求实时切换、资源灵活智能调用需求,基于无线广域信号服务异构处理器,设计了一种即时高效、动态切换部署处理器功能的方案。通过对大资源FPGA及多片8核DSP多种功能定制结合动态部署设计,实现实时动态可重构处理器系统功能,将5种FPGA应用结合2种DSP应用程序动态组合,配合各功能任务架构需求重建控制、数据链路,完成多任务智能切换。 展开更多
关键词 异构处理器 动态部署 可重构 FPGA DSP
在线阅读 下载PDF
基于TDA4VM的疲劳状态实时检测系统设计
17
作者 付丽 滕召波 +2 位作者 张一帆 罗钧 王浩程 《实验室研究与探索》 CAS 北大核心 2024年第11期26-30,38,共6页
针对传统嵌入式平台疲劳状态检测系统识别精度低和实时性差的问题,设计了一种基于TDA4VM异构多核处理器的疲劳状态实时检测系统。TDA4VM嵌入式处理器通过摄像头获取图像并进行目标检测,STM32微控制器控制外设模块,包括GPS模块、GSM模块... 针对传统嵌入式平台疲劳状态检测系统识别精度低和实时性差的问题,设计了一种基于TDA4VM异构多核处理器的疲劳状态实时检测系统。TDA4VM嵌入式处理器通过摄像头获取图像并进行目标检测,STM32微控制器控制外设模块,包括GPS模块、GSM模块和语音模块。在目标检测算法方面,先在YOLOX目标检测算法中引入注意力机制模块CBAM(Convolutional Block Attention Module),再对激活函数进行改进,并优化小滑窗替换算法。将训练后的YOLOX模型部署在硬件平台上,实际车载实验结果表明,在不同环境下疲劳状态检测精度可达到95.3%,同时还实现了30帧/s的实时检测。该检测系统具备精度高、实时性强和教学简易等特点,在实验教学和工程应用方面具有一定的参考价值。 展开更多
关键词 疲劳检测 深度学习 异构多核 处理器 YOLOX算法
在线阅读 下载PDF
基于疯狂自适应樽海鞘群优化算法的异构多核任务调度
18
作者 程小辉 刘天承 《计算机与数字工程》 2024年第10期2886-2889,2919,共5页
为了解决当前异构多核环境下的任务调度效率不能满足应用程序的多样性要求的问题,论文基于疯狂自适应的樽海鞘群优化算法(Crazy and Adaptive Salp Swarm Algorithm,CASSA),提出一种异构多核处理器任务调度算法。该算法以缩短全部任务... 为了解决当前异构多核环境下的任务调度效率不能满足应用程序的多样性要求的问题,论文基于疯狂自适应的樽海鞘群优化算法(Crazy and Adaptive Salp Swarm Algorithm,CASSA),提出一种异构多核处理器任务调度算法。该算法以缩短全部任务的完成时间为目标,根据任务优先权规则设计任务分配的编码方案,利用CASSA算法中领导者的全局搜索能力和追随者的局部搜索能力,使CASSA算法在异构多核任务调度问题上有更高的收敛效率和更高质量的解。实验表明,CASSA算法的性能优良,最优解的质量高,在异构多核处理器任务调度领域中具有良好的研究意义。 展开更多
关键词 异构多核处理器 任务调度 疯狂自适应的樽海鞘群优化算法
在线阅读 下载PDF
基于轻量级的RISC-V异构处理器的安全模型研究 被引量:1
19
作者 罗云鹏 吴晋成 +1 位作者 王正 王铜柱 《通信技术》 2024年第9期973-980,共8页
面对物联网的快速发展,需要低延时、高性能的处理器来实现关键数据的传输和保护,同时要提高处理器的硬件安全,减少非法用户对处理器的攻击。结合当前开源第五代精简指令集(Reduced Instruction Set Computing-Five,RISC-V)处理器架构优... 面对物联网的快速发展,需要低延时、高性能的处理器来实现关键数据的传输和保护,同时要提高处理器的硬件安全,减少非法用户对处理器的攻击。结合当前开源第五代精简指令集(Reduced Instruction Set Computing-Five,RISC-V)处理器架构优点,与现场可编程门阵列(Field Programmable Gate Array,FPGA)相结合,设计了异构处理器,提出了基于密码的安全启动模型。首先,细化RISC-V异构处理器的体系结构,设计轻量级密码启动安全模型TrustZone,实现处理器性能与安全的平衡,并结合FPGA的优点,实现定制化的专用协议与业务通信。其次,提出当前RISC-V异构处理器可实现的便捷途径,并基于此进行模型搭建和测试验证。验证结果表明,虽然采用TrustZone安全度量后处理器启动时间有所增加,但针对轻量级的处理器应用场景,在增强处理器安全的前提下,该启动时间开销是可以接受的。 展开更多
关键词 RISC-V 异构处理器 可信启动 密码协处理 TrustZone认证
在线阅读 下载PDF
适用于S-NUCA异构处理器的任务调度与热管理系统 被引量:1
20
作者 周义涛 李阳 +3 位作者 韩超 赵玉来 汪玲 李建华 《计算机工程》 CAS CSCD 北大核心 2024年第2期196-205,共10页
异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调... 异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调度算法在面对基于S-NUCA的多核处理器时忽略了核心之间的缓存访问延迟,且传统热管理方案只提供芯片级功率约束,容易使得系统因核心使用率降低而造成性能下降。为此,提出一种适用于S-NUCA异构多核系统、满足热安全约束的动态线程调度机制TSCDM。利用基于动态每周期指令(IPC)值的阶段检测技术,并基于人工神经网络预测线程的IPC值,以获取线程与核心类型的最佳绑定关系,依据S-NUCA缓存特性获得最优映射和基于任务分类的任务迁移策略。在此基础上,TSCDM基于片上热模型为每个核心实时分配功率预算。在HotSniper上运行SPLASH-2性能测试套件进行实验,结果表明,相较于传统调度方案与基于机器学习的调度方案,TSCDM在加速比和资源利用率上均表现出优势,TSCDM中使用的基于瞬态温度的安全功率算法相比传统热安全功率算法能够降低核心热余量,同时处理器的全频段均有更高的能效比。 展开更多
关键词 异构多核处理器 人工神经网络 线程调度 阶段检测 热安全功率
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部