期刊文献+
共找到458篇文章
< 1 2 23 >
每页显示 20 50 100
Using Tensilica Xtensa configures a dual-core processor based-on SoC
1
作者 TU Jih -Fu WU Chang-Jo 《通讯和计算机(中英文版)》 2009年第2期1-10,共10页
关键词 多核心处理器 数字信号 计算机技术 虚拟内存
在线阅读 下载PDF
基于OpenMP的Multi-Critical分子动力学并行算法优化 被引量:4
2
作者 段振华 白明泽 豆育升 《计算机应用研究》 CSCD 北大核心 2012年第7期2432-2434,共3页
为提高分子动力学模拟在多核共享内存式服务器上的运算速度,在现有的分子动力学并行算法基础上提出了Multi-Critical算法。该算法使用手动划分力矩阵的方法,使多个线程进入不同名的临界区,并使用分块叠加的方法优化了并行算法,提高了并... 为提高分子动力学模拟在多核共享内存式服务器上的运算速度,在现有的分子动力学并行算法基础上提出了Multi-Critical算法。该算法使用手动划分力矩阵的方法,使多个线程进入不同名的临界区,并使用分块叠加的方法优化了并行算法,提高了并行效率。实验结果表明,对比之前的Critical算法,该算法的加速比和并行效率均有较大幅度的提高。 展开更多
关键词 分子动力学 并行计算 多核处理器 开放式多处理 临界区
在线阅读 下载PDF
基于FT-MT的RDSAR算法优化实现
3
作者 郑利华 杨辉 +2 位作者 文楚 王耀华 时洋 《计算机应用文摘》 2025年第9期88-93,96,共7页
合成雷达孔径(Synthetic Aperture Radar,SAR)成像回波数据量大且算法复杂,这使得其在实时应用中的实现面临挑战。针对国防科技大学自主研制的高性能异构多核数字信号处理器(Digital Signal Processor,DSP)FT-MT的体系结构特征及距离-... 合成雷达孔径(Synthetic Aperture Radar,SAR)成像回波数据量大且算法复杂,这使得其在实时应用中的实现面临挑战。针对国防科技大学自主研制的高性能异构多核数字信号处理器(Digital Signal Processor,DSP)FT-MT的体系结构特征及距离-多普勒(Range-Doppler,RD)SAR成像算法的特点,设计了一种面向多核DSP架构的高性能并行RD SAR算法。该算法基于DSP的向量部件,实现了有限脉冲响应滤波(Finite Impulse Response,FIR)、行向和列向快速傅里叶变换(Fast Fourier Transform,FFT)以及快速傅里叶逆变换(Inverse Fast Fourier Transform,IFFT)的向量化计算。同时,结合算子融合、双缓冲和多核并行的优化策略,充分发挥FT-MT架构的优势,显著提升了计算密集型算法的运行效率。实验结果表明,采用并行RD SAR算法相比传统的串行算法具有明显的性能优势;在1.0 GHz频率下,FT-MT单个DSP核处理512 kB(1024×512)图像的时间为23.23 ms,而与德州仪器(Texas Instruments,TI)TMS320C6678在1.2 GHz频率下的单核运行相比,性能加速比可高达20.536;FT-MT四核并行处理512 kB图像的时间为6.089 ms,成功实现了实时性。 展开更多
关键词 合成孔径雷达 多核数字信号处理器 距离-多普勒 向量化
在线阅读 下载PDF
利用Douglas-Peucker并行算法在多核处理器上实时综合地图线要素 被引量:12
4
作者 马劲松 沈婕 徐寿成 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2011年第12期1423-1426,1494,共5页
Douglas-Peucker算法是线要素简化的经典算法,针对其存在大量计算、难以做到实时的缺点,运用并行技术实现Douglas-Peucker算法,并在多核处理器的计算机上进行实验,验证了并行算法的效率与实时性。
关键词 地图综合 DOUGLAS-PEUCKER算法 并行算法 多核处理器 串行算法
原文传递
基于龙芯CPU的多核全系统模拟器SimOS-Goodson 被引量:16
5
作者 高翔 张福新 +3 位作者 汤彦 章隆兵 胡伟武 唐志敏 《软件学报》 EI CSCD 北大核心 2007年第4期1047-1055,共9页
随着片上多核结构成为当前高性能微处理器发展的趋势,目标工作负载也变得多样化,传统的用户级模拟器已不能适应未来体系结构的研究需要.基于SimOS全系统模拟环境,设计并实现了龙芯CPU的片上多核全系统模拟器SimOS-Goodson.在SimOS-Good... 随着片上多核结构成为当前高性能微处理器发展的趋势,目标工作负载也变得多样化,传统的用户级模拟器已不能适应未来体系结构的研究需要.基于SimOS全系统模拟环境,设计并实现了龙芯CPU的片上多核全系统模拟器SimOS-Goodson.在SimOS-Goodson的设计中运用了时序与功能分离的组织形式,并采用了一种新的值预测校验算法来解决模拟环境中的存储一致性问题.经过与真实硬件环境进行交叉校正,保证了模拟器的可信度与准确度.与用户级模拟器相比,SimOS-Goodson保持了高速、灵活的优点,又具备精确、全系统和易使用的特征.通过对完整Linux操作系统的移植,可在SimOS-Goodson所模拟的全系统环境中进行各类微体系结构和应用负载的分析与评估.在3.0GHz的Pentium4微机上,SimOS-Goodson的指令模拟速度超过300K/秒.SimOS-Goodson将会在基于龙芯CPU的片上多核体系结构研究中发挥重要作用. 展开更多
关键词 模拟器 龙芯2号处理器 全系统 多核 SimOS
在线阅读 下载PDF
一种面向多核处理器的高效并行PCA-SIFT算法 被引量:7
6
作者 刘仲 邢彬朝 陈跃跃 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第4期103-107,共5页
提出一种面向多核处理器的并行PCA-SIFT算法,采用数据级并行方法实现并行的特征提取和特征点匹配,将计算任务分配到各个DSP核并行处理,充分开发多核处理器的多级并行性。实验结果表明,并行PCA-SIFT算法对各种不同图像形变的图像具有良... 提出一种面向多核处理器的并行PCA-SIFT算法,采用数据级并行方法实现并行的特征提取和特征点匹配,将计算任务分配到各个DSP核并行处理,充分开发多核处理器的多级并行性。实验结果表明,并行PCA-SIFT算法对各种不同图像形变的图像具有良好的适应性,具有接近串行PCA-SIFT算法的图像匹配能力,平均加速比达3.12。 展开更多
关键词 并行 PCA-SIFT 图像匹配 多核处理器
在线阅读 下载PDF
多核处理器YHFT-QDSP的调试系统 被引量:4
7
作者 扈啸 李杰 +1 位作者 陈莉丽 陈书明 《计算机工程与科学》 CSCD 2008年第9期116-118,136,共4页
YHFT-QDSP是一款多核处理器。为满足其并发调试和实时调试的需要,在原有单核调试系统的基础上设计实现了多核同步调试系统和片上实时追踪系统(片上Trace)。多核同步调试提供了命令广播和断点同步触发等并发程序协同调试的功能;片上Trac... YHFT-QDSP是一款多核处理器。为满足其并发调试和实时调试的需要,在原有单核调试系统的基础上设计实现了多核同步调试系统和片上实时追踪系统(片上Trace)。多核同步调试提供了命令广播和断点同步触发等并发程序协同调试的功能;片上Trace通过专用硬件记录程序执行路径和数据读写等信息实现非入侵实时调试。本文从原理、结构和软硬件实现等方面介绍了该调试系统。 展开更多
关键词 多核调试 实时调试 片上追踪 多核处理器
在线阅读 下载PDF
基三分层互连网络和2-D Mesh的比较 被引量:1
8
作者 乔保军 石峰 计卫星 《计算机科学》 CSCD 北大核心 2007年第9期253-255,共3页
多核处理器(multi-core processor)成为高性能处理器体系结构的研究发展方向,棱间的连接方式时多核处理器性能的发挥起着重要作用。从降低节点度、减少网络链路数和缩短网络直径的角度出发,提出了一种用于片上核间互连的新型分层互连网... 多核处理器(multi-core processor)成为高性能处理器体系结构的研究发展方向,棱间的连接方式时多核处理器性能的发挥起着重要作用。从降低节点度、减少网络链路数和缩短网络直径的角度出发,提出了一种用于片上核间互连的新型分层互连网络——基三分层互连网络(THIN),该网络拓扑简单,节点度数低,网络链路数相对较少,并具有明显的层次性和对称性以及良好的扩展性。深入比较了THIN和2-D Mesh的静态度量和无阻塞延迟,比较结果表明:在网络规模较小时,THIN比2-D Mesh更宜于用来构建片上核间的通信网络。 展开更多
关键词 多核处理器 片上互连网络 2-D MESH 网络拓扑
在线阅读 下载PDF
一种面向CellBE处理器的Cell-MPI编程环境 被引量:1
9
作者 刘超 张兴军 +2 位作者 冯国富 冯景华 董小社 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第S1期59-63,共5页
设计实现了一个面向CellBE异构多核处理器的多节点MPI编程运行环境Cell-MPI,实现了包括基本的点到点通信和广播等常用通信操作集合的MPI通信库原型,目的是在有效利用SPE计算能力提高程序运行效率的同时,保持与传统MPI一致的编程模式,减... 设计实现了一个面向CellBE异构多核处理器的多节点MPI编程运行环境Cell-MPI,实现了包括基本的点到点通信和广播等常用通信操作集合的MPI通信库原型,目的是在有效利用SPE计算能力提高程序运行效率的同时,保持与传统MPI一致的编程模式,减轻应用移植给使用者带来的负担.使用通信延迟、带宽测试程序及实际应用程序对其进行了测试,测试结果表明设计实现的MPI在保持高效通信性能的同时,也有效地利用了SPE,发挥了CellBE处理器强大的计算性能. 展开更多
关键词 异构多核 CellBE处理器 消息传递接口 通信
原文传递
基于YHFT-QDSP的并行图像匹配算法 被引量:1
10
作者 刘仲 邢彬朝 扈啸 《计算机工程与科学》 CSCD 北大核心 2012年第4期47-51,共5页
提出一种基于YHFT-QDSP的并行图像匹配算法,采用数据级并行方法实现并行的特征提取和特征点匹配,充分开发了多核处理器的多级并行性。实现和评测了SIFT、SURF、PCA-SIFT的并行算法。实验结果表明,并行图像匹配算法对各种不同图像形变具... 提出一种基于YHFT-QDSP的并行图像匹配算法,采用数据级并行方法实现并行的特征提取和特征点匹配,充分开发了多核处理器的多级并行性。实现和评测了SIFT、SURF、PCA-SIFT的并行算法。实验结果表明,并行图像匹配算法对各种不同图像形变具有良好的适应性,具有接近串行算法的图像匹配能力,平均加速比达3.2。 展开更多
关键词 并行 SIFT 图像匹配 多核处理器
在线阅读 下载PDF
WPP-L2:多核处理器中共享Cache低功耗路预测算法
11
作者 方娟 郭媚 杜文娟 《计算机科学》 CSCD 北大核心 2013年第8期34-37,42,共5页
针对片上多核处理器下的二级共享Cache的能耗问题提出了基于Cache划分的路预测Cache结构WPP-L2,该结构首先对共享Cache进行公平性划分,然后采用路预测的方法降低了预测命中和失效时各自的能耗开销。实验表明,在基本保持多核处理器性能... 针对片上多核处理器下的二级共享Cache的能耗问题提出了基于Cache划分的路预测Cache结构WPP-L2,该结构首先对共享Cache进行公平性划分,然后采用路预测的方法降低了预测命中和失效时各自的能耗开销。实验表明,在基本保持多核处理器性能的同时,8核处理器系统下WPP-L2Cache比基于路预测的L2Cache的能耗延迟乘积EDP(Energy Delay Product)平均下降24.7%,比传统的L2Cache的EDP平均下降66.1%,极大地降低了L2Cache功耗。 展开更多
关键词 多核处理器 低功耗 路预测
在线阅读 下载PDF
高并行性能Intel Core i7多核处理器及其关键技术研究
12
作者 王文义 王杰 《中原工学院学报》 CAS 2011年第5期23-26,共4页
介绍了Intel Nehalem多核处理器微架构的组成及其独特的三级缓存模式,同时针对并行计算机对处理器在计算性能(Gflops)和能耗比(Mflop/W)两方面的特殊要求,介绍了Nehalem Core i7处理器所采用的一些关键技术,如超线程,QPI总线,内核加速... 介绍了Intel Nehalem多核处理器微架构的组成及其独特的三级缓存模式,同时针对并行计算机对处理器在计算性能(Gflops)和能耗比(Mflop/W)两方面的特殊要求,介绍了Nehalem Core i7处理器所采用的一些关键技术,如超线程,QPI总线,内核加速模式和SSE4.2指令集等,这些技术对高效使用并行计算机是非常必要的. 展开更多
关键词 Nehalem微架构 多核多线程处理器 超线程技术 QPI总线
在线阅读 下载PDF
基于多核处理器的高清实时MPEG-2——H.264转码器设计 被引量:2
13
作者 叶朝敏 陈颖琪 高志勇 《电视技术》 北大核心 2012年第21期15-19,共5页
基于多核处理器的并行计算为实时实现高清MPEG-2至H.264转码器提供了1种可行的实现方案。提出了1种多颗粒度的MPEG-2—H.264全解全编并行转码器设计方案,其中MPEG-2解码器采用了帧内与数据级两级并行,H.264编码器采用了帧间、帧内与数... 基于多核处理器的并行计算为实时实现高清MPEG-2至H.264转码器提供了1种可行的实现方案。提出了1种多颗粒度的MPEG-2—H.264全解全编并行转码器设计方案,其中MPEG-2解码器采用了帧内与数据级两级并行,H.264编码器采用了帧间、帧内与数据级三级并行。实验结果表明本设计不仅具有良好的并行加速比,而且可以在使用1/4的TilePro64处理器核资源的条件下完成1路实时高清转码。 展开更多
关键词 MPEG-H.264转码器 Tilera多核处理器 多粒度并行计算
在线阅读 下载PDF
SHA-2算法在多核密码处理器上的实现研究 被引量:1
14
作者 曲思源 戴紫彬 +1 位作者 李伟 戴强 《计算机应用与软件》 CSCD 2016年第4期51-55,共5页
为了找出一种适合多核密码处理器的SHA-2算法高速实现方式,提高SHA-2算法在多核密码处理器上的执行速度。首先研究SHA-256、SHA-512算法在密码处理器上的实现方式,并研究多核密码处理器的结构特点与数据传输方式,分析SHA-2算法在多核上... 为了找出一种适合多核密码处理器的SHA-2算法高速实现方式,提高SHA-2算法在多核密码处理器上的执行速度。首先研究SHA-256、SHA-512算法在密码处理器上的实现方式,并研究多核密码处理器的结构特点与数据传输方式,分析SHA-2算法在多核上的高速实现原理。然后对SHA-2算法进行任务划分,提出SHA-2在多核密码处理器上的调度与映射算法并使用软件实现调度算法。在ASIC上的仿真验证结果表明,经优化后的SHA-2算法在多核上并行执行吞吐率有了较大提升,满足性能上的需求。 展开更多
关键词 SHA-2 多核 密码处理器 任务调度与映射
在线阅读 下载PDF
基于解耦De-skew PLL的处理器低功耗同步间歇时钟系统设计 被引量:3
15
作者 杨丽琼 吴瑞阳 +1 位作者 杨梁 王焕东 《计算机学报》 EI CAS CSCD 北大核心 2022年第10期2207-2220,共14页
随着高性能处理器集成度、面积以及工作频率的不断增加,时钟动态功耗呈指数级增加,时钟分布不均导致跨时钟域的同步开销显著增大,这些问题逐渐成为制约处理器能效提升的瓶颈.通常处理器核的功耗占多核处理器整体功耗超过70%,而时钟功耗... 随着高性能处理器集成度、面积以及工作频率的不断增加,时钟动态功耗呈指数级增加,时钟分布不均导致跨时钟域的同步开销显著增大,这些问题逐渐成为制约处理器能效提升的瓶颈.通常处理器核的功耗占多核处理器整体功耗超过70%,而时钟功耗是处理器核功耗的主要组成部分.数字方式的系统动态调频DFS(Dynamic Frequency Scaling)降频的方法需要触发时钟中断例外重新配置时钟生成模块锁相环的相关寄存器,由此带来系统超过毫秒级等待时间开销;而模拟方式连续自适应调节AFS(Adaptive Frequency Scaling)频率变化过程中存在频率过冲响应会增加物理时序设计压力.与此同时功耗的调节降低要以高性能为前提.片上时钟分布长延时随PVT(Process Voltage Temperature)变化产生的不确定时钟相位偏差,为此物理设计增加时序冗余补偿会直接影响到处理器性能.本文提出了新的基于解耦去偏斜锁相环De-skew PLL(De-skew Phase Locked Loop)的同步间歇时钟系统,采用12 nm CMOS工艺实现了去偏斜锁相环的设计,并对整个系统进行了时序性能和时钟功耗的评估.该系统一方面可以利用去偏斜锁相环的远端时钟反馈技术实现不同时钟域之间的实时相位对齐,同时也可以抵抗反馈环内时钟分布延时随PVT的变化;另一方面可以利用新增加的解耦模块,无频率过冲地响应处理器核内产生的时钟间歇控制(时钟脉冲间断性停拍)信号降频,从而实现亚纳秒级时钟动态功耗控制.以12 nm工艺同步级联结构为例,每层时钟分布校准后同步偏差小于10 ps.使用16核LS3C5000处理器RTL在仿真加速平台上运行SPEC CPU 2000测试集来评估本方案对处理器核时钟功耗的影响,并进一步通过PTPX后仿真验证,结果表明,定点及浮点程序平均功耗节约分别大于4.5%和20.3%. 展开更多
关键词 多核处理器 同步间歇时钟系统 解耦去偏斜锁相环 低功耗设计
在线阅读 下载PDF
适用于S-NUCA异构处理器的任务调度与热管理系统 被引量:2
16
作者 周义涛 李阳 +3 位作者 韩超 赵玉来 汪玲 李建华 《计算机工程》 CAS CSCD 北大核心 2024年第2期196-205,共10页
异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调... 异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调度算法在面对基于S-NUCA的多核处理器时忽略了核心之间的缓存访问延迟,且传统热管理方案只提供芯片级功率约束,容易使得系统因核心使用率降低而造成性能下降。为此,提出一种适用于S-NUCA异构多核系统、满足热安全约束的动态线程调度机制TSCDM。利用基于动态每周期指令(IPC)值的阶段检测技术,并基于人工神经网络预测线程的IPC值,以获取线程与核心类型的最佳绑定关系,依据S-NUCA缓存特性获得最优映射和基于任务分类的任务迁移策略。在此基础上,TSCDM基于片上热模型为每个核心实时分配功率预算。在HotSniper上运行SPLASH-2性能测试套件进行实验,结果表明,相较于传统调度方案与基于机器学习的调度方案,TSCDM在加速比和资源利用率上均表现出优势,TSCDM中使用的基于瞬态温度的安全功率算法相比传统热安全功率算法能够降低核心热余量,同时处理器的全频段均有更高的能效比。 展开更多
关键词 异构多核处理器 人工神经网络 线程调度 阶段检测 热安全功率
在线阅读 下载PDF
基于GSLF-SSA的异构多核处理器任务调度 被引量:1
17
作者 刘齐坚 王韦刚 高鹏程 《计算机技术与发展》 2024年第7期48-54,共7页
为了提高异构多核处理器平台的计算性能,从任务调度的角度出发,提出了一种使用黄金正弦和莱维飞行机制改进的麻雀搜索算法(Fusion of Golden Sinusoidal and Levy Flight in Sparrow Search Algorithm,GSLF-SSA)来优化异构多核处理器的... 为了提高异构多核处理器平台的计算性能,从任务调度的角度出发,提出了一种使用黄金正弦和莱维飞行机制改进的麻雀搜索算法(Fusion of Golden Sinusoidal and Levy Flight in Sparrow Search Algorithm,GSLF-SSA)来优化异构多核处理器的任务调度。通过对异构任务调度的分析,将异构任务建模为DAG(Directed Acyclic Graph)任务模型,通过对其优先级进行随机编码分配,实现了GSLF-SSA算法求解域从连续到离散的映射,使该算法更能适用于异构多核任务调度之中。将DAG任务的最优调度长度作为算法的适应度值进行迭代寻优,通过与目前应用广泛的麻雀搜索算法(SSA)、混合式任务调度算法(IHSSA)、人工蜂群算法(ABC)等多种启发式算法在异构任务调度环境下的实验对比表明,GSLF-SSA能获得更优的调度长度与更短的调度执行时间。 展开更多
关键词 异构多核处理器 麻雀搜索算法 有向无环图 任务调度 黄金正弦 莱维飞行
在线阅读 下载PDF
System Architecture of Godson-3 Multi-Core Processors 被引量:7
18
作者 高翔 陈云霁 +2 位作者 王焕东 唐丹 胡伟武 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期181-191,共11页
Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This pa... Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This paper introduces the system architecture of Godson-3 from various aspects including system scalability, organization of memory hierarchy, network-on-chip, inter-chip connection and I/O subsystem. 展开更多
关键词 multi-core processor scalable interconnection cache coherent non-uniform memory access/non-uniform cache access (CC-NUMA/NUCA) MESH CROSSBAR cache coherence reliability availability and serviceability (RAS)
原文传递
基于H^3MP-16多核处理器片上软件优化
19
作者 潘鹏 潘红兵 +2 位作者 易伟 李丽 高明伦 《电子测量技术》 2010年第6期74-78,共5页
概述了本项目组自主研发设计的H3MP-16多核处理器演示系统软硬件架构,并基于这一特定的系统平台,完成了两幅图像渐入渐出的Fade in Fade out算法。为了满足系统的实时性要求,讨论了针对该算法的一些优化方法,实现了基于NoC的层次化多核... 概述了本项目组自主研发设计的H3MP-16多核处理器演示系统软硬件架构,并基于这一特定的系统平台,完成了两幅图像渐入渐出的Fade in Fade out算法。为了满足系统的实时性要求,讨论了针对该算法的一些优化方法,实现了基于NoC的层次化多核处理器系统片上软件效率的提高,使得演示系统取得了满意的演示效果。 展开更多
关键词 H3MP-16多核处理器 渐入渐出算法 NOC
在线阅读 下载PDF
基于多核处理器的L7-Filter规则匹配改进算法
20
作者 余涛 吴卫东 《计算机应用》 CSCD 北大核心 2012年第3期609-613,共5页
针对多核处理器的体系结构和网络数据流在时间上的局部性特点,提出了一种基于多核处理器的分链动态适应算法。该算法通过对网络数据流进行类型分类并根据网络数据流的时间局部性对规则链进行动态优化,从而有效减少了多核处理器下L7-Fil... 针对多核处理器的体系结构和网络数据流在时间上的局部性特点,提出了一种基于多核处理器的分链动态适应算法。该算法通过对网络数据流进行类型分类并根据网络数据流的时间局部性对规则链进行动态优化,从而有效减少了多核处理器下L7-Filter对网络数据流的匹配次数,显著提升了规则匹配效率。仿真实验结果表明:在网络数据包个数相同条件下,所提算法在性能上约有7%的提高。随着网络数据包个数的增加,性能优越性更加明显。 展开更多
关键词 多核处理器 网络数据流 L7-FILTER 时间局部性 数据包分类 动态优化
在线阅读 下载PDF
上一页 1 2 23 下一页 到第
使用帮助 返回顶部