期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
Research and Design of Reconfigurable Matrix Multiplication over Finite Field in VLIW Processor
1
作者 Yang Su Xiaoyuan Yang Yuechuan Wei 《China Communications》 SCIE CSCD 2016年第10期222-232,共11页
Matrix multiplication plays a pivotal role in the symmetric cipher algorithms, but it is one of the most complex and time consuming units, its performance directly affects the efficiency of cipher algorithms. Combined... Matrix multiplication plays a pivotal role in the symmetric cipher algorithms, but it is one of the most complex and time consuming units, its performance directly affects the efficiency of cipher algorithms. Combined with the characteristics of VLIW processor and matrix multiplication of symmetric cipher algorithms, this paper extracted the reconfigurable elements and analyzed the principle of matrix multiplication, then designed the reconfigurable architecture of matrix multiplication of VLIW processor further, at last we put forward single instructions for matrix multiplication between 4×1 and 4×4 matrix or two 4×4 matrix over GF(2~8), through the instructions extension, the instructions could support larger dimension operations. The experiment shows that the instructions we designed supports different dimensions matrix multiplication and improves the processing speed of multiplication greatly. 展开更多
关键词 CRYPTOGRAPHY reconfigurable matrix multiplication research and design dedicated instruction vliw processor
在线阅读 下载PDF
融合循环展开的向量VLIW体系结构软件流水研究
2
作者 汤卓悠 胡勇华 +1 位作者 程奥博 刘澎 《软件导刊》 2025年第6期95-101,共7页
基于超长指令字(VLIW)体系结构的处理器具有丰富的寄存器与计算资源,充分利用这些资源可以极大地提升程序运行速度。软件流水是位于编译器后端的一项优化技术,可以提高硬件资源利用率。目前的软件流水算法对原循环次数的考虑往往不够周... 基于超长指令字(VLIW)体系结构的处理器具有丰富的寄存器与计算资源,充分利用这些资源可以极大地提升程序运行速度。软件流水是位于编译器后端的一项优化技术,可以提高硬件资源利用率。目前的软件流水算法对原循环次数的考虑往往不够周全,得到的新循环体对寄存器资源的利用率有待提高。因此,提出一种融合循环展开的软件流水优化方法。该方法首先将循环展开,然后进行软件流水处理。一方面改进软件流水序言、主体与尾声排列方式,另一方面分析在不同启动间距下经过软件流水优化后循环主体内执行包的数量,确定最佳的软件流水启动间距。使用该方法优化后的循环体具有更高的指令调度自由度,有利于得到运行速度更快的目标代码。经过实验验证,该方法优化后的代码与仅进行循环展开优化的代码相比,平均速度提升了5%。 展开更多
关键词 vliw体系结构 高性能处理器 编译优化 软件流水 指令级并行优化
在线阅读 下载PDF
A Reconfigurable Block Cryptographic Processor Based on VLIW Architecture 被引量:11
3
作者 LI Wei ZENG Xiaoyang +2 位作者 NAN Longmei CHEN Tao DAI Zibin 《China Communications》 SCIE CSCD 2016年第1期91-99,共9页
An Efficient and flexible implementation of block ciphers is critical to achieve information security processing.Existing implementation methods such as GPP,FPGA and cryptographic application-specific ASIC provide the... An Efficient and flexible implementation of block ciphers is critical to achieve information security processing.Existing implementation methods such as GPP,FPGA and cryptographic application-specific ASIC provide the broad range of support.However,these methods could not achieve a good tradeoff between high-speed processing and flexibility.In this paper,we present a reconfigurable VLIW processor architecture targeted at block cipher processing,analyze basic operations and storage characteristics,and propose the multi-cluster register-file structure for block ciphers.As for the same operation element of block ciphers,we adopt reconfigurable technology for multiple cryptographic processing units and interconnection scheme.The proposed processor not only flexibly accomplishes the combination of multiple basic cryptographic operations,but also realizes dynamic configuration for cryptographic processing units.It has been implemented with0.18μm CMOS technology,the test results show that the frequency can reach 350 MHz.and power consumption is 420 mw.Ten kinds of block and hash ciphers were realized in the processor.The encryption throughput of AES,DES,IDEA,and SHA-1 algorithm is1554 Mbps,448Mbps,785 Mbps,and 424 Mbps respectively,the test result shows that our processor's encryption performance is significantly higher than other designs. 展开更多
关键词 Block Cipher vliw processor reconfigurable application-specific instruction-set
在线阅读 下载PDF
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器 被引量:1
4
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 vliw 多核向量处理器模型 性能模型 节拍精准模拟器
在线阅读 下载PDF
A VLIW Architecture Stream Cryptographic Processor for Information Security 被引量:4
5
作者 Longmei Nan Xuan Yang +4 位作者 Xiaoyang Zeng Wei Li Yiran Du Zibin Dai Lin Chen 《China Communications》 SCIE CSCD 2019年第6期185-199,共15页
As an important branch of information security algorithms,the efficient and flexible implementation of stream ciphers is vital.Existing implementation methods,such as FPGA,GPP and ASIC,provide a good support,but they ... As an important branch of information security algorithms,the efficient and flexible implementation of stream ciphers is vital.Existing implementation methods,such as FPGA,GPP and ASIC,provide a good support,but they could not achieve a better tradeoff between high speed processing and high flexibility.ASIC has fast processing speed,but its flexibility is poor,GPP has high flexibility,but the processing speed is slow,FPGA has high flexibility and processing speed,but the resource utilization is very low.This paper studies a stream cryptographic processor which can efficiently and flexibly implement a variety of stream cipher algorithms.By analyzing the structure model,processing characteristics and storage characteristics of stream ciphers,a reconfigurable stream cryptographic processor with special instructions based on VLIW is presented,which has separate/cluster storage structure and is oriented to stream cipher operations.The proposed instruction structure can effectively support stream cipher processing with multiple data bit widths,parallelism among stream cipher processing with different data bit widths,and parallelism among branch control and stream cipher processing with high instruction level parallelism;the designed separate/clustered special bit registers and general register heaps,key register heaps can satisfy cryptographic requirements.So the proposed processor not only flexibly accomplishes the combination of multiple basic stream cipher operations to finish stream cipher algorithms.It has been implemented with 0.18μm CMOS technology,the test results show that the frequency can reach 200 MHz,and power consumption is 310 mw.Ten kinds of stream ciphers were realized in the processor.The key stream generation throughput of Grain-80,W7,MICKEY,ACHTERBAHN and Shrink algorithm is 100 Mbps,66.67 Mbps,66.67 Mbps,50 Mbps and 800 Mbps,respectively.The test result shows that the processor presented can achieve good tradeoff between high performance and flexibility of stream ciphers. 展开更多
关键词 STREAM CIPHER vliw architecture processor RECONFIGURABLE application-specific instruction-set
在线阅读 下载PDF
基于流体系结构的VLIW二维压缩及并行解压 被引量:2
6
作者 李功丽 戴紫彬 +3 位作者 徐进辉 王寿成 朱玉飞 李丹 《电子学报》 EI CAS CSCD 北大核心 2017年第9期2256-2262,共7页
VLIW(Very Long Instruction Word)指令因为含有较多的空操作导致严重的代码体积膨胀问题,代码压缩是解决这一问题的有效措施.VLIW代码压缩需要解决三个关键问题,一是提高压缩率;二是降低解压操作对性能的影响;三是分支目标重定位.针对... VLIW(Very Long Instruction Word)指令因为含有较多的空操作导致严重的代码体积膨胀问题,代码压缩是解决这一问题的有效措施.VLIW代码压缩需要解决三个关键问题,一是提高压缩率;二是降低解压操作对性能的影响;三是分支目标重定位.针对流体系结构上的VLIW指令特点,提出了二维压缩,对VLIW进行垂直与水平两个方向上的压缩,且水平解压可以与代码执行并行,并通过设置堆栈寄存器缓存循环入口地址.实验结果表明二维压缩有效解决了VLIW代码体积膨胀问题,可以使指令存储器的面积减少36.48%,并使得整个CISP系统面积减少了7.85%. 展开更多
关键词 流处理器 vliw 二维压缩 并行解压
在线阅读 下载PDF
VLIW处理器系统级验证平台的设计与实现 被引量:3
7
作者 杨焱 侯朝焕 《电子测量与仪器学报》 CSCD 2007年第2期81-85,共5页
本文提出了一种新的VLIW处理器验证平台的实现方法。采用寄存器跟踪技术,建立了一个与RTL模型一致的抽象功能验证模型,基于VXI总线测试技术,实现了高度集成化的系统芯片验证平台,弥补了单一验证技术的不足,设计期功能仿真满足测试覆盖... 本文提出了一种新的VLIW处理器验证平台的实现方法。采用寄存器跟踪技术,建立了一个与RTL模型一致的抽象功能验证模型,基于VXI总线测试技术,实现了高度集成化的系统芯片验证平台,弥补了单一验证技术的不足,设计期功能仿真满足测试覆盖率的要求,并与板级功能测试仿真保持一致,充分证明了方法的有效性。 展开更多
关键词 功能验证 vliw处理器 寄存器跟踪 测试
在线阅读 下载PDF
一种支持同时多线程的VLIW DSP架构 被引量:12
8
作者 沈钲 孙义和 《电子学报》 EI CAS CSCD 北大核心 2010年第2期352-358,共7页
本文提出了一种支持同时多线程的动态分发超长指令字(VLIW)数字信号处理器(DSP)架构.该DSP架构上可以同时运行多个线程,功能单元可以执行来自多个线程的指令,有效地提高DSP的指令吞吐率.为了使多个线程的指令更有效地调度分发到功能单元... 本文提出了一种支持同时多线程的动态分发超长指令字(VLIW)数字信号处理器(DSP)架构.该DSP架构上可以同时运行多个线程,功能单元可以执行来自多个线程的指令,有效地提高DSP的指令吞吐率.为了使多个线程的指令更有效地调度分发到功能单元,该DSP架构还支持指令动态分发,由硬件分发单元而不是编译器来完成多线程指令的动态分配.实验结果表明,相比于单线程而言,本文提出的VLIW DSP架构可以提高功能单元利用率,隐藏存储器访问时延,使处理器的指令吞吐率平均提高约26.89%. 展开更多
关键词 同时多线程 超长指令字 数字信号处理器
在线阅读 下载PDF
VLIW处理器循环指令缓冲器设计与实现
9
作者 李勇 胡慧俐 杨焕荣 《计算机应用》 CSCD 北大核心 2014年第4期1005-1009,共5页
数字信号处理软件中循环程序在执行时间上占有很大比例,用指令缓冲器暂存循环代码可以减少程序存储器的访问次数,提高处理器性能。在VLIW处理器指令流水线中增加一个支持循环指令的缓冲器,该缓冲器能够缓存循环程序指令,并以软件流水的... 数字信号处理软件中循环程序在执行时间上占有很大比例,用指令缓冲器暂存循环代码可以减少程序存储器的访问次数,提高处理器性能。在VLIW处理器指令流水线中增加一个支持循环指令的缓冲器,该缓冲器能够缓存循环程序指令,并以软件流水的形式向功能部件派发循环程序指令。这样循环程序代码只需访存一次而执行多次,大大减少了访存次数。在循环指令运行期间,缓冲器发出信号使程序存储器进入睡眠状态可以降低处理器功耗。典型的应用程序测试表明,使用了循环缓冲后,取指流水线空闲率可达90%以上,处理器整体性能提高10%左右,而循环缓冲的硬件面积开销大约占取指流水线的9%。 展开更多
关键词 超长指令字处理器 循环程序 循环缓冲器 软件流水
在线阅读 下载PDF
分支预测与值预测在VLIW处理器中的实现 被引量:1
10
作者 李笑天 郭德源 何虎 《微电子学与计算机》 CSCD 北大核心 2015年第1期54-59,共6页
为了降低超长指令字(VLIW)架构的平均跳转开销和平均访存时延,并减少VLIW程序的代码体积,提出了一种全新的将分支预测与值预测技术应用于VLIW架构的方法.首先分析现有超标量(Superscalar)架构中动态预测技术与VLIW架构中指令静态并行之... 为了降低超长指令字(VLIW)架构的平均跳转开销和平均访存时延,并减少VLIW程序的代码体积,提出了一种全新的将分支预测与值预测技术应用于VLIW架构的方法.首先分析现有超标量(Superscalar)架构中动态预测技术与VLIW架构中指令静态并行之间所存在的矛盾;通过拓展原有跳转指令和读内存指令,使之与不同的延时槽个数相对应,并根据不同的指令来阻塞流水线或延时写回寄存器,从而解决动态预测技术造成VLIW架构静态调度周期错乱的问题.基于Gem5仿真平台和清华大学Magnolia VLIW数字信号处理器(DSP)的基准测试程序实验表明,该分支预测与值预测技术能显著地提高VLIW架构的性能,缩小VLIW程序的代码体积. 展开更多
关键词 超长指令字架构 分支预测 值预测 动态预测
在线阅读 下载PDF
面向高性能计算的流VLIW编译技术研究
11
作者 管茂林 伍楠 +3 位作者 文梅 吴伟 柴俊 张春元 《计算机工程与科学》 CSCD 2008年第7期100-104,124,共6页
本文基于斯坦福大学设计的KernelC编译器ISCD[1],针对64位流处理器体系结构,设计实现了其核心VLIW编译器,并针对高性能计算应用需求进行优化,实现了分布式寄存器负载均衡和指令自动合并技术。实验结果表明,该编译器能够很好地开发程序... 本文基于斯坦福大学设计的KernelC编译器ISCD[1],针对64位流处理器体系结构,设计实现了其核心VLIW编译器,并针对高性能计算应用需求进行优化,实现了分布式寄存器负载均衡和指令自动合并技术。实验结果表明,该编译器能够很好地开发程序中的并行性,具有较高的效率。 展开更多
关键词 流处理器 vliw 编译 指令合并 寄存器负载
在线阅读 下载PDF
异构双核SoC中的VLIW并行技术研究
12
作者 谢学军 叶以正 +1 位作者 喻明艳 王进祥 《微处理机》 2008年第4期19-22,共4页
VLIW(超长指令字)负担了音视频编解码的绝大部分运算功能,对它的负荷及结构的定量分析是SoC系统设计的核心。从音视频解码对VLIW的性能要求出发,通过对解码算法的并行性研究,给出了VLIW结构的定量分析方法。双核SoC系统采用SMIC0.18μmC... VLIW(超长指令字)负担了音视频编解码的绝大部分运算功能,对它的负荷及结构的定量分析是SoC系统设计的核心。从音视频解码对VLIW的性能要求出发,通过对解码算法的并行性研究,给出了VLIW结构的定量分析方法。双核SoC系统采用SMIC0.18μmCMOS标准单元库进行逻辑综合和优化,时钟频率为100MHz,硬件规模约为113.5万等效门。 展开更多
关键词 多媒体处理器 超长指令字 并行性 MPEG编解码
在线阅读 下载PDF
VLIW处理器可重组乘法器单元设计
13
作者 杨焱 张凯 《微处理机》 2007年第3期21-23,共3页
在VLIW多媒体芯片的设计过程中,针对传统乘法器与加法器的不足,提出了一种新的分叉华莱氏树结构的乘法器模型,采用可重用的模块化设计思想,通过重用一位全加器阵列对乘法器进行扩展,处理器可以在一个乘法器单元内部同时支持多个32/16/8... 在VLIW多媒体芯片的设计过程中,针对传统乘法器与加法器的不足,提出了一种新的分叉华莱氏树结构的乘法器模型,采用可重用的模块化设计思想,通过重用一位全加器阵列对乘法器进行扩展,处理器可以在一个乘法器单元内部同时支持多个32/16/8位的乘法运算,同时使乘法单元的速度和面积均得以优化。仿真测试表明,新的乘法器结构可有效减少FFT、滤波等信号处理以及多媒体处理中常用算法的执行周期,提高了实际运行速度,进一步增强了VLIW处理器在多媒体与信号处理运算上的能力。 展开更多
关键词 乘法器 华莱氏树 VLlW处理器 可重组
在线阅读 下载PDF
动态翻译软件流水线代码
14
作者 廖开来 梁洪亮 《计算机系统应用》 2025年第8期197-206,共10页
动态二进制翻译(DBT)技术是一种高效的指令集仿真技术,常用于构建CPU的仿真模型.但是,该技术在仿真数字信号处理器(DSP)时面临诸多挑战.高性能DSP(例如TI的TMS320C6X系列)常采用超长指令字(VLIW)架构,而且设计了专用的硬件和指令来简化... 动态二进制翻译(DBT)技术是一种高效的指令集仿真技术,常用于构建CPU的仿真模型.但是,该技术在仿真数字信号处理器(DSP)时面临诸多挑战.高性能DSP(例如TI的TMS320C6X系列)常采用超长指令字(VLIW)架构,而且设计了专用的硬件和指令来简化软件流水线循环的使用.由于软件流水线循环代码中缺少显式的条件跳转指令和循环计数器修改操作,而且循环内的指令会被重排、重叠和屏蔽,因此使用DBT技术翻译这类循环非常困难.为此,本文提出了一种新型动态翻译方案,通过将并行执行的循环迭代串行化,生成不同状态的翻译块,以及将内循环和外循环的指令重叠并按照周期对齐,以同步翻译外循环和内循环,来正确地模拟软件流水线循环的执行.实验表明,在运行含有软件流水线的常用代码时(如dsplib),采用该翻译方案的仿真器能够得到和硬件开发板相同的结果,证明了本文方案的正确性,且本文的仿真器性能是TI官方仿真器的3.25倍. 展开更多
关键词 动态二进制翻译 超长指令字 软件流水线 数字信号处理器 指令集架构仿真
在线阅读 下载PDF
VLIW架构处理器软件模拟器设计
15
作者 黄光红 王昊 《电脑知识与技术》 2014年第6X期4286-4289,共4页
分析VLIW架构处理器特点,设计周期级精确的指令集模拟器。模拟器被按照功能划分为若干具有规范接口的模块。通过修改、替换模块可快速构建新模型,具有较好的可扩展性。采用高效的二进制指令译码算法和JIT-CCS技术提高性能。实践表明,本... 分析VLIW架构处理器特点,设计周期级精确的指令集模拟器。模拟器被按照功能划分为若干具有规范接口的模块。通过修改、替换模块可快速构建新模型,具有较好的可扩展性。采用高效的二进制指令译码算法和JIT-CCS技术提高性能。实践表明,本模拟器在处理器设计过程中起到重要作用。 展开更多
关键词 超长指令字 处理器设计 指令集模拟器 周期级精确
在线阅读 下载PDF
VLIW DSP指令级精度模拟器的快速实现方法 被引量:3
16
作者 朱大林 郭德源 何虎 《计算机工程与设计》 CSCD 北大核心 2013年第1期256-261,共6页
为了以最小代价开发出超长指令字(VLIW)数字信号处理器(DSP)的指令级精度的模拟器,缩短开发周期,提出了一种基于开源模拟器(gem5)的开发方法。对gem5模拟器和VLIW DSP的指令执行流程分别进行分析,指出指令在gem5模拟器上以纯32位指令环... 为了以最小代价开发出超长指令字(VLIW)数字信号处理器(DSP)的指令级精度的模拟器,缩短开发周期,提出了一种基于开源模拟器(gem5)的开发方法。对gem5模拟器和VLIW DSP的指令执行流程分别进行分析,指出指令在gem5模拟器上以纯32位指令环境顺序执行和指令在VLIW DSP上以16/32位混合指令环境并行执行之间的矛盾是开发的难点。在gem5的顺序执行模型的基础上,通过加入并行的判决、执行机制和16/32位混合指令的取指机制建立了VLIWDSP的模型,并具体实现了一款VLIW DSP的模拟器。通过一组针对每条指令的测试程序和一组DSP典型应用程序验证了该方法的正确性和可行性。 展开更多
关键词 超长指令字(vliw) 数字信号处理器(DSP) 处理器建模 模拟器 指令级精度
在线阅读 下载PDF
基于指令前缀的专用VLIW压缩技术研究与实现 被引量:2
17
作者 姬忠宁 陈迅 +1 位作者 徐金甫 张鹏 《电子技术应用》 北大核心 2013年第4期22-25,共4页
指令槽空闲率高是VLIW处理器一直面临的问题。通过对专用VLIW处理器架构及其应用程序进行分析,提出了VLIW指令前缀压缩技术。该技术通过删除各个指令字中无效的指令槽操作来对VLIW指令字进行压缩。同时设计了解压缩电路,对压缩代码进行... 指令槽空闲率高是VLIW处理器一直面临的问题。通过对专用VLIW处理器架构及其应用程序进行分析,提出了VLIW指令前缀压缩技术。该技术通过删除各个指令字中无效的指令槽操作来对VLIW指令字进行压缩。同时设计了解压缩电路,对压缩代码进行解压缩处理。实验结果表明,该技术能够以较小的面积代价换取约47.2%的指令存储器面积的节省。 展开更多
关键词 专用vliw处理器 指令前缀压缩技术 解压缩电路 指令存储器
在线阅读 下载PDF
面向图像识别的深度学习VLIW处理器设计 被引量:2
18
作者 李林 张盛兵 吴鹃 《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第1期216-224,共9页
为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中... 为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中采用了特征图和神经元的并行处理,基于VLIW的指令级并行,多处理器簇的数据级并行以及流水线技术。FPGA原型系统测试结果表明,该处理器可有效完成图像分类和目标检测应用;当工作频率为200 MHz时,处理器的峰值性能可以达到128 GOP/s;针对选取的测试基准,该处理器的计算速度至少是CPU的12倍,是GPU的7倍;对比软件框架运行结果,处理器的测试精度的平均误差不超过1%。 展开更多
关键词 图像识别 深度学习 卷积神经网络 超长指令字(vliw) 处理器 可扩展
在线阅读 下载PDF
VLIW-Superscalar混合结构处理器分支预测结构设计 被引量:2
19
作者 杜勇 李秦华 +3 位作者 陈峰扬 郭德源 李笑天 何虎 《计算机应用与软件》 CSCD 北大核心 2014年第8期25-27,78,共4页
在一款同时支持超标量与超长指令字执行方式混合结构数字信号处理器上,为超标量结构添加分支预测功能。为控制硬件设计的复杂度,同时保证分支预测的命中率,分支预测方案使用gshare预测器。在设计完成的硬件上,运行由Open64编译器编译的D... 在一款同时支持超标量与超长指令字执行方式混合结构数字信号处理器上,为超标量结构添加分支预测功能。为控制硬件设计的复杂度,同时保证分支预测的命中率,分支预测方案使用gshare预测器。在设计完成的硬件上,运行由Open64编译器编译的Dhrystone、Coremark基准测试程序。实验结果表明,在添加分支预测功能后,处理器的性能提高30%~35%。 展开更多
关键词 超标量 超长指令字 数字信号处理器 分支预测
在线阅读 下载PDF
分簇式VLIW密码专用处理器的编译器后端优化研究 被引量:1
20
作者 吴艾青 李伟 +2 位作者 别梦妮 南龙梅 陈韬 《小型微型计算机系统》 CSCD 北大核心 2023年第10期2346-2352,共7页
密码专用处理器常采用分簇式超长指令字(Very Long Instruction Word,VLIW)架构,其性能的发挥依赖于编译器的实现.当前对于通用VLIW架构的编译后端优化方案,在密码专用处理器上都有一定的不适应性.为此,本文提出了一种面向密码专用处理... 密码专用处理器常采用分簇式超长指令字(Very Long Instruction Word,VLIW)架构,其性能的发挥依赖于编译器的实现.当前对于通用VLIW架构的编译后端优化方案,在密码专用处理器上都有一定的不适应性.为此,本文提出了一种面向密码专用处理器的、同时进行簇指派、指令调度和寄存器分配的编译器后端优化方法.构造“定值-引用”链,求解变量的候选寄存器类型集合交集,确定其寄存器类型;实时评估可用资源,进行基于优先级的指令选择和基于平衡寄存器压力的簇指派;改进线性扫描算法,基于变量的“待引用次数”列表进行实时的寄存器分配.实验结果表明,本方法能够提升生成代码的性能,且算法是非启发式的,减小了编译所需的时间. 展开更多
关键词 编译优化 密码专用处理器 超长指令字 指令调度 寄存器分配
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部