期刊文献+
共找到492篇文章
< 1 2 25 >
每页显示 20 50 100
UNI-SPEC:An Instruction Set Description Language 被引量:2
1
作者 朱德新 Cheng +2 位作者 Xu Song Chuanhua 《High Technology Letters》 EI CAS 2003年第4期33-38,共6页
Microprocessor development emphasizes hardware and software co design. Hw/Sw co design is a modern technique aimed at shortening the time to market in designing the real time and embedded systems. Key feature of this ... Microprocessor development emphasizes hardware and software co design. Hw/Sw co design is a modern technique aimed at shortening the time to market in designing the real time and embedded systems. Key feature of this approach is simultaneous development of the program tools and the target processor to match software application. An effective co design flow must therefore support automatic software toolkits generation, without loss of optimizing efficiency. This has resulted in a paradigm shift towards a language based design methodology for microprocessor optimization and exploration. This paper proposes a formal grammar, UNI SPEC, which supports the automatic generation of assemblers, to describe the translation rules from assembly to binary. Based on UNI SPEC, it implements two typical applications, i.e., automatically generating the assembler and the test suites. 展开更多
关键词 formal grammar retargetable assembler generator instruction set architecture
在线阅读 下载PDF
Asynchronous Complex Pipeline Design Based on ARM Instruction Set 被引量:1
2
作者 王兵 王琴 +1 位作者 彭瑞华 付宇卓 《Journal of Shanghai Jiaotong university(Science)》 EI 2008年第5期568-573,共6页
This paper proposes an asynchronous complex pipeline based on ARM-V3 instruction set. Muller pipeline structure is used as prototype, and the factors which may affect pipeline performance are analyzed. To balance the ... This paper proposes an asynchronous complex pipeline based on ARM-V3 instruction set. Muller pipeline structure is used as prototype, and the factors which may affect pipeline performance are analyzed. To balance the difficulty of asynchronous design and performance analysis, both complete asynchronous and partial asynchronous structures aere designed and compared. Results of comparison with the well-Rnown industrial product ARM922T verify that about 30% and 40% performance improvement of the partiM and complete asynchronous complex pipelines can be obtained respectively. The design methodologies can also be used in the design of other asynchronous pipelines. 展开更多
关键词 asynchronous pipeline ARM instruction set pipeline stall instruction prediction
原文传递
Analyzing and Seeking Minimum Test Instruction Set of Digital Signal Processor for Motor Control
3
作者 严伟 曹家麟 龚幼民 《Journal of Shanghai University(English Edition)》 CAS 2005年第2期147-152,共6页
The relativity of instructions of motor control digital signal processor (MCDSP) in the design is analyzed. A method for obtaining a minimum instruction set in plac e of the complete instruction set during generatio... The relativity of instructions of motor control digital signal processor (MCDSP) in the design is analyzed. A method for obtaining a minimum instruction set in plac e of the complete instruction set during generation of testing procedures is giv en in terms of the processor presentation matrix between micro-operators and in structions of MCDSP. 展开更多
关键词 minimum instruction set functional test digital signal processor(DSP).
在线阅读 下载PDF
Verification of instruction set specification for an ASIP
4
作者 纪金松 MAIER Stefan +1 位作者 聂晓宁 周学海 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2008年第4期482-486,共5页
In order to gain the great performance of ASIP, this paper discusses different aspects of an ASIP instruction set specification like syntax, encoding, constraints as welt as behaviors, and introduces our ADL model bas... In order to gain the great performance of ASIP, this paper discusses different aspects of an ASIP instruction set specification like syntax, encoding, constraints as welt as behaviors, and introduces our ADL model based methodology to check them. The automatic generation of test cases based on our straight-forward instruction representation is shown, and the efficient generation of them with good coverage is shown as well. The verification of the constraint checker, a very important tool for programmer, is performed. Results show that the toolkit can find some errors in previous delivery tools, and the introduced methodology verifies the feasibility of our instruction set specification. 展开更多
关键词 VERIFICATION ASIP instruction set specification ADL
在线阅读 下载PDF
An efficient adapting virtual intermediate instruction set towards optimized dynamic binary translator (DBT) system
5
作者 杨吟冬 管海兵 《Journal of Central South University》 SCIE EI CAS 2012年第11期3118-3128,共11页
A new efficient adapting virtual intermediate instruction set,V-IIS,is designed and implemented towards the optimized dynamic binary translator (DBT) system.With the help of this powerful but previously little-studied... A new efficient adapting virtual intermediate instruction set,V-IIS,is designed and implemented towards the optimized dynamic binary translator (DBT) system.With the help of this powerful but previously little-studied component,DBTs can not only get rid of the dependence of machine(s),but also get better performance.From our systematical study and evaluation,experimental results demonstrate that if V-IIS is well designed,without affecting the other optimizing measures,this could make DBT's performance close to those who do not have intermediate instructions.This study is an important step towards the grand goal of high performance "multi-source" and "multi-target" dynamic binary translation. 展开更多
关键词 binary translation virtual intermediate instruction set dynamic binary translator (DBT)
在线阅读 下载PDF
基于CPU-FPGA的SoC实验系统设计
6
作者 王丽杰 钱俊宏 +4 位作者 何俊峰 王蕊 贺媛 刘凤敏 张彤 《吉林大学学报(信息科学版)》 2025年第3期518-523,共6页
针对现有微电子与集成电路专业课程大多以理论为主,缺少仿真实验,FPGA(Field Progra mmable Gate Array)实操类实验项目严重不足的问题,设计了一套基于CPU(Central Processing Unit)-FPGA的SoC(System on Chip)实验系统。利用ModelSim... 针对现有微电子与集成电路专业课程大多以理论为主,缺少仿真实验,FPGA(Field Progra mmable Gate Array)实操类实验项目严重不足的问题,设计了一套基于CPU(Central Processing Unit)-FPGA的SoC(System on Chip)实验系统。利用ModelSim等仿真工具,以FPGA为开发平台实现CPU系统功能。以RISC-V(Reduced Instruction Set Computer)精简指令集为该CPU的指令集,以模块化为设计思想,从微处理器的局部到总体设计5级流水线CPU。系统融合了软硬件开发,能激发学生的学习兴趣。搭建的实验平台逐步实现CPU的配置与指令集至整个CPU的架构、编程、仿真、下载与调试,使学生对FPGA实现集成电路系统设计有深入理解,有助于专业理论课程的学习。通过将OBE(Outcomes-Based Education)教学理论应用于集成电路EDA(Electronic Design Automation)课程的仿真实验结果表明,这种设计方法与内容适用于产学研相结合,并能提高学生创新创业能力。 展开更多
关键词 中央处理器 现场可编程门阵列 实验系统 流水线技术
在线阅读 下载PDF
面向PyTorch的RVV优化
7
作者 王凡 张飞 +1 位作者 宋甫元 于佳耕 《计算机系统应用》 2025年第4期266-275,共10页
RISC-V软件生态正在加速发展,国际开源社区积极投入RISC-V软件生态,针对RISC-V主动适配和优化,积极推动RISC-V软件生态系统向前发展.PyTorch是一个开源的Python机器学习库,其在性能、开源生态、研究领域都有非常大的优势,其对x86、ARM、... RISC-V软件生态正在加速发展,国际开源社区积极投入RISC-V软件生态,针对RISC-V主动适配和优化,积极推动RISC-V软件生态系统向前发展.PyTorch是一个开源的Python机器学习库,其在性能、开源生态、研究领域都有非常大的优势,其对x86、ARM、PowerPC以及CUDA等指令集架构都提供了较好的支持.但是,在目前的RISC-V架构上,软件生态移植集中在对RISC-V标准指令集的适配,尚不能充分利用RISC-V扩展指令集优化软件生态,距离ARM、x86等成熟软件生态存在较大差距.PyTorch因缺少RISC-V V扩展(RVV)的支持,使得RISC-V平台的推理性能与同规格ARM平台差距较大.针对上述问题,本文提出了一种面向PyTorch RVV 1.0的高效开发方案,并使用RVV扩展指令集对PyTorch深度卷积算子进行针对性优化,并在K230开发板上进行了对比分析,实验结果表明,相比标量实现,利用RVV优化的深度卷积算子性能提升约1.35–3.8倍. 展开更多
关键词 RISC-V PyTorch RVV扩展指令集 深度卷积
在线阅读 下载PDF
基于多操作数的RISC-V指令集设计与功能优化方法 被引量:1
8
作者 张钰儿 席宇浩 刘鹏 《计算机工程与科学》 北大核心 2025年第6期968-975,共8页
RISC-V架构凭借其开放性和模块化的指令集架构(ISA)设计,为特定应用及其软件生态系统的定制指令集成提供了良好支持,使其能够高效处理复杂算法并执行重复性操作。然而,由于操作数数量的限制,为RISC-V处理器设计加速指令仍面临挑战。传... RISC-V架构凭借其开放性和模块化的指令集架构(ISA)设计,为特定应用及其软件生态系统的定制指令集成提供了良好支持,使其能够高效处理复杂算法并执行重复性操作。然而,由于操作数数量的限制,为RISC-V处理器设计加速指令仍面临挑战。传统处理器加速方法通常采用“2输入1输出”模型,这在一定程度上限制了复杂操作的灵活性与执行效率。为突破该限制,提出了一种多操作数增强指令集的设计方法。该方法通过引入多操作数加速机制,突破了传统模型的结构性约束,为多输入多输出任务提供了灵活的指令接口。为验证所提机制的有效性,基于Western Digital开源的RISC-V VeeR EH1处理器核实现了该设计,并在FPGA平台上进行了基准测试,涵盖SHA-256,SHA-1以及FIR/IIR滤波器等典型算法。实验结果表明,在FPGA平台上的逻辑资源开销控制在3%以内的情况下,处理器性能最高提升可达14%。与传统“2输入1输出”加速方法相比,所提出的增强指令集设计能够显著提升RISC-V在复杂任务处理中的性能,展示了其在嵌入式计算和专用加速领域的潜在优势。 展开更多
关键词 RISC-V 自定义指令 软硬件协同设计
在线阅读 下载PDF
NA-ROB:基于RISC-V超标量处理器的改进 被引量:1
9
作者 景超霞 刘杰 +1 位作者 李洪奎 刘红海 《计算机应用研究》 北大核心 2025年第2期519-522,共4页
重排序缓存(ROB)是超标量处理器中的重要模块,用于确保乱序执行的指令能够正确地完成和提交。然而,在大规模超标量处理器中,存在ROB阻塞以及ROB容量有限的问题。为了解决上述问题并提高处理器性能,提出了零寄存器分配策略,通过将没有目... 重排序缓存(ROB)是超标量处理器中的重要模块,用于确保乱序执行的指令能够正确地完成和提交。然而,在大规模超标量处理器中,存在ROB阻塞以及ROB容量有限的问题。为了解决上述问题并提高处理器性能,提出了零寄存器分配策略,通过将没有目的寄存器的指令单独存储来避免占用ROB表项。同时,引入容量可动态调整的缓存结构(AROB),将长延时指令与普通指令分别存储在ROB和AROB中,以降低长延时指令导致的阻塞。改进后的超标量处理器被命名为NA-ROB,经过SPEC 2006基准测试程序的实验评估,结果表明,NA-ROB超标量处理器相比于传统的ROB超标量处理器,平均IPC提升了66%,同时ROB的阻塞概率降低了48%。因此,所提出的改进方法显著提升了处理器的整体性能和效率。 展开更多
关键词 RISC-V指令集 超标量处理器 ROB AROB 零寄存器分配策略
在线阅读 下载PDF
基于数据流架构的NTT蝶式计算加速
10
作者 石泓博 范志华 +4 位作者 李文明 张志远 穆宇栋 叶笑春 安学军 《计算机研究与发展》 北大核心 2025年第6期1547-1561,共15页
全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景.然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限... 全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景.然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限等问题,导致其在实际应用中的性能严重受限.其中,快速数论变换(number theoretic transform,NTT)作为FHE中关键的基础算子,其性能对整个系统的效率具有决定性影响.针对NTT中的核心计算模式--蝶式(butterfly)计算,提出一种基于数据流计算模型的NTT加速架构.首先,设计面向NTT蝶式计算的RVFHE扩展指令集,定制高效的模乘与模加/模减运算单元,以提升模运算处理效率.其次,提出一种NTT数据重排方法,并结合结构化的蝶式地址生成策略,以降低跨行列数据交换的控制复杂度与访问冲突.最后,设计融合数据流驱动机制的NTT加速架构,通过数据依赖触发方式实现高效的片上调度与数据复用,从而充分挖掘操作级并行性.实验结果表明,与NVIDIA GPU相比,提出的架构获得了8.96倍的性能提升和8.53倍的能效提升;与现有的NTT加速器相比,所提架构获得了1.37倍的性能提升. 展开更多
关键词 数据流 全同态加密 NTT算法 蝶式计算 RISC-V指令集
在线阅读 下载PDF
中西医治疗缓慢性心律失常的不良事件/反应报告分析
11
作者 关之玥 张心怡 +2 位作者 张晓维 邱瑞瑾 商洪才 《中药新药与临床药理》 北大核心 2025年第8期1393-1403,共11页
目的系统回顾缓慢性心律失常临床研究及药品说明书中的不良事件/反应的情况,并分析不良事件/反应报告的问题及对策。方法系统检索中国知网(CNKI)、万方数据知识服务平台、中国生物医学文献数据库(SinoMed)、Embase、PubMed及Cochrane Li... 目的系统回顾缓慢性心律失常临床研究及药品说明书中的不良事件/反应的情况,并分析不良事件/反应报告的问题及对策。方法系统检索中国知网(CNKI)、万方数据知识服务平台、中国生物医学文献数据库(SinoMed)、Embase、PubMed及Cochrane Library等数据库,检索时间范围为2012年1月—2022年5月,收集、筛选、提取缓慢性心律失常临床研究中报告的不良事件/反应信息,形成缓慢性心律失常临床常见不良事件/反应的初步清单。从2017年及2021年《国家医疗保险目录》、2018年《国家基本药物目录》和《世界卫生组织基本药物清单》中选择适应症包含缓慢性心律失常的药物,从药品说明书中提取药物不良反应信息。最后,综合系统评价与西药/中成药药品说明书信息提取结果,对结局指标进行规范化处理及合并。结果最终纳入85篇文献,提取得到107个不良事件/反应;纳入2种西药和4种中成药,提取37种不良反应;对结局指标进行规范化处理及合并后获得70个不良事件/反应,形成了缓慢性心律失常临床常见不良事件/反应清单。发现临床研究及药品说明书中的不良事件/反应存在指标表述不规范、分类不明确、报告有缺失等问题。结论建立缓慢性心律失常临床研究安全性评价核心指标集具有重要意义,可为研究者报告不良事件/反应提供参考,减少临床研究不良事件/反应报告的异质性,以及促进临床研究质量的提高。 展开更多
关键词 缓慢性心律失常 不良事件 不良反应 临床研究 药品说明书 安全性评价 核心指标集
原文传递
基于龙芯的EPICS实时控制器在超高温熔盐泵测试装置上的应用
12
作者 邓琦 杨峥翰 +2 位作者 韩利峰 黄丽 戴志敏 《核技术》 北大核心 2025年第8期181-188,共8页
超高温熔盐泵测试装置是一套用于研究泵、阀、换热器等关键设备在高温熔盐工况下性能的装置。为增强其控制系统的国产化程度及核心控制器的自主可控性,在国产自主指令架构LoongArch上设计研发了基于实验物理与工业控制系统(Experimental... 超高温熔盐泵测试装置是一套用于研究泵、阀、换热器等关键设备在高温熔盐工况下性能的装置。为增强其控制系统的国产化程度及核心控制器的自主可控性,在国产自主指令架构LoongArch上设计研发了基于实验物理与工业控制系统(Experimental Physics and Industrial Control System,EPICS)的实时控制器。首先将EPICS、IgH EtherCAT Master等软件移植到基于LoongArch的嵌入式开发板上,解决软件与指令架构不适配的问题,实现控制程序的编写与执行、EtherCAT主从站通讯等功能,并对控制器的最小总线扫描周期进行测试;然后,针对超高温熔盐泵测试装置的控制需求,利用自主研发的EPICS扩展插件在该控制器上实现了PID温度控制、气路流量监测等功能;最后,在实际工况下对控制器的实时性、CPU使用率等指标进行测试分析,评估控制器的性能表现。实验数据表明:该控制器的最小总线扫描周期为50 ms,控制任务执行的延迟时间最大为12.85 ms,CPU性能表现良好,满足该项目的应用需求。该控制器已成功融入超高温熔盐泵测试装置的控制系统,取代了原x86服务器,目前在稳定运行中。 展开更多
关键词 实时控制器 国产自主指令集 LoongArch 实验物理与工业控制系统 超高温熔盐泵
原文传递
ISA真的重要么?——基于Gem5的仿真调查
13
作者 李华 王永文 《计算机工程与科学》 北大核心 2025年第11期1945-1952,共8页
指令集体系结构(ISA)是芯片最底层、最核心的部分,已有的关于ISA对性能影响的研究工作通常基于物理硬件平台实现,但不同的硬件实现方案使得无法直接对比分析ISA对性能的影响。基于以上原因,使用Gem5模拟器,采用相同的硬件配置与相同版... 指令集体系结构(ISA)是芯片最底层、最核心的部分,已有的关于ISA对性能影响的研究工作通常基于物理硬件平台实现,但不同的硬件实现方案使得无法直接对比分析ISA对性能的影响。基于以上原因,使用Gem5模拟器,采用相同的硬件配置与相同版本的编译器,对ARM,RISC-V和x86这3种ISA进行了仿真对比。采用CoreMark,Dhrystone和Whetstone作为基准测试程序。同时,利用McPAT对功耗进行了评估。模拟结果表明,ARM ISA在性能和功耗方面优于RISC-V和x86 ISA,但ARM和RISC-V之间的差异非常细微,而ARM和x86之间的性能差距可能是由实验中使用相对较低的硬件配置引起的,并且可以通过更积极的硬件方法将差距缩小甚至逆转。研究表明,ISA并不能从根本上提高效率。 展开更多
关键词 指令集体系结构(ISA) Gem5模拟器 McPAT模拟器 微架构 仿真
在线阅读 下载PDF
基于双向搜索的指令候选集生成算法
14
作者 范旺 刘勤让 +2 位作者 赵博 高彦钊 祁晓峰 《信息工程大学学报》 2025年第2期182-188,共7页
指令候选集生成是扩展指令集处理器设计中必不可缺的一部分,但该过程也是一种计算密集型任务。为提升候选集生成效率,提出一种双向搜索后融合的算法。首先,基于数据流图的邻接表提出一种高效的连通子图搜索树建立算法;其次,在搜索树遍... 指令候选集生成是扩展指令集处理器设计中必不可缺的一部分,但该过程也是一种计算密集型任务。为提升候选集生成效率,提出一种双向搜索后融合的算法。首先,基于数据流图的邻接表提出一种高效的连通子图搜索树建立算法;其次,在搜索树遍历过程中整体采用双向并行搜索的思路来提升搜索效率,针对由不同树节点构成的子图,应用多约束裁剪优化技术来提升搜索速度。实验结果表明,所提算法能够适应多种约束条件,且性能为已有算法的1~2倍。 展开更多
关键词 候选集生成 扩展指令集 子图搜索 数据流图 指令设计
在线阅读 下载PDF
基于芯来蜂鸟E203处理器的架构优化
15
作者 李若曦 陈杰 刘威 《电子设计工程》 2025年第8期6-11,16,共7页
以国产开源RISC-V架构32位处理器蜂鸟E203为蓝本,在位操作扩展与浮点运算方面提升处理器的计算性能。原处理器在Coremark程序测试中跑分约为2.12 CoreMark/MHz,位操作扩展后达到约3.15 CoreMark/MHz,相比原处理器的Coremark跑分提高了4... 以国产开源RISC-V架构32位处理器蜂鸟E203为蓝本,在位操作扩展与浮点运算方面提升处理器的计算性能。原处理器在Coremark程序测试中跑分约为2.12 CoreMark/MHz,位操作扩展后达到约3.15 CoreMark/MHz,相比原处理器的Coremark跑分提高了49%,额外查找表资源开销仅增加15%左右,同时功耗基本维持不变。设计的浮点运算协处理单元在Whetstone程序的跑分结果为0.815 MIPS/MHz。架构优化同时包含密码学指令扩展,共支持了额外的70条RISC-V指令。优化后的处理器可以应用于高性能嵌入式计算,如音频图像等高精度数字信号处理领域。 展开更多
关键词 嵌入式处理器 RISC-V 指令集扩展 高性能
在线阅读 下载PDF
基于RISC-V Matrix指令集扩展的LLM矢量点积加速研究
16
作者 陈煦豪 胡思鹏 +3 位作者 刘洪超 刘伯然 唐丹 赵地 《计算机科学》 北大核心 2025年第5期83-90,共8页
鉴于边缘AI的高性能与低功耗需求,基于RISC-V指令集架构,针对边缘设备数字信号处理的实际问题,设计了一种边缘AI的专用指令集处理器,在有限的硬件开销下,提升了边缘AI的执行效率,降低了边缘AI的能量消耗,能够满足边缘AI应用中进行高效... 鉴于边缘AI的高性能与低功耗需求,基于RISC-V指令集架构,针对边缘设备数字信号处理的实际问题,设计了一种边缘AI的专用指令集处理器,在有限的硬件开销下,提升了边缘AI的执行效率,降低了边缘AI的能量消耗,能够满足边缘AI应用中进行高效大语言模型(LLM)推理计算的需求。针对大语言模型的特性,基于RISC-V指令集扩展了自定义指令完成矢量点积计算,在专用的矢量点积加速硬件上进行大语言模型的运算加速;基于开源高性能RISC-V处理器核“香山”nanhu版本架构,实现了矢量点积专用指令集处理器nanhu-vdot,其在高性能处理器“香山”(nanhu版本)的基础上增加了矢量点积计算单元以及流水线处理逻辑;对nanhu-vdot进行FPGA硬件测试,在几乎没有增加额外的硬件资源和功耗消耗的前提下,矢量点积运算速度相比标量方法提高4倍以上,使用软硬件协同方案进行第二代生成式预训练(Generative Pre-Trained-2,GPT-2)模型推理,相比纯软件实现,速度提高了约30%。 展开更多
关键词 指令集扩展 矢量点积 软硬件协同 大语言模型推理
在线阅读 下载PDF
基于动态时序裕量压缩的高性能处理器设计
17
作者 连子涵 何卫锋 《计算机工程与科学》 北大核心 2025年第2期219-227,共9页
传统的同步电路设计方法根据静态时序分析得到的关键路径确定工作频率,但是关键路径并不是每个周期都会被激发,在关键路径和实际激发路径之间存在动态时序裕量。为此,提出了一种基于指令级时序裕量压缩的高性能处理器设计方法,旨在最大... 传统的同步电路设计方法根据静态时序分析得到的关键路径确定工作频率,但是关键路径并不是每个周期都会被激发,在关键路径和实际激发路径之间存在动态时序裕量。为此,提出了一种基于指令级时序裕量压缩的高性能处理器设计方法,旨在最大化压缩动态时序裕量从而获得性能提升。搭建了时序分析平台自动化获取指令时序;设计了一种时序编码策略,在不增加硬件开销的基础上将时序信息通过指令编码传递到硬件,并在硬件层设计了时序译码及仲裁电路,根据指令时序编码相应调节时钟周期,从而实现了指令级动态时序裕量压缩。在一款基于RISC-V指令集的超标量处理器上完成所提方法的仿真验证,结果表明,相比传统设计方法,通过该方法最高可获得31%的性能提升。 展开更多
关键词 时序裕量 高性能 处理器 RISC-V
在线阅读 下载PDF
基于LLVM的跨架构语义相同指令序列自动生成装置
18
作者 陈俊一 何先波 滕芊芊 《四川文理学院学报》 2025年第5期137-144,共8页
在芯片国产化进程中,指令集的设计直接影响芯片性能、能效及兼容性。现有研究在跨架构语义相同指令序列分析方面面临两大挑战:一是人工对比不同架构指令集效率低下,资源消耗大;二是编译器受限于指令集支持,难以自动生成最优指令组合。... 在芯片国产化进程中,指令集的设计直接影响芯片性能、能效及兼容性。现有研究在跨架构语义相同指令序列分析方面面临两大挑战:一是人工对比不同架构指令集效率低下,资源消耗大;二是编译器受限于指令集支持,难以自动生成最优指令组合。提出一种基于LLVM的跨架构语义相同指令序列自动生成方法,通过指令集组合搜索树算法和指令集判别算法,实现X86、ARM、RISC-V等多架构下语义相同指令序列的自动化生成。实验基于TSVC测试集验证表明,本方法可自动生成单一架构内不同优化阶段、不同指令集组合以及跨架构三类语义相同指令序列,生成效率较人工方式提升99%,为指令集研发和编译器优化提供了高效工具支持。 展开更多
关键词 编译器优化 芯片设计 LLVM编译器 语义相同 指令集
在线阅读 下载PDF
高校人力资源管理专业人才培养模式的优化策略 被引量:2
19
作者 雷濛 《黑龙江科学》 2025年第1期133-135,共3页
为优化高校人力资源管理专业的人才培养模式,从而提升学生的综合素质及实践能力,在问卷数据的基础上开展信度与主成分分析,讨论培养模式的侧重点。结果显示,问卷数据具有高可靠性,能为研究提供稳定的数据基础。主成分分析提取了4个主成... 为优化高校人力资源管理专业的人才培养模式,从而提升学生的综合素质及实践能力,在问卷数据的基础上开展信度与主成分分析,讨论培养模式的侧重点。结果显示,问卷数据具有高可靠性,能为研究提供稳定的数据基础。主成分分析提取了4个主成分,即课程设置、职业发展与就业、实践实习、教学设计,这4个因素在人才培养模式中发挥着关键作用。基于此,高校应优化课程体系,加强与企业合作,通过建立稳定的实习基地与实践平台增加学生的实际操作机会,以推动高校人才培养模式的创新与改革,提升学生的就业竞争力与社会适应能力。 展开更多
关键词 高校 人力资源管理专业 人才培养模式 课程设置 职业发展 实践实习 教学设计
在线阅读 下载PDF
动态翻译软件流水线代码
20
作者 廖开来 梁洪亮 《计算机系统应用》 2025年第8期197-206,共10页
动态二进制翻译(DBT)技术是一种高效的指令集仿真技术,常用于构建CPU的仿真模型.但是,该技术在仿真数字信号处理器(DSP)时面临诸多挑战.高性能DSP(例如TI的TMS320C6X系列)常采用超长指令字(VLIW)架构,而且设计了专用的硬件和指令来简化... 动态二进制翻译(DBT)技术是一种高效的指令集仿真技术,常用于构建CPU的仿真模型.但是,该技术在仿真数字信号处理器(DSP)时面临诸多挑战.高性能DSP(例如TI的TMS320C6X系列)常采用超长指令字(VLIW)架构,而且设计了专用的硬件和指令来简化软件流水线循环的使用.由于软件流水线循环代码中缺少显式的条件跳转指令和循环计数器修改操作,而且循环内的指令会被重排、重叠和屏蔽,因此使用DBT技术翻译这类循环非常困难.为此,本文提出了一种新型动态翻译方案,通过将并行执行的循环迭代串行化,生成不同状态的翻译块,以及将内循环和外循环的指令重叠并按照周期对齐,以同步翻译外循环和内循环,来正确地模拟软件流水线循环的执行.实验表明,在运行含有软件流水线的常用代码时(如dsplib),采用该翻译方案的仿真器能够得到和硬件开发板相同的结果,证明了本文方案的正确性,且本文的仿真器性能是TI官方仿真器的3.25倍. 展开更多
关键词 动态二进制翻译 超长指令字 软件流水线 数字信号处理器 指令集架构仿真
在线阅读 下载PDF
上一页 1 2 25 下一页 到第
使用帮助 返回顶部