期刊文献+
共找到3,170篇文章
< 1 2 159 >
每页显示 20 50 100
针对VLIW DSP编译器弊端及异常处理方案
1
作者 韦凯 洪泽 《电子技术应用》 2026年第1期92-95,共4页
随着高性能处理器并行度要求的提高,VLIW编译器的弊端也逐步显现,如何平衡代码的正确性和性能成为首要目标。VLIW编译器无法通过有限的代码信息去深度挖掘指令并行性,从而导致指令资源冲突等问题。因此,提出一种基于内核的异常处理方案... 随着高性能处理器并行度要求的提高,VLIW编译器的弊端也逐步显现,如何平衡代码的正确性和性能成为首要目标。VLIW编译器无法通过有限的代码信息去深度挖掘指令并行性,从而导致指令资源冲突等问题。因此,提出一种基于内核的异常处理方案,在保证代码运行正确性的同时,提高指令的并行度。以C6000系列DSP为例,针对C6000编译器的弊端,开发内核异常处理方案,通过内核异常中断确保代码优化的正确性。最后通过C66x内核资源冲突的典型案例,验证了该异常处理方案的实用性,为VLIW架构处理器程序优化提供方向。 展开更多
关键词 VLIW 编译器 资源冲突 C6000 异常处理
在线阅读 下载PDF
基于网格化粒子群搜索算法的最大浮点误差并行检测方法
2
作者 冀立光 周蓓 +3 位作者 杨鸿儒 周玉畅 崔梦琦 许瑾晨 《计算机科学》 北大核心 2026年第2期124-132,共9页
浮点计算程序广泛应用于航空航天、人工智能、国防军事、金融结算等领域,浮点程序的计算精度和性能直接关系到相关应用的安全和效果。最大浮点误差值是衡量浮点计算程序精度的核心关键指标,浮点误差的累积效应也会导致难以承受的灾难,... 浮点计算程序广泛应用于航空航天、人工智能、国防军事、金融结算等领域,浮点程序的计算精度和性能直接关系到相关应用的安全和效果。最大浮点误差值是衡量浮点计算程序精度的核心关键指标,浮点误差的累积效应也会导致难以承受的灾难,因此需要研发一款精准高效的浮点数最大误差检测工具,为研究人员及时采取优化和干预措施提供支撑作用。对此,将浮点数最大误差检测问题转换为目标函数最大值搜索问题,充分发挥国产申威平台的主从架构两级并行计算模式的算力优势,深度挖掘粒子群启发式搜索算法的性能和精度潜能,采用“网格搜索、独立培养、分层汇聚、动态适应”的思想优化粒子群算法,根据搜索过程所处的不同阶段针对性地设置相关搜索参数,使得改进后的算法在搜索精度和搜索性能两个方面均有所提高。该算法为精确检测浮点数最大误差提供了一种新的实用工具和思路参考,同时进一步丰富了国产申威平台的工具库。 展开更多
关键词 浮点数 误差检测 粒子群优化算法 并行计算 申威平台
在线阅读 下载PDF
基于CompCert内存模型的智能合约中间语言的可信编译
3
作者 许颖 张亚丰 +5 位作者 许晶航 康跃馨 夏清 袁峰 左春 李玉成 《信息安全学报》 2026年第1期22-36,共15页
智能合约是区块链技术的重要组成部分之一,具有不可篡改、自动执行等特点,为去中心化应用提供了丰富的编程基础。近年来相关安全漏洞事件频发,使得智能合约的安全性研究逐渐成为热点。其中,智能合约编译器的误编译问题会令源代码编译产... 智能合约是区块链技术的重要组成部分之一,具有不可篡改、自动执行等特点,为去中心化应用提供了丰富的编程基础。近年来相关安全漏洞事件频发,使得智能合约的安全性研究逐渐成为热点。其中,智能合约编译器的误编译问题会令源代码编译产生不符合开发者原本预期的目标代码,导致部署在区块链上的代码存在安全隐患,然而现有工作较少考虑到这一问题。因此,首先从避免合约安全漏洞的原则出发,设计一种非图灵完备的智能合约领域专用语言isCL。作为可信编译的源语言,它支持复合数据类型与内置函数,以便于开发人员编写合约;然后设计可信编译器i2c的整体架构,实现以C语言子集Clight语言为目标语言的完整翻译过程;再针对基于CompCert内存模型的智能合约中间语言的翻译阶段,定义消除复合类型、出参入参合并、生成Clight三个翻译阶段的相关语法、语义,并给出语义保持性的证明思路;最后通过服装供应链分账应用实例和Solidity、Rust的编译漏洞案例来分别说明isCL语言的实用性与智能合约可信编译的有效性。本文工作为智能合约的可信编译提供了研究思路,有利于促进智能合约开发的安全性研究,为实现更加安全可信的区块链应用提供有力支撑。 展开更多
关键词 区块链 智能合约语言 领域专用语言 形式化验证 经过验证的编译器
在线阅读 下载PDF
嵌入式装置IEC61131程序编译与执行方案设计
4
作者 韩科文 陈宏君 +1 位作者 周磊 叶立文 《工业控制计算机》 2026年第3期10-11,14,共3页
为满足不同国家用户的灵活编程可配置的需求,面向国际市场销售的控制保护装置需提供用户逻辑编程功能。面向用户的编程需具备通用标准、安全可靠和高效运行的特点。将可编程控制器的国际标准IEC61131引入到电力嵌入式设备编程,面向用户... 为满足不同国家用户的灵活编程可配置的需求,面向国际市场销售的控制保护装置需提供用户逻辑编程功能。面向用户的编程需具备通用标准、安全可靠和高效运行的特点。将可编程控制器的国际标准IEC61131引入到电力嵌入式设备编程,面向用户提供标准符号库,支持用户使用功能块图、梯形图和结构化文本语言进行编程。上位机软件支持程序编辑、编译和调试功能,将用户程序编译为跨平台的中间指令,编译过程中除常规的报错提示外,还支持数组越界和除零保护等防误措施。装置侧构建了高效解释器,针对指令编写了对应的内联执行函数,在初始化过程中构建了指令执行函数表,以常规指令线性表驱动和跳转指令二次定位方式,达到了C编译器编译执行60%的效率,满足了实际应用的实时性要求。解释器调用控制保护平台标准接口,对外注册若干组输入和输出变量,支持和装置保护程序进行数据交互和人机通信配置,实现了研发核心程序和用户自定义程序的解耦开发和组件化运行。该软件已经应用于80多个国家的变电站工程,显著提升了产品的竞争力。 展开更多
关键词 嵌入式装置 逻辑编程 IEC61131 程序编译 指令执行
在线阅读 下载PDF
基于申威QEMU与可插拔RootFS的X86平台应用仿真
5
作者 刘宁海 《物联网技术》 2026年第8期62-64,69,共4页
为促进申威架构应用生态的繁荣并降低开发成本,文中提出一种在X86平台上部署申威虚拟环境的高效方案。该方案基于申威QEMU模拟器,创新性地结合可插拔式根文件系统(RootFS)设计。通过将QEMU与系统运行环境解耦,显著提升了申威虚拟环境的... 为促进申威架构应用生态的繁荣并降低开发成本,文中提出一种在X86平台上部署申威虚拟环境的高效方案。该方案基于申威QEMU模拟器,创新性地结合可插拔式根文件系统(RootFS)设计。通过将QEMU与系统运行环境解耦,显著提升了申威虚拟环境的易用性与实用性。为评估方案性能,以实际QT项目为测试用例,对比分析了申威831实体机与X86平台申威虚拟机在程序编译及启动环节的耗时。实验结果表明,所提方案能够有效支撑申威应用生态的开发与应用实践。 展开更多
关键词 申威 信创 模拟器 根文件系统 虚拟环境 应用生态 X86平台
在线阅读 下载PDF
C语言编译器关键模块的设计与实现研究
6
作者 张丽 《信息记录材料》 2026年第4期46-48,共3页
为了克服传统的C语言编译器在复杂语法结构、语义准确性、代码生成效率等方面的缺陷,本文提出了一种C语言编译器关键模块的设计方法,该方法通过改进语法分析算法、深化语义分析技术和优化代码生成技术来提升C语言编译器的整体性能。分... 为了克服传统的C语言编译器在复杂语法结构、语义准确性、代码生成效率等方面的缺陷,本文提出了一种C语言编译器关键模块的设计方法,该方法通过改进语法分析算法、深化语义分析技术和优化代码生成技术来提升C语言编译器的整体性能。分别对语法分析、语义分析、代码生成这三个主要部分进行详细设计后,使用递归下降语法分析算法结合符号表管理技术和中间代码优化技术可使编译器快速地运行。结果显示,该编译器对复杂语法规则的识别更加准确,语义分析更加彻底,代码生成速度也更快捷。 展开更多
关键词 C语言编译器 语法分析 语义分析 代码生成 模块设计
在线阅读 下载PDF
面向深度学习编译器TVM的算子融合优化
7
作者 高伟 王磊 +2 位作者 李嘉楠 李帅龙 韩林 《计算机科学》 北大核心 2025年第5期58-66,共9页
算子融合是深度学习编译器中的一种编译优化技术,能够将多个算子合并为一个大的算子,有效降低计算和访存的成本。深度学习编译器TVM的算子融合方案中将算子按照功能特性进行分类,并设计融合规则,最后采用贪心算法进行融合。这种融合方... 算子融合是深度学习编译器中的一种编译优化技术,能够将多个算子合并为一个大的算子,有效降低计算和访存的成本。深度学习编译器TVM的算子融合方案中将算子按照功能特性进行分类,并设计融合规则,最后采用贪心算法进行融合。这种融合方案存在以下问题:首先,功能特性的算子分类方式下的融合规则不够通用,会错失算子融合机会,无法实现更大粒度的融合;其次,贪心的融合算法也无法实现算子融合的最优解。针对上述问题,对TVM进行改进,提出按照算子输入输出映射类型的算子分类方式,并设计通用的算子融合规则以扩大算子融合的粒度;提出基于动态规划的融合方案搜索算法和算子融合代价评估模型,并对搜索空间进行剪枝,使得算法能够在合理时间内搜索得到优化的融合方案。为评测融合方案的有效性,在CPU以及DCU等平台上对VGG-16,Efficient-B0,MobileNet-V1,YOLO-V4等深度学习模型的融合比和推理时延进行测试,实验结果表明,相较于TVM原有融合方案,所提方案融合比平均提升了27%,推理时延平均获得了1.75的加速比。 展开更多
关键词 深度学习编译器 TVM 算子融合 融合规则 动态规划
在线阅读 下载PDF
Gradient-Guided Assembly Instruction Relocation for Adversarial Attacks Against Binary Code Similarity Detection
8
作者 Ran Wei Hui Shu 《Computers, Materials & Continua》 2026年第1期1372-1394,共23页
Transformer-based models have significantly advanced binary code similarity detection(BCSD)by leveraging their semantic encoding capabilities for efficient function matching across diverse compilation settings.Althoug... Transformer-based models have significantly advanced binary code similarity detection(BCSD)by leveraging their semantic encoding capabilities for efficient function matching across diverse compilation settings.Although adversarial examples can strategically undermine the accuracy of BCSD models and protect critical code,existing techniques predominantly depend on inserting artificial instructions,which incur high computational costs and offer limited diversity of perturbations.To address these limitations,we propose AIMA,a novel gradient-guided assembly instruction relocation method.Our method decouples the detection model into tokenization,embedding,and encoding layers to enable efficient gradient computation.Since token IDs of instructions are discrete and nondifferentiable,we compute gradients in the continuous embedding space to evaluate the influence of each token.The most critical tokens are identified by calculating the L2 norm of their embedding gradients.We then establish a mapping between instructions and their corresponding tokens to aggregate token-level importance into instructionlevel significance.To maximize adversarial impact,a sliding window algorithm selects the most influential contiguous segments for relocation,ensuring optimal perturbation with minimal length.This approach efficiently locates critical code regions without expensive search operations.The selected segments are relocated outside their original function boundaries via a jump mechanism,which preserves runtime control flow and functionality while introducing“deletion”effects in the static instruction sequence.Extensive experiments show that AIMA reduces similarity scores by up to 35.8%in state-of-the-art BCSD models.When incorporated into training data,it also enhances model robustness,achieving a 5.9%improvement in AUROC. 展开更多
关键词 Assembly instruction relocation adversary attack binary code similarity detection
在线阅读 下载PDF
SIMD-to-RVV动态二进制翻译中的跨架构编程模型适配优化 被引量:1
9
作者 赖远明 李亚龙 +3 位作者 胡瀚之 谢梦瑶 王喆 武成岗 《计算机研究与发展》 北大核心 2025年第6期1469-1491,共23页
RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大... RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大障碍之一.开发了面向RISC-V的进程级动态二进制翻译(DBT)器RVBT,用于将成熟的x86软件生态移植到RISC-V平台,加速RISC-V在HPC领域的应用进程.针对HPC程序广泛依赖SIMD指令的特性,聚焦于解决SIMD与RVV间显著的编程模型差异导致的翻译性能瓶颈问题,提出了3项创新的优化方案.x86SIMD将数据类型硬编码于操作码,而RVV需动态配置vtype和掩码寄存器,这导致直接翻译产生了大量冗余操作,严重拉低了翻译运行的效率.通过充分利用程序数据类型的局部性,优化方案可删除跨架构适配编程模型导致的冗余设置,混合使用浮点扩展和向量扩展翻译SIMD指令并按需同步数据,大幅提升了SIMD指令的翻译运行效率.3项优化方案具备通用性,也适用于ARM平台的SIMD到RVV的翻译.实验表明,以SPECCPU2006作为测试集,优化方案对csrr,vsetvl,vsetvli指令的平均动态消除率分别达到了100%,100%和56.31%,在浮点测试集上,掩码设置操作的平均动态消除率达到了74.66%,数据的平均动态同步率为67.35%.优化后的RVBT在整点和浮点测试集上的平均运行效率达到了本地执行的47.39%和40.06%,相比优化前的加速比分别为1.21和8.31,并远超QEMU18.84%和4.81%,展现出了应用于部分HPC场景的潜力. 展开更多
关键词 二进制翻译 RISC-V向量扩展 x86SIMD 跨架构编程模型适配 浮点计算 冗余设置消除 混合翻译
在线阅读 下载PDF
swJulia:面向新一代神威超级计算机的Julia语言编译系统
10
作者 沈莉 周文浩 +5 位作者 王飞 李斌 谭坚 商红慧 安虹 漆锋滨 《软件学报》 北大核心 2025年第12期5402-5422,共21页
随着异构融合体系结构在高性能计算领域的普及,挖掘其潜能并探索新的应用构建策略变得至关重要.传统的静态编译方法已无法满足复杂计算需求,动态编程语言因其灵活性和高效性而备受瞩目.Julia是一种现代的高性能动态编程语言,其基于即时... 随着异构融合体系结构在高性能计算领域的普及,挖掘其潜能并探索新的应用构建策略变得至关重要.传统的静态编译方法已无法满足复杂计算需求,动态编程语言因其灵活性和高效性而备受瞩目.Julia是一种现代的高性能动态编程语言,其基于即时编译机制,在科学计算等领域表现出色.结合申威异构众核架构特点,构建ORCJIT编译引擎并提出了动态模式下的片上存储管理方法,并以此为基础实现针对新一代神威超级计算机的Julia动态语言编译器swJulia.其不仅继承了Julia编译器的灵活性,同时还有效支持了SACA众核编程模型及运行时封装.利用swJulia编译系统,成功在新一代神威超级计算机上部署了NNQS-Transformer量子化学模拟器,并在多个维度验证了swJulia的好用性和高效性.实验结果显示,swJulia在单线程基准测试和众核加速上性能卓越,并能够有效支撑NNQS-Transformer量子化学模拟器的超大规模可扩展并行模拟. 展开更多
关键词 Julia编译器 神威超级计算机 动态链接 即时编译 量子化学模拟
在线阅读 下载PDF
基于RISC-V VLIW架构的混合指令调度算法
11
作者 李奕瑾 杜绍敏 +3 位作者 赵家程 王雪莹 查永权 崔慧敏 《软件学报》 北大核心 2025年第9期3937-3953,共17页
指令级并行是处理器体系结构研究的经典难题.VLIW架构是数字信号处理器领域中提升指令级并行的一种常用架构.VLIW架构的指令发射顺序是由编译器决定的,因此其指令级并行的性能强依赖于编译器的指令调度.为了探索RISC-V VLIW架构的扩展潜... 指令级并行是处理器体系结构研究的经典难题.VLIW架构是数字信号处理器领域中提升指令级并行的一种常用架构.VLIW架构的指令发射顺序是由编译器决定的,因此其指令级并行的性能强依赖于编译器的指令调度.为了探索RISC-V VLIW架构的扩展潜力,丰富RISC-V生态,研究RISC-V VLIW架构的指令调度算法优化.针对单个调度区域,整数线性规划调度算法能够得到调度最优解但复杂度较高,表调度算法复杂度较低但无法得到调度最优解.为了结合两种调度算法的优点,提出了一种IPC理论模型指导的混合指令调度算法,即通过IPC理论模型定位到表调度未达最优解的调度区域,再对该调度区域进一步实施整数线性规划调度算法.该理论模型基于数据流分析技术协同考虑指令依赖和硬件资源,能够以线性复杂度给出IPC的理论上界.混合调度的核心在于IPC理论模型的准确性,理论模型准确率为95.74%.在给定的测评基准上,提出的理论模型应用于混合指令调度时,能够平均认定94.62%的调度区域在表调度下已达最优解,因此仅有5.38%的调度区域需再进行整数线性规划调度.该混合调度算法能够以接近表调度的复杂度达到整数线性规划调度的调度效果. 展开更多
关键词 RISC-V 超长指令字(VLIW) 整数线性规划(ILP) 表调度 理论模型
在线阅读 下载PDF
面向昇腾处理器的高性能同步原语自动插入方法
12
作者 李帅江 张馨元 +4 位作者 赵家程 田行辉 石曦予 徐晓忻 崔慧敏 《计算机研究与发展》 北大核心 2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限... 指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平. 展开更多
关键词 昇腾处理器 同步原语 异构编程 领域定制架构 自动插入
在线阅读 下载PDF
自学习星型链空间自适应分配方法
13
作者 杜立宽 刘晨 +1 位作者 王俊陆 宋宝燕 《计算机科学》 北大核心 2025年第3期359-365,共7页
区块链分片技术是提高区块链系统吞吐量的有效方法。现有的区块链分片方法大多采用静态平行架构分片方案,未解决跨分片交易比例高的问题,导致吞吐量降低以及潜在的无限交易确认延迟。针对这些问题,提出一种基于自学习的星型链空间自适... 区块链分片技术是提高区块链系统吞吐量的有效方法。现有的区块链分片方法大多采用静态平行架构分片方案,未解决跨分片交易比例高的问题,导致吞吐量降低以及潜在的无限交易确认延迟。针对这些问题,提出一种基于自学习的星型链空间自适应分配架构。首先,针对区块链分片系统中跨分片交易比例高的问题,提出一种信标链-分片链架构吞吐量模型;其次,综合分片区块链的吞吐量和时延的关系,在星型链空间的动态决策过程中设计星型链空间奖励函数;最后,提出一种分布式多智能体强化学习动态聚类方法,将每个分片作为智能体共同学习合作策略。实验结果表明,所提方法在吞吐量、跨分片交易比率和交易确认延迟等方面,相比现有方法分别约提升31.74%,35.96%和37.13%。 展开更多
关键词 区块链 分片 深度强化学习 跨分片交易
在线阅读 下载PDF
向量DSP的数组计算高效代码生成技术研究
14
作者 廖泽明 刘桂开 +1 位作者 胡勇华 谢安星 《计算机科学》 北大核心 2025年第S1期886-892,共7页
随着大规模集成电路技术不断发展,融合SIMD、VLIW等指令并行处理技术的向量DSP在高性能计算领域获得日益广泛的关注和应用。适配不同种类的算法函数库成了向量DSP的关键挑战之一。只有减少编程时重复性工作的投入,更加集中精力于基于向... 随着大规模集成电路技术不断发展,融合SIMD、VLIW等指令并行处理技术的向量DSP在高性能计算领域获得日益广泛的关注和应用。适配不同种类的算法函数库成了向量DSP的关键挑战之一。只有减少编程时重复性工作的投入,更加集中精力于基于向量DSP架构和硬件资源进行代码优化,才能有效提高应用开发效率。综合考虑向量DSP代码中的计算涉及的数据数量,提出基于模板的数组计算高效代码的自动生成方法,实现自动化的动态缓存分配,针对不连续的数据访存进行数据重排,并对标量指令进行优化,使生成的代码能够使用处理器的专用向量资源。实验结果表明,使用技术生成代码大幅度提高了获得相关函数代码的工作效率,并且生成的向量计算汇编代码平均性能达到手写汇编代码平均性能的75%左右,与标量汇编代码性能相比有平均8.7倍的加速比。 展开更多
关键词 高性能计算 代码生成 自动向量化 向量DSP
在线阅读 下载PDF
基于深度自监督学习的可微分半色调框架
15
作者 刘登峰 朱佳伟 +2 位作者 徐昊 杜晓凯 柴志雷 《湖南大学学报(自然科学版)》 北大核心 2025年第8期23-32,共10页
针对当前数字半色调算法处理速度慢以及半色调效果不佳的局限性,提出一种基于数据驱动的半色调框架.通过引入Gumbel-Softmax重参数化策略解决半色调离散选择带来的不可微分问题,实现了网络反向传播过程中的梯度无偏估计.为进一步强化半... 针对当前数字半色调算法处理速度慢以及半色调效果不佳的局限性,提出一种基于数据驱动的半色调框架.通过引入Gumbel-Softmax重参数化策略解决半色调离散选择带来的不可微分问题,实现了网络反向传播过程中的梯度无偏估计.为进一步强化半色调图像的效果,设计出一种新型蓝噪声损失函数,对半色调网点的分布予以优化.同时,提出区域置信度聚合模块,通过结合像素的空间相关性,使网络在训练过程中更加注重像素之间的交互信息.基于以上策略,通过优化半色调质量评估的期望值,构建了一个不需要标签引导的自监督可微分半色调处理框架.实验结果表明,所提出的方法不需要图像标签,能够在保持较高处理速度和较低参数复杂度的前提下,生成高质量的半色调图像,有效保留图像的局部结构信息和纹理细节.并且,该框架可灵活扩展至多级半色调处理,以适应多级打印喷头的需求. 展开更多
关键词 半色调 深度学习 梯度估计 蓝噪声特性
在线阅读 下载PDF
基于申威编译器的并行调度策略优化技术研究
16
作者 徐金龙 王庚武 +4 位作者 韩林 聂凯 李浩然 陈梦尧 刘浩浩 《计算机科学》 北大核心 2025年第9期137-143,共7页
调度策略是编译器进行并行化的重要组成部分,其作用是保持多核处理器下的负载均衡。然而,当前申威GCC编译器在进行自动并行编译流程中,默认采用静态调度划分循环的迭代次数,导致其在非规则循环结构中出现了负载不均衡的问题,影响了申威... 调度策略是编译器进行并行化的重要组成部分,其作用是保持多核处理器下的负载均衡。然而,当前申威GCC编译器在进行自动并行编译流程中,默认采用静态调度划分循环的迭代次数,导致其在非规则循环结构中出现了负载不均衡的问题,影响了申威平台并行程序的运行效率。针对这一问题,所提出的方法在权衡调度开销和负载均衡的同时结合梯式调度策略,对申威GCC原有的调度策略进行改进,提高了申威GCC编译器的并行化效率。该调度策略基于SW3231处理器,在GCC编译器功能测试套件的844个并行测试用例上进行正确性测试,并在SPEC OMP 2012测试集和4种循环类型的典型应用程序上进行性能测评。实验结果表明,相比申威GCC中标准的3种调度策略,该梯式调度算法分别最高获得了1.10和4.54的性能提升,该方法能够在科学计算程序中提高申威GCC编译器的线程级并行化效率,可为申威处理器平台并行化编译提供参考。 展开更多
关键词 OpenMP调度策略 负载均衡 梯式调度 调度开销 申威GCC
在线阅读 下载PDF
基于粒子群算法的自动向量化收益评估模型研究
17
作者 刘梦真 周清雷 +4 位作者 韩林 聂凯 李浩然 陈梦尧 刘浩浩 《计算机科学》 北大核心 2025年第7期248-254,共7页
自动向量化技术利用SIMD部件加速程序的执行,减轻了程序员的负担,是GCC编译器中的重要优化过程之一。但GCC编译器中自动向量化的收益评估模型并不准确,会影响GCC编译器是否应该进行向量化转换的判定。为了提升申威平台上的自动向量化效... 自动向量化技术利用SIMD部件加速程序的执行,减轻了程序员的负担,是GCC编译器中的重要优化过程之一。但GCC编译器中自动向量化的收益评估模型并不准确,会影响GCC编译器是否应该进行向量化转换的判定。为了提升申威平台上的自动向量化效率,基于申威平台上的GCC编译器,构建了一套新的自动向量化收益评估模型。针对申威处理器的后端指令集设计不同种类的代价,通过粒子群算法训练相对应的代价值,以提高申威平台上自动向量化收益评估模型的准确性。在SPEC2006和SPEC2017上进行了实验测试,与GCC编译器默认的收益评估模型相比,所提模型在SPEC2006课题上加速比最高提升7.6%,在SPEC2017课题上加速比最高提升5.75%,验证了模型的有效性。实验结果表明,所提出的模型可进一步完善基础自动向量化功能,提升申威平台编译系统的易用性。 展开更多
关键词 申威平台 GCC编译器 自动向量化 收益评估模型 粒子群算法
在线阅读 下载PDF
基于局部性原理的最大误差并行检测方法
18
作者 冀立光 杨鸿儒 +3 位作者 周玉畅 崔梦琦 何昊天 许瑾晨 《计算机科学》 北大核心 2025年第9期152-159,共8页
浮点数采用有限的位数来表示无限的实数进行计算,因此浮点数计算天然具有不准确性,这种不准确性可以用最大误差来度量。传统浮点数最大误差检测算法采用串行计算思维并结合经典搜索算法,当采样点数量较少时,容易将局部极大值作为全局最... 浮点数采用有限的位数来表示无限的实数进行计算,因此浮点数计算天然具有不准确性,这种不准确性可以用最大误差来度量。传统浮点数最大误差检测算法采用串行计算思维并结合经典搜索算法,当采样点数量较少时,容易将局部极大值作为全局最大值处理,从而遗漏最大误差值。如果大规模提升采样点数量,那么检测程序用时大幅增加,检测性能降低。通过应用并行计算模式指数级增加采样点数量,同步结合局部性原理在误差热点附近采用浮点动态采样策略,大幅提高检测结果的准确性。这种方法可以最大限度地发挥并行计算的算力,不仅可以提升浮点数最大误差的检测精度,还可以压缩检测程序的执行时间并提升性能,加速比可以达到1136.3,检测出的最大误差值优于当前主流检测工具,这为衡量浮点数计算指标提供了新的检测方法。 展开更多
关键词 浮点运算 并行优化 区间采样 误差检测 申威异构架构
在线阅读 下载PDF
深度学习编译器研究综述
19
作者 刘正煜 张帆 +3 位作者 祁晓峰 高彦钊 宋怡景 范旺 《计算机科学》 北大核心 2025年第8期29-44,共16页
随着人工智能的快速发展,越来越多的神经网络模型和算法相继涌现。与此同时,摩尔定律逐渐失效,新型加速器和计算机体系架构层出不穷,这推动了神经网络模型在这些新硬件平台上实现高效部署的迫切需求。在此背景下,深度学习编译器应运而... 随着人工智能的快速发展,越来越多的神经网络模型和算法相继涌现。与此同时,摩尔定律逐渐失效,新型加速器和计算机体系架构层出不穷,这推动了神经网络模型在这些新硬件平台上实现高效部署的迫切需求。在此背景下,深度学习编译器应运而生。与传统编译器不同,深度学习编译器将不同的网络模型作为输入,采用多级中间表示设计,逐层优化模型,并在编译器后端针对特定硬件架构进行优化,最终生成优化后的可执行程序。首先,介绍了深度学习编译器的通用框架,包括各个核心组件和总体流程;随后,系统地分类探讨了编译器的各类优化技术,并对近年来的研究进展进行总结,揭示了领域内的热点和发展趋势;最后,整理了现阶段的深度学习编译器研究,并根据现有研究现状展望了未来的研究方向。 展开更多
关键词 深度学习 编译器 编译优化
在线阅读 下载PDF
大模型时代职业院校计算机实践教学的范式变革:融合AI通识三阶目标的优化路径
20
作者 卢道设 林秀红 王瑾 《电脑与电信》 2025年第12期67-73,共7页
随着大模型时代的到来,人工智能技术渗透各领域,推动产业升级,也对职业院校计算机类课程实践教学提出变革与创新需求。针对当前AI融入教学存在的目标模糊、路径零散、与岗位脱节等问题,运用文献研究、调研及案例分析法,梳理职业院校计... 随着大模型时代的到来,人工智能技术渗透各领域,推动产业升级,也对职业院校计算机类课程实践教学提出变革与创新需求。针对当前AI融入教学存在的目标模糊、路径零散、与岗位脱节等问题,运用文献研究、调研及案例分析法,梳理职业院校计算机教学现状,构建“认知—应用—创新”三阶目标实践教学优化路径,明确其内涵、特征与实践方法。结果显示,该路径可提升学生AI应用能力与创新思维,试点班级计算机实践课程考核优良率提升明显,AI技能竞赛获奖显著增加。结论表明,此路径能精准对接大模型时代人才培养需求,为教学质量提升提供实施框架,丰富AI与职业教育融合研究成果。 展开更多
关键词 人工智能 教育教学 教学改革 通识教育 优化路径
在线阅读 下载PDF
上一页 1 2 159 下一页 到第
使用帮助 返回顶部