期刊文献+
共找到119篇文章
< 1 2 6 >
每页显示 20 50 100
SIC:面向大语言模型训练的增量检查点技术
1
作者 王志强 朱文喆 +1 位作者 闫超美 李永坤 《计算机应用研究》 北大核心 2025年第11期3397-3404,共8页
大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检... 大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检查点方法(SIC)。该方法设计了分层感知的参数更新过滤算法,有效识别每层网络的重要参数更新;此外,通过动态阈值调节机制,在训练过程中实时调节参数变化阈值,确保不丢失关键更新;最后,从理论上证明了SIC对训练收敛性的影响可控。实验表明,单次迭代保存2%的数据足以保证模型的精度和收敛性;相比于最先进的全量检查点方法,在相同开销约束下SIC检查点频率提升了9~17倍,存储开销仅为3%。因此,SIC兼具了高执行效率、低存储开销的优势。 展开更多
关键词 大语言模型 容错训练 检查点技术 增量检查点
在线阅读 下载PDF
面向多样计算场景的检查点技术综述
2
作者 陈筱琳 张亚强 史宏志 《计算机应用》 北大核心 2025年第6期1922-1933,共12页
检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生... 检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生的概率增加。同时,平均故障间隔时间(MTBT)从[6.50 h,40.00 h]缩短至1.25 h。因此,作为典型容错手段的检查点技术显得越来越重要。首先,介绍多样计算场景的检查点技术近年来的发展概况,并基于现有技术的特点对它们进行分类;其次,回顾包括增量检查点、多级异步检查点、最优检查点间隔和基于故障感知的检查点这4个方向在内的最新研究进展,并总结检查点技术在面向多样计算场景时的发展趋势——动态化、智能化和主动化,以及该技术面临的挑战;最后,通过梳理优化检查点策略的主要思路和最新方法,帮助研究人员快速掌握检查点技术的现状和未来发展趋势。 展开更多
关键词 增量检查点 多级异步检查点 最优检查点间隔 动态检查点 基于故障感知的检查点
在线阅读 下载PDF
实时双机嵌入式系统容错集成优化方法研究
3
作者 郑宏云 高成 《计算机仿真》 2025年第7期385-388,427,共5页
如果每次从初始点开始执行容错控制任务会带来大量开销,造成系统利用率和实时性能不佳。为了解决上述问题,提出实时双机嵌入式系统容错集成优化方法。设置可用于故障检测的检查点,通过设定检查点使得容错任务可以随时在该点执行,通过有... 如果每次从初始点开始执行容错控制任务会带来大量开销,造成系统利用率和实时性能不佳。为了解决上述问题,提出实时双机嵌入式系统容错集成优化方法。设置可用于故障检测的检查点,通过设定检查点使得容错任务可以随时在该点执行,通过有效地利用已经执行过的任务状态,避免了从初始点开始执行任务的耗费,降低了容错控制开销,实现了系统容错性能的提升和资源利用的优化。通过在检查点中对系统故障进行类型分析,计算执行器故障概率来确定可能出现故障的执行器,并建立了以最早截止期限优先的任务调度模型。模型用于为执行器分配基版本和副本版本的运行程序,在执行器发生故障时,可启用副本版本实现实时双机嵌入式系统的容错优化。实验结果表明,所提方法应用后系统利用率和容错能力得到了明显提升,说明该方法下实时双机嵌入式系统的容错效果更好。 展开更多
关键词 容错控制 实时双机嵌入式系统 任务调度 检查点
在线阅读 下载PDF
An Optimistic Checkpoint Mechanism Based on Job Characteristics and Resource Availability for Dynamic Grids
4
作者 TAO Yongcai JIN Hai WU Song 《Wuhan University Journal of Natural Sciences》 CAS 2011年第3期213-222,共10页
In the paper, based on the job characteristics and resources availability, an optimistic checkpoint mechanism for dynamic grids(OCM4G) is proposed. It can determine whether to checkpoint a given job running on a giv... In the paper, based on the job characteristics and resources availability, an optimistic checkpoint mechanism for dynamic grids(OCM4G) is proposed. It can determine whether to checkpoint a given job running on a given resource node and establish optimal aperiodic checkpoint intervals by applying the knowledge of job characteristics and resource availability. We evaluate OCM4G over a real grid environment (ChitlaGrid) and the results show that OCM4G achieves better performance than the periodic checkpoint and the analytical method of calculating aperiodic checkpoint intervals. 展开更多
关键词 grid computing fault tolerance checkpoint MARKOV
原文传递
基于CRIU的高性能计算容器检查点技术研究 被引量:1
5
作者 陈轶阳 王小宁 +4 位作者 闫晓婷 李冠龙 赵一宁 卢莎莎 肖海力 《计算机科学》 CSCD 北大核心 2024年第9期40-50,共11页
容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更... 容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更的情况下由于环境与资源变化而出现异常。因此,容器和检查点相结合能够更好地支撑任务迁移的研究与实现。文中围绕基于CRIU(Checkpoint/Restore In Userspace)的Singularity容器检查点方案的设计和优化展开,根据检查点技术在高性能计算容器应用中的特点,在CRIU安全使用、迁移性能优化、保持网络状态方面给出了有效的解决方案,基于这些方案拓展了Singularity容器检查点功能,并且实现了原型工具Migrator来验证容器迁移性能。期望本工作能为后续实现高性能计算任务迁移提供有效的支撑。 展开更多
关键词 容器 检查点 高性能计算 热迁移 容错
在线阅读 下载PDF
高性能计算检查点技术发展与应用综述 被引量:1
6
作者 闫晓婷 王小宁 +2 位作者 董盛 赵一宁 肖海力 《计算机科学》 CSCD 北大核心 2024年第9期1-14,共14页
随着高性能计算系统的规模不断扩大,复杂度不断提升,应用的容错能力成为E级计算面临的重要挑战之一。检查点技术是实现应用程序的容错能力的主要手段之一,通过定期保存应用的执行状态来实现故障恢复。文中针对高性能计算检查点技术的发... 随着高性能计算系统的规模不断扩大,复杂度不断提升,应用的容错能力成为E级计算面临的重要挑战之一。检查点技术是实现应用程序的容错能力的主要手段之一,通过定期保存应用的执行状态来实现故障恢复。文中针对高性能计算检查点技术的发展和应用情况展开综述。首先,整理了高性能计算领域中检查点技术的发展;其次,根据运行层次的不同,分别阐述了系统层检查点和应用层检查点的工作,包括主流的工具软件、可用的检查点技术、使用的应用场景等;然后,讨论了检查点技术在并行计算的容错与弹性、HPC的调度与迁移、FPGA的调试、深度学习中的容错与忠实重放这4个方面的应用;最后,对检查点技术在高性能计算领域的下一步研究方向进行了展望。 展开更多
关键词 检查点 高性能计算 容错 调度 作业迁移
在线阅读 下载PDF
BAFT:bubble-aware fault-tolerant framework for distributed DNN training with hybrid parallelism
7
作者 Runzhe CHEN Guandong LU +6 位作者 Yakai WANG Rui ZHANG Zheng HU Yanming MIAO Zhifang CAI Jingwen LENG Minyi GUO 《Frontiers of Computer Science》 2025年第1期29-39,共11页
As deep neural networks (DNNs) have been successfully adopted in various domains, the training of these large-scale models becomes increasingly difficult and is often deployed on compute clusters composed of many devi... As deep neural networks (DNNs) have been successfully adopted in various domains, the training of these large-scale models becomes increasingly difficult and is often deployed on compute clusters composed of many devices like GPUs. However, as the size of the cluster increases, so does the possibility of failures during training. Currently, faults are mainly handled by recording checkpoints and recovering, but this approach causes large overhead and affects the training efficiency even when no error occurs. The low checkpointing frequency leads to a large loss of training time, while the high recording frequency affects the training efficiency. To solve this contradiction, we propose BAFT, a bubble-aware fault tolerant framework for hybrid parallel distributed training. BAFT can automatically analyze parallel strategies, profile the runtime information, and schedule checkpointing tasks at the granularity of pipeline stage depending on the bubble distribution in the training. It supports higher checkpoint efficiency and only introduces less than 1% time overhead, which allows us to record checkpoints at high frequency, thereby reducing the time loss in error recovery and avoiding the impact of fault tolerance on training. 展开更多
关键词 distributed training fault tolerance checkpoint pipeline parallelism error recovery
原文传递
ResCheckpointer:Building Program Error Resilience-Aware Checkpointing Mechanism for HPC Systems
8
作者 Xiao-Hui Wei Shi-Yu Tong +2 位作者 Zhong-Ao Sun Xiang Li Heng-Shan Yue 《Journal of Computer Science & Technology》 2025年第3期671-685,共15页
The reliability of high-performance computing(HPC)is essential for program execution stability.However,as the hardware fault rate constantly increases,fault-tolerance techniques such as Checkpoint/Restart(C/R)introduc... The reliability of high-performance computing(HPC)is essential for program execution stability.However,as the hardware fault rate constantly increases,fault-tolerance techniques such as Checkpoint/Restart(C/R)introduce significant system overhead.This paper proposes Program Error Resilience-Aware Checkpointing Mechanism(ResCheckpointer)to mitigate the overhead of the C/R mechanism.The primary motivation of ResCheckpointer is that we observe that crash proneness(i.e.,the probability of the program crashing after fault occurrence)varies significantly among inter-and intra-HPC programs,which prompts us to flexibly adjust checkpoint intervals for further C/R overhead optimization.Specifically,we first construct the graph neural network(GNN)based learning paradigms to excavate the complex error propagation and effect mechanisms hidden within the HPC program’s execution flow,and propose Crash-Predictor for efficiently predicting programs’crash proneness.Based on this,we build ResCheckpointer,which equips an intelligent checkpoint interval setting strategy for HPC programs,i.e.,denser for the crash proneness stage while sparser for the error resilience stage.Experimental results show that ResCheckpointer can achieve up to 55.37%C/R cost reduction compared with the baseline C/R mechanism. 展开更多
关键词 error resilience checkpoint/Restart(C/R) graph neural network(GNN) fault injection high-performance computing
原文传递
基于内存缓存的异步检查点容错技术 被引量:8
9
作者 易会战 王锋 +3 位作者 左克 杨灿群 杜云飞 马亚青 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1229-1239,共11页
高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文... 高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统.利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性. 展开更多
关键词 内存缓存 异步 检查点 容错 JASMIN
在线阅读 下载PDF
可扩展的多周期检查点设置 被引量:7
10
作者 慈轶为 张展 +2 位作者 左德承 吴智博 杨孝宗 《软件学报》 EI CSCD 北大核心 2010年第2期218-230,共13页
提出了一种多周期检查点设置方法.它允许各个进程采用不同周期进行检查点设置.为了保证一致全局检查点的向前推进,检查点周期可以根据一个P模式进行调整.在所提出的方法中,进程可以进行组划分处理,从而用于检查点周期调整的依赖跟踪可... 提出了一种多周期检查点设置方法.它允许各个进程采用不同周期进行检查点设置.为了保证一致全局检查点的向前推进,检查点周期可以根据一个P模式进行调整.在所提出的方法中,进程可以进行组划分处理,从而用于检查点周期调整的依赖跟踪可被限定在组内,同时也将使基于时间的多周期检查点设置具有较好的可扩展性. 展开更多
关键词 容错 检查点 依赖跟踪
在线阅读 下载PDF
一种面向CPU-GPU异构系统的容错方法 被引量:6
11
作者 徐新海 杨学军 +2 位作者 林宇斐 林一松 唐滔 《软件学报》 EI CSCD 北大核心 2011年第10期2538-2552,共15页
近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是... 近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是,GPU先天的可靠性缺陷势必加剧超级计算机的可靠性问题.目前,国际上关于CPU-GPU异构系统容错技术的研究工作主要将GPU从异构系统中独立出来,以每次调用为粒度对其进行容错处理.设计了一种面向CPU-GPU异构系统的Lazy容错方法,给出了基于编译指导命令的容错框架及其约束,并讨论了相关的编译实现和优化方法,最后通过实验验证了该方法的正确性.实验结果表明,与现有的容错方法相比,利用所设计的LazyFT容错方法对GPGPU(general purpose computation on graphics hardware)程序进行容错处理,可以明显降低容错代价. 展开更多
关键词 GPGPU 异构系统 容错 Lazy策略 检查点
在线阅读 下载PDF
VxWorks中任务恢复机制的设计与实现 被引量:7
12
作者 胡延苏 南秦博 +1 位作者 高昂 慕德俊 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2013年第5期48-52,共5页
软件容错技术是保证系统高可靠性及高可信性的有力工具。设计并实现了一种在VxWorks系统下基于检查点的任务恢复机制。通过对VxWorks系统下检查点文件内容的分析,采用3种方法来解决检查点的任务恢复问题:基于内存预先分配的主动内存管理... 软件容错技术是保证系统高可靠性及高可信性的有力工具。设计并实现了一种在VxWorks系统下基于检查点的任务恢复机制。通过对VxWorks系统下检查点文件内容的分析,采用3种方法来解决检查点的任务恢复问题:基于内存预先分配的主动内存管理,解决任务恢复时数据内存地址变化的问题;建立系统内核对象池,实现支持多任务之间同步和通信的内核对象的恢复;设计用户层任务恢复中间件,实现用户级检查点设置和任务恢复。最后设计基于VxWorks和PowerPC的计算平台原理样机,通过对单任务、多个单任务、多任务通讯、以及多任务协调工作4个测试用例的分析表明,所设计的基于检查点的任务恢复实现方案能正确保存任务关键信息及保证任务恢复的正确性和一致性。 展开更多
关键词 VXWORKS 软件容错 检查点 任务恢复
在线阅读 下载PDF
分布式系统中进程迁移的分析 被引量:6
13
作者 庞毅林 杨国勋 蒋翠玲 《武汉理工大学学报(交通科学与工程版)》 北大核心 2001年第3期251-254,共4页
讨论了进程迁移中检查点的设置、状态迁移、进程通信迁移以及打开文件的迁移等关键技术 .使检查点的设置避免了多米洛效应和活锁 ,也避免了在通信迁移和文件迁移后迁移进程对源目标主机的剩余依赖性 。
关键词 进程迁移 容错 检查点 实时 分布式系统 计算方法
在线阅读 下载PDF
一种基于扩展数据流分析的OpenMP程序应用级检查点机制 被引量:7
14
作者 富弘毅 丁滟 +1 位作者 宋伟 杨学军 《计算机学报》 EI CSCD 北大核心 2010年第10期1809-1822,共14页
随着多核处理器体系结构在高性能计算领域日益广泛的应用,面向共享存储并行程序的容错问题成为研究的热点.近年来,检查点技术已经成为该领域占主导地位的容错机制.目前已有一些针对OpenMP程序检查点技术的研究工作,但其中绝大多数解决... 随着多核处理器体系结构在高性能计算领域日益广泛的应用,面向共享存储并行程序的容错问题成为研究的热点.近年来,检查点技术已经成为该领域占主导地位的容错机制.目前已有一些针对OpenMP程序检查点技术的研究工作,但其中绝大多数解决方案都依赖于特殊的运行时库或硬件平台.该文提出一种编译辅助的OpenMP应用级检查点,它是一种平台无关的方案,通过面向OpenMP的扩展数据流分析选择那些"必需"的变量保存到检查点映像,从而降低容错的开销,同时通过运行一种非阻塞式的协议维护检查点的全局一致性.文章讨论了该机制的各个关键问题,并通过实验评测以及与同类工作的比较,表明了该文所提出的检查点机制在容错性能方面的优势. 展开更多
关键词 容错 共享存储 OPENMP 应用级检查点 数据流分析
在线阅读 下载PDF
基于Lustre文件系统的MPI检查点系统实现技术与性能测试 被引量:4
15
作者 谢旻 卢宇彤 +2 位作者 周恩强 曹宏嘉 杨学军 《计算机研究与发展》 EI CSCD 北大核心 2007年第10期1709-1716,共8页
基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同... 基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同协议操作利用了并行应用的近邻通信特性,通过虚连接方法减少协议的处理开销;2)采用Lustre文件系统简化检查点映像文件管理的复杂性;3)通过并行I/O操作提高性能,优化检查点映像的存储过程.实际应用的测试表明,该检查点系统具有较小的运行时间开销和良好的可扩展性. 展开更多
关键词 容错技术 MPICH2 回卷恢复 协同式检查点 LUSTRE文件系统
在线阅读 下载PDF
双机容错系统FTDC的设计与实现 被引量:3
16
作者 李凯原 左德承 +1 位作者 崔刚 杨孝宗 《计算机工程》 CAS CSCD 北大核心 1999年第8期61-62,71,共3页
给出了一种利用现有计算机和少量必要的硬件,以容错管理软件为主要手段实现的低成本双机容错系统,主要介绍了该机的容错设计、容错管理软件的实现以及关键技术等问题。
关键词 容错 双机系统 FTDC 设计
在线阅读 下载PDF
实时多任务并行计算系统的容错技术 被引量:5
17
作者 徐晓东 赵建亭 许春雷 《计算机工程与应用》 CSCD 2013年第9期33-36,101,共5页
容错技术是实时多任务并行计算系统设计中必须解决的一个关键难点。针对实时多任务并行计算系统的高可靠性和高效性的要求,介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,在检查点技术和卷回技术的基础上,提出了进... 容错技术是实时多任务并行计算系统设计中必须解决的一个关键难点。针对实时多任务并行计算系统的高可靠性和高效性的要求,介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,在检查点技术和卷回技术的基础上,提出了进行多层次、多角度的并行容错计算机系统设计和解决中途消息和孤立消息的相关方案,给出了相应的模型和技术评估,通过仿真实验证明了该模型的有效性。 展开更多
关键词 实时多任务 容错 检查点 多层次
在线阅读 下载PDF
面向云应用系统的容错即服务优化提供方法 被引量:6
18
作者 杨娜 刘靖 《软件学报》 EI CSCD 北大核心 2019年第4期1191-1202,共12页
通过提供高效且持续可用的容错服务以保障云应用系统的可靠运行是至关重要的.采用容错即服务的模式,提出了一种优化的云容错服务动态提供方法,从云应用组件的可靠性及响应时间等方面描述云应用容错需求,以常用的复制、检查点和NVP(N-ver... 通过提供高效且持续可用的容错服务以保障云应用系统的可靠运行是至关重要的.采用容错即服务的模式,提出了一种优化的云容错服务动态提供方法,从云应用组件的可靠性及响应时间等方面描述云应用容错需求,以常用的复制、检查点和NVP(N-version programming)等容错技术为基础,充分考虑容错服务动态切换开销,分别针对支撑容错服务的底层云资源是否足够的场景,给出可用容错即服务提供方案的最优化求解方法.实验结果表明,所提方法降低了云应用系统支付的容错服务费用及支撑容错服务的底层云资源的开销,提高了容错服务提供商为多个云应用实施高效、可靠容错即服务的能力. 展开更多
关键词 云计算 容错即服务 复制容错 检查点容错 最优化
在线阅读 下载PDF
双机容错系统中最佳检查点间隔的分析 被引量:3
19
作者 鄢喜爱 杨金民 田华 《计算机工程》 CAS CSCD 北大核心 2007年第5期283-284,F0003,共3页
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种... 设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。 展开更多
关键词 双机容错 回卷恢复 检查点间隔
在线阅读 下载PDF
大规模计算系统故障特征及容错机制分析 被引量:3
20
作者 武林平 罗红兵 刘勇鹏 《计算机工程与科学》 CSCD 北大核心 2009年第A01期237-240,共4页
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系... 本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。 展开更多
关键词 大规模计算系统 故障 容错 断点续算
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部