期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
SIC:面向大语言模型训练的增量检查点技术
1
作者 王志强 朱文喆 +1 位作者 闫超美 李永坤 《计算机应用研究》 北大核心 2025年第11期3397-3404,共8页
大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检... 大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检查点方法(SIC)。该方法设计了分层感知的参数更新过滤算法,有效识别每层网络的重要参数更新;此外,通过动态阈值调节机制,在训练过程中实时调节参数变化阈值,确保不丢失关键更新;最后,从理论上证明了SIC对训练收敛性的影响可控。实验表明,单次迭代保存2%的数据足以保证模型的精度和收敛性;相比于最先进的全量检查点方法,在相同开销约束下SIC检查点频率提升了9~17倍,存储开销仅为3%。因此,SIC兼具了高执行效率、低存储开销的优势。 展开更多
关键词 大语言模型 容错训练 检查点技术 增量检查点
在线阅读 下载PDF
面向多样计算场景的检查点技术综述
2
作者 陈筱琳 张亚强 史宏志 《计算机应用》 北大核心 2025年第6期1922-1933,共12页
检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生... 检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生的概率增加。同时,平均故障间隔时间(MTBT)从[6.50 h,40.00 h]缩短至1.25 h。因此,作为典型容错手段的检查点技术显得越来越重要。首先,介绍多样计算场景的检查点技术近年来的发展概况,并基于现有技术的特点对它们进行分类;其次,回顾包括增量检查点、多级异步检查点、最优检查点间隔和基于故障感知的检查点这4个方向在内的最新研究进展,并总结检查点技术在面向多样计算场景时的发展趋势——动态化、智能化和主动化,以及该技术面临的挑战;最后,通过梳理优化检查点策略的主要思路和最新方法,帮助研究人员快速掌握检查点技术的现状和未来发展趋势。 展开更多
关键词 增量检查点 多级异步检查点 最优检查点间隔 动态检查点 基于故障感知的检查点
在线阅读 下载PDF
基于Remus的双机热备份优化机制研究 被引量:1
3
作者 邹德清 向军 +2 位作者 张晓旭 苑博阳 冯明路 《山东大学学报(理学版)》 CAS CSCD 北大核心 2014年第9期50-55,61,共7页
双机热备技术是虚拟化系统提高其高可用性的一种可靠的解决方案。双机热备技术一般都采用不断生成检查点的方法,将主节点上实时的状态更新传送到备份节点上面以实现主备份节点之间的状态同步。该系统在热备过程中如果遇到内存密集型应用... 双机热备技术是虚拟化系统提高其高可用性的一种可靠的解决方案。双机热备技术一般都采用不断生成检查点的方法,将主节点上实时的状态更新传送到备份节点上面以实现主备份节点之间的状态同步。该系统在热备过程中如果遇到内存密集型应用时,传统的检查点技术会造成带宽的延迟,进而影响虚拟机双机热备的高可用性,或者在热备过程中心跳线失效而导致系统对主备虚拟机状态发生误判,从而导致系统不能正常运行。基于Remus系统的双机热备方式,提出了两种优化方案:第一是增量检查点压缩机制,第二是客户端辅助判断主虚拟机状态机制。实验测试表明,基于XOR-RLE的增量检查点压缩算法有效降低了内存密集型应用导致的带宽延迟,同时也验证了面向客户端的热备机制可大幅减少热备过程中系统误判的产生。 展开更多
关键词 虚拟机 双机热备 高可用性 增量检查点压缩 内存密集型
原文传递
并行离散事件仿真中增量状态保存技术研究 被引量:2
4
作者 王学慧 张磊 +1 位作者 方粮 陈国强 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期235-238,共4页
并行仿真技术广泛应用于复杂系统仿真以及实时仿真中,回退是影响乐观并行仿真性能的关键因素.首先阐明回退与乐观同步算法的关系,然后讨论了回退中的增量状态保存技术,最后对其进行了建模和理论分析,并通过实验测试了增量状态保存策略... 并行仿真技术广泛应用于复杂系统仿真以及实时仿真中,回退是影响乐观并行仿真性能的关键因素.首先阐明回退与乐观同步算法的关系,然后讨论了回退中的增量状态保存技术,最后对其进行了建模和理论分析,并通过实验测试了增量状态保存策略的性能. 展开更多
关键词 并行离散事件仿真 回退机制 增量状态保存 性能分析 检查点
在线阅读 下载PDF
虚拟机内存轻量级检查点研究
5
作者 羌卫中 刘玲 邹德清 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第11期1-5,共5页
针对传统的虚拟机检查点粒度大和做检查点时停机时间长的问题,采用空闲内存页面排空、写时复制和增量检查点来解决传统虚拟机检查点的问题,通过这三项技术使检查点技术轻量化.空闲内存页面排空通过在检查点中排除空闲页面,可以减少虚拟... 针对传统的虚拟机检查点粒度大和做检查点时停机时间长的问题,采用空闲内存页面排空、写时复制和增量检查点来解决传统虚拟机检查点的问题,通过这三项技术使检查点技术轻量化.空闲内存页面排空通过在检查点中排除空闲页面,可以减少虚拟机检查点文件的大小;写时复制通过在虚拟机内存写入时进行内存页面复制,可以减少做检查点的时间;增量检查点通过内存增量页面的计算,检查点只包含增量信息,可以减少虚拟机检查点文件的大小.在虚拟化平台Xen上的实验结果表明:采用写时复制技术减少了做检查点过程中虚拟机的停机时间,停机时间不超过300ms,并可使检查点这一过程对上层应用透明;采用内存排空技术和增量技术来做检查点,使得检查点文件的大小减少20%. 展开更多
关键词 虚拟机 检查点 写时复制 增量检查点 内存排空
原文传递
改进的快速N+1奇偶校验检查点
6
作者 周军海 张大方 杨金民 《计算机工程与科学》 CSCD 2005年第4期11-13,共3页
本文运用缓冲区和增量有盘检查点相结合的技术提出了一个快速可靠的改进 N+1 奇偶校验检查点方案。在N个应用进程运行时,通过设置一个专用的检查点进程来实现 N+1 的奇偶校验,并且利用检查点机在检查点间隔的空闲时间将增量的奇偶校验... 本文运用缓冲区和增量有盘检查点相结合的技术提出了一个快速可靠的改进 N+1 奇偶校验检查点方案。在N个应用进程运行时,通过设置一个专用的检查点进程来实现 N+1 的奇偶校验,并且利用检查点机在检查点间隔的空闲时间将增量的奇偶校验检查点信息保存到稳定的存储器中。改进的算法利用了无盘检查点方案的快速及磁盘检查点的高可靠性,减少了一台备份处理机,并且可容忍一个应用进程及一个检查点进程的两个并发错误。 展开更多
关键词 软件工程 软件开发 软件容错 N+1奇偶校验检查点
在线阅读 下载PDF
容错实时系统的内存管理优化方案及实现
7
作者 黎忠文 郑建仙 罗仁泽 《航空计算技术》 2007年第3期63-65,82,共4页
探讨如何把抢占门限应用于具有优先级提升和内存受限的实时系统,并进一步研究了互不抢占组内,linux平台上基于增量检测点的内存备份/恢复的方法及原型系统的实现。原型系统采用了可扩展的链接方式作为检测点文件格式,使得数据更加紧凑有... 探讨如何把抢占门限应用于具有优先级提升和内存受限的实时系统,并进一步研究了互不抢占组内,linux平台上基于增量检测点的内存备份/恢复的方法及原型系统的实现。原型系统采用了可扩展的链接方式作为检测点文件格式,使得数据更加紧凑有序;在内存的备份操作上,提出了“影子脏位”算法来识别两检测点之间有无被改变的部分。原型实验验证了所提出方法的有效性。 展开更多
关键词 抢占门限 内存管理 EtoC 增量检测点
在线阅读 下载PDF
采用增量检查点技术改进Condor检查点机制的研究 被引量:3
8
作者 张光辉 王丽娟 陈姗 《河南农业大学学报》 CAS CSCD 北大核心 2010年第6期718-721,共4页
分析了集群作业系统Condor中的检查点机制的实现原理,针对其在执行检查点操作时存在的对计算资源和存储资源的利用的不足,提出了使用增量检查点技术对其进行优化的方案,使得每次进行检查点操作时,只需要保存同上次检查点操作相比改变了... 分析了集群作业系统Condor中的检查点机制的实现原理,针对其在执行检查点操作时存在的对计算资源和存储资源的利用的不足,提出了使用增量检查点技术对其进行优化的方案,使得每次进行检查点操作时,只需要保存同上次检查点操作相比改变了的数据,这样可以大大降低检查点操作的空间开销和时间开销,最后通过1个矩阵运算的实例验证了改进方案的可行性. 展开更多
关键词 机群 CONDOR 高吞吐量计算 增量检查点技术
在线阅读 下载PDF
远程高性能计算环境的设计与实现技术 被引量:3
9
作者 黄倩 汪东升 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第10期1377-1380,共4页
Ri CE(remote high computing environm ent)系统旨在建立以高性能并行计算机为计算资源的远程计算环境。系统合理划分本地机和远端机的工作任务 ,引入增量更新、压缩传送、检查点设置和恢复等多种传输措施 ,并集成了负载平衡工具 ,提... Ri CE(remote high computing environm ent)系统旨在建立以高性能并行计算机为计算资源的远程计算环境。系统合理划分本地机和远端机的工作任务 ,引入增量更新、压缩传送、检查点设置和恢复等多种传输措施 ,并集成了负载平衡工具 ,提供了身份检查、日志记录等安全机制 ,改变了传统的 Telnet工作模式。具有联网、远程执行过程对用户透明、系统安全性好和适应我国低带宽、实时性差、可靠性低的网络现状的特点。用户可以以较低的成本方便地使用远程计算机系统 ,从而充分发挥高性能计算机的性能。 Ri CE系统目前已在曙光 2 0 0 0和 IBM SP2等系统上运行通过 ,表明该系统性能良好 。 展开更多
关键词 RiCE系统 系统设计 远程高性能计算环境 增量更新 检查点设置 日志记录 并行计算机
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部