期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
Linux中检查点(Checkpoint)的核心支持——ckpt文件系统的设计 被引量:2
1
作者 龙翔 梁震 +1 位作者 陈瑾 聊鸿斌 《计算机工程与应用》 CSCD 北大核心 2002年第6期120-122,126,共4页
检查点(Checkpoint)是一种软件容错机制,它的目的是提高系统可靠性、减少运算损失,同时检查点机制也是并行系统中进程迁移和负载平衡的基础。在一些检查点系统中,由于对进程的状态检查/状态恢复只具有用户级支持,所以有许多局限性,比如... 检查点(Checkpoint)是一种软件容错机制,它的目的是提高系统可靠性、减少运算损失,同时检查点机制也是并行系统中进程迁移和负载平衡的基础。在一些检查点系统中,由于对进程的状态检查/状态恢复只具有用户级支持,所以有许多局限性,比如不能完成进程外部状态检查。而在作者的设计与实现中由于具有了核心级的支持,所以能够充分地克服这些局限性。 展开更多
关键词 检查点 状态检查 状态恢复 ckpt文件系统 LINUX 操作系统
在线阅读 下载PDF
ResCheckpointer:Building Program Error Resilience-Aware Checkpointing Mechanism for HPC Systems
2
作者 Xiao-Hui Wei Shi-Yu Tong +2 位作者 Zhong-Ao Sun Xiang Li Heng-Shan Yue 《Journal of Computer Science & Technology》 2025年第3期671-685,共15页
The reliability of high-performance computing(HPC)is essential for program execution stability.However,as the hardware fault rate constantly increases,fault-tolerance techniques such as Checkpoint/Restart(C/R)introduc... The reliability of high-performance computing(HPC)is essential for program execution stability.However,as the hardware fault rate constantly increases,fault-tolerance techniques such as Checkpoint/Restart(C/R)introduce significant system overhead.This paper proposes Program Error Resilience-Aware Checkpointing Mechanism(ResCheckpointer)to mitigate the overhead of the C/R mechanism.The primary motivation of ResCheckpointer is that we observe that crash proneness(i.e.,the probability of the program crashing after fault occurrence)varies significantly among inter-and intra-HPC programs,which prompts us to flexibly adjust checkpoint intervals for further C/R overhead optimization.Specifically,we first construct the graph neural network(GNN)based learning paradigms to excavate the complex error propagation and effect mechanisms hidden within the HPC program’s execution flow,and propose Crash-Predictor for efficiently predicting programs’crash proneness.Based on this,we build ResCheckpointer,which equips an intelligent checkpoint interval setting strategy for HPC programs,i.e.,denser for the crash proneness stage while sparser for the error resilience stage.Experimental results show that ResCheckpointer can achieve up to 55.37%C/R cost reduction compared with the baseline C/R mechanism. 展开更多
关键词 error resilience checkpoint/restart(C/R) graph neural network(GNN) fault injection high-performance computing
原文传递
大规模计算系统故障特征及容错机制分析 被引量:3
3
作者 武林平 罗红兵 刘勇鹏 《计算机工程与科学》 CSCD 北大核心 2009年第A01期237-240,共4页
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系... 本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。 展开更多
关键词 大规模计算系统 故障 容错 断点续算
在线阅读 下载PDF
资源管理系统中基于作业检查点的自动容错 被引量:2
4
作者 曹宏嘉 卢宇彤 谢旻 《计算机工程与科学》 CSCD 北大核心 2009年第11期66-68,109,共4页
本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表... 本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间。 展开更多
关键词 容错 作业检查点/恢复 资源管理
在线阅读 下载PDF
SW-MPIFT在气象领域的应用 被引量:1
5
作者 尹万旺 杨以军 周明忠 《计算机工程与应用》 CSCD 北大核心 2006年第23期186-187,207,共3页
随着集群系统在高性能计算领域的广泛应用,用户对其功能和可靠性的要求也越来越高。文章介绍了一种可以实现保留恢复功能的MPI容错系统,以及该系统在气象模型GRAPES上的应用情况。
关键词 集群 MPI 保留恢复 容错
在线阅读 下载PDF
用户指导的多层混合检查点技术及性能优化 被引量:2
6
作者 刘勇鹏 王小平 李根 《计算机应用研究》 CSCD 北大核心 2008年第7期2097-2099,共3页
检查点机制是一种典型有效的软件容错技术。在对现有检查点实现技术综合研究的基础上,设计了一个用户指导的多层混合检查点模型uHybcr,并在IA64 Linux系统中予以实现。最后,通过对比测试对引入用户指导机制所带来的性能优化进行了验证。
关键词 多层混合检查点 IA64 性能优化 最小可恢复状态集
在线阅读 下载PDF
一种TMR容错服务器永久故障恢复机制的研究与实现 被引量:2
7
作者 刘天田 袁由光 +1 位作者 杨升春 代征 《舰船电子工程》 2005年第1期56-58,130,共4页
恢复是实现容错系统容错目的和提高系统可用性的重要环节。基于自行研制的TMR容错服务器系统 ,提出了一种以检查点为基础的进程复制恢复技术 ,主要介绍恢复机制的整体结构和实现的关键技术—检测点保存与恢复技术(checkpointing/restart)
关键词 checkpoint restarting TMR容错服务器 永久故障
在线阅读 下载PDF
一种高可靠、高可用集群计算平台的设计与实现 被引量:2
8
作者 刘天田 龚念 杨升春 《舰船电子工程》 2008年第5期143-146,共4页
高可靠与高可用已经成为高性能计算中不可或缺的要素。文章设计并实现的H3C集群系统应用对称式热备份(Symmetry Active/Active Replication)机制提高了集群关键服务的可靠性和可用性,使集群头节点(Head Node)在失效时仍能够提供不间断... 高可靠与高可用已经成为高性能计算中不可或缺的要素。文章设计并实现的H3C集群系统应用对称式热备份(Symmetry Active/Active Replication)机制提高了集群关键服务的可靠性和可用性,使集群头节点(Head Node)在失效时仍能够提供不间断的服务。在结合LAM/MPI和BLCR检查点机制的基础上开发出高可用MPI运行环境HA/MPI,有效解决了并行计算过程中计算节点(Computing Node)失效的容错难题。 展开更多
关键词 高可靠 高可用 对称式热备份 虚拟同步 LAM 检查点/恢复 进程迁移
在线阅读 下载PDF
并行作业容错自动调度环境设计
9
作者 刘杰 张亦添 +3 位作者 迟利华 徐涵 蒋杰 胡庆丰 《计算机工程与科学》 CSCD 北大核心 2009年第11期87-90,共4页
大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序。基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行... 大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序。基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法。测试结果表明,并行作业容错自动调度环境保证了checkpoint数据的完整性,并在应用程序出错退出以后,调度环境可以自动感知,自动提交运行作业,实现了并行作业无需用户干预的容错自动调度计算,避免了系统资源和计算时间的浪费。 展开更多
关键词 高性能计算 容错 checkpoint/restart 并行程序
在线阅读 下载PDF
面向OpenMP的混合检查点机制
10
作者 黄春 刘勇鹏 杨学军 《计算机科学与探索》 CSCD 2007年第2期191-199,共9页
检查点/续算是软件容错的重要途径之一。论文描述了一个系统级和应用级混合的OpenMP检查点机制,系统级支持不仅使检查点系统具有了好的透明性,并且使共享数据的保存不再由主线程单独完成,具有良好的数据局部性。应用级OpenMP协议将与Ope... 检查点/续算是软件容错的重要途径之一。论文描述了一个系统级和应用级混合的OpenMP检查点机制,系统级支持不仅使检查点系统具有了好的透明性,并且使共享数据的保存不再由主线程单独完成,具有良好的数据局部性。应用级OpenMP协议将与OpenMP相关的协议处理独立出来,提高了系统的可移植性。NPB3.2-OMP测试结果表明,检查点和续算所需要的时间开销小,能够满足大规模程序的实际需求。 展开更多
关键词 检查点系统 系统级 应用级 数据局部性 检查点机制 协议处理 时间开销 软件容错 可移植性 共享数据 测试结果 主线程 透明性 描述 论文 程序 保存
在线阅读 下载PDF
实时交互进程的并发检查点技术
11
作者 廖剑伟 李莉 +1 位作者 陈善雄 余建桥 《电子科技大学学报》 EI CAS CSCD 北大核心 2011年第4期573-576,共4页
提出了一种并发检查点技术,允许进程在设置检查点的同时尽可能保持继续执行。在拷贝进程地址空间(设置检查点的步骤之一)的同时,阻塞页面写操作并拷贝该原始页面到指定缓冲区,达到不需要在拷贝进程空间的同时停止该被设置检查点进程,最... 提出了一种并发检查点技术,允许进程在设置检查点的同时尽可能保持继续执行。在拷贝进程地址空间(设置检查点的步骤之一)的同时,阻塞页面写操作并拷贝该原始页面到指定缓冲区,达到不需要在拷贝进程空间的同时停止该被设置检查点进程,最后结合缓冲区中拷贝页面,得到具有一致性的进程状态的映像文件。实验结果表明,可以减少20%~70%被检查进程的停止时间,使得检查点的设置与进程的执行具有一定的并发性。减少被检查进程在设置检查点时的停止时间,适合实时性和交互性要求较高的进程设置检查点。 展开更多
关键词 设置检查点 并发性 实时交互进程
在线阅读 下载PDF
Linux下系统V共享内存的保存与恢复
12
作者 杨升春 代征 方蕾 《计算机与数字工程》 2005年第9期125-128,共4页
设置检查点是保存和恢复进程运行状态的一种重要技术,是实现容错、卷回调试和进程迁移的重要手段。本文研究了全透明检查点系统Epckpt在系统V共享内存方面的实现方法和不足,给出了自己的改进,从而更好地实现了系统V共享内存的保存与恢复。
关键词 检查点/恢复 容错 进程间通信 共享内存 信号量
在线阅读 下载PDF
并行可视化调试工具中检查点使能的研究与实现
13
作者 臧德华 邓倩妮 陆鑫达 《计算机应用与软件》 CSCD 北大核心 2005年第10期17-18,20,共3页
与串行程序相比,并行程序调试会遇到新的问题。首先并行程序往往需要长时间运行,从而导致并行程序调试是一个尤其费时的过程;其次并行程序调试过程中,某一次调试出现的错误在下次调试的时候不一定出现,给错误跟踪带来了很大困难。本文... 与串行程序相比,并行程序调试会遇到新的问题。首先并行程序往往需要长时间运行,从而导致并行程序调试是一个尤其费时的过程;其次并行程序调试过程中,某一次调试出现的错误在下次调试的时候不一定出现,给错误跟踪带来了很大困难。本文针对这两个问题,设计和实现了一个中间件系统,在并行调试工具XMPI中使能BLCR检查点系统的。通过该中间件,在使用XMPI调试大型MPI并行程序的时候,减少调试阶段并行程序运行时间,并且可以更好跟踪并行程序错误,提高并行程序开发效率。 展开更多
关键词 BLCR LAM-MPI XMPI使能中间件 检查点 重启 并行程序 调试工具 可视化 程序运行时间 中间件系统
在线阅读 下载PDF
基于公共云的HPC集群实现及自动伸缩闲时计算研究 被引量:2
14
作者 田永军 何万青 +1 位作者 孙相征 余洋 《计算机工程与科学》 CSCD 北大核心 2019年第7期1155-1160,共6页
对于HPC用户来说,计算成本是迁云所考虑的重要因素之一,阿里云上提供的抢占式实例,是一种按需实例,旨在降低使用公共云计算资源成本,抢占式实例市场价格是波动的,通常远低于正常的按需实例,甚至达到正常按需实例的一折。抢占式实例一般... 对于HPC用户来说,计算成本是迁云所考虑的重要因素之一,阿里云上提供的抢占式实例,是一种按需实例,旨在降低使用公共云计算资源成本,抢占式实例市场价格是波动的,通常远低于正常的按需实例,甚至达到正常按需实例的一折。抢占式实例一般会在创建时为用户保留一段最短时间,过后有可能会被释放,所以一般适用于无状态的应用场景。提出在公共云上的自动伸缩策略,其面向通用的HPC集群调度器,基于用户的应用软件类型、提交作业规律以及用户对性能和成本等多方面需求,自动在云上部署扩容计算资源,控制成本。对用户来说,可以做到“only pay for what you want and what you use”。基于公共云上丰富的资源规格类型和售卖方式,利用自动伸缩服务,抢占式实例,断点续算等技术可以配置低成本的公共云上HPC自动伸缩方案:用户提交作业的同时可以指定成本上限,自动伸缩服务自动在低于此成本的前提下寻找和扩容抢占式计算资源,同时利用断点续算功能保证作业在计算资源切换的时候可以继续运算。最后,通过LAMMPS和GROMACS两个高性能应用实例验证了该策略的可行性和有效性。 展开更多
关键词 高性能计算 公共云 自动伸缩 断点续算 闲时计算伸缩模型
在线阅读 下载PDF
ArchSim:A System-Level Parallel Simulation Platform for the Architecture Design of High Performance Computer 被引量:4
15
作者 黄永勤 李宏亮 +4 位作者 谢向辉 钱磊 郝子宇 过锋 张昆 《Journal of Computer Science & Technology》 SCIE EI CSCD 2009年第5期901-912,共12页
High performance computer (HPC) is a complex huge system, of which the architecture design meets increasing difficulties and risks. Traditional methods, such as theoretical analysis, component-level simulation and s... High performance computer (HPC) is a complex huge system, of which the architecture design meets increasing difficulties and risks. Traditional methods, such as theoretical analysis, component-level simulation and sequential simulation, are not applicable to system-level simulations of HPC systems. Even the parallel simulation using large-scale parallel machines also have many difficulties in scalability, reliability, generality, as well as efficiency. According to the current needs of HPC architecture design, this paper proposes a system-level parallel simulation platform: ArchSim. We first introduce the architecture of ArchSim simulation platform which is composed of a global server (GS), local server agents (LSA) and entities. Secondly, we emphasize some key techniques of ArchSim, including the synchronization protocol, the communication mechanism and the distributed checkpointing/restart mechanism. We then make a synthesized test of some main performance indices of ArchSim with the phold benchmark and analyze the extra overhead generated by ArchSim. Finally, based on ArchSim, we construct a parallel event-driven interconnection network simulator and a system-level simulator for a small scale HPC system with 256 processors. The results of the performance test and HPC system simulations demonstrate that ArchSim can achieve high speedup ratio and high scalability on parallel host machine and support system-level simulations for the architecture design of HPC systems. 展开更多
关键词 high performance computer architecture system-level parallel simulation synchronization protocol message communication distributed checkpointing/restart
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部