针对气象数值预报应用的特点及气象高性能计算资源调度管理的需求,基于Slurm(Simple Linux Utility for Resource Management)作业调度系统,在中国气象局派-曙光高性能计算机系统上提出了一套精细化的资源调度管理方法。该方法通过优化...针对气象数值预报应用的特点及气象高性能计算资源调度管理的需求,基于Slurm(Simple Linux Utility for Resource Management)作业调度系统,在中国气象局派-曙光高性能计算机系统上提出了一套精细化的资源调度管理方法。该方法通过优化调度策略与灵活的资源分区配置,从系统层面实现了气象实时业务运行保障与作业吞吐量、调度效率之间的平衡,实现了资源的高效利用;同时,引入服务质量(QoS)机制,动态调整作业优先级与资源配额,从用户层面进一步确保了资源分配的公平性与调度灵活性。系统资源使用及作业运行数据表明,该方法在保障气象实时业务稳定运行的同时,有效提高了研发作业的完成效率,确保系统整体资源的高效利用,在派-曙光高性能计算机系统上取得了良好的应用效果,对高性能计算资源在复杂应用场景下的合理调度和利用具有很好的实用性和参考意义。展开更多
文摘针对气象数值预报应用的特点及气象高性能计算资源调度管理的需求,基于Slurm(Simple Linux Utility for Resource Management)作业调度系统,在中国气象局派-曙光高性能计算机系统上提出了一套精细化的资源调度管理方法。该方法通过优化调度策略与灵活的资源分区配置,从系统层面实现了气象实时业务运行保障与作业吞吐量、调度效率之间的平衡,实现了资源的高效利用;同时,引入服务质量(QoS)机制,动态调整作业优先级与资源配额,从用户层面进一步确保了资源分配的公平性与调度灵活性。系统资源使用及作业运行数据表明,该方法在保障气象实时业务稳定运行的同时,有效提高了研发作业的完成效率,确保系统整体资源的高效利用,在派-曙光高性能计算机系统上取得了良好的应用效果,对高性能计算资源在复杂应用场景下的合理调度和利用具有很好的实用性和参考意义。