随着高性能计算体系结构的发展,软件与硬件都具有多层的并行结构。当不同纵向层级与横向分组的计算任务被划分到不同节点的不同处理器时,存在非常多的分配方式。这些分配方式一般在运行时由用户输入的多个并行参数来确定,并对计算效率...随着高性能计算体系结构的发展,软件与硬件都具有多层的并行结构。当不同纵向层级与横向分组的计算任务被划分到不同节点的不同处理器时,存在非常多的分配方式。这些分配方式一般在运行时由用户输入的多个并行参数来确定,并对计算效率影响很大。随着计算规模与复杂度的提升,多个并行参数的可配置空间越来越大,用户越来越难以确定最佳的并行参数值。这类运行时优化问题在科学计算应用中较为普遍,但相关的研究与解决方法比较少见。以VASP(Vienna Ab initio Simulation Package)应用为例,首先分析了该应用的多层并行结构,展示了不同并行参数配置引发的巨大运行速度差异。然后提出了一个基于约化并行效率指标的全自动运行优化方法,其不仅可以帮助用户简单快捷地确定最佳应用并行参数,而且可以帮助用户确定最佳的计算资源使用量,使应用可以高效率地扩展到大规模的并行计算中。最后将该优化方法与计算集群作业调度系统相融合应用于用户提交的真实VASP计算作业。统计结果表明,该方法显著提升了作业运行速度与超算资源的使用效率,具有很好的工程应用前景。展开更多
随着云计算技术的发展与成熟,并行计算在云环境中得到了越来越多的实践。服务器无感知计算作为云计算中的一种新型的应用部署与计算方式,允许用户弹性分配资源并实现负载均衡,并提供了更强的可扩展性和更大的灵活性。然而,无状态的特性...随着云计算技术的发展与成熟,并行计算在云环境中得到了越来越多的实践。服务器无感知计算作为云计算中的一种新型的应用部署与计算方式,允许用户弹性分配资源并实现负载均衡,并提供了更强的可扩展性和更大的灵活性。然而,无状态的特性导致服务器无感知计算框架并不完全适用于传统并行计算,其中通信是一个关键问题。本文提出了一个具有服务质量(quality of service,QoS)保障的通信框架FreeParallel,旨在基于服务器无感知计算中的函数即服务(function as a service,FaaS)平台构建面向并行计算的通信能力。FreeParallel结合了消息传递接口(message passing interface,MPI)并行计算编程模型,有效地保证了通信服务的质量;并采用代理模型来支持并行函数的识别和转换,并以服务形式灵活部署在多个FaaS或虚拟化平台上。此外,本研究还提出了函数间通信流量的QoS管理策略fm Clock,在保证传输公平性的前提下,实现基于请求和限制的通信原语级网络资源分配。实验结果表明,点对点通信场景下FreeParallel与虚拟化平台的覆盖网络相比传输性能略有不足,但比当前服务器无感知计算状态共享方案的传输效率有至少89.5%的提升。并且FreeParallel在集合通信场景下表现极佳,比基线方法提升了59.9%~83.1%。同时,带有fm Clock策略的FreeParallel能够实现原语级按比例分配策略,避免了不同原语间请求的交叉干扰,案例表明,策略的加入降低了应用25.0%的完成时间。展开更多
Distributed computing is an important topic in the field of wireless communications and networking,and its high efficiency in handling large amounts of data is particularly noteworthy.Although distributed computing be...Distributed computing is an important topic in the field of wireless communications and networking,and its high efficiency in handling large amounts of data is particularly noteworthy.Although distributed computing benefits from its ability of processing data in parallel,the communication burden between different servers is incurred,thereby the computation process is detained.Recent researches have applied coding in distributed computing to reduce the communication burden,where repetitive computation is utilized to enable multicast opportunities so that the same coded information can be reused across different servers.To handle the computation tasks in practical heterogeneous systems,we propose a novel coding scheme to effectively mitigate the "straggling effect" in distributed computing.We assume that there are two types of servers in the system and the only difference between them is their computational capabilities,the servers with lower computational capabilities are called stragglers.Given any ratio of fast servers to slow servers and any gap of computational capabilities between them,we achieve approximately the same computation time for both fast and slow servers by assigning different amounts of computation tasks to them,thus reducing the overall computation time.Furthermore,we investigate the informationtheoretic lower bound of the inter-communication load and show that the lower bound is within a constant multiplicative gap to the upper bound achieved by our scheme.Various simulations also validate the effectiveness of the proposed scheme.展开更多
为解决混合云环境下科学工作流数据布局问题,在考虑数据的安全需求的前提下,以优化跨数据中心传输时延为目标,提出了一种混合云环境下面向安全的科学工作流布局策略。分析数据集的安全需求以及数据中心所能提供的安全服务,提出安全等级...为解决混合云环境下科学工作流数据布局问题,在考虑数据的安全需求的前提下,以优化跨数据中心传输时延为目标,提出了一种混合云环境下面向安全的科学工作流布局策略。分析数据集的安全需求以及数据中心所能提供的安全服务,提出安全等级分级规则;设计并提出基于遗传算法和模拟退火算法的自适应粒子群优化算法(adaptive particle swarm optimization algorithm based on SA and GA,SAGA-PSO),避免算法陷入局部极值,有效提高种群多样性;与其它经典布局算法对比,基于SAGA-PSO的数据布局策略在满足数据安全需求的同时能够大大降低传输时延。展开更多
文摘随着高性能计算体系结构的发展,软件与硬件都具有多层的并行结构。当不同纵向层级与横向分组的计算任务被划分到不同节点的不同处理器时,存在非常多的分配方式。这些分配方式一般在运行时由用户输入的多个并行参数来确定,并对计算效率影响很大。随着计算规模与复杂度的提升,多个并行参数的可配置空间越来越大,用户越来越难以确定最佳的并行参数值。这类运行时优化问题在科学计算应用中较为普遍,但相关的研究与解决方法比较少见。以VASP(Vienna Ab initio Simulation Package)应用为例,首先分析了该应用的多层并行结构,展示了不同并行参数配置引发的巨大运行速度差异。然后提出了一个基于约化并行效率指标的全自动运行优化方法,其不仅可以帮助用户简单快捷地确定最佳应用并行参数,而且可以帮助用户确定最佳的计算资源使用量,使应用可以高效率地扩展到大规模的并行计算中。最后将该优化方法与计算集群作业调度系统相融合应用于用户提交的真实VASP计算作业。统计结果表明,该方法显著提升了作业运行速度与超算资源的使用效率,具有很好的工程应用前景。
文摘随着云计算技术的发展与成熟,并行计算在云环境中得到了越来越多的实践。服务器无感知计算作为云计算中的一种新型的应用部署与计算方式,允许用户弹性分配资源并实现负载均衡,并提供了更强的可扩展性和更大的灵活性。然而,无状态的特性导致服务器无感知计算框架并不完全适用于传统并行计算,其中通信是一个关键问题。本文提出了一个具有服务质量(quality of service,QoS)保障的通信框架FreeParallel,旨在基于服务器无感知计算中的函数即服务(function as a service,FaaS)平台构建面向并行计算的通信能力。FreeParallel结合了消息传递接口(message passing interface,MPI)并行计算编程模型,有效地保证了通信服务的质量;并采用代理模型来支持并行函数的识别和转换,并以服务形式灵活部署在多个FaaS或虚拟化平台上。此外,本研究还提出了函数间通信流量的QoS管理策略fm Clock,在保证传输公平性的前提下,实现基于请求和限制的通信原语级网络资源分配。实验结果表明,点对点通信场景下FreeParallel与虚拟化平台的覆盖网络相比传输性能略有不足,但比当前服务器无感知计算状态共享方案的传输效率有至少89.5%的提升。并且FreeParallel在集合通信场景下表现极佳,比基线方法提升了59.9%~83.1%。同时,带有fm Clock策略的FreeParallel能够实现原语级按比例分配策略,避免了不同原语间请求的交叉干扰,案例表明,策略的加入降低了应用25.0%的完成时间。
基金supported by NSF China(No.T2421002,62061146002,62020106005)。
文摘Distributed computing is an important topic in the field of wireless communications and networking,and its high efficiency in handling large amounts of data is particularly noteworthy.Although distributed computing benefits from its ability of processing data in parallel,the communication burden between different servers is incurred,thereby the computation process is detained.Recent researches have applied coding in distributed computing to reduce the communication burden,where repetitive computation is utilized to enable multicast opportunities so that the same coded information can be reused across different servers.To handle the computation tasks in practical heterogeneous systems,we propose a novel coding scheme to effectively mitigate the "straggling effect" in distributed computing.We assume that there are two types of servers in the system and the only difference between them is their computational capabilities,the servers with lower computational capabilities are called stragglers.Given any ratio of fast servers to slow servers and any gap of computational capabilities between them,we achieve approximately the same computation time for both fast and slow servers by assigning different amounts of computation tasks to them,thus reducing the overall computation time.Furthermore,we investigate the informationtheoretic lower bound of the inter-communication load and show that the lower bound is within a constant multiplicative gap to the upper bound achieved by our scheme.Various simulations also validate the effectiveness of the proposed scheme.
文摘为解决混合云环境下科学工作流数据布局问题,在考虑数据的安全需求的前提下,以优化跨数据中心传输时延为目标,提出了一种混合云环境下面向安全的科学工作流布局策略。分析数据集的安全需求以及数据中心所能提供的安全服务,提出安全等级分级规则;设计并提出基于遗传算法和模拟退火算法的自适应粒子群优化算法(adaptive particle swarm optimization algorithm based on SA and GA,SAGA-PSO),避免算法陷入局部极值,有效提高种群多样性;与其它经典布局算法对比,基于SAGA-PSO的数据布局策略在满足数据安全需求的同时能够大大降低传输时延。