拥塞控制是实现高性能数据中心网络的关键技术之一,影响吞吐量、延迟、丢包率等重要网络性能指标。过去20年间,随着数据中心规模不断扩大,上层应用对网络性能的要求不断提高,基于无损底层网络的远程直接内存访问(remote direct memory a...拥塞控制是实现高性能数据中心网络的关键技术之一,影响吞吐量、延迟、丢包率等重要网络性能指标。过去20年间,随着数据中心规模不断扩大,上层应用对网络性能的要求不断提高,基于无损底层网络的远程直接内存访问(remote direct memory access,RDMA)技术在数据中心的部署受到了业内广泛关注。然而,基于优先级的流控(priority-based flow control,PFC)机制在维护无损网络的同时会引入头阻塞等问题,导致网络性能下降甚至网络瘫痪。作为实现无损网络的关键辅助手段,如何设计实用的RDMA拥塞控制机制成为了热点问题。通过将拥塞控制过程划分为拥塞感知与拥塞调整,全面综述了该领域的研究成果:首先从显式反馈与延迟的角度详细阐述并总结了不同的拥塞感知代表算法;其次从速率和窗口的维度对拥塞调整代表算法进行了详细介绍并对其优缺点进行了总结;而后补充了部分算法的优化工作以及基于强化学习方法的拥塞控制算法;最后总结并讨论了该领域存在的挑战。展开更多
目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处...目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望.展开更多
文章研究并解决数据中心的远程内存直接读取(remote direct memory access, RDMA)技术的网络拥塞控制问题。针对主流拥塞控制算法数据中心量化拥塞通知(data center quantized congestion notification, DCQCN)的收敛速度慢和缺乏硬件...文章研究并解决数据中心的远程内存直接读取(remote direct memory access, RDMA)技术的网络拥塞控制问题。针对主流拥塞控制算法数据中心量化拥塞通知(data center quantized congestion notification, DCQCN)的收敛速度慢和缺乏硬件实现方案的不足,提出可参数硬件化的数据中心量化拥塞通知(parameterized DCQCN,DCQCN-p)算法,该算法通过优化拥塞流的速度因子a、g调整速度比例Rc,并通过电路设计减少降速的频次;通过建立算法模型和搭建网络仿真NS-3平台,对比DCQCN-p算法在面临拥塞时单个调度流速度调整的性能以及多个调度流并发情况下的时延和吞吐量。仿真结果表明:在单个流面临拥塞时,DCQCN-p算法的数据传输速率比DCQCN算法的提高了50%;DCQCN-p算法在链路上最小速率为13.28 Gbit/s,相较于DCQCN、TIMELY、数据中心传输控制协议(data center transmission control protocol, DCTCP)算法,分别增长了24%、48%、23%;DCQCN-p算法(方差65%)的带宽分配公平性相较于TIMELY算法(方差216%)和DCTCP算法(方差191%)表现出显著的性能提升。展开更多
张量转置(tensor transposition)作为基础张量运算原语,广泛应用于信号处理、科学计算以及深度学习等各种领域,在张量数据密集型应用及高性能计算中具有重要作用。随着能效指标在高性能计算系统中的重要性日益凸显,基于数字信号处理器(d...张量转置(tensor transposition)作为基础张量运算原语,广泛应用于信号处理、科学计算以及深度学习等各种领域,在张量数据密集型应用及高性能计算中具有重要作用。随着能效指标在高性能计算系统中的重要性日益凸显,基于数字信号处理器(digital signal processors,DSPs)的加速器已被集成至通用计算系统。然而,传统面向多核CPU和GPU的张量转置库因架构差异无法充分适配DSP架构。一方面,DSP架构的向量化计算潜力尚未得到充分挖掘;另一方面,其复杂的片上存储体系与多层次共享内存结构为张量并行程序设计带来了显著挑战。针对国产多核DSP的架构特点,提出ftmTT算法,并设计实现了一个面向多核DSP架构的通用张量转置库。ftmTT算法通过设计适配DSP架构的高效内存访问模式充分挖掘其并行化和向量化潜力,其核心创新包括:1)采用分块策略将高维张量转置转化为多核DSP平台所提供的矩阵转置内核操作;2)提出基于DMA点对点传输的张量数据块访存合并方案来降低数据搬运开销;3)通过双缓冲设计异步重叠转置计算与DMA传输实现计算通信隐藏,最终面向多核DSP实现高性能并行张量转置。在国产多核DSP平台FT-M7032的实验表明,ftmTT张量转置算法取得了最高达理论带宽75.96%的性能,达到FT-M7032平台STREAM带宽99.23%的性能。展开更多
分布式锁是分布式存储系统的重要组件,锁协议的性能对系统整体的性能有关键性影响。远程直接内存访问(remote direct memory access,RDMA)是一种新兴的数据中心网络技术,它支持单边网络通信原语,可以降低系统CPU开销,同时具备低延迟、...分布式锁是分布式存储系统的重要组件,锁协议的性能对系统整体的性能有关键性影响。远程直接内存访问(remote direct memory access,RDMA)是一种新兴的数据中心网络技术,它支持单边网络通信原语,可以降低系统CPU开销,同时具备低延迟、高吞吐的性能特性,为设计高速分布式锁协议提供了新机遇。然而,设计基于RDMA的分布式锁协议面临诸多挑战。着重在保证高性能的前提下解决扩展性和公平性挑战,提出一种RDMA网络中的高性能分布式锁协议FeLock,它利用多种类型的RDMA网络通信原语,使客户端不仅能与服务端通信加解锁,还能与其他客户端直接通信以移交锁所有权,同时实现了高性能、公平性和性能的扩展性。具体地,为保证高性能,FeLock引入了节点粒度锁管理机制,缩减锁协议在关键路径上的网络往返次数。为实现扩展性,FeLock引入了轮转移交机制,将所有节点排成1个环,客户端按照其在环中的顺序依次移交锁的所有权。为实现公平性和避免客户端饥饿,FeLock引入了节点信用机制,限制节点连续加锁的次数,避免其他节点上的客户端无法加锁。实验显示,FeLock相比于现有单边RDMA锁协议(如DSLR)表现出相似或更高的性能,并且具有更好的公平性和扩展性。在3~120个客户端的环境下,FeLock的吞吐量是DSLR的1.01~7.51倍,公平性提升至多2.24倍。展开更多
文摘目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望.
文摘文章研究并解决数据中心的远程内存直接读取(remote direct memory access, RDMA)技术的网络拥塞控制问题。针对主流拥塞控制算法数据中心量化拥塞通知(data center quantized congestion notification, DCQCN)的收敛速度慢和缺乏硬件实现方案的不足,提出可参数硬件化的数据中心量化拥塞通知(parameterized DCQCN,DCQCN-p)算法,该算法通过优化拥塞流的速度因子a、g调整速度比例Rc,并通过电路设计减少降速的频次;通过建立算法模型和搭建网络仿真NS-3平台,对比DCQCN-p算法在面临拥塞时单个调度流速度调整的性能以及多个调度流并发情况下的时延和吞吐量。仿真结果表明:在单个流面临拥塞时,DCQCN-p算法的数据传输速率比DCQCN算法的提高了50%;DCQCN-p算法在链路上最小速率为13.28 Gbit/s,相较于DCQCN、TIMELY、数据中心传输控制协议(data center transmission control protocol, DCTCP)算法,分别增长了24%、48%、23%;DCQCN-p算法(方差65%)的带宽分配公平性相较于TIMELY算法(方差216%)和DCTCP算法(方差191%)表现出显著的性能提升。
文摘张量转置(tensor transposition)作为基础张量运算原语,广泛应用于信号处理、科学计算以及深度学习等各种领域,在张量数据密集型应用及高性能计算中具有重要作用。随着能效指标在高性能计算系统中的重要性日益凸显,基于数字信号处理器(digital signal processors,DSPs)的加速器已被集成至通用计算系统。然而,传统面向多核CPU和GPU的张量转置库因架构差异无法充分适配DSP架构。一方面,DSP架构的向量化计算潜力尚未得到充分挖掘;另一方面,其复杂的片上存储体系与多层次共享内存结构为张量并行程序设计带来了显著挑战。针对国产多核DSP的架构特点,提出ftmTT算法,并设计实现了一个面向多核DSP架构的通用张量转置库。ftmTT算法通过设计适配DSP架构的高效内存访问模式充分挖掘其并行化和向量化潜力,其核心创新包括:1)采用分块策略将高维张量转置转化为多核DSP平台所提供的矩阵转置内核操作;2)提出基于DMA点对点传输的张量数据块访存合并方案来降低数据搬运开销;3)通过双缓冲设计异步重叠转置计算与DMA传输实现计算通信隐藏,最终面向多核DSP实现高性能并行张量转置。在国产多核DSP平台FT-M7032的实验表明,ftmTT张量转置算法取得了最高达理论带宽75.96%的性能,达到FT-M7032平台STREAM带宽99.23%的性能。
文摘分布式锁是分布式存储系统的重要组件,锁协议的性能对系统整体的性能有关键性影响。远程直接内存访问(remote direct memory access,RDMA)是一种新兴的数据中心网络技术,它支持单边网络通信原语,可以降低系统CPU开销,同时具备低延迟、高吞吐的性能特性,为设计高速分布式锁协议提供了新机遇。然而,设计基于RDMA的分布式锁协议面临诸多挑战。着重在保证高性能的前提下解决扩展性和公平性挑战,提出一种RDMA网络中的高性能分布式锁协议FeLock,它利用多种类型的RDMA网络通信原语,使客户端不仅能与服务端通信加解锁,还能与其他客户端直接通信以移交锁所有权,同时实现了高性能、公平性和性能的扩展性。具体地,为保证高性能,FeLock引入了节点粒度锁管理机制,缩减锁协议在关键路径上的网络往返次数。为实现扩展性,FeLock引入了轮转移交机制,将所有节点排成1个环,客户端按照其在环中的顺序依次移交锁的所有权。为实现公平性和避免客户端饥饿,FeLock引入了节点信用机制,限制节点连续加锁的次数,避免其他节点上的客户端无法加锁。实验显示,FeLock相比于现有单边RDMA锁协议(如DSLR)表现出相似或更高的性能,并且具有更好的公平性和扩展性。在3~120个客户端的环境下,FeLock的吞吐量是DSLR的1.01~7.51倍,公平性提升至多2.24倍。