目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处...目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望.展开更多
算力供给的代际异构性与供应链安全需求,促使异构算力成为AI基础设施的新趋势。然而,在异构混合训练场景中,基于融合以太网的RDMA版本2(RDMA over converged Ethernet version 2,RoCEv2)方案存在负载均衡与拥塞控制缺陷,在模型训练的并...算力供给的代际异构性与供应链安全需求,促使异构算力成为AI基础设施的新趋势。然而,在异构混合训练场景中,基于融合以太网的RDMA版本2(RDMA over converged Ethernet version 2,RoCEv2)方案存在负载均衡与拥塞控制缺陷,在模型训练的并行通信中性能欠佳;而现有高性能同构智算网络方案因设备异构与集合通信库(collective communication library,CCL)闭源难以部署。为此,提出了面向异构算力场景的高性能智算网络解决方案——智能控制以太网(intelligent control Ethernet,ICE)。该方案基于RoCEv2协议体系,在避免对设备、CCL进行深度定制的前提下,将异构通信库信息采集、集中控制器与端侧自主控制相结合,实现全局最优路径规划及全局主动拥塞控制,显著提升异构并行通信性能。真实物理环境实验表明,ICE可提升集合通信性能最高达47%。ICE为异构智算网络建设提供了开创性、易部署的解决方案。展开更多
远程直接内存访问(RDMA)已经成为数据中心网络(DCN)跨节点高性能数据传输的关键技术。但是,现有的RDMA传输协议,如基于融合以太网的RDMA版本2(RDMA over Converged Ethernet version 2,RoCEv2),仅支持顺序数据包处理。为进一步提高数据...远程直接内存访问(RDMA)已经成为数据中心网络(DCN)跨节点高性能数据传输的关键技术。但是,现有的RDMA传输协议,如基于融合以太网的RDMA版本2(RDMA over Converged Ethernet version 2,RoCEv2),仅支持顺序数据包处理。为进一步提高数据传输的灵活性,支持多路径传输与选择性重传,如何使RDMA网卡处理乱序数据包成为当下的研究热点。本文总结了RDMA乱序数据包的产生原因与处理方法,同时对涉及的相关技术如数据包排序、乱序数据包直写、位图管理、丢包检测、跨工作队列元素(WQE)的内存一致性、路径选择等进行了介绍。展开更多
文摘目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望.
文摘算力供给的代际异构性与供应链安全需求,促使异构算力成为AI基础设施的新趋势。然而,在异构混合训练场景中,基于融合以太网的RDMA版本2(RDMA over converged Ethernet version 2,RoCEv2)方案存在负载均衡与拥塞控制缺陷,在模型训练的并行通信中性能欠佳;而现有高性能同构智算网络方案因设备异构与集合通信库(collective communication library,CCL)闭源难以部署。为此,提出了面向异构算力场景的高性能智算网络解决方案——智能控制以太网(intelligent control Ethernet,ICE)。该方案基于RoCEv2协议体系,在避免对设备、CCL进行深度定制的前提下,将异构通信库信息采集、集中控制器与端侧自主控制相结合,实现全局最优路径规划及全局主动拥塞控制,显著提升异构并行通信性能。真实物理环境实验表明,ICE可提升集合通信性能最高达47%。ICE为异构智算网络建设提供了开创性、易部署的解决方案。
文摘远程直接内存访问(RDMA)已经成为数据中心网络(DCN)跨节点高性能数据传输的关键技术。但是,现有的RDMA传输协议,如基于融合以太网的RDMA版本2(RDMA over Converged Ethernet version 2,RoCEv2),仅支持顺序数据包处理。为进一步提高数据传输的灵活性,支持多路径传输与选择性重传,如何使RDMA网卡处理乱序数据包成为当下的研究热点。本文总结了RDMA乱序数据包的产生原因与处理方法,同时对涉及的相关技术如数据包排序、乱序数据包直写、位图管理、丢包检测、跨工作队列元素(WQE)的内存一致性、路径选择等进行了介绍。