随着人工智能生成内容技术的迅猛发展和大语言模型(large language models,LLMs)广泛应用,智算中心的网络面临着严峻挑战,流量控制是优化网络性能的重要方法.综述细粒度流量控制领域的关键问题及解决方案,重点梳理了自适应负载均衡机制...随着人工智能生成内容技术的迅猛发展和大语言模型(large language models,LLMs)广泛应用,智算中心的网络面临着严峻挑战,流量控制是优化网络性能的重要方法.综述细粒度流量控制领域的关键问题及解决方案,重点梳理了自适应负载均衡机制、主动式拥塞控制机制和乱序包重排机制3个方面的研究进展.自适应负载均衡能够有效规避网络内部的拥塞,主动式拥塞控制用于预防自适应负载均衡无法避免的最后一跳拥塞问题,而乱序包重排解决了自适应负载均衡过程中可能引发的数据包乱序问题,三者协同作用确保了网络在高负载、高延迟等复杂环境下的稳定性与高效性.在此基础上,阐述了当前主流智算中心采用的关键技术方案以及目前支持细粒度流量控制的网络设备,最后总结了该领域尚未解决的关键问题及可能的解决方案,并对未来发展趋势进行了展望.展开更多
文摘随着人工智能生成内容技术的迅猛发展和大语言模型(large language models,LLMs)广泛应用,智算中心的网络面临着严峻挑战,流量控制是优化网络性能的重要方法.综述细粒度流量控制领域的关键问题及解决方案,重点梳理了自适应负载均衡机制、主动式拥塞控制机制和乱序包重排机制3个方面的研究进展.自适应负载均衡能够有效规避网络内部的拥塞,主动式拥塞控制用于预防自适应负载均衡无法避免的最后一跳拥塞问题,而乱序包重排解决了自适应负载均衡过程中可能引发的数据包乱序问题,三者协同作用确保了网络在高负载、高延迟等复杂环境下的稳定性与高效性.在此基础上,阐述了当前主流智算中心采用的关键技术方案以及目前支持细粒度流量控制的网络设备,最后总结了该领域尚未解决的关键问题及可能的解决方案,并对未来发展趋势进行了展望.