期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于AI的数据中心网络通信故障处理技术 被引量:1
1
作者 张立全 《通信电源技术》 2025年第2期218-220,共3页
随着数据中心规模和复杂性的不断增加,网络通信故障处理面临着巨大挑战。为此,提出一种基于人工智能(Artificial Intelligence,AI)的数据中心网络通信故障处理技术。该技术通过多源异构数据融合和预处理,构建了高质量的特征集。采用支... 随着数据中心规模和复杂性的不断增加,网络通信故障处理面临着巨大挑战。为此,提出一种基于人工智能(Artificial Intelligence,AI)的数据中心网络通信故障处理技术。该技术通过多源异构数据融合和预处理,构建了高质量的特征集。采用支持向量机(Support Vector Machine,SVM)和长短期记忆(Long Short-Term Memory,LSTM)网络相结合的两阶段故障检测方法,实现了从故障层级定位到具体类型识别的渐进式诊断。引入强化学习算法生成故障处理决策。实验结果表明,与传统技术相比,该技术在故障检测准确率、响应时间及处理成功率等方面均有显著提升,为提高数据中心网络可靠性和运维效率提供了有效解决方案。 展开更多
关键词 数据中心网络通信 故障处理 人工智能(ai)
在线阅读 下载PDF
一种基于报文容器的智算中心网络负载均衡方案
2
作者 庄瑞 程伟强 +7 位作者 王瑞雪 秦凤伟 周丹媛 李婕妤 李嘉睿 庞成光 孙耀华 刘杨 《南京邮电大学学报(自然科学版)》 北大核心 2026年第2期113-122,共10页
针对智算中心网络中细粒度负载均衡引发的数据包乱序问题,提出一种新型负载均衡方案Pacont,通过乱序优化机制,解决传统负载均衡方案在吞吐量、时延与乱序抑制间的权衡困境。方案将连续发送的数据包构建为逻辑虚拟且等长的报文容器(PKTC)... 针对智算中心网络中细粒度负载均衡引发的数据包乱序问题,提出一种新型负载均衡方案Pacont,通过乱序优化机制,解决传统负载均衡方案在吞吐量、时延与乱序抑制间的权衡困境。方案将连续发送的数据包构建为逻辑虚拟且等长的报文容器(PKTC),作为路由决策、转发和重排序的基本单元,从而通过细粒度的多路径选择优化链路利用率,并采用三级乱序抑制机制实现对数据包乱序的深度优化。实验结果表明,所提方案相较不同粒度的负载均衡方案具有更好的均衡性能,有效缩短了大语言模型(LLM)等AI训练任务在以太网中的完成时间。 展开更多
关键词 人工智能 智算中心网络 负载均衡 报文容器 乱序优化
在线阅读 下载PDF
AI使能的5G节能技术 被引量:8
3
作者 徐丹 曾宇 +1 位作者 孟维业 李力卡 《电信科学》 2021年第5期32-41,共10页
随着5G商用的全面开展,5G无线站点数目急剧增加,5G核心网需分层部署在区域/省/地市数据中心,以及数据中心规模化发展,导致能耗问题日益凸显。基于全网能耗主要占比,调研5G接入网络、核心网络和数据中心的能源效率评估方法。介绍了AI使... 随着5G商用的全面开展,5G无线站点数目急剧增加,5G核心网需分层部署在区域/省/地市数据中心,以及数据中心规模化发展,导致能耗问题日益凸显。基于全网能耗主要占比,调研5G接入网络、核心网络和数据中心的能源效率评估方法。介绍了AI使能的基站节能技术及试点应用方案、AI应用于5G核心网的节能方式、AI使能的数据中心节能技术和试点应用方案,探讨了节能技术的挑战和未来的研究方向。对整体通信系统节能技术的总结和展望,有助于提高对能源效率和绿色网络发展的认识。 展开更多
关键词 5G ai 能源效率 接入网络 核心网络 数据中心
在线阅读 下载PDF
AI驱动的智能数据中心网络管理与优化
4
作者 王林 《计算机应用文摘》 2024年第2期123-125,共3页
数据中心网络是现代企业和组织的关键基础设施之一,其性能和可靠性对业务的成功运营至关重要。随着数据中心规模的不断扩大和网络负载的增加,传统的网络管理方法已无法满足企业和组织的需求。为了应对这一挑战,AI逐渐成了数据中心网络... 数据中心网络是现代企业和组织的关键基础设施之一,其性能和可靠性对业务的成功运营至关重要。随着数据中心规模的不断扩大和网络负载的增加,传统的网络管理方法已无法满足企业和组织的需求。为了应对这一挑战,AI逐渐成了数据中心网络管理与优化的关键工具。文章将探讨AI在数据中心网络管理与优化方面的应用,包括网络监控、故障诊断、资源分配和性能优化等,并将分析其对数据中心网络的可靠性和效率的影响。 展开更多
关键词 ai 数据中心 网络管理 故障诊断 网络监控
在线阅读 下载PDF
面向大模型时代的网络基础设施研究:挑战、阶段成果与展望 被引量:5
5
作者 翟恩南 操佳敏 +1 位作者 钱坤 关宇 《计算机研究与发展》 EI CSCD 北大核心 2024年第11期3664-3677,共14页
拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革.然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多... 拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革.然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多新的挑战,主要包括流量模式差异造成负载难均衡(挑战1)、多训练任务通信竞争影响GPU利用率(挑战2),以及对网络故障的高敏感性(挑战3)等.因此,为通用云计算设计的数据中心网络技术(例如,网络架构、选路方法、流量调度,以及可靠性保障方法等)已不适合今天的大模型训练,这要求专门为大模型训练设计新型的数据中心网络以及配套的技术方案.介绍了阿里云专门为大模型训练设计的数据中心网络HPN以及多任务通信调度方法Crux解决上述3个挑战.HPN通过引入了一种2层、双平面(dual-plane)的网络架构,不但能够在一个Pod内高速互联15000个GPU,还能做到适用大模型训练的精准选路(解决挑战1).此外,HPN提出了一种新型的去堆叠双ToR(top-of-rack)设计来替代传统数据中心网络的单ToR交换机连接方式,根本性地避免了单点失效可靠性风险(部分解决挑战3).针对挑战2,Crux通过对GPU利用率优化问题的建模与证明,将该NP完全问题近似成GPU强度相关的流量调度问题.随后,Crux提出了一个方法优先处理具有高GPU计算强度的任务流,从而极大降低了多任务的通信竞争,优化了GPU利用率.与相关工作对比,Crux可以将GPU利用率提高多达23个百分点.HPN和Crux均已在阿里云生产环境规模化部署超过8个月,后续会持续演进迭代.在此基础上,进一步展望了大模型训练与推理领域可能的研究方向,为后续工作提供指导性建议. 展开更多
关键词 ai基础设施 大语言模型 大模型 模型训练 数据中心网络 集合通信 通信调度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部