基于双延迟深度确定性策略梯度的路由优化算法

Routing Optimization Algorithm Based on Twin Delayed Deep Deterministic Policy Gradient

下载PDF

导出

摘要随着人工智能、网络通信、网络应用的飞速发展,传统的路由算法如RIP、OSPF在面对网络流量的指数级增长以及不同服务需求的情况下存在收敛慢、平均时延高等一系列问题。而近年来深度强化学习在复杂控制领域取得巨大发展。路由优化算法本质上讲就是一个控制优化问题。所以为了克服现有路由算法在某些场合下的弊端,将深度强化学习与计算机路由优化相结合。论文提出一种利用改进的DDPG算法,并命名为TD3OR算法去解决传统路由在某些场合下的弊端。实验表明,采用TD3OR算法的路由对比单纯DDPG算法以及传统OSPF算法的路由具有更低的延时,证明其是有效的。 With the rapid development of artificial intelligence,network communication,network application,traditional routing algorithms such as RIP and OSPF have a series of problems such as slow convergence and high average delay in the face of expo-nential growth of network traffic and different service requirements.In recent years,deep reinforcement learning has made great progress in the field of complex control.Routing optimization algorithm is essentially a control optimization problem.In order to over-come the drawbacks of existing routing algorithms in some situations,and combine deep reinforcement learning with computer routing optimization,this paper proposes an improved DDPG algorithm named TD3OR algorithm to solve the drawbacks of traditional routing in some situations.The experiment shows that the route using TD3OR algorithm has lower delay than that using DDPG algo-rithm and traditional OSPF algorithm,which proves that TD3OR algorithm is effective.

作者郑艺韩永国 ZHENG Yi;HAN Yongguo(School of Computer and Software,Chengdu Neusoft University,Chengdu 611844)

机构地区成都东软学院计算机与软件学院

出处《计算机与数字工程》 2025年第8期2117-2121,共5页 Computer & Digital Engineering

关键词深度强化学习 DDPG TD3OR 路由优化 deep reinforcement learning DDPG TD3OR routing optimization

分类号 TP393.01 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1闵应骅.计算机网络路由研究综述[J].计算机学报,2003,26(6):641-649. 被引量：46
2王桂芝,吕光宏,贾吾财,贾创辉,张建申.机器学习在SDN路由优化中的应用研究综述[J].计算机研究与发展,2020,57(4):688-698. 被引量：9
3Fei-Yue Wang,Jun Jason Zhang,Xinhu Zheng,Xiao Wang,Yong Yuan,Xiaoxiao Dai,Jie Zhang,Liuqing Yang.Where Does AlphaGo Go: From Church-Turing Thesis to AlphaGo Thesis and Beyond[J].IEEE/CAA Journal of Automatica Sinica,2016,3(2):113-120. 被引量：60
4高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：300
5刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：560
6张顺淼,邹复民.软件定义网络研究综述[J].计算机应用研究,2013,30(8):2246-2251. 被引量：78

二级参考文献67

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：378
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
4McKEOWN N, ANDERSON T, BALAKRISHNAN H, et al. Open- Flow : enabling innovation in campus networks [ J ]. ACM SIGCOMM Computer Communication Review,2008,38(2) :69-75.
5IONA Technologies. Technology review [ EB/OL]. http://www, techn- ologyreview, corn/article/412194/tr10-software-defined-networking/.
6Open Network Foundation (ONF). Software defined networking:the new norm for networks[ EB/OL]. https ://www. opennetworking, org/ images/stories/dowuloads/white-papers/wp-sdn-newnorm, pdf.
7Open Network Foundation (ONF), OpenFlow switch specification vl. 3.0 [ EB/OL]. https://www, opennetworking, org/images/sto- ries/downloads/speciflcation/openflow-spec-vl. 3.0. pdf.
8Open Network Foundation (ONF). OpenFlow switch specification, vl. 1.0 [ EB/OL]. https://www, opennetworking, org/images/sto- ries/downloads/specifieation/openflow-spec-vl. 0. 0. pdf.
9Open Network Foundation (0NF). 0penFlow configuration and man- agement protocol vl. 1 [ EB/OL]. https://www, opennetworking, org/ images/stories/downloads/of-config/of-config- 1.1. pdf.
10CASADO M, FREEDMAN M J, PETIT J, et al. Ethane: taking control of the enterprise[ J]. ACM S1GCOMM Computer Commu- nication Review,2007,37(4) : 1-12.

共引文献1018

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020,2(4):361-371. 被引量：5
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020,2(4):314-326. 被引量：64
3吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：33
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：11
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：6
6项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
7李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：61
8孙烨超,马和民.教育数字化转型的挑战及其治理路径分析[J].中国教育政策评论,2022(1):60-76. 被引量：2
9周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：10
10安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：9

1陈俊彦,李欣梅,朱昌洪,肖微.基于多视图图注意力机制的软件定义光传输网络路由优化算法[J].计算机工程与科学,2025,47(7):1193-1204.
2柳茜.基于图注意力网络的电力通信网络动态路由优化算法[J].信息技术与信息化,2025(10):152-155.
3赵莉,石昕宇,孙宗伟.基于特征提取的KNN路由优化算法[J].光通信技术,2025,49(5):89-93.
4廖阔.基于改进蚁群-BP神经网络的无线网络动态路由优化方法[J].信息技术与信息化,2025(6):80-84.
5张珂.基于共模风险的电力通信网络路由优化算法研究[J].中国新技术新产品,2025(15):130-133.
6吴宗明,曹继军,汤强.基于深度强化学习的在线并行SDN路由优化算法研究[J].计算机科学,2025,52(S1):783-791. 被引量：2
7余山林,李瑞莹.智能路由算法在数据中心网络中的应用[J].数字通信世界,2025(9):67-69.
8张升,许青邦.分布式SRv6 SDWAN方案助力农业银行网络步AABC ONE 2.0时代[J].金融电子化,2025(15):88-89.
9赵鹏,杨斌.基于电阻率层析成像技术的膨胀土空间分布特征研究[J].自动化技术与应用,2025,44(11):75-78.
10肖英,杨兴果,覃志华.考虑节点负载的复杂无线传感网络拓扑结构优化方法[J].传感技术学报,2025,38(10):1872-1877.

计算机与数字工程

2025年第8期

浏览历史

内容加载中请稍等...

基于双延迟深度确定性策略梯度的路由优化算法

参考文献6

二级参考文献67

共引文献1018

相关作者

相关机构

相关主题

浏览历史