基于深度强化学习的入口匝道流量调控方法

Deep reinforcement learning-based strategy for freeway ramp metering

下载PDF

导出

摘要针对当前基于强化学习的匝道控制方法对策略训练中的学习成本、策略迁移性等研究不充分,导致控制策略难以在实际中应用的问题,该文提出一种匝道控制策略优化的强化学习方法,并通过大量仿真实验对方法的可移植性进行了深入研究。构建匝道控制模型,提出基于深度强化学习的模型训练方法;选取雄安新区对外主干路网中荣乌高速公路某合流区瓶颈作为实验场景,利用深度强化学习算法对模型进行训练,并将训练过程中控制策略的表现与经典匝道控制方法比较,从而对学习成本进行量化分析;选取不同仿真模型及多组模型参数作为测试环境,分析训练环境与测试环境差异对控制策略的影响。结果表明:当训练环境与测试环境差异程度在20%以内时,强化学习控制方法在提升通行效率方面显著优于经典匝道控制方法;而当差异程度超过20%时,两种方法效果差异不明显。 Given that current research on ramp control methods based on reinforcement learning(RL)has not thoroughly addressed key issues such as learning cost and policy transferability during policy training,the practical application of these control strategies remains challenging.To address this issue,this paper proposed a RL approach aimed at optimizing ramp control strategies and conducted extensive simulation experiments to investigate the portability of the proposed method.A ramp control model was constructed,and a model training method based on deep reinforcement learning was proposed.The bottleneck in a certain convergence area of Rongwu Expressway in the main external road network of Xiongan District was selected as the experimental scenario.The deep RL algorithm was used to train the ramp metering model,and the performance of the control strategy during the training process was compared with the classical ramp control method,thereby quantitatively analyzing the learning cost.Different simulation models and multiple sets of model parameters were selected as the test environment,and the influence of the differences between the training environment and the test environment on the control strategy was analyzed.The results show that when the difference between the training environment and the test environment is within 20%,the RL control method is significantly superior to the classical ramp control method in improving the traffic efficiency.However,when the difference exceeds 20%,the effects of the two methods are comparable.

作者韩雨陈志轩王翊萱李春杰雷伟焦彦利刘攀 HAN Yu;CHEN Zhixuan;WANG Yixuan;LI Chunjie;LEI Wei;JIAO Yanli;LIU Pan(School of Transportation,Southeast University,Nanjing 211189,China;Hebei Provincial Communications Planning,Design and Research Institute Co.Ltd.,Research and Development Center of Transport Industry of Self-Driving Technology,Shijiazhuang 050011,China)

机构地区东南大学交通学院河北省交通规划设计研究院有限公司自动驾驶技术交通运输行业研发中心

出处《汽车安全与节能学报》北大核心 2025年第4期587-597,共11页 Journal of Automotive Safety and Energy

基金国家自然科学基金资助项目(52232012,52402384,52131203)。

关键词匝道控制强化学习迁移性学习成本 ramp metering reinforcement learning transferability learning cost

分类号 U491.4 [交通运输工程—交通运输规划与管理]

引文网络
相关文献

参考文献10

1韩雨,郭延永,张乐,刘攀.消除高速公路运动波的可变限速控制方法[J].中国公路学报,2022,35(1):151-158. 被引量：21
2涂辉招,孙立军,高子翔.基于风险评估技术的城市快速路多匝道协调控制时机研究[J].中国公路学报,2015,28(7):86-92. 被引量：9
3徐东伟,周磊,王达,丁加丽,魏臣臣.基于深度强化学习的城市交通信号控制综述[J].交通运输工程与信息学报,2022,20(1):15-30. 被引量：22
4Yang Liu,Fanyou Wu,Zhiyuan Liu,Kai Wang,Feiyue Wang,Xiaobo Qu.Can language models be used for real-world urban-delivery route optimization?[J].The Innovation,2023,4(6):92-100. 被引量：8
5何逸煦,林泓熠,刘洋,杨澜,曲小波.强化学习在自动驾驶技术中的应用与挑战[J].同济大学学报（自然科学版）,2024,52(4):520-531. 被引量：13
6柳鹏,赵克刚,梁志豪,叶杰.基于深度强化学习CLPER-DDPG的车辆纵向速度规划[J].汽车安全与节能学报,2024,15(5):702-710. 被引量：3
7李文礼,邱凡珂,廖达明,任勇鹏,易帆.基于深度强化学习的高速公路换道跟踪控制模型[J].汽车安全与节能学报,2022,13(4):750-759. 被引量：13
8刘洋,占佳豪,李深,李小鹏,陈峻.自动驾驶技术的未来:单车智能和智能车路协同[J].汽车安全与节能学报,2024,15(5):611-633. 被引量：16
9林泓熠,刘洋,李深,曲小波.车路协同系统关键技术研究进展[J].华南理工大学学报（自然科学版）,2023,51(10):46-67. 被引量：25
10李颖,费怡瑄,安毅生,刘洋.智能交通场景下的地图匹配技术综述[J].交通运输工程学报,2024,24(5):301-332. 被引量：8

二级参考文献134

1金立生,Bartvan Arem,杨双宾,Mascha van der Voort,Martijn Tideman.高速公路汽车辅助驾驶安全换道模型[J].吉林大学学报（工学版）,2009,39(3):582-586. 被引量：30
2张海军,杨晓光,张珏.高速道路入口匝道控制方法综述[J].同济大学学报（自然科学版）,2005,33(8):1051-1055. 被引量：23
3杨易,谷正气,胡林,容哲,罗国清.基于概率决策的车辆导航系统地图匹配算法[J].汽车工程,2006,28(10):897-901. 被引量：5
4PAPAGEORGIOU M, KOTSIALOS A. Freeway Ra- mp Metering: An Overview [J]. IEEE Transactions on Intelligent Transportation Systems, 2002, 3 (4) : 271-281.
5WATTLEWORTH J A, BERRY D S. Peak-period Control of a Freeway System: Some Theoretical In- vestigations[R]. Washington DC: Highway Research Record, 1963.
6PAPAGEORGIOU M, HADJ-SALEM H, BLOSSEV- ILLE J M. ALINEA: A Local Feedback Control Law for Onramp Metering [J]. Transportation Research Record, 1991,1320 : 58-64.
7PAPAGEORGIOU M, BLOSSEVILLE J M, HAJ- SALEM H. Modelling and Real-time Control of Traf- fic Flow on the Southern Part of Boulevard Peripher- ique in Paris:Part II :Coordinated On-ramp Metering [J]. Transportation Research Part A, 1990, 24 (5) : 361-370.
8ZHANG G,WANG Y. Optimizing Coordinated Ramp Metering: A Preemptive Hierarchical Control Ap-proaeh[J]. Computer-aided Civil and Infrastructure Engineering, 2013,28(1) : 22-37.
9ABDEL-ATY M, GAYAH V V. Real-time Crash Risk Reduction on Freeways Using Coordinated and Uncoordinated Ramp Metering Approaches[J]. Jour- nal of Transportation Engineering, 2010,136 (5) : 410- 423.
10GHODS A H,FU L,RAHIMI-KIAN A. An Efficient Optimization Approach to Real-time Coordinated and Integrated Freeway Traffic Control[J]. IEEE Trans- actions on Intelligent Tra-nsportation Systems, 2010, 11(4) :873-884.

共引文献123

1徐堃,柴干,李清泉,郭建华,李晓达.自动跟踪动态临界占有率的匝道协调控制方法[J].交通运输工程学报,2016,16(2):150-158. 被引量：9
2张伟,肖日东,邓晶.基于遗传算法的动态模糊神经网络城市快速路入口匝道控制[J].公路交通科技,2017,34(2):129-134. 被引量：12
3涂辉招,王颖,谢欣睿.基于定量分层模型的多匝道协调控制次序[J].同济大学学报（自然科学版）,2017,45(1):39-45. 被引量：5
4李进.农村公路建设项目质量控制和进度管理[J].四川水泥,2017(10):187-187. 被引量：1
5朱耀庭,胡文华,吴福泉,张恺.溶洞上覆土层注浆加固应用分析[J].武汉理工大学学报（交通科学与工程版）,2017,41(6):954-957. 被引量：6
6李晓雷,唐伯明,宋强辉.高速公路雾区多气候耦合段概率风险分析[J].西南交通大学学报,2018,53(5):1039-1047. 被引量：2
7钱伟,景辉鑫.城市道路分层动态协调控制技术[J].计算机工程与应用,2019,55(2):240-245. 被引量：1
8蒋明智,吴天昊,张琳.基于深度强化学习的无信号交叉口车辆协同控制算法[J].交通运输工程与信息学报,2022,20(2):14-24. 被引量：10
9刘玮蔚,刘建蓓,余强,骆中斌,高健强.考虑高速公路运行风险的雨天可变限速方法[J].中国公路学报,2022,35(9):38-50. 被引量：10
10奇格奇,刘思劲,何一康,王猛,黄爱玲.基于仿真驱动的高速公路主动限速效用评价与推荐[J].系统仿真学报,2022,34(12):2522-2534. 被引量：2

1蔡苏亚.虚拟现实技术在教育领域的应用探索与实践[J].中国自动识别技术,2025(3):78-80.
2赵会芳,朱迪,解修花,邢月梅,惠亚娟,侯辰阳.医学生艾滋病知识、态度与医疗服务意愿变化分析[J].预防医学论坛,2025,31(3):179-182.
3王亦兵,胡然,余宏鑫,李嘉恒,张玉杰,徐志刚,何兆成,陆启荣.面向高速公路非检测点位的全域交通状态预测方法[J].交通运输工程学报,2025,25(1):274-294. 被引量：2
4阮昊,司徒子靖,耿晓婷,李松贤,陈爽,郑伟霞,洪利娅,苏为科.具有区分力的红霉素原料药固有溶出速率测定方法研究[J].药物分析杂志,2025,45(7):1205-1213.
5孙张琳.数字化赋能初中物理实验教学优化策略[J].启迪,2025(15):245-247.
6马宇,安豆,林熙祥,赵建福,张光华,牛鸿敏.面向飞行器智能协同控制的分层双时延策略梯度强化学习方法[J].西安交通大学学报,2025,59(9):88-98.
7霍琳,高永霖,赵锐,李泽铎.基于近端策略优化的Leader-Follower无人机编队控制[J].兵器装备工程学报,2025,46(S1):180-187.
8司家瑞,张晓昊,蔚昊,黄端,汤蕊菱,俞鸣.医学院校程序设计课程的教学改革探索[J].中华医学教育杂志,2025,45(8):602-605.
9祁先学.多模态复杂工况下基于深度强化学习的无人驾驶控制算法实践研究[J].汽车维护与修理,2025(17):91-93. 被引量：1
10薛宏宇.税收营商环境优化对企业商业信用融资的影响研究[J].现代营销(下),2025(8):1-3.

汽车安全与节能学报

2025年第4期

浏览历史

内容加载中请稍等...

基于深度强化学习的入口匝道流量调控方法

参考文献10

二级参考文献134

共引文献123

相关作者

相关机构

相关主题

浏览历史