混合交通环境下基于动态决策间隔的强化学习信号控制方法

A Reinforcement Learning Signal Control Method Based on Dynamic Decision Intervals in Mixed Traffic Environments

下载PDF

导出

摘要智能网联车辆(Connected and Automated Vehicle,CAV)为交通信号控制提供了新的数据源与优化机遇。然而,现有方法普遍存在两大局限:其一,多采用固定决策间隔,难以适应交通流的动态变化,导致控制策略的全局最优性不足;其二,缺乏对低渗透率场景下混合交通流复杂交互特征的深入建模,限制了实际应用的鲁棒性。为此,本文提出一种基于近端策略优化(Proximal Policy Optimization,PPO)的动态决策间隔信号控制方法。首先,利用卷积神经网络与多头注意力机制,构建融合CAV与常规车辆(Regular Vehicle,RV)的多源交通状态表征;进而,设计融合动态决策间隔与相位选择的多离散动作空间,自适应生成信号控制策略,平衡决策效率与控制灵活性。在奖励函数设计中,引入累计延误、排队长度与延误标准差的多目标自适应加权机制,协同优化通行效率与公平性。基于实际路网仿真测试模型控制效果,结果表明:在不同交通需求下,本文方法相较于传统离散控制方法,平均等待时间和平均排队长度均降低8.50%以上;尤其在CAV渗透率低至20%时,本文方法仍能保持稳定的控制性能,验证了其在混合交通环境中的有效性与强适应性。 Connected and Automated Vehicles(CAV)offer novel data sources and optimization opportunities for traffic signal control.However,the existing methods are generally limited in two aspects:first,most methods rely on fixed decision intervals,which struggle to adapt to the dynamic variations of traffic flow,leading to insufficient global optimality of control strategies;second,there is a lack of in-depth modeling of the complex interaction characteristics of mixed traffic flow in low-penetration scenarios,which restricts the robustness of practical applications.To address these issues,this paper proposes a dynamic decisioninterval signal control method based on Proximal Policy Optimization(PPO).The approach first constructs a multi-source traffic state representation that integrates information from both CAV and Regular Vehicle(RV)by employing Convolutional Neural Networks(CNN)and a multi-head attention mechanism.Subsequently,it designs a multi-discrete action space that combines dynamic decision intervals with phase selection to adaptively generate signal control strategies,thereby balancing decision efficiency and control flexibility.In the design of the reward function,a multi-objective adaptive weighting mechanism for cumulative delay,queue length,and delay standard deviation is introduced to co-optimize traffic efficiency and fairness.The simulation tests based on real-world road networks demonstrate the control effectiveness of the proposed model.The results indicate that under varying traffic demands,the proposed method reduces both the average waiting time and the average queue length by over 8.50%compared to the traditional discrete control methods.Notably,the method maintains stable control performance even when the CAV penetration rate is as low as 20%,validating its effectiveness and strong adaptability in mixed traffic environments.

作者王福建马佳豪李廷浩马东方 WANG Fujian;MAJiahao;LI Tinghao;MADongfang(Institute of Intelligent Transportation Systems,College of Civil Engineering and Architecture,Polytechnic Institute,Zhejiang University,Hangzhou 310058,China;Institute of Intelligent Transportation Systems,Polytechnic Institute,Zhejiang University,Hangzhou 310058,China;Institute of Ocean Sensing and Networking,Ocean College,Zhejiang University,Zhoushan 316021,Zhejiang,China)

机构地区浙江大学建筑工程学院浙江大学工程师学院浙江大学

出处《交通运输系统工程与信息》北大核心 2026年第1期45-54,共10页 Journal of Transportation Systems Engineering and Information Technology

基金国家自然科学基金(52172334) 浙江省智能交通工程技术研究中心开放课题项目(2023ERCITZJ-KF09)。

关键词智能交通交通工程深度强化学习混合交通环境动态决策间隔交通信号控制 intelligent transportation traffic engineering deep reinforcement learning mixed traffic environment dynamic decision interval traffic signal control

分类号 U495 [交通运输工程—交通运输规划与管理]

引文网络
相关文献

参考文献8

1徐东伟,周磊,王达,丁加丽,魏臣臣.基于深度强化学习的城市交通信号控制综述[J].交通运输工程与信息学报,2022,20(1):15-30. 被引量：22
2马万经,李金珏,俞春辉.智能网联混合交通流交叉口控制:研究进展与前沿[J].中国公路学报,2023,36(2):22-40. 被引量：28
3陈喜群,朱奕璋,吕朝锋.基于混合近端策略优化的交叉口信号相位与配时优化方法[J].交通运输系统工程与信息,2023,23(1):106-113. 被引量：14
4陈喜群,朱奕璋,谢宁珂,耿茂思,吕朝锋.基于异构多智能体自注意力网络的路网信号协调顺序优化方法[J].交通运输系统工程与信息,2024,24(3):114-126. 被引量：4
5王福建,范诚睿,周斌,封春房,马东方.基于多维时空层递的交通信号分布式强化学习方法[J].中国公路学报,2024,37(7):250-263. 被引量：5
6马东方,陈曦,吴晓东,金盛.基于强化学习的干线信号混合协同优化方法[J].交通运输系统工程与信息,2022,22(2):145-153. 被引量：17
7张玺君,聂生元,李喆,张红.基于自注意力机制的深度强化学习交通信号控制[J].交通运输系统工程与信息,2024,24(2):96-104. 被引量：11
8王庞伟,王思淼,雷方舒,徐京辉,王子鹏,王力.混合动作表示强化学习下的城市交叉口智慧信控方法[J].交通运输系统工程与信息,2025,25(4):73-83. 被引量：1

二级参考文献32

1王伟娟.基于阶段的相位设计逐步优化法[J].交通与计算机,2007,25(3):31-33. 被引量：2
2张存保,陈超,严新平.基于车路协同的单点信号控制优化方法和模型[J].武汉理工大学学报,2012,34(10):74-79. 被引量：20
3罗茜.交通堵塞带来的损失有多大?[J].百科知识,2013(6):22-23. 被引量：3
4陈大山,许琳,黄凯,孙旭.基于VISSIM的平面交叉口交通信号灯组优化设计[J].山东交通科技,2013(5):5-7. 被引量：2
5路婷,贝晓旭,刘桂云.基于交叉口重要度深度搜索的区域信号协调控制方法[J].交通运输系统工程与信息,2018,18(2):80-86. 被引量：7
6付锐,张雅丽,袁伟.生态驾驶研究现状及展望[J].中国公路学报,2019,32(3):1-12. 被引量：38
7李立,徐志刚,赵祥模,汪贵平.智能网联汽车运动规划方法研究综述[J].中国公路学报,2019,32(6):20-33. 被引量：48
8柴琳果,蔡伯根,上官伟,王剑,陈俊杰.基于间隙理论的智能车交叉口运行控制方法[J].系统仿真学报,2019,31(9):1875-1882. 被引量：10
9赵梦彤.车联网环境下的交叉口自适应信号控制[J].工业控制计算机,2019,32(9):100-101. 被引量：4
10徐恩炷,朱海龙,刘靖宇,石晔琼,尹启天.基于异步深度强化学习的城市智能交通控制方法[J].智能计算机与应用,2019,9(6):164-167. 被引量：4

共引文献79

1蒋明智,吴天昊,张琳.基于深度强化学习的无信号交叉口车辆协同控制算法[J].交通运输工程与信息学报,2022,20(2):14-24. 被引量：10
2任安妮,周大可,冯锦浩,唐慕尧,李涛.基于注意力机制的深度强化学习交通信号控制[J].计算机应用研究,2023,40(2):430-434. 被引量：12
3陈喜群,朱奕璋,吕朝锋.基于混合近端策略优化的交叉口信号相位与配时优化方法[J].交通运输系统工程与信息,2023,23(1):106-113. 被引量：14
4彭显玥,王昊.交通分配与信号控制组合优化研究综述[J].交通运输工程与信息学报,2023,21(1):1-18. 被引量：8
5俞山川,陈雨.高精度地图在智能交通上的应用[J].公路,2023,68(2):218-224. 被引量：11
6刘庆健,疏利生,刘刚,李翱.低空无人机路径规划算法综述[J].航空工程进展,2023,14(2):24-34. 被引量：14
7张利平,赵俊梅,刘丹,陈昌鑫,田悦.基于网格跟踪的避障和轨迹规划仿真技术的研究[J].车辆与动力技术,2023(2):36-42.
8张国有,宋世峰.基于D3QN的交通灯控制优化[J].计算机与现代化,2023(7):30-35. 被引量：2
9宋太龙,贺玉龙,刘钦.基于深度强化学习的大型活动关键交叉口信号控制[J].科学技术与工程,2023,23(22):9694-9701. 被引量：5
10巫威眺,周霄,朱彦辰,李鹏,邹弘辉,李余.考虑乘客时空灵活性的需求响应客货联运动态调度[J].交通运输系统工程与信息,2023,23(4):211-227. 被引量：5

1段林,吴思怡.浅析城市道路交叉口信号控制方法[J].中国储运,2025(11):76-77.
2西安交警(文/图).西安市道路交通管理的发展变迁(二)——交通信号控制篇[J].道路交通管理,2026(2):84-85.
3王庞伟,王思淼,雷方舒,徐京辉,王子鹏,王力.混合动作表示强化学习下的城市交叉口智慧信控方法[J].交通运输系统工程与信息,2025,25(4):73-83. 被引量：1
4蒋贤才,吴战领,伞景奇.网联交通环境下自适应交通事件的信号控制方法[J].华南理工大学学报(自然科学版),2025,53(12):46-60.
5胡援浩,娄铮铮,胡世哲,张朝阳,焦重阳,周清雷.LGDLight:线图注意力驱动的区域交通信号控制[J].计算机工程与应用,2026,62(1):379-390.
6车倩,王群,王义晶,刘晓,王万元,宋沫飞.基于Shapley值拥堵归因与多智能体深度强化学习的交通信号控制优化方法[J].南京大学学报(自然科学版),2026,62(1):59-68.
7张功权,任典,黄合来,常方蓉.考虑行人过街安全的交叉口车路协同控制方法[J].交通信息与安全,2025,43(5):24-32.
8蔡里军,柯旭,邓蒙,郑尧尹.FPGA下量子激光雷达稳频通信偏振控制仿真[J].计算机仿真,2025,42(11):1-5.
9于天剑,曾笑颜,冯恩来,黄金,张桂南.基于LSTM-Transformer多通道特征融合的锂电池SOC-SOH联合估计[J].铁道科学与工程学报,2026,23(1):301-313.
10周敏,尹勇生,唐煦,孟煦.低功耗低噪声级联小数分频锁相环电路[J].微电子学,2025,55(1):91-98.

交通运输系统工程与信息

2026年第1期

浏览历史

内容加载中请稍等...

混合交通环境下基于动态决策间隔的强化学习信号控制方法

参考文献8

二级参考文献32

共引文献79

相关作者

相关机构

相关主题

浏览历史