期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
基于改进DDPG算法的无人船自主避碰决策方法
1
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
DoS攻击下基于APF和DDPG算法的无人机安全集群控制
2
作者 林柄权 刘磊 +1 位作者 李华峰 刘晨 《计算机应用》 北大核心 2025年第4期1241-1248,共8页
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集... 针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。 展开更多
关键词 无人机集群 人工势场法 深度确定性策略梯度 切换策略 网络安全
在线阅读 下载PDF
基于DDPG优化方法的插电式混合动力汽车等效燃油消耗最小控制策略
3
作者 徐晓东 韦文祥 甘紫东 《汽车实用技术》 2025年第5期8-13,共6页
为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混... 为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混合动力汽车的能量管理优化问题。在MATLAB/Simulink中搭建整车仿真模型进行试验,结果表明,采用新欧洲驾驶循环特定工况,在满足车辆正常行驶动力需求下,基于DDPG算法优化的等效油耗极小值算法燃油消耗明显低于双深度Q网络(DDQN)和传统的ECMS,同时维持电池SOC的平衡,保证了多目标平衡性。 展开更多
关键词 插电式混合动力汽车 确定性策略梯度算法 等效燃油消耗最小控制策略 等效因子 多目标平衡
在线阅读 下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划 被引量:3
4
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(ddpg)算法 课程学习机制 优先经验回放机制
在线阅读 下载PDF
A UAV collaborative defense scheme driven by DDPG algorithm 被引量:3
5
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(ddpg)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
在线阅读 下载PDF
自动驾驶路径优化的RF-DDPG车辆控制算法研究 被引量:5
6
作者 焦龙飞 谷志茹 +2 位作者 舒小华 袁鹏 王建斌 《湖南工业大学学报》 2024年第1期62-69,共8页
针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法... 针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法的奖励函数,以此优化DDPG的参数,达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台,对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明,所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。 展开更多
关键词 自动驾驶 路径跟踪 深度强化学习 路径控制 ddpg算法
在线阅读 下载PDF
基于ATMADDPG算法的多水面无人航行器编队导航 被引量:2
7
作者 王思琪 关巍 +1 位作者 佟敏 赵盛烨 《吉林大学学报(信息科学版)》 CAS 2024年第4期588-599,共12页
为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略... 为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略,并在实验阶段直接使用训练出的最佳策略得到最佳编队路径。仿真实验将4艘相同的“百川号”无人船作为实验对象。实验结果表明,基于ATMADDPG算法的队形保持策略能实现稳定的多无人船编队导航,并在一定程度上满足队形保持的要求。相较于多智能体深度确定性策略梯度(MADDPG:Multi-Agent Depth Deterministic Policy Gradient)算法,所提出的ATMADDPG算法在收敛速度、队形保持能力和对环境变化的适应性等方面表现出更优越的性能,综合导航效率可提高约80%,具有较大的应用潜力。 展开更多
关键词 多无人船编队导航 MAddpg算法 注意力机制 深度强化学习
在线阅读 下载PDF
基于改进DDPG-PID的芯片共晶键合温度控制 被引量:1
8
作者 刘家池 陈秀梅 邓娅莉 《半导体技术》 CAS 北大核心 2024年第11期973-980,共8页
芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度... 芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度确定性策略梯度(DDPG)强化学习算法优化PID参数的控制方法,采用分类经验回放的思想,以奖励值大小为标准对经验进行分类存放,根据智能体当前的状态和下一步动作,从相应的经验池中进行采样并训练,并根据PID控制算法的特性设计了合理的奖励函数,改善了强化学习中奖励稀疏的问题,提高了算法的收敛速度与性能。仿真结果表明,与传统PID控制、常规DDPG-PID控制相比,改进DDPG-PID控制缩短了响应时间,降低了超调量,近乎消除了稳态误差,提高了控制性能和系统稳定性。 展开更多
关键词 芯片共晶键合 深度确定性策略梯度(ddpg)算法 强化学习 温度控制 比例-积分-微分(PID)控制
原文传递
基于轨迹预测和分布式MADDPG的无人机集群追击决策 被引量:2
9
作者 王昱 关智慧 李远鹏 《计算机应用》 CSCD 北大核心 2024年第11期3623-3628,共6页
针对复杂任务环境下无人机(UAV)集群追击决策算法灵活性不足、泛化能力差等问题,提出一种基于轨迹预测的分布式多智能体深度确定性策略梯度(TP-DMADDPG)算法。首先,为增强追击任务的真实性,为目标机设计智能化逃逸策略;其次,考虑到因通... 针对复杂任务环境下无人机(UAV)集群追击决策算法灵活性不足、泛化能力差等问题,提出一种基于轨迹预测的分布式多智能体深度确定性策略梯度(TP-DMADDPG)算法。首先,为增强追击任务的真实性,为目标机设计智能化逃逸策略;其次,考虑到因通信中断等原因导致的目标机信息缺失等情况,采用长短时记忆(LSTM)网络实时预测目标机的位置信息,并基于预测信息构建决策模型的状态空间;最后,依据分布式框架和多智能体深度确定性策略梯度(MADDPG)算法设计TP-DMADDPG算法,增强复杂空战进程中集群追击决策的灵活性和泛化能力。仿真实验结果表明,相较于深度确定性策略梯度(DDPG)、双延迟深度确定性策略梯度(TD3)和MADDPG算法,TP-DMADDPG算法将协同决策的成功率提升了至少15个百分点,能够解决不完备信息下追击智能化逃逸目标机的问题。 展开更多
关键词 集群追击 轨迹预测 分布式决策 多智能体 强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于DDPG改进PID算法的堆肥翻堆作业反馈控制
10
作者 王悦辰 王纪章 +1 位作者 茆寒 姚承志 《中国农机化学报》 北大核心 2024年第6期184-190,200,共8页
在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业... 在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业负荷与翻堆物料含水率、翻堆机行走速度关系模型,并结合翻堆机变频调速控制模型,利用DDPG(Deep Deterministic Policy Gradient)改进PID算法对翻堆作业调速系统进行优化控制。经过Simulink仿真结果表明,DDPG改进PID算法相比传统PID算法在超调量上减少6.7%,调节时间减少2.5 s,并且抗扰动与跟随性能均更优。翻堆作业现场测试结果表明:DDPG改进PID算法的控制方式相比传统PID算法超调量要降低4%、调节时间减少2 s,相比人工控制其调节时间减少6 s。 展开更多
关键词 堆肥 翻堆 PID控制 反馈控制 ddpg算法
在线阅读 下载PDF
D2D通信增强的蜂窝网络中基于DDPG的资源分配 被引量:1
11
作者 唐睿 庞川林 +2 位作者 张睿智 刘川 岳士博 《计算机应用》 CSCD 北大核心 2024年第5期1562-1569,共8页
针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为... 针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为马尔可夫决策过程,并提出一种基于深度确定性策略梯度(DDPG)算法的机制。通过离线训练,直接构建了从信道状态信息到最佳资源分配策略的映射关系,而且无需求解任何优化问题,因此可通过在线方式部署。仿真结果表明,相较于遍历搜索机制,所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级(99.51%)。 展开更多
关键词 终端直通通信 资源分配 马尔可夫决策过程 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
学前教育中基于CPG与DDPG结合的机器人运动控制与幼儿互动研究 被引量:1
12
作者 吴文青 《自动化与仪器仪表》 2024年第9期289-293,共5页
学前教育中的机器人教学可以帮助幼儿培养动手能力、逻辑思维能力等。研究设计了一个交互式的智能机器人,通过中枢模式生成器模块生成机器人的运动模式,并通过深度确定性策略梯度算法不断优化机器人的动作策略。研究结果表明,在0~1 000... 学前教育中的机器人教学可以帮助幼儿培养动手能力、逻辑思维能力等。研究设计了一个交互式的智能机器人,通过中枢模式生成器模块生成机器人的运动模式,并通过深度确定性策略梯度算法不断优化机器人的动作策略。研究结果表明,在0~1 000回合内,滑动平均奖励值呈稳定上升趋势,在1 000回合之后,奖励值稳定在750附近。基于中枢模式生成器与深度确定性策略梯度结合的机器人运动控制方法可以有效提高机器人与幼儿的互动体验,有助于促进学前教育中的幼儿运动发展。结合中枢模式生成器和深度确定性策略梯度的机器人能够实现更加自然和有效的运动控制,同时提高机器人与幼儿互动的质量和效果。研究为未来的幼儿教育和机器人研究提供了新的思路和方法。 展开更多
关键词 学前教育 机器人运动控制 中枢模式生成器 深度确定性策略梯度 幼儿互动
原文传递
基于深度强化学习的停机位分配
13
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(ddpg)
在线阅读 下载PDF
基于深度确定性策略梯度算法的交通协同智能控制技术分析
14
作者 高兴媛 和铁行 《国外电子测量技术》 2025年第1期54-61,共8页
为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,... 为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,并提出多智能体系统(Multi-Agent System,MAS)结合异步优势行动者评论家(Asynchronous Advantage Actor-Critic,A3C),简称MA3C。结果表明,DDPG算法训练初期奖励值迅速上升,1000步后约稳定于150,表现优异。MA3C在高峰时奖励值为−5.94,延迟仅0.39 s,速度最高,其队列长度和等待时间显著低于其他算法。在不同车流密度下,所研究系统的车道平均占用率和平均速度均优于对比算法,高密度流量中车道平均占用率为0.9%,平均速度达14.89 m/s。低密度流量中车道平均占用率为0.4%,平均速度为17.68 m/s。所提方法不仅能够提高了交通系统的效率,还能增强交通控制的灵活性和适应性,推动了交通控制技术向智能化、自动化的方向发展。 展开更多
关键词 交通系统 深度确定性策略梯度算法 路网 智能化
原文传递
基于深度强化学习的电力系统紧急切机稳控策略生成方法 被引量:3
15
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
在线阅读 下载PDF
基于深度强化学习的综合能源系统优化调度
16
作者 梁海峰 闫峰 +1 位作者 尚隽 王楚通 《内蒙古电力技术》 2025年第4期21-29,共9页
为减少智能体达到收敛所需的训练轮数,提高经验样本利用效率,优化综合能源系统(Integrated Energy System,IES)能量调度,引入深度强化学习(Deep Reinforcement Learning,DRL)算法,提出一种基于多环境实例和数据特征分数经验采样机制的... 为减少智能体达到收敛所需的训练轮数,提高经验样本利用效率,优化综合能源系统(Integrated Energy System,IES)能量调度,引入深度强化学习(Deep Reinforcement Learning,DRL)算法,提出一种基于多环境实例和数据特征分数经验采样机制的改进深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。首先,借助多环境实例促使智能体和环境进行大量交互,从而获得有效的指导经验;其次,对不同类型数据进行特征量化处理,并依据特征分数进行经验采样,提高样本利用效率;最后,将改进DDPG算法与经典柔性动作-评价(Soft Actor⁃Critic,SAC)算法、双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法进行对比实验,实验结果验证了所提算法在提高收敛速度和样本利用效率方面的有效性,并通过算例仿真对模型增量学习后的性能提升进行了验证。 展开更多
关键词 综合能源系统 深度强化学习 改进深度确定性策略梯度算法 多环境实例 特征分数
在线阅读 下载PDF
仿驾驶员DDPG汽车纵向自动驾驶决策方法 被引量:14
17
作者 高振海 闫相同 +1 位作者 高菲 孙天骏 《汽车工程》 EI CSCD 北大核心 2021年第12期1737-1744,共8页
汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前... 汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前使用强化学习和深度强化学习的决策方法大多通过设计安全性、舒适性、经济性相关公式构建奖励函数,得到的决策策略与人类驾驶员相比仍然存在较大差距。针对以上问题,本文使用驾驶员数据通过BP神经网络拟合设计奖励函数,使用深度强化学习DDPG算法,建立了一种仿驾驶员的纵向自动驾驶决策方法。最终通过仿真测试验证了该方法的有效性和与驾驶员行为的一致性。 展开更多
关键词 自动驾驶 决策算法 深度强化学习 深度确定性策略梯度
在线阅读 下载PDF
基于DDPG算法的游船航行避碰路径规划 被引量:15
18
作者 周怡 袁传平 +1 位作者 谢海成 羊箭锋 《中国舰船研究》 CSCD 北大核心 2021年第6期19-26,60,共9页
[目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶... [目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶领域模型,采用电子海图模拟船舶的航行路径,提出基于失败区域重点学习的DDPG算法改进策略,并针对游船特点改进的船舶领域模型参数等改进方法,提高航线预测和防碰撞准确率。[结果]使用改进的DDPG算法和改进的船舶领域模型,与未改进前的算法相比,船舶避碰正确率由84.9%升至89.7%,模拟航线与真实航线的平均误差由25.2 m降至21.4 m。[结论]通过基于改进的DDPG算法和改进的船舶领域模型开展船舶避碰路径规划,可以实现水域船舶航线监管功能,且当预测航线与其他船舶存在交会时,告警调度人员,从而实现防碰撞预警机制。 展开更多
关键词 混合航道 船舶领域 船舶避碰 深度确定性策略梯度算法 失败区域探索策略
在线阅读 下载PDF
基于DDPG的冷源系统节能优化控制策略 被引量:7
19
作者 闫军威 黄琪 周璇 《控制与决策》 EI CSCD 北大核心 2021年第12期2955-2963,共9页
针对传统冷源系统节能优化方式机理建模复杂,缺乏自我学习能力,优化速度较慢等问题,提出一种基于数据驱动和自我学习机制的冷源系统节能优化控制策略,设计冷源马尔可夫决策过程模型,并采用深度确定性策略梯度算法(DDPG)解决维数灾难与... 针对传统冷源系统节能优化方式机理建模复杂,缺乏自我学习能力,优化速度较慢等问题,提出一种基于数据驱动和自我学习机制的冷源系统节能优化控制策略,设计冷源马尔可夫决策过程模型,并采用深度确定性策略梯度算法(DDPG)解决维数灾难与避免控制动作离散化问题.以夏热冬暖地区某大型办公建筑中央空调冷源系统为研究对象,对冷源系统控制策略进行节能优化,实现在满足室内热舒适性要求的前提下,减少系统能耗的目标.在对比实验中,DDPG控制策略下的冷源系统总能耗相比PSO控制策略和规则控制策略减少了6.47%和14.42%,平均室内热舒适性提升了5.59%和18.71%,非舒适性时间占比减少了5.22%和76.70%.仿真结果表明,所提出的控制策略具备有效性与实用性,相比其他控制策略在节能优化方面具有较明显的优势. 展开更多
关键词 冷源系统 强化学习 ddpg算法 节能优化控制策略 马尔可夫决策过程 策略梯度
原文传递
基于DDPG算法的微网负载端接口变换器自抗扰控制 被引量:5
20
作者 周雪松 张心茹 +3 位作者 赵浛宇 王博 赵明 问虎龙 《电力系统保护与控制》 EI CSCD 北大核心 2023年第21期66-75,共10页
直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(dee... 直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法整定线性自抗扰控制器参数的方法。依靠引入了智能算法的自抗扰微电网控制系统,实现了控制器参数的自适应调整,从而实现了微电网接口变换器的稳定运行。通过仿真对比了各类典型工况下,DDPG-LADRC与传统线性自抗扰控制器(linear active disturbance rejection control,LADRC)、双闭环比例-积分控制器的性能差异,验证了所提控制策略的有效性。而参数摄动下的鲁棒性分析结果结合多项指标下的系统整体性分析,充分体现了控制器参数的智能化调整所带来的多工况自适应性增益的优越性,具备较强的工程价值。 展开更多
关键词 微电网 DC-DC变换器 线性自抗扰控制 深度强化学习 ddpg算法 抗扰性
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部