期刊文献+
共找到88篇文章
< 1 2 5 >
每页显示 20 50 100
A UAV collaborative defense scheme driven by DDPG algorithm 被引量:3
1
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(ddpg)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法 被引量:2
2
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于DDPG算法的球关节电机LuGre摩擦模型参数辨识
3
作者 张勇 张倩 +1 位作者 马倩倩 李国丽 《机床与液压》 北大核心 2025年第18期1-7,共7页
新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计... 新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计转速-摩擦力矩实验。针对LuGre模型参数辨识问题,设计DDPG算法的动作、环境和奖励,辨识球关节电机各自由度LuGre摩擦模型静态参数。对比DDPG参数辨识算法、传统神经网络法和遗传算法的辨识误差。实验结果表明:所提DDPG算法辨识参数更准确。最后,基于LuGre摩擦模型设计自抗扰控制摩擦力矩补偿环节。结果表明:摩擦补偿策略可有效抑制摩擦扰动,提高了系统的跟踪精度。 展开更多
关键词 三自由度球关节电机 ddpg算法 LUGRE模型 参数辨识 摩擦补偿
在线阅读 下载PDF
基于改进DDPG算法的N-1潮流收敛智能调整方法
4
作者 陈东旭 陈胜硕 +3 位作者 许智光 李岩松 陈兴雷 刘君 《华北电力大学学报(自然科学版)》 北大核心 2025年第4期88-98,共11页
N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流... N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流不收敛网络进行智能调整。首先,根据N-1方案校验元件类型及潮流重载量等指标确定了方案的调整措施,通过广度优先算法确定调整元件组以保证动作的有效性,根据CRITIC权重法计算了多重奖励之和,据此,设计了N-1潮流收敛调整MDP模型。其次对MDP模型中所用DDPG算法进行改进,搭建了轻量BNN网络以降低计算复杂度、提高计算速度,设计了高奖励经验池以及存量判定机制以优化模型的收敛性。最后,在某分部2179节点网络和某分部12732节点网络上对改进算法进行测试验证,结果表明基于BNN-DS的DDPG改进算法比传统方法的成功率提高36.535%,平均用时减少95.01%。 展开更多
关键词 深度强化学习 N-1潮流收敛 神经网络 ddpg算法
在线阅读 下载PDF
基于角度特征的分布式DDPG无人机追击决策 被引量:3
5
作者 王昱 任田君 +1 位作者 范子琳 孟光磊 《控制理论与应用》 北大核心 2025年第7期1356-1366,共11页
无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以... 无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以稳定模型训练过程,提出先利用梯度上升计算目标值,再使用MSE损失函数训练的Actor网络更新机制;然后,依据双方角度特征划分策略引导区域,通过设置不同的奖励函数权重,构建基于5个DDPG网络的分布式决策模型,利用在不同态势下对奖励函数权重的动态选择和无缝切换提升算法的决策能力.仿真实验表明,相比于DDPG和双延迟深度确定性策略梯度(TD3)算法,所提算法无论追击直线逃逸目标或智能逃逸目标,均具有更高的成功率和决策效率. 展开更多
关键词 追击决策 强化学习 分布式ddpg算法 角度特征
在线阅读 下载PDF
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:2
6
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 Actor网络 Critic网络 ddpg算法 深度强化学习 控制系统
原文传递
基于DDPG算法的3D打印喷头温度控制策略研究
7
作者 谭平 周招 +2 位作者 杨大胜 武永波 丁进 《浙江科技大学学报》 2025年第1期45-54,共10页
【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数... 【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数学建模;然后,在设计基于DDPG算法的马尔科夫决策过程(markov decision process,MDP)模型时,以目标温度、当前温度和时间作为状态观测变量,以比例积分微分(proportion integral differential,PID)控制器的3个参数作为输出动作值,设置多个全连接隐藏层来捕捉复杂非线性关系,并基于温度偏差设计了一组复合型奖励函数;最后,搭建仿真模型对算法进行了验证。【结果】与传统PID和模糊PID控制策略相比,基于DDPG的PID响应时间分别缩短了37.01%和18.36%,调节时间分别缩短了27.14%和8.91%,超调量分别降低了74.14%和58.89%。【结论】本方法显著提升了FDM型3D打印机喷头温度控制系统性能,可为3D打印喷头温度控制精度和稳定性研究提供参考。 展开更多
关键词 ddpg算法 温度控制 PID控制 3D打印喷头
在线阅读 下载PDF
基于DDPG的燃料电池电动拖拉机能量管理策略
8
作者 王孙 张卫 +1 位作者 李进 程如宝 《兰州工业学院学报》 2025年第3期33-38,50,共7页
针对当前电动拖拉机燃料电池循环寿命短、功率密度低等问题,采用燃料电池和超级电容的复合能源拓扑结构,以实现总运行成本最低为目标,建立燃料电池、超级电容、燃料电池寿命衰退等模型,组成新型复合能源电动拖拉机模型。复合能源之间的... 针对当前电动拖拉机燃料电池循环寿命短、功率密度低等问题,采用燃料电池和超级电容的复合能源拓扑结构,以实现总运行成本最低为目标,建立燃料电池、超级电容、燃料电池寿命衰退等模型,组成新型复合能源电动拖拉机模型。复合能源之间的功率分配采用DDPG在线能量管理策略,并与离线全局最优DP算法作对比。结果表明:采用的DDPG算法在减少部件老化、降低总体使用成本以及SOC维持方面表现出卓越的性能,达到了基准DP的燃料经济性92.29%,接近最佳解决方案。 展开更多
关键词 燃料电池 超级电容 ddpg算法 DP算法
在线阅读 下载PDF
基于DDPG算法的220 kV带电作业末端装置自动化控制系统
9
作者 李佳辉 吴佳龙 《电子设计工程》 2025年第12期52-55,61,共5页
鉴于带电作业末端受到220 kV电网环境的影响,导致作业末端装置出现偏差,为保证带电作业末端能够精准作用在目标装置上,通过DDPG算法优化设计220 kV带电作业末端装置自动化控制系统。改装传感器,考虑DDPG算法的运行要求优化末端工作数据... 鉴于带电作业末端受到220 kV电网环境的影响,导致作业末端装置出现偏差,为保证带电作业末端能够精准作用在目标装置上,通过DDPG算法优化设计220 kV带电作业末端装置自动化控制系统。改装传感器,考虑DDPG算法的运行要求优化末端工作数据处理器,对硬件系统执行电磁屏蔽处理,完成系统硬件部分的优化。利用DDPG算法识别带电作业末端目标装置,将其作为控制目标,将带电作业末端实际装置作为初始控制值,通过装置控制量的计算,实现系统的带电作业末端装置自动化控制功能。通过系统测试实验得出,与传统控制系统相比,在优化设计系统控制下,有、无漏电现象两种电网环境中带电作业末端装置的控制误差分别降低了8.85 m和10.3 m。 展开更多
关键词 ddpg算法 220 kV带电作业 作业末端装置 自动化控制系统
在线阅读 下载PDF
基于DDPG算法的无人机集群追击任务 被引量:36
10
作者 张耀中 许佳林 +1 位作者 姚康佳 刘洁凌 《航空学报》 EI CAS CSCD 北大核心 2020年第10期309-321,共13页
无人机的集群化应用技术是近年来的研究热点,随着无人机自主智能的不断提高,无人机集群技术必将成为未来无人机发展的主要趋势之一。针对无人机集群协同执行对敌方来袭目标的追击任务,构建了典型的任务场景,基于深度确定性策略梯度网络(... 无人机的集群化应用技术是近年来的研究热点,随着无人机自主智能的不断提高,无人机集群技术必将成为未来无人机发展的主要趋势之一。针对无人机集群协同执行对敌方来袭目标的追击任务,构建了典型的任务场景,基于深度确定性策略梯度网络(DDPG)算法,设计了一种引导型回报函数有效解决了深度强化学习在长周期任务下的稀疏回报问题,通过引入基于滑动平均值的软更新策略减少了DDPG算法中Eval网络和Target网络在训练过程中的参数震荡,提高了算法的训练效率。仿真结果表明,训练完成后的无人机集群能够较好地执行对敌方来袭目标的追击任务,任务成功率达到95%。可以说无人机集群技术作为一种全新概念的作战模式在军事领域具有潜在的应用价值,人工智能算法在无人机集群的自主决策智能化发展方向上具有一定的应用前景。 展开更多
关键词 ddpg算法 无人机集群 任务决策 深度强化学习 稀疏回报
原文传递
基于DDPG的冷源系统节能优化控制策略 被引量:7
11
作者 闫军威 黄琪 周璇 《控制与决策》 EI CSCD 北大核心 2021年第12期2955-2963,共9页
针对传统冷源系统节能优化方式机理建模复杂,缺乏自我学习能力,优化速度较慢等问题,提出一种基于数据驱动和自我学习机制的冷源系统节能优化控制策略,设计冷源马尔可夫决策过程模型,并采用深度确定性策略梯度算法(DDPG)解决维数灾难与... 针对传统冷源系统节能优化方式机理建模复杂,缺乏自我学习能力,优化速度较慢等问题,提出一种基于数据驱动和自我学习机制的冷源系统节能优化控制策略,设计冷源马尔可夫决策过程模型,并采用深度确定性策略梯度算法(DDPG)解决维数灾难与避免控制动作离散化问题.以夏热冬暖地区某大型办公建筑中央空调冷源系统为研究对象,对冷源系统控制策略进行节能优化,实现在满足室内热舒适性要求的前提下,减少系统能耗的目标.在对比实验中,DDPG控制策略下的冷源系统总能耗相比PSO控制策略和规则控制策略减少了6.47%和14.42%,平均室内热舒适性提升了5.59%和18.71%,非舒适性时间占比减少了5.22%和76.70%.仿真结果表明,所提出的控制策略具备有效性与实用性,相比其他控制策略在节能优化方面具有较明显的优势. 展开更多
关键词 冷源系统 强化学习 ddpg算法 节能优化控制策略 马尔可夫决策过程 策略梯度
原文传递
基于DDPG算法的微网负载端接口变换器自抗扰控制 被引量:7
12
作者 周雪松 张心茹 +3 位作者 赵浛宇 王博 赵明 问虎龙 《电力系统保护与控制》 EI CSCD 北大核心 2023年第21期66-75,共10页
直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(dee... 直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法整定线性自抗扰控制器参数的方法。依靠引入了智能算法的自抗扰微电网控制系统,实现了控制器参数的自适应调整,从而实现了微电网接口变换器的稳定运行。通过仿真对比了各类典型工况下,DDPG-LADRC与传统线性自抗扰控制器(linear active disturbance rejection control,LADRC)、双闭环比例-积分控制器的性能差异,验证了所提控制策略的有效性。而参数摄动下的鲁棒性分析结果结合多项指标下的系统整体性分析,充分体现了控制器参数的智能化调整所带来的多工况自适应性增益的优越性,具备较强的工程价值。 展开更多
关键词 微电网 DC-DC变换器 线性自抗扰控制 深度强化学习 ddpg算法 抗扰性
在线阅读 下载PDF
基于DDPG算法的列车节能控制策略研究 被引量:14
13
作者 武晓春 金则灵 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第2期483-493,共11页
随着城市范围的扩大和人口数量的增加,建设城市轨道交通成为解决交通拥堵的重要方式,其安全性、准点性和实时性也越来越受到重视。城市轨道交通运行能耗是列车运营成本的重要组成,而牵引能耗是城市轨道交通运行能耗的主要组成部分。合... 随着城市范围的扩大和人口数量的增加,建设城市轨道交通成为解决交通拥堵的重要方式,其安全性、准点性和实时性也越来越受到重视。城市轨道交通运行能耗是列车运营成本的重要组成,而牵引能耗是城市轨道交通运行能耗的主要组成部分。合理的列车自动控制(Automatic Train Operation,ATO)策略能够在保证列车安全、准点运行的情况下,根据列车不同的运行状况,输出最优的牵引/制动级位,在一定程度上节省牵引能耗。为有效降低列车牵引能耗,采用深度强化学习中的深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)研究城市轨道交通列车节能控制策略。首先根据动力学方程建立列车运行模型,然后以列车的位置、速度和剩余运行时间作为状态空间,以牵引/制动级位作为动作空间,根据ATO系统功能,以安全性、准点性、停车精度和节能性加权组合为奖励函数,实现列车在与仿真环境交互中学习到最优控制策略。最后以长沙地铁2号线为例进行仿真验证,结果表明该算法相比于DQN算法和动态规划算法,在满足安全、准点运行的情况下牵引能耗减少8.25%和21.7%,证明该算法的优越性,同时在临时调整列车进站时间和列车牵引系统故障后,算法也能够根据列车反馈的运行状态实时调整控制策略,证明该算法的有效性。 展开更多
关键词 城市轨道交通 牵引能耗 深度强化学习 ddpg算法 节能控制策略
在线阅读 下载PDF
仿驾驶员DDPG汽车纵向自动驾驶决策方法 被引量:14
14
作者 高振海 闫相同 +1 位作者 高菲 孙天骏 《汽车工程》 EI CSCD 北大核心 2021年第12期1737-1744,共8页
汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前... 汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前使用强化学习和深度强化学习的决策方法大多通过设计安全性、舒适性、经济性相关公式构建奖励函数,得到的决策策略与人类驾驶员相比仍然存在较大差距。针对以上问题,本文使用驾驶员数据通过BP神经网络拟合设计奖励函数,使用深度强化学习DDPG算法,建立了一种仿驾驶员的纵向自动驾驶决策方法。最终通过仿真测试验证了该方法的有效性和与驾驶员行为的一致性。 展开更多
关键词 自动驾驶 决策算法 深度强化学习 深度确定性策略梯度
在线阅读 下载PDF
基于DDPG算法的变体飞行器自主变形决策 被引量:14
15
作者 桑晨 郭杰 +2 位作者 唐胜景 王肖 王子瑶 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第5期910-919,共10页
针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长... 针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长和后掠角变形动力学方程,设计DDPG算法学习步骤;针对对称和不对称变形条件下的变形策略进行学习训练。仿真结果表明:所提算法可以快速收敛,变形误差保持在3%以内,训练好的神经网络提高了变体飞行器对不同飞行任务的适应性,可以在不同的飞行环境中获得最佳的飞行性能。 展开更多
关键词 变体飞行器 自主变形决策 深度强化学习 深度确定性策略梯度(ddpg)算法 动力学分析
原文传递
基于DDPG算法的冰蓄冷空调系统运行策略优化 被引量:9
16
作者 万典典 刘智伟 +1 位作者 陈语 池明 《控制工程》 CSCD 北大核心 2022年第3期441-446,共6页
空调的不合理运行会增加建筑物总能耗,加大电网峰谷负荷差,影响电网的安全运行。针对此问题,提出一种基于深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法的冰蓄冷空调系统运行策略优化方法,以平滑冰蓄冷空调系统的功率... 空调的不合理运行会增加建筑物总能耗,加大电网峰谷负荷差,影响电网的安全运行。针对此问题,提出一种基于深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法的冰蓄冷空调系统运行策略优化方法,以平滑冰蓄冷空调系统的功率曲线和降低系统运行费用为目标,求解各个时刻制冷主机和蓄冰槽的运行功率。通过仿真实验分析DDPG算法的性能,结果表明,该方法不仅平滑了空调系统的功率曲线,实现了电网调峰的目标,同时降低了空调系统的运行费用,具有良好的经济效益。与传统的主机优先和融冰优先方法相比,该方法的功率平滑效果和经济效益都更好。 展开更多
关键词 冰蓄冷空调 ddpg算法 功率平滑 运行优化
原文传递
基于深度强化学习CLPER-DDPG的车辆纵向速度规划 被引量:3
17
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(ddpg)算法 课程学习机制 优先经验回放机制
在线阅读 下载PDF
基于DDPG算法的双轮腿机器人运动控制研究 被引量:14
18
作者 陈恺丰 田博睿 +4 位作者 李和清 赵晨阳 陆祖兴 李新德 邓勇 《系统工程与电子技术》 EI CSCD 北大核心 2023年第4期1144-1151,共8页
轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic... 轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的双轮腿机器人控制方法。首先,分析了双轮腿机器人模型及其模糊动力学模型;然后,使用DDPG算法生成双轮腿机器人在崎岖地面的运动控制策略;最后,为了验证控制器性能,分别进行了3组运动控制对比实验。仿真实验表明,在缺少地面状况先验知识的条件下,采用DDPG算法生成的运动控制策略实现了双轮腿式机器人在崎岖地面快速稳定运动的功能,其平均速度相比双轮机器人提高了约29.2%,姿态角偏移峰值相比双足机器人分别减小了约43.9%、66%、50%。 展开更多
关键词 运动控制 强化学习 轮腿机器人 深度确定性策略梯度算法
在线阅读 下载PDF
基于DDPG的多旋翼无人机自主引导与跟踪方法 被引量:8
19
作者 何准 董文瀚 +1 位作者 蔡鸣 李大东 《飞行力学》 CSCD 北大核心 2021年第2期63-69,76,共8页
针对多旋翼无人机对地面动态目标的近距离侦察问题,根据无人机与目标的相对距离将侦察任务拆分为引导阶段及跟踪阶段两部分,并针对引导阶段和跟踪阶段不同的任务需求,分别建立了自主引导模型与自主跟踪模型;其次,基于深度确定性策略梯度... 针对多旋翼无人机对地面动态目标的近距离侦察问题,根据无人机与目标的相对距离将侦察任务拆分为引导阶段及跟踪阶段两部分,并针对引导阶段和跟踪阶段不同的任务需求,分别建立了自主引导模型与自主跟踪模型;其次,基于深度确定性策略梯度(DDPG)算法,对提出的两个模型分别进行网络设计和参数优化,分别得到上述两个阶段的控制策略;最后,搭建基于机器人操作系统(ROS)的仿真测试平台,实现基于深度强化学习的无人机侦察任务的训练和数据收集,并进行了性能测试。仿真结果表明,所提出的无人机自主引导与跟踪方法能够满足侦察任务两阶段的不同需求,自主完成对地面动态目标近距离侦察的全过程任务。 展开更多
关键词 多旋翼无人机 无人机侦察 马尔可夫决策过程 深度确定性策略梯度算法 机器人操作系统
原文传递
基于DDPG算法的矿用电机车防撞及避障策略研究 被引量:6
20
作者 鲁良伟 李敬兆 周华平 《煤炭技术》 CAS 北大核心 2022年第2期184-188,共5页
为保障矿用电机车的安全稳定运行,实现电机车运输过程中避障的自主化与智能化,提出了一种基于深度确定性策略梯度(DDPG)算法的电机车防撞及避障策略。通过融合电机车行驶环境中的多源特征数据,作为DDPG算法网络的状态输入,结合奖励函数... 为保障矿用电机车的安全稳定运行,实现电机车运输过程中避障的自主化与智能化,提出了一种基于深度确定性策略梯度(DDPG)算法的电机车防撞及避障策略。通过融合电机车行驶环境中的多源特征数据,作为DDPG算法网络的状态输入,结合奖励函数、OU噪声来训练智能体,进而输出确定性防撞避障策略至电机车整车控制器,以控制电机车完成转向、调速、制动及报警等避障动作。仿真测试结果表明,所设计的避障防撞策略有效解决了电机车在井下复杂工况中的运行控制问题,对电机车的少人、无人化驾驶研究具有一定的意义。 展开更多
关键词 矿用电机车 ddpg算法 防撞避障策略 OU噪声 智能体
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部