期刊文献+
共找到86篇文章
< 1 2 5 >
每页显示 20 50 100
A UAV collaborative defense scheme driven by DDPG algorithm 被引量:3
1
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(ddpg)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
2
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于DDPG算法的球关节电机LuGre摩擦模型参数辨识
3
作者 张勇 张倩 +1 位作者 马倩倩 李国丽 《机床与液压》 北大核心 2025年第18期1-7,共7页
新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计... 新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计转速-摩擦力矩实验。针对LuGre模型参数辨识问题,设计DDPG算法的动作、环境和奖励,辨识球关节电机各自由度LuGre摩擦模型静态参数。对比DDPG参数辨识算法、传统神经网络法和遗传算法的辨识误差。实验结果表明:所提DDPG算法辨识参数更准确。最后,基于LuGre摩擦模型设计自抗扰控制摩擦力矩补偿环节。结果表明:摩擦补偿策略可有效抑制摩擦扰动,提高了系统的跟踪精度。 展开更多
关键词 三自由度球关节电机 ddpg算法 LUGRE模型 参数辨识 摩擦补偿
在线阅读 下载PDF
基于改进DDPG算法的N-1潮流收敛智能调整方法
4
作者 陈东旭 陈胜硕 +3 位作者 许智光 李岩松 陈兴雷 刘君 《华北电力大学学报(自然科学版)》 北大核心 2025年第4期88-98,共11页
N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流... N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流不收敛网络进行智能调整。首先,根据N-1方案校验元件类型及潮流重载量等指标确定了方案的调整措施,通过广度优先算法确定调整元件组以保证动作的有效性,根据CRITIC权重法计算了多重奖励之和,据此,设计了N-1潮流收敛调整MDP模型。其次对MDP模型中所用DDPG算法进行改进,搭建了轻量BNN网络以降低计算复杂度、提高计算速度,设计了高奖励经验池以及存量判定机制以优化模型的收敛性。最后,在某分部2179节点网络和某分部12732节点网络上对改进算法进行测试验证,结果表明基于BNN-DS的DDPG改进算法比传统方法的成功率提高36.535%,平均用时减少95.01%。 展开更多
关键词 深度强化学习 N-1潮流收敛 神经网络 ddpg算法
在线阅读 下载PDF
基于角度特征的分布式DDPG无人机追击决策 被引量:3
5
作者 王昱 任田君 +1 位作者 范子琳 孟光磊 《控制理论与应用》 北大核心 2025年第7期1356-1366,共11页
无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以... 无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以稳定模型训练过程,提出先利用梯度上升计算目标值,再使用MSE损失函数训练的Actor网络更新机制;然后,依据双方角度特征划分策略引导区域,通过设置不同的奖励函数权重,构建基于5个DDPG网络的分布式决策模型,利用在不同态势下对奖励函数权重的动态选择和无缝切换提升算法的决策能力.仿真实验表明,相比于DDPG和双延迟深度确定性策略梯度(TD3)算法,所提算法无论追击直线逃逸目标或智能逃逸目标,均具有更高的成功率和决策效率. 展开更多
关键词 追击决策 强化学习 分布式ddpg算法 角度特征
在线阅读 下载PDF
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:1
6
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 Actor网络 Critic网络 ddpg算法 深度强化学习 控制系统
原文传递
基于DDPG算法的3D打印喷头温度控制策略研究
7
作者 谭平 周招 +2 位作者 杨大胜 武永波 丁进 《浙江科技大学学报》 2025年第1期45-54,共10页
【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数... 【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数学建模;然后,在设计基于DDPG算法的马尔科夫决策过程(markov decision process,MDP)模型时,以目标温度、当前温度和时间作为状态观测变量,以比例积分微分(proportion integral differential,PID)控制器的3个参数作为输出动作值,设置多个全连接隐藏层来捕捉复杂非线性关系,并基于温度偏差设计了一组复合型奖励函数;最后,搭建仿真模型对算法进行了验证。【结果】与传统PID和模糊PID控制策略相比,基于DDPG的PID响应时间分别缩短了37.01%和18.36%,调节时间分别缩短了27.14%和8.91%,超调量分别降低了74.14%和58.89%。【结论】本方法显著提升了FDM型3D打印机喷头温度控制系统性能,可为3D打印喷头温度控制精度和稳定性研究提供参考。 展开更多
关键词 ddpg算法 温度控制 PID控制 3D打印喷头
在线阅读 下载PDF
基于DDPG的燃料电池电动拖拉机能量管理策略
8
作者 王孙 张卫 +1 位作者 李进 程如宝 《兰州工业学院学报》 2025年第3期33-38,50,共7页
针对当前电动拖拉机燃料电池循环寿命短、功率密度低等问题,采用燃料电池和超级电容的复合能源拓扑结构,以实现总运行成本最低为目标,建立燃料电池、超级电容、燃料电池寿命衰退等模型,组成新型复合能源电动拖拉机模型。复合能源之间的... 针对当前电动拖拉机燃料电池循环寿命短、功率密度低等问题,采用燃料电池和超级电容的复合能源拓扑结构,以实现总运行成本最低为目标,建立燃料电池、超级电容、燃料电池寿命衰退等模型,组成新型复合能源电动拖拉机模型。复合能源之间的功率分配采用DDPG在线能量管理策略,并与离线全局最优DP算法作对比。结果表明:采用的DDPG算法在减少部件老化、降低总体使用成本以及SOC维持方面表现出卓越的性能,达到了基准DP的燃料经济性92.29%,接近最佳解决方案。 展开更多
关键词 燃料电池 超级电容 ddpg算法 DP算法
在线阅读 下载PDF
基于DDPG算法的220 kV带电作业末端装置自动化控制系统
9
作者 李佳辉 吴佳龙 《电子设计工程》 2025年第12期52-55,61,共5页
鉴于带电作业末端受到220 kV电网环境的影响,导致作业末端装置出现偏差,为保证带电作业末端能够精准作用在目标装置上,通过DDPG算法优化设计220 kV带电作业末端装置自动化控制系统。改装传感器,考虑DDPG算法的运行要求优化末端工作数据... 鉴于带电作业末端受到220 kV电网环境的影响,导致作业末端装置出现偏差,为保证带电作业末端能够精准作用在目标装置上,通过DDPG算法优化设计220 kV带电作业末端装置自动化控制系统。改装传感器,考虑DDPG算法的运行要求优化末端工作数据处理器,对硬件系统执行电磁屏蔽处理,完成系统硬件部分的优化。利用DDPG算法识别带电作业末端目标装置,将其作为控制目标,将带电作业末端实际装置作为初始控制值,通过装置控制量的计算,实现系统的带电作业末端装置自动化控制功能。通过系统测试实验得出,与传统控制系统相比,在优化设计系统控制下,有、无漏电现象两种电网环境中带电作业末端装置的控制误差分别降低了8.85 m和10.3 m。 展开更多
关键词 ddpg算法 220 kV带电作业 作业末端装置 自动化控制系统
在线阅读 下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划 被引量:3
10
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(ddpg)算法 课程学习机制 优先经验回放机制
在线阅读 下载PDF
自动驾驶路径优化的RF-DDPG车辆控制算法研究 被引量:5
11
作者 焦龙飞 谷志茹 +2 位作者 舒小华 袁鹏 王建斌 《湖南工业大学学报》 2024年第1期62-69,共8页
针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法... 针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法的奖励函数,以此优化DDPG的参数,达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台,对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明,所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。 展开更多
关键词 自动驾驶 路径跟踪 深度强化学习 路径控制 ddpg算法
在线阅读 下载PDF
基于贪婪DDPG的无人机智能避障算法 被引量:1
12
作者 展望晨 郭乐江 +1 位作者 许世佳 刘重阳 《空天预警研究学报》 CSCD 2024年第5期342-346,共5页
针对传统无人机DDPG避障算法难以解决无人机在未知条件或复杂环境中飞行时的智能避障问题,提出一种基于贪婪DDPG无人机智能避障算法.在传统DDPG算法基础上,通过引入动态调整贪婪度方法和高斯噪声策略,使无人机在探索环境和制定避障策略... 针对传统无人机DDPG避障算法难以解决无人机在未知条件或复杂环境中飞行时的智能避障问题,提出一种基于贪婪DDPG无人机智能避障算法.在传统DDPG算法基础上,通过引入动态调整贪婪度方法和高斯噪声策略,使无人机在探索环境和制定避障策略时,能够更加高效地平衡探索和利用的关系,从而提高学习效率和避障性能.实验结果表明,贪婪DDPG算法在训练效率和泛化能力上均优于传统DDPG算法,显示出良好的鲁棒性. 展开更多
关键词 无人机避障 贪婪ddpg算法 探索策略
在线阅读 下载PDF
基于改进DDPG-PID的芯片共晶键合温度控制 被引量:1
13
作者 刘家池 陈秀梅 邓娅莉 《半导体技术》 CAS 北大核心 2024年第11期973-980,共8页
芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度... 芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度确定性策略梯度(DDPG)强化学习算法优化PID参数的控制方法,采用分类经验回放的思想,以奖励值大小为标准对经验进行分类存放,根据智能体当前的状态和下一步动作,从相应的经验池中进行采样并训练,并根据PID控制算法的特性设计了合理的奖励函数,改善了强化学习中奖励稀疏的问题,提高了算法的收敛速度与性能。仿真结果表明,与传统PID控制、常规DDPG-PID控制相比,改进DDPG-PID控制缩短了响应时间,降低了超调量,近乎消除了稳态误差,提高了控制性能和系统稳定性。 展开更多
关键词 芯片共晶键合 深度确定性策略梯度(ddpg)算法 强化学习 温度控制 比例-积分-微分(PID)控制
原文传递
基于APF-LSTM-DDPG算法的移动机器人局部路径规划 被引量:3
14
作者 李永迪 李彩虹 +3 位作者 张耀玉 张国胜 周瑞红 梁振英 《山东理工大学学报(自然科学版)》 CAS 2024年第1期33-41,共9页
针对深度强化学习算法存在训练时间长、收敛速度慢的问题,将深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法和人工势场(artifical potential field,APF)法相融合,引入长短期记忆(long short-term memory,LSTM)神经... 针对深度强化学习算法存在训练时间长、收敛速度慢的问题,将深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法和人工势场(artifical potential field,APF)法相融合,引入长短期记忆(long short-term memory,LSTM)神经网络结构,提出了APF-LSTM-DDPG算法。首先在DDPG算法中添加LSTM,通过记忆单元和遗忘单元将奖励较高的样本优先学习,使模型更快地收敛;其次引入人工势场法,设计相应势场函数,解决环境奖励稀疏的缺点,加速模型收敛进程;然后通过人工势场法修正算法的动作选择,缩短路径长度;最后在机器人仿真平台(robot operating system,ROS)中搭建不同障碍物环境对算法进行了仿真验证。仿真结果表明,APF-LSTM-DDPG算法在搭建的仿真环境中训练时平均奖励能够更快地稳定,提高了算法的成功率并减少了规划路径中的冗余。 展开更多
关键词 深度确定性策略梯度算法 人工势场法 长短期记忆 移动机器人 局部路径规划
在线阅读 下载PDF
基于轨迹预测和分布式MADDPG的无人机集群追击决策 被引量:2
15
作者 王昱 关智慧 李远鹏 《计算机应用》 CSCD 北大核心 2024年第11期3623-3628,共6页
针对复杂任务环境下无人机(UAV)集群追击决策算法灵活性不足、泛化能力差等问题,提出一种基于轨迹预测的分布式多智能体深度确定性策略梯度(TP-DMADDPG)算法。首先,为增强追击任务的真实性,为目标机设计智能化逃逸策略;其次,考虑到因通... 针对复杂任务环境下无人机(UAV)集群追击决策算法灵活性不足、泛化能力差等问题,提出一种基于轨迹预测的分布式多智能体深度确定性策略梯度(TP-DMADDPG)算法。首先,为增强追击任务的真实性,为目标机设计智能化逃逸策略;其次,考虑到因通信中断等原因导致的目标机信息缺失等情况,采用长短时记忆(LSTM)网络实时预测目标机的位置信息,并基于预测信息构建决策模型的状态空间;最后,依据分布式框架和多智能体深度确定性策略梯度(MADDPG)算法设计TP-DMADDPG算法,增强复杂空战进程中集群追击决策的灵活性和泛化能力。仿真实验结果表明,相较于深度确定性策略梯度(DDPG)、双延迟深度确定性策略梯度(TD3)和MADDPG算法,TP-DMADDPG算法将协同决策的成功率提升了至少15个百分点,能够解决不完备信息下追击智能化逃逸目标机的问题。 展开更多
关键词 集群追击 轨迹预测 分布式决策 多智能体 强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于DDPG的综合化航电系统多分区任务分配优化方法 被引量:2
16
作者 赵长啸 李道俊 +1 位作者 汪鹏辉 田毅 《电讯技术》 北大核心 2024年第1期58-66,共9页
综合化航电系统(Integrated Modular Avionics,IMA)通过时空分区机制实现共享资源平台下的多航电功能集成,分区间的任务分配方法的优劣决定着航电系统的整体效能。针对航电任务集合在多分区内的分配调度问题,提出了一种基于深度强化学... 综合化航电系统(Integrated Modular Avionics,IMA)通过时空分区机制实现共享资源平台下的多航电功能集成,分区间的任务分配方法的优劣决定着航电系统的整体效能。针对航电任务集合在多分区内的分配调度问题,提出了一种基于深度强化学习的优化方法。构建了航电系统模型与任务模型,以系统资源限制与任务实时性需求为约束,以提高系统资源利用率为优化目标,将任务分配过程描述为序贯决策问题。引入马尔科夫决策模型,建立基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)法的IMA任务分配模型并提出通用分配架构;引入状态归一化、行为噪声等策略训练技巧,提高DDPG算法的学习性能和训练能力。仿真结果表明,提出的优化算法迭代次数达到500次时开始收敛,分析800次之后多分区内驻留任务方案在能满足约束要求的同时,最低处理效率提升20.55%。相较于传统分配方案和AC(Actor-Critic)算法,提出的DDPG算法在收敛能力、优化性能以及稳定性上均有显著优势。 展开更多
关键词 综合模块化航空电子系统(IMA) 任务分配及调度 深度强化学习 ddpg算法
在线阅读 下载PDF
基于DDPG算法的MISO通信系统优化
17
作者 赵冬鹤 徐龙艳 翟亚红 《重庆科技学院学报(自然科学版)》 CAS 2024年第2期82-87,共6页
无线通信系统中部署大量天线时会增加硬件成本,且能耗和信号处理的复杂性加大,针对此问题提出了一种基于深度确定性策略梯度(DDPG)算法的多输入单输出(MISO)通信系统优化方案。研究智能反射面(RIS)辅助多用户的MISO系统,在连续状态和动... 无线通信系统中部署大量天线时会增加硬件成本,且能耗和信号处理的复杂性加大,针对此问题提出了一种基于深度确定性策略梯度(DDPG)算法的多输入单输出(MISO)通信系统优化方案。研究智能反射面(RIS)辅助多用户的MISO系统,在连续状态和动作背景下,利用DDPG算法联合设计基站端波束成形矩阵和RIS处相移,以最大化系统加权和率。仿真实验结果表明,该方案与FP算法的加权和率性能相当且收敛性较好,相比未部署RIS的方案具有明显优势。 展开更多
关键词 ddpg算法 智能反射面 波束成形 多输入单输出系统
在线阅读 下载PDF
基于DDPG改进PID算法的堆肥翻堆作业反馈控制
18
作者 王悦辰 王纪章 +1 位作者 茆寒 姚承志 《中国农机化学报》 北大核心 2024年第6期184-190,200,共8页
在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业... 在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业负荷与翻堆物料含水率、翻堆机行走速度关系模型,并结合翻堆机变频调速控制模型,利用DDPG(Deep Deterministic Policy Gradient)改进PID算法对翻堆作业调速系统进行优化控制。经过Simulink仿真结果表明,DDPG改进PID算法相比传统PID算法在超调量上减少6.7%,调节时间减少2.5 s,并且抗扰动与跟随性能均更优。翻堆作业现场测试结果表明:DDPG改进PID算法的控制方式相比传统PID算法超调量要降低4%、调节时间减少2 s,相比人工控制其调节时间减少6 s。 展开更多
关键词 堆肥 翻堆 PID控制 反馈控制 ddpg算法
在线阅读 下载PDF
D2D通信增强的蜂窝网络中基于DDPG的资源分配 被引量:1
19
作者 唐睿 庞川林 +2 位作者 张睿智 刘川 岳士博 《计算机应用》 CSCD 北大核心 2024年第5期1562-1569,共8页
针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为... 针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为马尔可夫决策过程,并提出一种基于深度确定性策略梯度(DDPG)算法的机制。通过离线训练,直接构建了从信道状态信息到最佳资源分配策略的映射关系,而且无需求解任何优化问题,因此可通过在线方式部署。仿真结果表明,相较于遍历搜索机制,所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级(99.51%)。 展开更多
关键词 终端直通通信 资源分配 马尔可夫决策过程 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
衰减高斯噪声DDPG算法的机械臂轨迹规划
20
作者 周雨溪 赵慧 韩晓峰 《农业装备与车辆工程》 2024年第10期111-118,共8页
针对农业采摘机械臂的DDPG算法轨迹规任务中,调查了因高斯噪声标准差取值不当导致的强化学习训练失败问题,提出一种衰减正态噪声的DDPG算法,使高斯标准差σ随训练回合数增加而减小;利用Mujoco物理引擎进行多次仿真训练,验证衰减正态噪... 针对农业采摘机械臂的DDPG算法轨迹规任务中,调查了因高斯噪声标准差取值不当导致的强化学习训练失败问题,提出一种衰减正态噪声的DDPG算法,使高斯标准差σ随训练回合数增加而减小;利用Mujoco物理引擎进行多次仿真训练,验证衰减正态噪声相较于传统正态噪声在轨迹规划任务中的优势。结果表明,改进后的算法在完成采摘机械臂的轨迹规划任务时更为有效,成功解决了存在的问题。 展开更多
关键词 强化学习 ddpg算法 正态噪声 机械臂 轨迹规划
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部