期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
Improved PPO-Based Task Offloading Strategies for Smart Grids
1
作者 Qian Wang Ya Zhou 《Computers, Materials & Continua》 2025年第8期3835-3856,共22页
Edge computing has transformed smart grids by lowering latency,reducing network congestion,and enabling real-time decision-making.Nevertheless,devising an optimal task-offloading strategy remains challenging,as it mus... Edge computing has transformed smart grids by lowering latency,reducing network congestion,and enabling real-time decision-making.Nevertheless,devising an optimal task-offloading strategy remains challenging,as it must jointly minimise energy consumption and response time under fluctuating workloads and volatile network conditions.We cast the offloading problem as aMarkov Decision Process(MDP)and solve it with Deep Reinforcement Learning(DRL).Specifically,we present a three-tier architecture—end devices,edge nodes,and a cloud server—and enhance Proximal Policy Optimization(PPO)to learn adaptive,energy-aware policies.A Convolutional Neural Network(CNN)extracts high-level features from system states,enabling the agent to respond continually to changing conditions.Extensive simulations show that the proposed method reduces task latency and energy consumption far more than several baseline algorithms,thereby improving overall system performance.These results demonstrate the effectiveness and robustness of the framework for real-time task offloading in dynamic smart-grid environments. 展开更多
关键词 Smart grid task offloading deep reinforcement learning improved ppo algorithm edge computing
在线阅读 下载PDF
一种面向博弈场景的PPO-Dueling DQN策略优化方法
2
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度Q网络 ppo算法 网络攻防博弈 效能评估
在线阅读 下载PDF
带最大熵修正和GAIL的PPO算法
3
作者 王泽宁 刘蕾 《计算机测量与控制》 2025年第1期235-241,共7页
为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探... 为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探索,从而更全面地评估环境并发现更优策略;同时,为解决强化学习过程中因奖励函数设置不合理引起的训练效果不佳问题,引入GAIL思想,通过专家数据指导智能体进行学习;实验表明,引入最大熵修正项和GAIL的PPO算法在强化学习任务上取得了良好的性能,有效提升了学习速度和稳定性,且能有效规避因环境奖励函数设置不合理引起的性能损失;该算法为强化学习领域提供了一种新的解决策略,对于处理具有挑战性的连续控制问题具有重要意义。 展开更多
关键词 强化学习 ppo算法 生成式对抗模仿学习 深度学习 最大熵学习
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:2
4
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于PPO的自适应PID控制算法研究 被引量:6
5
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 近端优化算法 自适应PID整定 机械臂 多智能体
原文传递
基于样本优化的PPO算法在单路口信号控制的应用 被引量:3
6
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
在线阅读 下载PDF
基于一种改进PPO算法的无人机空战自主机动决策方法研究 被引量:1
7
作者 张欣 董文瀚 +3 位作者 尹晖 贺磊 张聘 李敦旺 《空军工程大学学报》 CSCD 北大核心 2024年第6期77-86,共10页
深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距... 深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距空战攻击模型;其次,基于空战状态划分重构角度、速度、距离和高度态势函数,提出一种描述机动潜力的新型态势评估指标;之后,基于态势函数设计塑形奖励,并与基于规则的稀疏奖励、基于状态转换的子目标奖励共同构成算法奖励函数,增强了强化学习算法的引导能力;最后,设计专家系统作为对手,在高保真空战仿真平台(JSBSim)中对本文工作进行了评估。仿真验证,应用本文方法的智能体在对抗固定机动对手与专家系统对手时算法收敛速度与胜率都得到了有效提升。 展开更多
关键词 ppo算法 机动潜力 六自由度飞机模型 态势函数 近距空战 专家系统
在线阅读 下载PDF
基于PPO算法的光储式充电站储能运行策略 被引量:1
8
作者 房群 《电工技术》 2024年第2期97-100,共4页
电动汽车的随机充电与光伏出力的波动特性给光储式充电站的经济高效运行提出了新的要求。为此,提出了一种基于深度强化学习近端策略优化(Proximal Policy Optimization,PPO)算法的光储式充电站储能运行策略。首先,对光储式充电站系统结... 电动汽车的随机充电与光伏出力的波动特性给光储式充电站的经济高效运行提出了新的要求。为此,提出了一种基于深度强化学习近端策略优化(Proximal Policy Optimization,PPO)算法的光储式充电站储能运行策略。首先,对光储式充电站系统结构进行了分析,并建立了以综合运行成本最小为目标的储能运行模型。其次,将该模型转化为马尔科夫决策过程,并采用深度强化学习PPO算法进行训练求解。最后,在一个光储式充电站中进行算例仿真,验证所提策略的有效性。 展开更多
关键词 光储式充电站 储能运行策略 深度强化学习 近端策略优化
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
9
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 ppo算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
基于强化学习的高铁列车运行图编制模型优化方法研究 被引量:6
10
作者 范文天 曾勇程 +2 位作者 郭一唯 杨宁 张海峰 《铁道运输与经济》 北大核心 2025年第1期70-81,共12页
针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用... 针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用近端策略优化算法在搭建好的环境中训练智能体。为提升算法性能,采用启发式贪心算法采集样本对网络进行监督学习作为前期预训练,利用熵增加算法的探索力度和多策略决策让最终的调解方案更加有效,并使用模型预热让算法网络在每个测试环境中进行参数微调以适应新环境。结果表明,在相同初始环境下,该方法消解所有冲突所需步骤显著少于启发式贪心算法,且100%消解所有冲突的概率远大于启发式贪心算法,该方法为列车运行图编制模型提供了新的参考。 展开更多
关键词 列车运行图 强化学习 ppo算法 冲突调解 启发式贪心算法
在线阅读 下载PDF
基于多智能体对抗学习的攻击路径发现方法
11
作者 张国敏 张俊峰 +1 位作者 屠智鑫 王梓澎 《信息网络安全》 北大核心 2025年第8期1254-1262,共9页
攻击路径发现是智能化渗透测试的一项重要技术,由于安防机制触发、安防人员介入等原因,目标网络往往处于动态变化状态,然而现有研究方法基于静态虚拟网络环境进行训练,智能体因经验失效问题难以适应环境的改变。为此,文章设计了一种基... 攻击路径发现是智能化渗透测试的一项重要技术,由于安防机制触发、安防人员介入等原因,目标网络往往处于动态变化状态,然而现有研究方法基于静态虚拟网络环境进行训练,智能体因经验失效问题难以适应环境的改变。为此,文章设计了一种基于完全竞争的智能体对抗博弈框架AGF,模拟红方在动态防御网络中攻击路径发现的红蓝智能体对抗博弈过程,并在PPO算法的基础上提出带有防御响应感知(DRP)机制的改进型算法PPODRP对状态和动作进行规划处理,从而使智能体具备对动态环境的适应性。实验结果表明,相比传统PPO算法,PPODRP方法在动态防御网络中的收敛效率更高,能够以更小的代价完成攻击路径发现任务。 展开更多
关键词 自动化渗透测试 ppo算法 攻击路径发现 对抗性强化学习
在线阅读 下载PDF
基于近端策略优化算法的船舶横摇运动控制系统与试验研究
12
作者 邹远停 徐文华 焦甲龙 《振动与冲击》 北大核心 2025年第18期140-145,179,共7页
为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案... 为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案;然后,通过近端策略优化算法对船舶减摇运动进行学习训练,根据训练得到的决策奖励值实时生成减摇鳍最优拍动角度方案;最后,基于所建立的船舶横摇运动控制的软硬件测试系统,在水池中开展了规则波和不规则波下的船模横摇减摇试验。结果表明,所建立的减摇系统能够使船舶在各类海况下均具有较好的减摇效果。 展开更多
关键词 船舶横摇 零航速 减摇鳍 减摇试验 近端策略优化算法
在线阅读 下载PDF
高速公路收费站动态车道配置的在线优化方法
13
作者 马飞虎 陈晓燕 +1 位作者 孙翠羽 田星彤 《交通运输系统工程与信息》 北大核心 2025年第5期333-342,共10页
针对高速公路收费站车道配置优化问题,本文提出一种基于强化学习的动态车道配置策略。根据车辆通过收费站的交通行为构建高速公路收费站仿真环境,将复杂的车道配置问题转化为考虑收费站运营成本、用户延误和拥堵惩罚的明确量化指标的目... 针对高速公路收费站车道配置优化问题,本文提出一种基于强化学习的动态车道配置策略。根据车辆通过收费站的交通行为构建高速公路收费站仿真环境,将复杂的车道配置问题转化为考虑收费站运营成本、用户延误和拥堵惩罚的明确量化指标的目标函数,借助强化学习网络训练,动态优化收费站车道资源配置策略。模型能够实时学习并动态调整车道配置,以应对交通流量和模式的动态变化。实验对比了强化学习优化方法与传统离线优化方法,结果表明,PPO(Proximal Policy Optimization)方法在全程平均排队数上降低了12.45%,在平均通过时间的波动范围上缩小了26.94%,PPO算法在减少排队长度和降低通行时间波动方面具有优势,特别是在高峰时段动态车道配置策略展现出更高的适应性和灵活性,提升了收费站的运营效率。 展开更多
关键词 公路运输 车道配置动态优化 强化学习 高速公路收费站 ppo算法
在线阅读 下载PDF
基于数字孪生的教育机器人人机交互系统设计
14
作者 石艾鑫 马晓燕 《自动化与仪器仪表》 2025年第1期277-280,285,共5页
为进一步提升机器人使用过程中的人机交互效果,以教育型机器人为研究对象,提出一种基于数字孪生技术的人机交互控制系统。其中,在引入数字孪生技术构建机械臂控制框架的基础上,提出一种基于近端策略优化算法PPO的机械臂末端目标跟踪控... 为进一步提升机器人使用过程中的人机交互效果,以教育型机器人为研究对象,提出一种基于数字孪生技术的人机交互控制系统。其中,在引入数字孪生技术构建机械臂控制框架的基础上,提出一种基于近端策略优化算法PPO的机械臂末端目标跟踪控制方法,以进一步提升系统的机械臂控制水平和交互性能。仿真结果表明,所引入的PPO算法在进行机械臂末端目标跟踪控制过程中能够保持较高的控制精度以及成功率,整体性能良好;与其他类型的控制方法相比,在目标小球跟踪指向测试以及路径跟踪控制测试中,设计的基于PPO算法的控制方法控制效果更佳,能够控制机械臂末端以更快的速度完成跟踪指向任务,并按照更加接近于目标路径的轨迹进行移动。综上,所构建的基于数字孪生的教育机器人交互控制系统性能良好,能够对机器人机械臂的移动进行更加准确的跟踪控制,可应用实际的教育机器人交互优化场景中,提升人机交互效果,可行性较高。 展开更多
关键词 人机交互 控制优化 数字孪生技术 跟踪控制 ppo算法
原文传递
基于深度强化学习的柔性机械臂末端位置自动控制研究
15
作者 陈富强 陈振庭 吴宪传 《机械与电子》 2025年第5期30-35,共6页
柔性机械臂在工作过程中所遭受到的扰动会改变其动态特性,使得末端执行器位置变化具备不确定性,增加了控制难度,为此,对基于深度强化学习的柔性机械臂末端位置自动控制方法进行了研究。搭建了柔性机械臂末端运动学模型,利用该模型进行... 柔性机械臂在工作过程中所遭受到的扰动会改变其动态特性,使得末端执行器位置变化具备不确定性,增加了控制难度,为此,对基于深度强化学习的柔性机械臂末端位置自动控制方法进行了研究。搭建了柔性机械臂末端运动学模型,利用该模型进行了机械臂末端位置定位。PPO算法结合末端位置与奖励函数设计了柔性机械臂末端自动控制目标函数,利用该函数实现了柔性机械臂末端位置自动控制。通过实验证明所提方法实现了机械臂末端位置自动控制,确保其在执行任务时准确到达指定点位,提高了机械臂的运动稳定性,降低了轨迹跟踪误差。 展开更多
关键词 深度强化学习 柔性机械臂末端位置 自动控制 奖励函数 ppo算法
在线阅读 下载PDF
基于平滑探索的倒立摆虚实迁移学习控制方法
16
作者 皇甫嘉琪 薛杰 +1 位作者 牟海明 李清都 《电子科技》 2025年第8期11-18,共8页
倒立摆的非线性和欠驱动特性使其成为强化学习(Reinforcement Learning,RL)算法的基准测试案例。在将仿真学习的RL策略部署到实物平台时,控制信号存在突变和震荡,导致策略部署失败,并且具有高功耗、过度的系统磨损和硬件损害问题。针对... 倒立摆的非线性和欠驱动特性使其成为强化学习(Reinforcement Learning,RL)算法的基准测试案例。在将仿真学习的RL策略部署到实物平台时,控制信号存在突变和震荡,导致策略部署失败,并且具有高功耗、过度的系统磨损和硬件损害问题。针对该问题,文中提出了一种用于RL策略平滑探索的正则化项。为解决实物部署阶段的策略突变问题,设计突变正则化项来约束策略在探索阶段的突变。设计了震荡正则化项来解决策略的小范围震荡问题,并对相似状态的值函数进行约束。将平滑探索正则化项应用于近端策略优化(Proximal Policy Optimization,PPO)算法进行倒立摆虚实迁移实验。实验结果表明,平滑探索的PPO算法在仿真中的训练速度提升了40%,成功实现了虚实迁移,具有较强的平滑性和鲁棒性。 展开更多
关键词 倒立摆 强化学习 平滑探索 突变正则化项 震荡正则化项 近端策略优化算法 ppo算法 虚实迁移
在线阅读 下载PDF
基于改进型PPO算法的公寓安全预警模型
17
作者 周亚凤 崔艳春 《信息化研究》 2023年第6期15-20,共6页
随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表... 随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表明,改进后的PPO算法在准确性、效率和响应时间方面明显优于传统方法。此外,该系统能够及时提供警报,确保公寓居民的安全。本文不仅强调了深度学习在安全和安防应用中的潜力,而且为智能生活环境领域的未来发展奠定了基础。 展开更多
关键词 改进型近端策略优化算法 算法优化 公寓安全 预警
在线阅读 下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:14
18
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 近端策略优化算法 虚拟目标点
在线阅读 下载PDF
基于PPO算法优化的IoT环境温度预测研究 被引量:3
19
作者 朱广 霍跃华 +1 位作者 栾庆磊 史艳琼 《传感器与微系统》 CSCD 北大核心 2021年第4期33-36,共4页
针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双... 针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双网络模型,并采用优化的PPO算法动态选择损失函数。最后,采用Kaggle数据平台提供的IoT环境温度数据集,通过实验验证了该模型的有效性和稳定性。 展开更多
关键词 物联网(IoT) 近端策略优化(ppo)算法 AC(Actor-Critic)网络 温度预测
在线阅读 下载PDF
基于PPO算法的攻击路径发现与寻优方法 被引量:3
20
作者 张国敏 张少勇 张津威 《信息网络安全》 CSCD 北大核心 2023年第9期47-57,共11页
基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问... 基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问题,并提出带有渗透动作选择模块的改进型PPO算法IPPOPAS(Improved PPO with Penetration Action Selection),该算法在获取回合经验时,根据渗透测试场景进行动作筛选。文章设计实现IPPOPAS算法的各个组件,包括策略网络、价值网络和渗透动作选择模块等,对动作选择过程进行改进,并进行参数调优和算法优化,提高了算法的性能和效率。实验结果表明,IPPOPAS算法在特定网络场景中的收敛速度优于传统深度强化学习算法DQN(Deep Q Network)及其改进算法,并且随着主机中漏洞数量的增加,该算法的收敛速度更快。此外,实验还验证了在网络规模扩大的情况下IPPOPAS算法的有效性。 展开更多
关键词 自动化渗透测试 策略网络 ppo算法 攻击路径发现
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部