期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
基于PPO算法的多无人机编队避障控制方法
1
作者 王何鹏飞 黄杰 +3 位作者 王伟 曾刊 王楠 洪华杰 《兵工自动化》 北大核心 2026年第2期108-112,共5页
为解决多无人机编队在复杂障碍物中执行任务时训练难度大、多机难以建模等问题,提出一种基于链式训练并含有启发式信息的近端策略优化(proximal policy optimization,PPO)算法的多无人机穿梭树林端到端运动规划方法。综合考虑无人机的... 为解决多无人机编队在复杂障碍物中执行任务时训练难度大、多机难以建模等问题,提出一种基于链式训练并含有启发式信息的近端策略优化(proximal policy optimization,PPO)算法的多无人机穿梭树林端到端运动规划方法。综合考虑无人机的动态特性和3维连续环境的复杂性,设计一种有效的运动规划策略的强化学习训练方法。通过模拟实验,验证了该方法在多无人机编队穿梭树林任务中的有效性和优越性。研究结果表明:该方法能够在避障的前提下保持一定的编队稳定性,到达目标点,且在保持编队稳定性和通过率方面均优于传统的人工势场法。该研究为无人机编队在复杂环境中的自主导航和路径规划提供了新的视角和解决方案。 展开更多
关键词 无人机编队 编队任务 运动规划 改进ppo算法 自主导航 路径规划
在线阅读 下载PDF
基于改进PPO算法的钻锚机器人机械臂路径规划
2
作者 张旭辉 田琛辉 +4 位作者 雷孟宇 杨文娟 田江伟 董征 田思昊 《煤炭学报》 北大核心 2025年第12期5420-5433,共14页
煤矿巷道支护装备的自动化与智能化水平较低,制约了煤矿巷道的成形效率,是造成“采掘失衡”的关键原因。为解决煤矿巷道支护装备自动化程度低、支护效率差的问题,针对一种集成悬臂式掘进机和多自由度机械臂的钻锚机器人,提出了一种基于... 煤矿巷道支护装备的自动化与智能化水平较低,制约了煤矿巷道的成形效率,是造成“采掘失衡”的关键原因。为解决煤矿巷道支护装备自动化程度低、支护效率差的问题,针对一种集成悬臂式掘进机和多自由度机械臂的钻锚机器人,提出了一种基于深度强化学习的钻锚机器人机械臂路径规划方法。在虚拟环境中构建煤矿巷道环境,并建立机械臂与机身、煤壁以及支护钢带的碰撞检测模型,使用层次包围盒法在虚拟环境进行碰撞检测,形成煤矿巷道边界受限情况下的避障策略。在近端策略优化(Proximal Policy Optimization,PPO)算法的基础上结合多方面因素提出改进。考虑到多自由度机械臂状态空间输入长度不固定的情况,引入长短记忆神经网络(Long Short Term Memory,LSTM)的环境状态输入处理方法,可以提升算法对环境的适应能力。并且在奖惩稀疏的情况下引入了好奇心机制(Intrinsic Curiosity Module,ICM),通过给予内在奖励鼓励智能体更大程度地探索环境。基于奖惩机制建立智能体,根据钻锚机器人的运动特性定义其状态空间与动作空间,在同一场景下分别使用2种算法对智能体进行训练,综合奖励值、回合步数、Actor网络损失值、Critic网络损失值等指标进行对比分析,最后经过仿真消融实验测试对比。实验结果表明,在原始PPO算法不能完成任务的情况下,改进后的算法路径长度比同样能完成任务的PPO-ICM算法缩短了3.98%,所用时间缩短了25.6%。为进一步验证改进后算法的鲁棒性,设计多组实验,改进后的PPO算法均完成路径规划任务,路径终点与目标位置的距离误差在3.88 cm之内,锚杆与竖直方向夹角误差在3°以内,能够有效完成路径规划任务,提升煤矿巷道支护系统的自动化程度。结果验证了所提方法在煤矿井下巷道支护时锚孔位置多变的情况下钻锚机器人多自由度机械臂在路径规划的可行性与有效性。 展开更多
关键词 巷道支护 钻锚机器人 碰撞检测 路径规划 改进ppo算法
在线阅读 下载PDF
Improved PPO-Based Task Offloading Strategies for Smart Grids
3
作者 Qian Wang Ya Zhou 《Computers, Materials & Continua》 2025年第8期3835-3856,共22页
Edge computing has transformed smart grids by lowering latency,reducing network congestion,and enabling real-time decision-making.Nevertheless,devising an optimal task-offloading strategy remains challenging,as it mus... Edge computing has transformed smart grids by lowering latency,reducing network congestion,and enabling real-time decision-making.Nevertheless,devising an optimal task-offloading strategy remains challenging,as it must jointly minimise energy consumption and response time under fluctuating workloads and volatile network conditions.We cast the offloading problem as aMarkov Decision Process(MDP)and solve it with Deep Reinforcement Learning(DRL).Specifically,we present a three-tier architecture—end devices,edge nodes,and a cloud server—and enhance Proximal Policy Optimization(PPO)to learn adaptive,energy-aware policies.A Convolutional Neural Network(CNN)extracts high-level features from system states,enabling the agent to respond continually to changing conditions.Extensive simulations show that the proposed method reduces task latency and energy consumption far more than several baseline algorithms,thereby improving overall system performance.These results demonstrate the effectiveness and robustness of the framework for real-time task offloading in dynamic smart-grid environments. 展开更多
关键词 Smart grid task offloading deep reinforcement learning improved ppo algorithm edge computing
在线阅读 下载PDF
一种面向博弈场景的PPO-Dueling DQN策略优化方法
4
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度Q网络 ppo算法 网络攻防博弈 效能评估
在线阅读 下载PDF
带最大熵修正和GAIL的PPO算法
5
作者 王泽宁 刘蕾 《计算机测量与控制》 2025年第1期235-241,共7页
为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探... 为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探索,从而更全面地评估环境并发现更优策略;同时,为解决强化学习过程中因奖励函数设置不合理引起的训练效果不佳问题,引入GAIL思想,通过专家数据指导智能体进行学习;实验表明,引入最大熵修正项和GAIL的PPO算法在强化学习任务上取得了良好的性能,有效提升了学习速度和稳定性,且能有效规避因环境奖励函数设置不合理引起的性能损失;该算法为强化学习领域提供了一种新的解决策略,对于处理具有挑战性的连续控制问题具有重要意义。 展开更多
关键词 强化学习 ppo算法 生成式对抗模仿学习 深度学习 最大熵学习
在线阅读 下载PDF
基于改进PPO算法的无人船全覆盖路径规划
6
作者 黄柏文 张平均 +2 位作者 张茂林 郑则烨 林洪汇 《机电技术》 2025年第6期32-40,66,共10页
文章针对城市内湖水面垃圾清理问题中无人船全覆盖路径规划存在的路径冗余高、覆盖效率不足等问题,提出了一种基于LSTM-DS-PPO的全覆盖路径规划方法。首先,对作业水域进行栅格化建模,构建高效可训练的状态表示空间;接着,选用PPO作为基... 文章针对城市内湖水面垃圾清理问题中无人船全覆盖路径规划存在的路径冗余高、覆盖效率不足等问题,提出了一种基于LSTM-DS-PPO的全覆盖路径规划方法。首先,对作业水域进行栅格化建模,构建高效可训练的状态表示空间;接着,选用PPO作为基准模型,改进设计了LSTM-DS-PPO模型,改进主要包括在基准PPO中采用了基于优势函数的动态采样机制替换原有的采样机制,在训练过程中筛选高质量样本参与更新,同时引入了解耦剪裁机制,缓解训练中的奖励退化;其次,通过引入长短期记忆网络(LSTM),增强智能体对历史覆盖状态的记忆能力,从而有效识别已访问区域并减少路径重复;最后,通过仿真试验验证,结果表明,所提方法在大障碍物和小障碍物场景下能够更快达到更高的奖励峰值,加速模型收敛,同时也显著减少冗余路径并提升全覆盖效率,验证了该算法的有效性。 展开更多
关键词 无人船 全覆盖路径规划 改进ppo算法 近端策略优化 长短期记忆神经网络 动态采样机制
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:4
7
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于PPO的自适应PID控制算法研究 被引量:7
8
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 近端优化算法 自适应PID整定 机械臂 多智能体
原文传递
基于样本优化的PPO算法在单路口信号控制的应用 被引量:4
9
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
在线阅读 下载PDF
计及碳排放的电动汽车充电站优化定价策略
10
作者 尹力 盛俊杰 +1 位作者 袁杰 冯燕钧 《电气传动》 2026年第2期50-57,共8页
在碳中和背景下,提出了一种计及碳排放的电动汽车充电站优化定价策略。首先,构建电动汽车用户价格响应特性模型;其次,建立以碳排放最低、负荷峰谷差最小以及充电站收益最高为目标的定价优化模型并将其转化为马尔科夫决策过程;然后,提出... 在碳中和背景下,提出了一种计及碳排放的电动汽车充电站优化定价策略。首先,构建电动汽车用户价格响应特性模型;其次,建立以碳排放最低、负荷峰谷差最小以及充电站收益最高为目标的定价优化模型并将其转化为马尔科夫决策过程;然后,提出一种基于时间差分误差的改进近端策略优化算法,以提高算法的效率与稳定性;最后,通过算例分析表明,所提定价策略能够降低配电网负荷峰谷差,提高充电站经济效益与低碳水平。 展开更多
关键词 充电站 碳排放 定价策略 深度强化学习 改进近端策略优化算法
在线阅读 下载PDF
基于改进型PPO算法的公寓安全预警模型
11
作者 周亚凤 崔艳春 《信息化研究》 2023年第6期15-20,共6页
随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表... 随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表明,改进后的PPO算法在准确性、效率和响应时间方面明显优于传统方法。此外,该系统能够及时提供警报,确保公寓居民的安全。本文不仅强调了深度学习在安全和安防应用中的潜力,而且为智能生活环境领域的未来发展奠定了基础。 展开更多
关键词 改进型近端策略优化算法 算法优化 公寓安全 预警
在线阅读 下载PDF
基于一种改进PPO算法的无人机空战自主机动决策方法研究 被引量:4
12
作者 张欣 董文瀚 +3 位作者 尹晖 贺磊 张聘 李敦旺 《空军工程大学学报》 CSCD 北大核心 2024年第6期77-86,共10页
深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距... 深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距空战攻击模型;其次,基于空战状态划分重构角度、速度、距离和高度态势函数,提出一种描述机动潜力的新型态势评估指标;之后,基于态势函数设计塑形奖励,并与基于规则的稀疏奖励、基于状态转换的子目标奖励共同构成算法奖励函数,增强了强化学习算法的引导能力;最后,设计专家系统作为对手,在高保真空战仿真平台(JSBSim)中对本文工作进行了评估。仿真验证,应用本文方法的智能体在对抗固定机动对手与专家系统对手时算法收敛速度与胜率都得到了有效提升。 展开更多
关键词 ppo算法 机动潜力 六自由度飞机模型 态势函数 近距空战 专家系统
在线阅读 下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:16
13
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 近端策略优化算法 虚拟目标点
在线阅读 下载PDF
基于PPO算法优化的IoT环境温度预测研究 被引量:3
14
作者 朱广 霍跃华 +1 位作者 栾庆磊 史艳琼 《传感器与微系统》 CSCD 北大核心 2021年第4期33-36,共4页
针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双... 针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双网络模型,并采用优化的PPO算法动态选择损失函数。最后,采用Kaggle数据平台提供的IoT环境温度数据集,通过实验验证了该模型的有效性和稳定性。 展开更多
关键词 物联网(IoT) 近端策略优化(ppo)算法 AC(Actor-Critic)网络 温度预测
在线阅读 下载PDF
基于PPO算法的机器人轴孔装配控制与仿真 被引量:2
15
作者 申玉鑫 刘晓明 +1 位作者 肖逸 余德平 《机械》 2023年第12期74-80,共7页
针对在管道运输和航空航天领域常见的大口径轴孔装配任务,设计一种基于PPO算法的装配控制方法。首先,建立强化学习算法与装配环境交互训练框架,设计两个网络用于拟合装配策略和评估值函数;其次,设计机器人输出的动作空间与装配环境输出... 针对在管道运输和航空航天领域常见的大口径轴孔装配任务,设计一种基于PPO算法的装配控制方法。首先,建立强化学习算法与装配环境交互训练框架,设计两个网络用于拟合装配策略和评估值函数;其次,设计机器人输出的动作空间与装配环境输出的状态空间,保证学习过程中的有效探索;然后,设计非线性奖励函数以确保训练过程的快速收敛;最后,搭建基于MuJoCo物理引擎的机器人大口径轴孔装配仿真平台,并在仿真平台上对设计算法进行训练和实验。结果表明:基于PPO算法的训练框架能保证训练过程的快速收敛,改进后的优势函数估计方法提升了训练过程的稳定性,训练模型不仅能保证轴插入孔和法兰面贴合,还能保证装配过程的安全性。 展开更多
关键词 装配 ppo算法 Mu JoCo仿真
在线阅读 下载PDF
基于PPO算法的攻击路径发现与寻优方法 被引量:3
16
作者 张国敏 张少勇 张津威 《信息网络安全》 CSCD 北大核心 2023年第9期47-57,共11页
基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问... 基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问题,并提出带有渗透动作选择模块的改进型PPO算法IPPOPAS(Improved PPO with Penetration Action Selection),该算法在获取回合经验时,根据渗透测试场景进行动作筛选。文章设计实现IPPOPAS算法的各个组件,包括策略网络、价值网络和渗透动作选择模块等,对动作选择过程进行改进,并进行参数调优和算法优化,提高了算法的性能和效率。实验结果表明,IPPOPAS算法在特定网络场景中的收敛速度优于传统深度强化学习算法DQN(Deep Q Network)及其改进算法,并且随着主机中漏洞数量的增加,该算法的收敛速度更快。此外,实验还验证了在网络规模扩大的情况下IPPOPAS算法的有效性。 展开更多
关键词 自动化渗透测试 策略网络 ppo算法 攻击路径发现
在线阅读 下载PDF
基于PPO算法的光储式充电站储能运行策略 被引量:1
17
作者 房群 《电工技术》 2024年第2期97-100,共4页
电动汽车的随机充电与光伏出力的波动特性给光储式充电站的经济高效运行提出了新的要求。为此,提出了一种基于深度强化学习近端策略优化(Proximal Policy Optimization,PPO)算法的光储式充电站储能运行策略。首先,对光储式充电站系统结... 电动汽车的随机充电与光伏出力的波动特性给光储式充电站的经济高效运行提出了新的要求。为此,提出了一种基于深度强化学习近端策略优化(Proximal Policy Optimization,PPO)算法的光储式充电站储能运行策略。首先,对光储式充电站系统结构进行了分析,并建立了以综合运行成本最小为目标的储能运行模型。其次,将该模型转化为马尔科夫决策过程,并采用深度强化学习PPO算法进行训练求解。最后,在一个光储式充电站中进行算例仿真,验证所提策略的有效性。 展开更多
关键词 光储式充电站 储能运行策略 深度强化学习 近端策略优化
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
18
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 ppo算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
基于强化学习的高铁列车运行图编制模型优化方法研究 被引量:7
19
作者 范文天 曾勇程 +2 位作者 郭一唯 杨宁 张海峰 《铁道运输与经济》 北大核心 2025年第1期70-81,共12页
针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用... 针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用近端策略优化算法在搭建好的环境中训练智能体。为提升算法性能,采用启发式贪心算法采集样本对网络进行监督学习作为前期预训练,利用熵增加算法的探索力度和多策略决策让最终的调解方案更加有效,并使用模型预热让算法网络在每个测试环境中进行参数微调以适应新环境。结果表明,在相同初始环境下,该方法消解所有冲突所需步骤显著少于启发式贪心算法,且100%消解所有冲突的概率远大于启发式贪心算法,该方法为列车运行图编制模型提供了新的参考。 展开更多
关键词 列车运行图 强化学习 ppo算法 冲突调解 启发式贪心算法
在线阅读 下载PDF
基于深度强化学习的无人机空战机动决策方法
20
作者 张祥瑞 谭泰 +2 位作者 李辉 张建伟 黎博文 《计算机工程》 北大核心 2025年第12期324-336,共13页
无人机(UAV)近距空战环境复杂,敌机机动高速变化,针对该环境下六自由度无人机空战自主机动决策困难的问题,提出一种分层框架下基于双重奖励的近端策略优化(DR-PPO)无人机自主引导算法。传统深度强化学习方法在解决六自由度无人机空战任... 无人机(UAV)近距空战环境复杂,敌机机动高速变化,针对该环境下六自由度无人机空战自主机动决策困难的问题,提出一种分层框架下基于双重奖励的近端策略优化(DR-PPO)无人机自主引导算法。传统深度强化学习方法在解决六自由度无人机空战任务时,因动作空间维度高、探索空间大,导致算法收敛速度慢甚至难以学习到决策的问题,设计无人机空战机动决策分层框架,将空战任务分为决策与控制两个子问题,DR-PPO算法作为决策层生成高层决策,通过双重奖励引导无人机更好地理解正确的空战行为,解决空战任务中奖励稀疏难以收敛的问题;比例积分微分(PID)算法作为控制层,生成无人机基本控制律,将高层决策转换并输出原始控制指令,使DR-PPO算法更专注于无人机机动决策层面,缩短飞行控制的探索时间,加快算法的收敛速度。仿真结果表明,在典型的空战实验场景中,分层框架下的DR-PPO算法能够缩短探索时间,避免陷入局部最优,有效引导无人机在不同态势下自主学习机动决策并快速到达优势位置,完成空战任务,其收敛效果与机动决策表现均显著优于传统深度强化学习方法下的DR-PPO算法及PPO算法,有效提高了无人机作战能力,并通过复杂多场景测试验证该算法具有良好的泛化性。 展开更多
关键词 无人机 近端策略优化算法 六自由度 双重奖励 分层框架
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部