期刊文献+
共找到116篇文章
< 1 2 6 >
每页显示 20 50 100
Dynamic hedging of 50ETF options using Proximal Policy Optimization
1
作者 Lei Liu Mengmeng Hao Jinde Cao 《Journal of Automation and Intelligence》 2025年第3期198-206,共9页
This paper employs the PPO(Proximal Policy Optimization) algorithm to study the risk hedging problem of the Shanghai Stock Exchange(SSE) 50ETF options. First, the action and state spaces were designed based on the cha... This paper employs the PPO(Proximal Policy Optimization) algorithm to study the risk hedging problem of the Shanghai Stock Exchange(SSE) 50ETF options. First, the action and state spaces were designed based on the characteristics of the hedging task, and a reward function was developed according to the cost function of the options. Second, combining the concept of curriculum learning, the agent was guided to adopt a simulated-to-real learning approach for dynamic hedging tasks, reducing the learning difficulty and addressing the issue of insufficient option data. A dynamic hedging strategy for 50ETF options was constructed. Finally, numerical experiments demonstrate the superiority of the designed algorithm over traditional hedging strategies in terms of hedging effectiveness. 展开更多
关键词 B-S model Option hedging Reinforcement learning 50ETF proximal policy optimization(ppo)
在线阅读 下载PDF
Gait Learning Reproduction for Quadruped Robots Based on Experience Evolution Proximal Policy Optimization
2
作者 LI Chunyang ZHU Xiaoqing +2 位作者 RUAN Xiaogang LIU Xinyuan ZHANG Siyuan 《Journal of Shanghai Jiaotong university(Science)》 2025年第6期1125-1133,共9页
Bionic gait learning of quadruped robots based on reinforcement learning has become a hot research topic.The proximal policy optimization(PPO)algorithm has a low probability of learning a successful gait from scratch ... Bionic gait learning of quadruped robots based on reinforcement learning has become a hot research topic.The proximal policy optimization(PPO)algorithm has a low probability of learning a successful gait from scratch due to problems such as reward sparsity.To solve the problem,we propose a experience evolution proximal policy optimization(EEPPO)algorithm which integrates PPO with priori knowledge highlighting by evolutionary strategy.We use the successful trained samples as priori knowledge to guide the learning direction in order to increase the success probability of the learning algorithm.To verify the effectiveness of the proposed EEPPO algorithm,we have conducted simulation experiments of the quadruped robot gait learning task on Pybullet.Experimental results show that the central pattern generator based radial basis function(CPG-RBF)network and the policy network are simultaneously updated to achieve the quadruped robot’s bionic diagonal trot gait learning task using key information such as the robot’s speed,posture and joints information.Experimental comparison results with the traditional soft actor-critic(SAC)algorithm validate the superiority of the proposed EEPPO algorithm,which can learn a more stable diagonal trot gait in flat terrain. 展开更多
关键词 quadruped robot proximal policy optimization(ppo) priori knowledge evolutionary strategy bionic gait learning
原文传递
基于双动态PPO算法的高超声速飞行器姿态控制
3
作者 王旭 蔡光斌 +2 位作者 余晓亚 叶子绮 单斌 《系统工程与电子技术》 北大核心 2026年第2期694-704,共11页
针对高超声速飞行器姿态控制中的强非线性和大不确定性特点,以及传统强化学习算法在多重控制需求下训练收敛性和控制精度的不足,提出一种双动态自适应近端策略优化(proximal policy optimization,PPO)算法。算法通过软动态裁剪机制和策... 针对高超声速飞行器姿态控制中的强非线性和大不确定性特点,以及传统强化学习算法在多重控制需求下训练收敛性和控制精度的不足,提出一种双动态自适应近端策略优化(proximal policy optimization,PPO)算法。算法通过软动态裁剪机制和策略驱动的熵调整机制,实现控制精度与执行机构保护的平衡,并在此基础上构建了集成气动特性和执行机构特性的综合仿真验证环境。结合比例-积分-微分控制思想,对状态观测空间进行了优化设计。仿真结果表明,与基准PPO算法相比,所提算法的收敛速度提升了22%,并显著改善了控制精度和动作平滑性。在不同飞行工况下,该方法展现出优异的策略适应性和鲁棒性,有效提升了飞行器的姿态控制性能。 展开更多
关键词 高超声速飞行器 动态自适应机制 智能控制 深度强化学习 近端策略优化
在线阅读 下载PDF
基于ACVAE-MPPO算法的端到端自动驾驶算法研究
4
作者 于康鸿 张军 刘元盛 《计算机工程与应用》 北大核心 2026年第4期210-223,共14页
由于道路类型多样、交互实体众多以及环境复杂,在城市环境中实现高效的自动驾驶是当今自动驾驶技术研究的重点和挑战之一。端到端强化学习在自动驾驶应用中,面临表征模型提取特征能力不足和决策模型学习特征间历史联系困难的问题,这些... 由于道路类型多样、交互实体众多以及环境复杂,在城市环境中实现高效的自动驾驶是当今自动驾驶技术研究的重点和挑战之一。端到端强化学习在自动驾驶应用中,面临表征模型提取特征能力不足和决策模型学习特征间历史联系困难的问题,这些限制影响了算法在复杂城市环境中的决策性能。针对上述问题,提出ACVAE-MPPO算法。为了解决特征提取精度低的问题,在变分自编码器(variational auto-encoder,VAE)中加入坐标卷积层,使用判别器进行辅助训练,形成辅助训练坐标卷积变分自编码器(auxiliary training coordinate convolutional variational auto-encoder,ACVAE),最终提升特征提取的精度;为了增强决策模型提取历史特征的能力,在近端策略优化算法(proximal policy optimization,PPO)中引入长短期记忆网络,形成记忆近端策略优化算法(memory proximal policy optimization,MPPO),使PPO能够记忆和有效利用时序信息,提升决策准确性。将两个模型结合形成ACVAE-MPPO算法。Carla仿真器的实验结果表明,ACVAE-MPPO算法能展现出更强的决策能力,实现更稳定且成功率更高的驾驶决策。 展开更多
关键词 变分自编码器 近端策略优化算法 深度强化学习 自动驾驶
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题 被引量:1
5
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
局部风信息启发的AVW-PPO室内气源定位算法
6
作者 李世钰 袁杰 +2 位作者 谢霖伟 郭旭 张宁宁 《哈尔滨工业大学学报》 北大核心 2025年第8期57-68,共12页
为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始... 为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始PPO算法的基础上引入辅助价值网络,以减少单一值网络的估计偏差,从而提升策略更新的稳定性与预测精度。其次,设计了一种风导向策略,将局部环境风场信息融入强化学习框架中的状态空间与奖励函数,使机器人能够更敏锐地感知羽流环境的动态变化,优化其决策路径,从而有效提高气源定位的效率。最后,通过构建二维环境中的气体扩散模型,在3种不同的湍流条件下对所提算法进行了测试。结果表明:相同环境条件下,AVW-PPO算法在平均搜索步数和成功率两个指标上均优于其他同类算法,且定位成功率超过99%。其中,风导向策略在提升搜索效率方面表现尤为突出,有助于减少机器人完成任务所需的时间。本研究为解决室内复杂湍流环境下的气源定位问题提供了新思路和新方法。 展开更多
关键词 气源定位 深度强化学习 近端策略优化(ppo) 辅助价值网络 风导向策略
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
7
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
自适应奖励函数的PPO曲面覆盖方法
8
作者 李淑怡 阳波 +2 位作者 陈灵 沈玲 唐文胜 《计算机工程》 北大核心 2025年第3期86-94,共9页
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面... 针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA Ⅱ、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 展开更多
关键词 清洁机器人 曲面 覆盖路径规划 强化学习 近端策略优化
在线阅读 下载PDF
基于PPO的自适应杂交遗传算法求解旅行商问题
9
作者 黄傲 李敏 +3 位作者 曾祥光 潘云伟 张加衡 彭倍 《计算机科学》 北大核心 2025年第S1期212-217,共6页
旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算... 旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算法(Adaptive Hybrid Genetic Algorithm,AHGA),采用深度强化学习对遗传算法的关键参数进行自适应调整。首先,构建了以遗传算法为环境的自适应参数调节模型,采用近端策略优化(Proximal Policy Optimization,PPO)算法来生成控制种群进化的动作策略。其次,在传统遗传算法交叉、变异的基础上增加杂交算子,以提高迭代后期种群的多样性。最后,在不同的TSPLIB公共实例中验证算法的效果和性能。结果表明,该算法明显提高了遗传算法的求解质量和收敛速度,有效避免了遗传算法的局部收敛问题,在解决旅行商问题时优于同类算法。 展开更多
关键词 旅行商问题 遗传算法 近端策略优化 杂交算子 参数自适应
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
10
作者 李锦键 王兴贵 丁颖杰 《电源学报》 北大核心 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 近端策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
基于LSTM-PPO算法的异构无人机集群任务分配算法
11
作者 杨光伟 孙鹏 +3 位作者 张杰勇 张永壮 崔捷 李天鑫 《指挥信息系统与技术》 2025年第6期54-62,77,共10页
无人机集群任务分配因无人机及任务数量增加导致可行解呈指数级上升,成为NP难问题。针对异构无人机集群任务分配这一NP难问题,提出了一种融合长短期记忆(LSTM)网络与近端策略优化(PPO)的深度强化学习算法。通过构建包含任务时序和航程... 无人机集群任务分配因无人机及任务数量增加导致可行解呈指数级上升,成为NP难问题。针对异构无人机集群任务分配这一NP难问题,提出了一种融合长短期记忆(LSTM)网络与近端策略优化(PPO)的深度强化学习算法。通过构建包含任务时序和航程约束等条件的马尔可夫决策过程模型,将状态空间定义为无人机状态、任务状态与约束状态的三元组,动作空间涵盖任务分配和高度调整等操作,并设计了多目标分层奖励函数。试验结果表明,在不同无人机与任务数量组合场景下,该算法的任务完成总时间和总路径代价较贪婪算法、遗传算法及基础PPO算法均取得更优效果。LSTM对时序依赖的捕捉能力与PPO的策略优化机制协同,有效解决了多机协同中的动态决策问题,为无人机集群任务分配提供了高效解决方案。 展开更多
关键词 无人机集群 任务分配 长短期记忆网络 近端策略优化
在线阅读 下载PDF
基于功率分层的PPO-PID薄膜热电冷却芯片的精准控温算法
12
作者 王云艺 李美勇 +1 位作者 张怡景 申利梅 《集成技术》 2025年第6期117-126,共10页
在集成冷却芯片的过程中,薄膜热电制冷器存在电流与芯片热点热流密度不匹配的情况,导致能耗过大、控温精度低、芯片超温等问题。针对这些问题,本文提出一种基于功率分层的PPO-PID控温算法,采用功率分层的策略,对不同制冷量需求的薄膜热... 在集成冷却芯片的过程中,薄膜热电制冷器存在电流与芯片热点热流密度不匹配的情况,导致能耗过大、控温精度低、芯片超温等问题。针对这些问题,本文提出一种基于功率分层的PPO-PID控温算法,采用功率分层的策略,对不同制冷量需求的薄膜热电制冷器进行分层电流控制,以近端策略优化(proximal policy optimization,PPO)算法为主要调控算法,通过深度强化学习的方式,根据实时温度偏差和温度偏差变化率自动调整比例积分微分控制器(proportional-integral-derivative control,PID控制)参数,并进行电流微调,几乎消除了PID控制过程中的大幅温度波动。仿真结果表明,在实现薄膜热电制冷器冷端温度控制目标的过程中,PPO-PID控温算法的控温精度可达到±0.95℃,与传统PID控制相比,提升了79.35%。此外,通过对分层PPO-PID输出的电流进行滤波处理,可提高输出电流的稳定性,但冷端温度与目标温度的平均温差上升到±1.15℃,因此可根据精度和电流稳定要求综合考虑是否添加滤波。 展开更多
关键词 薄膜热电制冷器 芯片热点 PID控制 近端策略优化算法 温度控制
在线阅读 下载PDF
基于改进PPO的小天体飞越轨道修正机动规划算法
13
作者 扈航 张锦绣 王继河 《宇航学报》 北大核心 2025年第6期1111-1122,共12页
在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向... 在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向小天体飞越前的轨道修正机动场景,提出了一种基于改进近端策略优化(PPO)的可处理环境摄动的轨道修正机动规划算法。该算法以二体Lambert问题迭代解作为输出基础项,以PPO算法学习环境摄动影响后的决策结果为输出补偿项,兼顾了对环境摄动影响的补偿和计算耗时。仿真结果表明,在环境摄动被准确感知的情况下,所提算法得到的修正机动策略的终端位置精度优于二体Lambert问题迭代解、仅基于PPO算法学习所得结果,略低于微分修正法所得结果;在环境摄动感知存在偏差且机动点间隔时间较长的情况下,所提算法在Monte Carlo打靶实验中的终端位置精度优于微分修正法所得结果,具有更好的泛化能力和鲁棒性。且所提算法的实时性好,在计算资源受限的树莓派4B上测试时在所有场景的平均决策时间均优于0.6 s,具有搭载在探测器上进行实时规划的潜力。 展开更多
关键词 轨道修正机动 小天体飞越 不确定摄动 近端策略优化
在线阅读 下载PDF
基于掩码式PPO算法的航空发动机维修决策研究
14
作者 陈保利 翟运开 +3 位作者 房晓敏 付捧枝 蔚陶 林志龙 《机械设计》 北大核心 2025年第6期101-106,共6页
航空发动机在服役期间的性能退化会增大运行风险,需要对其不同程度的退化状态开展视情维修策略研究。基于马尔可夫决策过程,研究了一种先进的深度强化学习算法——掩码式近端策略优化算法(proximal policy optimization,PPO),旨在为航... 航空发动机在服役期间的性能退化会增大运行风险,需要对其不同程度的退化状态开展视情维修策略研究。基于马尔可夫决策过程,研究了一种先进的深度强化学习算法——掩码式近端策略优化算法(proximal policy optimization,PPO),旨在为航空发动机视情维修策略的决策过程提供优化方案。通过构建航空发动机退化状态仿真模型,掩码式PPO算法根据航空发动机不同的退化程度自适应地确定最佳的维修策略。与传统PPO算法相比,掩码式PPO算法在训练过程中表现出更快的收敛速度,能够更有效地控制发动机整个服役周期内的维修成本,进一步验证了航空发动机视情维修策略与掩码式PPO算法结合是一种提升维修决策水平的有效方法。 展开更多
关键词 近端策略优化算法 马尔可夫决策过程 深度强化学习 视情维修策略
原文传递
基于改进PPO算法的无人船全覆盖路径规划
15
作者 黄柏文 张平均 +2 位作者 张茂林 郑则烨 林洪汇 《机电技术》 2025年第6期32-40,66,共10页
文章针对城市内湖水面垃圾清理问题中无人船全覆盖路径规划存在的路径冗余高、覆盖效率不足等问题,提出了一种基于LSTM-DS-PPO的全覆盖路径规划方法。首先,对作业水域进行栅格化建模,构建高效可训练的状态表示空间;接着,选用PPO作为基... 文章针对城市内湖水面垃圾清理问题中无人船全覆盖路径规划存在的路径冗余高、覆盖效率不足等问题,提出了一种基于LSTM-DS-PPO的全覆盖路径规划方法。首先,对作业水域进行栅格化建模,构建高效可训练的状态表示空间;接着,选用PPO作为基准模型,改进设计了LSTM-DS-PPO模型,改进主要包括在基准PPO中采用了基于优势函数的动态采样机制替换原有的采样机制,在训练过程中筛选高质量样本参与更新,同时引入了解耦剪裁机制,缓解训练中的奖励退化;其次,通过引入长短期记忆网络(LSTM),增强智能体对历史覆盖状态的记忆能力,从而有效识别已访问区域并减少路径重复;最后,通过仿真试验验证,结果表明,所提方法在大障碍物和小障碍物场景下能够更快达到更高的奖励峰值,加速模型收敛,同时也显著减少冗余路径并提升全覆盖效率,验证了该算法的有效性。 展开更多
关键词 无人船 全覆盖路径规划 改进ppo算法 近端策略优化 长短期记忆神经网络 动态采样机制
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:4
16
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略 被引量:4
17
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 近端策略优化算法
在线阅读 下载PDF
基于PPO的移动平台自主导航 被引量:3
18
作者 徐国艳 熊绎维 +1 位作者 周彬 陈冠宏 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第11期2138-2145,共8页
为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的... 为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的输出动作连续性问题。设计了一种改进的人工势场算法作为自身位置评价,有效提高强化学习模型在自主导航场景中的收敛速度。针对导航场景设计了模型的网络框架和奖励函数,并在Gazebo仿真环境中进行模型训练,结果表明,引入自身位置评价的模型收敛速度明显提高。将收敛模型移植入真实环境中,验证了所提方法的有效性。 展开更多
关键词 近似策略优化算法 移动平台 自主导航 强化学习 人工势场
原文传递
基于迁移深度强化学习的串列翼射流流动控制
19
作者 钱志龙 漆培龙 +1 位作者 黄振贵 何贤军 《力学学报》 北大核心 2026年第1期29-42,共14页
串列翼有前后翼共同分担升力、减小诱导阻力等优点,但复杂的尾迹干扰造成流场不稳定,影响气动性能的进一步提高.为了克服这些问题,本文提出了一个基于迁移深度强化学习的射流主动控制方案,用近端策略优化算法(proximal policy optimizat... 串列翼有前后翼共同分担升力、减小诱导阻力等优点,但复杂的尾迹干扰造成流场不稳定,影响气动性能的进一步提高.为了克服这些问题,本文提出了一个基于迁移深度强化学习的射流主动控制方案,用近端策略优化算法(proximal policy optimization,PPO)来训练智能体,通过调节翼面射流强度,达成稳定升力并减小阻力的目的,训练是在雷诺数为1000,上下翼间距h=0.5c(翼型弦长)、前后翼间距d=2c的典型工况下开展的,之后把策略迁移到4种不同的布局上:(a)h=0.5c,d=3c;(b)h=0.5c,d=4c;(c)h=-0.5c,d=2c;(d)h=0c,d=2c,以此来考察其在不同空间结构下的泛化能力和鲁棒性.结果表明:在训练工况下,前翼和后翼的升阻比分别上升了22.89%和5.37%;在迁移工况下,前翼的升阻比分别增长了17.27%,18.03%,19.35%和31.64%,后翼分别增长了4.86%,3.97%,23.68%和18.07%.而且对升力系数的功率谱作了剖析表明,此控制策略可以很好地遏制周期性涡脱落和气动效应的振荡.本研究证实了基于强化学习的迁移控制策略能够在复杂非定常流场中的应用价值以及高效率,为串列翼飞行器的高速高效主动流动控制提供了新的思路与理论支撑. 展开更多
关键词 串联翼 主动流动控制 射流激励 迁移深度强化学习 近端策略优化算法(ppo)
在线阅读 下载PDF
基于双重决策机制的深度符号回归算法
20
作者 郭泽一 李凤莲 徐利春 《计算机应用》 北大核心 2026年第2期406-415,共10页
深度符号回归(DSR)算法由循环神经网络(RNN)自动化生成表达式树,进而获得较高的模型性能,然而,它无法兼顾表达式树的准确性和结构的简洁性。因此,提出一种基于双重决策机制的深度符号回归(DDSR)算法。首先,在RNN初步决策的基础上,利用... 深度符号回归(DSR)算法由循环神经网络(RNN)自动化生成表达式树,进而获得较高的模型性能,然而,它无法兼顾表达式树的准确性和结构的简洁性。因此,提出一种基于双重决策机制的深度符号回归(DDSR)算法。首先,在RNN初步决策的基础上,利用双评分机制综合评估表达式树的结构简洁性和准确性。其次,采用强化学习对表达式树生成进行训练,将表达式树生成视为序列决策过程,并利用风险近端策略优化(RPPO)算法进行奖励反馈以更新下一批次的模型参数。在公共数据集上的实验结果表明,相较于DSR算法,DDSR算法在拟合度相关系数上最多提高了0.396,最少提高了0.001,而整体性能提升了0.116。以上证明了DDSR算法的有效性。 展开更多
关键词 符号回归 深度学习 评分机制 近端策略优化算法 风险寻优策略梯度
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部