期刊文献+
共找到1,345篇文章
< 1 2 68 >
每页显示 20 50 100
基于改进PPO算法的机械臂动态路径规划 被引量:3
1
作者 万宇航 朱子璐 +3 位作者 钟春富 刘永奎 林廷宇 张霖 《系统仿真学报》 北大核心 2025年第6期1462-1473,共12页
针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出... 针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出了基于LSTM网络的环境状态输入处理方法,并对PPO算法的网络结构进行了改进;基于人工势场法设计了奖励函数,并建立机械臂碰撞检测模型。实验结果表明:改进算法能够适应场景中障碍物数量和位置的变化,具有更快的收敛速度和稳定性。 展开更多
关键词 动态路径规划 改进ppo算法 LSTM网络 人工势场法 ML-Agents
原文传递
一种面向博弈场景的PPO-Dueling DQN策略优化方法
2
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度Q网络 ppo算法 网络攻防博弈 效能评估
在线阅读 下载PDF
局部风信息启发的AVW-PPO室内气源定位算法
3
作者 李世钰 袁杰 +2 位作者 谢霖伟 郭旭 张宁宁 《哈尔滨工业大学学报》 北大核心 2025年第8期57-68,共12页
为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始... 为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始PPO算法的基础上引入辅助价值网络,以减少单一值网络的估计偏差,从而提升策略更新的稳定性与预测精度。其次,设计了一种风导向策略,将局部环境风场信息融入强化学习框架中的状态空间与奖励函数,使机器人能够更敏锐地感知羽流环境的动态变化,优化其决策路径,从而有效提高气源定位的效率。最后,通过构建二维环境中的气体扩散模型,在3种不同的湍流条件下对所提算法进行了测试。结果表明:相同环境条件下,AVW-PPO算法在平均搜索步数和成功率两个指标上均优于其他同类算法,且定位成功率超过99%。其中,风导向策略在提升搜索效率方面表现尤为突出,有助于减少机器人完成任务所需的时间。本研究为解决室内复杂湍流环境下的气源定位问题提供了新思路和新方法。 展开更多
关键词 气源定位 深度强化学习 近端策略优化(ppo) 辅助价值网络 风导向策略
在线阅读 下载PDF
结合PPO和蒙特卡洛树搜索的斗地主博弈模型
4
作者 王世鹏 王亚杰 +2 位作者 吴燕燕 郭其龙 赵甜宇 《重庆理工大学学报(自然科学)》 北大核心 2025年第8期126-133,共8页
斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy... 斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization,PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提供动作概率的策略模型,为蒙特卡洛树搜索的选择和模拟阶段提供策略指导。在选择阶段,通过PPO策略模型输出的动作概率优化策略选择公式,指导高质量动作节点的选择。在模拟阶段,PPO替代了随机模拟过程,使模拟更加符合策略,减少低效路径的探索。实验结果表明:结合PPO优化后的蒙特卡洛树搜索不仅提高了决策的效率,还提升了模型的胜率,表现出较强的斗地主博弈决策优势。 展开更多
关键词 ppo算法 蒙特卡洛树搜索 斗地主 非完备信息博弈
在线阅读 下载PDF
丝瓜多酚氧化酶PPO基因家族的克隆与表达分析 被引量:7
5
作者 朱海生 康娟 +5 位作者 刘建汀 陈敏氡 李永平 王彬 林碧英 温庆放 《核农学报》 CAS CSCD 北大核心 2018年第8期1502-1512,共11页
多酚氧化酶(PPO)是参与酚类物质氧化的主要酶类之一,在果蔬褐变中发挥重要作用。为探究丝瓜中PPO基因家族的功能,以闽丝3号丝瓜为试验材料,通过转录组测序和RT-PCR方法获得了3个丝瓜PPO基因家族的c DNA序列,依次命名为Lc PPO1(Gen Bank... 多酚氧化酶(PPO)是参与酚类物质氧化的主要酶类之一,在果蔬褐变中发挥重要作用。为探究丝瓜中PPO基因家族的功能,以闽丝3号丝瓜为试验材料,通过转录组测序和RT-PCR方法获得了3个丝瓜PPO基因家族的c DNA序列,依次命名为Lc PPO1(Gen Bank登录号为KM506756)、Lc PPO2(Gen Bank登录号为KR819890)和Lc PPO3(Gen Bank登录号为KX092429);Lc PPO1基因全长2 026 bp,包含一个1 794 bp的ORF,编码598个氨基酸;Lc PPO2基因全长2 071 bp,ORF为1 722 bp,编码574个氨基酸;Lc PPO3基因全长2 189 bp,ORF为1 779 bp,编码593个氨基酸;3个基因均无内含子,其编码的蛋白与甜瓜、黄瓜同源蛋白的相似性较高。生物信息学分析表明,3个基因编码的酶蛋白均无信号肽,无跨膜结构域,为亲水性稳定蛋白,Wolf Psort预测其亚细胞定位于叶绿体。Lc PPO具有PPO蛋白的典型特征,分别具有PPO1-DWL、PPO1-KFDV 2个结构域和一个能够结合2个铜离子(Cu A、Cu B)的中央域酪氨酸酶。实时荧光定量PCR分析显示,Lc PPO家族的3个基因在丝瓜根、茎、叶、花和果实中均有表达。在丝瓜采后储藏期间,3个PPO基因初期表达上调,后期表达量受到抑制;在丝瓜鲜切条件下,Lc PPO1和Lc PPO2基因表达量总体呈先上升后下降趋势,Lc PPO3基因鲜切后表达量均低于采后0h。Lc PPO基因家族基因表达、PPO活性、总酚与丝瓜褐变关系密切,其中Lc PPO1、Lc PPO2在普通丝瓜果肉褐变过程中可能发挥着重要作用。本研究结果为进一步揭示丝瓜褐变的发生机理和丝瓜品种遗传改良奠定了一定的理论基础。 展开更多
关键词 丝瓜 褐变 ppo 表达分析 ppo活性
在线阅读 下载PDF
小麦PPO基因等位变异及面粉白度特性分析 被引量:4
6
作者 王蕾 高翔 +6 位作者 陈其皎 李晓燕 董剑 赵万春 魏慧 石引刚 陈良国 《西北农业学报》 CAS CSCD 北大核心 2012年第12期11-19,共9页
利用分子标记PPO18和STS01对173份供试小麦品种Ppo2-A和Ppo2-D位点的等位基因变异进行分子检测,并根据品种间不同PPO等位基因组合类型将供试小麦品种进行分类,同时对多酚氧化酶PPO活性进行生化测定及面粉白度测定分析。结果表明,173份... 利用分子标记PPO18和STS01对173份供试小麦品种Ppo2-A和Ppo2-D位点的等位基因变异进行分子检测,并根据品种间不同PPO等位基因组合类型将供试小麦品种进行分类,同时对多酚氧化酶PPO活性进行生化测定及面粉白度测定分析。结果表明,173份小麦品种共检测出Ppo-A1b/Ppo-D1a、Ppo-A1b/Ppo-D1b、Ppo-A1a/Ppo-D1a和Ppo-A1a/Ppo-D1b4种等位基因组合类型,且各基因组合类型出现的频率分别为38.7%、13.9%、35.8%和11.6%;供试小麦品种不同位点PPO等位基因出现的频率差异较大,2A位点等位基因Ppo-A1a、Ppo-A1b出现频率相近,而2D位点等位基因Ppo-D1a出现频率是Ppo-D1b的3倍;所测定的173份小麦品种PPO活性均值为117.3A475/(min.mg),其中低PPO品种所占比例较高;4种基因组合类型PPO活性顺序为Ppo-A1a/Ppo-D1b>Ppo-A1a/Ppo-D1a>Ppo-A1b/Ppo-D1b>Ppo-A1b/Ppo-D1a,且彼此间差异均达到显著水平(P<0.05);供试小麦的面粉白度均值为73.0%,达到国家面粉白度等级一级标准的品种38份,占供试小麦总数的22.0%;其中基因组合为Ppo-A1a/Ppo-D1b的品种面粉白度显著低于其他3种基因组合。总体来看,供试的小麦品种间面粉白度及籽粒PPO活性变异范围较广,面粉白度与PPO活性呈显著负相关,且控制PPO的主效基因的等位变异对PPO活性及面粉白度均有显著影响。对供试小麦品种的面粉白度、PPO活性表现及PPO等位基因组合类型进行综合考察,筛选出23份具有高白度低PPO活性的小麦品种,可以作为高白度低PPO活性小麦育种的亲本材料。 展开更多
关键词 小麦品种 ppo基因等位变异 ppo活性 面粉白度 品种筛选
在线阅读 下载PDF
小麦籽粒多酚氧化酶(PPO)检测方法的优化及其在育种中的应用 被引量:3
7
作者 孙家柱 赵军涛 +5 位作者 刘冬成 阳文龙 罗光彬 张立异 张相岐 张爱民 《麦类作物学报》 CAS CSCD 北大核心 2012年第3期448-453,共6页
降低小麦中多酚氧化酶(PPO)活性,减缓面粉制品的褐化,是重要的育种目标之一。为了更好地服务于低PPO育种,本研究对检测PPO活性的原苯酚染色法进行了优化,更好地发挥了其鉴别力强、结果稳定、对种子活力伤害小等优点,便于育种者使用。苯... 降低小麦中多酚氧化酶(PPO)活性,减缓面粉制品的褐化,是重要的育种目标之一。为了更好地服务于低PPO育种,本研究对检测PPO活性的原苯酚染色法进行了优化,更好地发挥了其鉴别力强、结果稳定、对种子活力伤害小等优点,便于育种者使用。苯酚染色和分子标记结果对比发现,染色结果可以很好地反映亲本(或高代)材料中PPO的基因型,特别在低PPO材料中吻合更好。对大量亲本和世代材料的籽粒染色发现,PPO不仅存在于种皮中,其活性还是由种皮基因型决定的,后代PPO性状表现出母性遗传和加性效应的特点,控制高PPO特性的两个主效基因之间具有明显的代偿作用。PPO性状遗传相对简单,纯合较快,F2以后籽粒的染色程度以单株为单位发生分离。尽管染色是针对种皮基因型的,但PPO基因的这些遗传特点和小麦的自交特性,使染色结果同样可以预测后代单株的分离前途。这一优化的籽粒染色法在低PPO育种中的有效性是可以肯定的。 展开更多
关键词 小麦 多酚氧化酶(ppo) 籽粒苯酚染色 ppo遗传 品质育种
在线阅读 下载PDF
芳香族双磷酸酯复配体系阻燃PPO/HIPS的制备与阻燃性能 被引量:11
8
作者 辛菲 欧育湘 李秉海 《塑料》 CAS CSCD 北大核心 2007年第5期49-53,共5页
采用芳香族双磷酸酯如双酚A双(二苯基)磷酸酯(BDP)和间苯二酚双(二苯基)磷酸酯(RDP),分别与纳米二氧化硅(n-SiO2)、三聚氰胺氰尿酸盐(MCA)复配制备了阻燃PPO/HIPS和阻燃PPO/HIPS纳米材料。利用氧指数(LOI)、水平垂直燃烧(UL94V)、热失... 采用芳香族双磷酸酯如双酚A双(二苯基)磷酸酯(BDP)和间苯二酚双(二苯基)磷酸酯(RDP),分别与纳米二氧化硅(n-SiO2)、三聚氰胺氰尿酸盐(MCA)复配制备了阻燃PPO/HIPS和阻燃PPO/HIPS纳米材料。利用氧指数(LOI)、水平垂直燃烧(UL94V)、热失重分析(TGA),锥形量热仪(CONE)等技术探讨了复配体系对PPO/HIPS的阻燃作用和阻燃机理。实验结果证明:采用复配体系阻燃的PPO/HIPS取得了很好的效果。在相同添加量的情况下RDP比BDP较优。材料氧指数最高达到了35.0%,具UL94 V-0阻燃级。 展开更多
关键词 间苯二酚双(二苯基)磷酸酯 双酚A双(二苯基)磷酸酯 阻燃ppo/HIPS 阻燃ppo/HIPS纳米材料 阻燃机理
原文传递
渭北旱塬冬小麦籽粒PPO活性和YP含量基因型的分子检测 被引量:7
9
作者 叶石 张影全 +2 位作者 张晓科 任万杰 王成社 《西北农业学报》 CAS CSCD 北大核心 2010年第8期44-49,共6页
籽粒多酚氧化酶(PPO)活性和黄色素(YP)含量是影响小麦面粉白度的2个重要因素。为了解渭北旱塬冬小麦控制PPO活性(Ppo-A1和Ppo-D1)和YP含量(Psy-A1和Psy-B1)基因位点的等位变异组成和分布,本研究利用其功能标记PPO16、PPO18、PPO29、YP7 ... 籽粒多酚氧化酶(PPO)活性和黄色素(YP)含量是影响小麦面粉白度的2个重要因素。为了解渭北旱塬冬小麦控制PPO活性(Ppo-A1和Ppo-D1)和YP含量(Psy-A1和Psy-B1)基因位点的等位变异组成和分布,本研究利用其功能标记PPO16、PPO18、PPO29、YP7 A、YP7 A-2、YP7 B-1和YP7 B-2,对46份渭北旱塬小麦品种的4个位点等位变异进行检测与分析。结果表明,渭北旱塬小麦品种在控制PPO活性Ppo-A1位点存在2种等位变异,即Ppo-A1 a和Ppo-A1 b,分别占48.3%和54.3%;在Ppo-D1位点也存在2种等位变异,即Ppo-D1 a和Ppo-D1 b,分别占54.3%和48.3%。2个位点存在4种等位变异组合类型,即Ppo-A1b/Ppo-D1 a(最低PPO活性)、Ppo-A1a/Ppo-D1 b(最高PPO活性)、Ppo-A1b/Ppo-D1 b(较低PPO活性)、Ppo-A1a/Ppo-D1 a(较高PPO活性),分别占34.8%、28.2%、17.4%、9.6%。在控制YP含量Psy-A1位点存在2种等位变异,即Psy-A1 a和Psy-A1 b,分别占56.5%和43.5%,没有发现含Psy-A1 c等位变异品种;在Psy-B1位点,存在3种等位变异,其中以Psy-B1 a为主(52.2%),Psy-B1 b次之(41.3%),Psy-B1 c较少(6.5%)。控制YP含量2个主效位点存在6种不同变异组合类型,以Psy-A1 a/Psy-B1 a(较高YP含量)比例最高(39.1%),Psy-A1 b/Psy-B1 b(最低YP含量)(28.3%)次之,其次为Psy-A1 a/Psy-B1 b(中等YP含量)(13%)和Psy-A1 b/Psy-B1 a(较低YP含量)(13%),以Psy-A1 a/Psy-B1 c(最高YP含量)(4.3%)和Psy-A1 b/Psy-B1 c(2.1%)比例最低。总体来看,渭北旱塬地区小麦含低PPO活性的基因等位变异组合所占比例较高,较高YP含量的等位变异组合所占的比例较高。 展开更多
关键词 渭北旱塬 小麦 ppo-A1 ppo-D1 Psy-A1 Psy-B1
在线阅读 下载PDF
小麦籽粒PPO同工酶及其活性分析 被引量:2
10
作者 常成 张海萍 +1 位作者 李保云 刘广田 《麦类作物学报》 CAS CSCD 北大核心 2007年第5期898-903,共6页
为探讨小麦籽粒PPO同工酶与其活性的关系,以PPO活性差异较大的小麦品种为材料,分别检测了不同发育时期的籽粒、成熟籽粒以及浸润籽粒的PPO同工酶谱带及其活性。结果表明:花后10-20d,小麦籽粒PPO同工酶在高、低PPO活性品种间差异不明显... 为探讨小麦籽粒PPO同工酶与其活性的关系,以PPO活性差异较大的小麦品种为材料,分别检测了不同发育时期的籽粒、成熟籽粒以及浸润籽粒的PPO同工酶谱带及其活性。结果表明:花后10-20d,小麦籽粒PPO同工酶在高、低PPO活性品种间差异不明显。而花后20-30 d,高PPO活性小麦品种的中、低分子量PPO同工酶谱带明显强于低PPO活性品种。总体来说,PPO同工酶谱带强度随着籽粒成熟而降低,而PPO活性在花后30 d达到最大值。在成熟籽粒中,PPO同工酶的强弱与其活性的高低有着较好的一致性。随着籽粒的萌动,其PPO同工酶谱带逐渐增强,尔后降低;PPO活性亦有类似变化。与低PPO活性小麦品种相比,高PPO活性品种在浸润期间有着较强的同工酶谱带和较高的PPO活性。 展开更多
关键词 小麦 ppo同工酶 ppo活性 籽粒发育
在线阅读 下载PDF
带最大熵修正和GAIL的PPO算法
11
作者 王泽宁 刘蕾 《计算机测量与控制》 2025年第1期235-241,共7页
为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探... 为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探索,从而更全面地评估环境并发现更优策略;同时,为解决强化学习过程中因奖励函数设置不合理引起的训练效果不佳问题,引入GAIL思想,通过专家数据指导智能体进行学习;实验表明,引入最大熵修正项和GAIL的PPO算法在强化学习任务上取得了良好的性能,有效提升了学习速度和稳定性,且能有效规避因环境奖励函数设置不合理引起的性能损失;该算法为强化学习领域提供了一种新的解决策略,对于处理具有挑战性的连续控制问题具有重要意义。 展开更多
关键词 强化学习 ppo算法 生成式对抗模仿学习 深度学习 最大熵学习
在线阅读 下载PDF
中医外科PPOS临床教学模式构建
12
作者 赵满忱 李亚文 +5 位作者 尹凌峰 蔡文怡 周敏杰 周颖 徐磊 方豫东 《临床医学研究与实践》 2025年第31期174-178,共5页
目的探讨中医外科PPOS临床教学模式的构建。方法纳入2023年12月至2024年11月于我科实习的30名本科生、规培生进行研究,随机将其分为PPOS教学模式组(n=15,PPOS教学模式)和传统实训组(n=15,传统教学模式)。比较两组实习生的临床教学考核... 目的探讨中医外科PPOS临床教学模式的构建。方法纳入2023年12月至2024年11月于我科实习的30名本科生、规培生进行研究,随机将其分为PPOS教学模式组(n=15,PPOS教学模式)和传统实训组(n=15,传统教学模式)。比较两组实习生的临床教学考核成绩、患者对实习生满意度、临床思维能力、临床操作能力及综合能力。结果PPOS教学模式组的理论成绩、实践成绩及患者对实习生满意度评分均高于传统实训组(P<0.05)。实训后,两组实习生的临床思维能力量表各维度(批判性思维能力、系统性思维能力、循证性思维能力)评分及总分均升高,且PPOS教学模式组高于传统实训组(P<0.05)。实训后,PPOS教学模式组的临床操作能力各项(诊断、中医证型评估、治疗方案执行)评分均高于传统实训组(P<0.05)。实训后,两组实习生的综合能力提升问卷调查表各维度(独创思维、有效沟通、精准判断和高效治疗)评分均升高,且PPOS教学模式组高于传统实训组(P<0.05)。结论中医外科PPOS临床教学模式的构建,能够显著提高实习生的临床教学考核成绩、临床思维能力、临床操作能力及综合能力,进而提升患者对实习生的满意度。 展开更多
关键词 中医外科 ppoS教学模式 考核成绩 临床思维能力 综合能力
在线阅读 下载PDF
Improved PPO-Based Task Offloading Strategies for Smart Grids
13
作者 Qian Wang Ya Zhou 《Computers, Materials & Continua》 2025年第8期3835-3856,共22页
Edge computing has transformed smart grids by lowering latency,reducing network congestion,and enabling real-time decision-making.Nevertheless,devising an optimal task-offloading strategy remains challenging,as it mus... Edge computing has transformed smart grids by lowering latency,reducing network congestion,and enabling real-time decision-making.Nevertheless,devising an optimal task-offloading strategy remains challenging,as it must jointly minimise energy consumption and response time under fluctuating workloads and volatile network conditions.We cast the offloading problem as aMarkov Decision Process(MDP)and solve it with Deep Reinforcement Learning(DRL).Specifically,we present a three-tier architecture—end devices,edge nodes,and a cloud server—and enhance Proximal Policy Optimization(PPO)to learn adaptive,energy-aware policies.A Convolutional Neural Network(CNN)extracts high-level features from system states,enabling the agent to respond continually to changing conditions.Extensive simulations show that the proposed method reduces task latency and energy consumption far more than several baseline algorithms,thereby improving overall system performance.These results demonstrate the effectiveness and robustness of the framework for real-time task offloading in dynamic smart-grid environments. 展开更多
关键词 Smart grid task offloading deep reinforcement learning improved ppo algorithm edge computing
在线阅读 下载PDF
基于PPO算法的链路不相交多路径路由优化研究
14
作者 刘正堂 《软件工程与应用》 2025年第5期1105-1112,共8页
链路不相交多路径路由是当前网络优化的重要方向,传统路由算法在面对网络动态变化时存在适应性差、效率低等问题。本文提出了一种基于强化学习的链路不相交多路径路由算法,具体采用PPO (近端策略优化)算法。实验结果表明该算法具有良好... 链路不相交多路径路由是当前网络优化的重要方向,传统路由算法在面对网络动态变化时存在适应性差、效率低等问题。本文提出了一种基于强化学习的链路不相交多路径路由算法,具体采用PPO (近端策略优化)算法。实验结果表明该算法具有良好的收敛性与稳定性,所选路径集合的奖励显著优于随机方法,在不同网络状态下均表现出较强的泛化能力与适应能力。 展开更多
关键词 链路不相交 路由 强化学习 ppo
在线阅读 下载PDF
PPO/PP及PPO/PA合金 被引量:7
15
作者 欧育湘 《塑料科技》 CAS 2003年第2期24-27,共4页
 PPO与PA,PP是不相容的,制造PPO PA及PPO PP合金需要提高合金中两组分的相容性。本文叙述改善相容性的原理和途径、两种合金的特点及其重要性能。
关键词 ppo/PP ppo/PA 塑料合金 相容性 共混体
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题 被引量:1
16
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
17
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
自适应奖励函数的PPO曲面覆盖方法
18
作者 李淑怡 阳波 +2 位作者 陈灵 沈玲 唐文胜 《计算机工程》 北大核心 2025年第3期86-94,共9页
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面... 针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA Ⅱ、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 展开更多
关键词 清洁机器人 曲面 覆盖路径规划 强化学习 近端策略优化
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
19
作者 李锦键 王兴贵 丁颖杰 《电源学报》 北大核心 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 近端策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
一种基于PPO算法的低空基站优化模型
20
作者 薄云鹏 亢抗 +1 位作者 潘桂新 汪敏 《电子技术应用》 2025年第7期60-64,共5页
通过优化现有地面网络基站来实现低空网络服务具有成本低、建设快等优点,面对低空基站优化过程中存在的无线环境复杂、配置参数多样、优化目标互相影响等问题,提出了一种基于近端策略优化算法的多维低空网络基站优化模型:通过射线追踪... 通过优化现有地面网络基站来实现低空网络服务具有成本低、建设快等优点,面对低空基站优化过程中存在的无线环境复杂、配置参数多样、优化目标互相影响等问题,提出了一种基于近端策略优化算法的多维低空网络基站优化模型:通过射线追踪技术计算不同类型、不同角度基站的低空覆盖能力,并构建支持多目标优化和多参数配置的低空网络基站优化模型,利用PPO算法得到基站配置策略。在仿真环境中进行训练与结果验证,证明该模型可有效生成基站优化方案,且相较于基于A2C方法的模型具有更快的收敛速度和更好的基站优化效果。 展开更多
关键词 低空基站 低空通信 近端策略优化 强化学习
在线阅读 下载PDF
上一页 1 2 68 下一页 到第
使用帮助 返回顶部