期刊文献+
共找到1,367篇文章
< 1 2 69 >
每页显示 20 50 100
基于PPO算法的多无人机编队避障控制方法
1
作者 王何鹏飞 黄杰 +3 位作者 王伟 曾刊 王楠 洪华杰 《兵工自动化》 北大核心 2026年第2期108-112,共5页
为解决多无人机编队在复杂障碍物中执行任务时训练难度大、多机难以建模等问题,提出一种基于链式训练并含有启发式信息的近端策略优化(proximal policy optimization,PPO)算法的多无人机穿梭树林端到端运动规划方法。综合考虑无人机的... 为解决多无人机编队在复杂障碍物中执行任务时训练难度大、多机难以建模等问题,提出一种基于链式训练并含有启发式信息的近端策略优化(proximal policy optimization,PPO)算法的多无人机穿梭树林端到端运动规划方法。综合考虑无人机的动态特性和3维连续环境的复杂性,设计一种有效的运动规划策略的强化学习训练方法。通过模拟实验,验证了该方法在多无人机编队穿梭树林任务中的有效性和优越性。研究结果表明:该方法能够在避障的前提下保持一定的编队稳定性,到达目标点,且在保持编队稳定性和通过率方面均优于传统的人工势场法。该研究为无人机编队在复杂环境中的自主导航和路径规划提供了新的视角和解决方案。 展开更多
关键词 无人机编队 编队任务 运动规划 改进ppo算法 自主导航 路径规划
在线阅读 下载PDF
基于双动态PPO算法的高超声速飞行器姿态控制
2
作者 王旭 蔡光斌 +2 位作者 余晓亚 叶子绮 单斌 《系统工程与电子技术》 北大核心 2026年第2期694-704,共11页
针对高超声速飞行器姿态控制中的强非线性和大不确定性特点,以及传统强化学习算法在多重控制需求下训练收敛性和控制精度的不足,提出一种双动态自适应近端策略优化(proximal policy optimization,PPO)算法。算法通过软动态裁剪机制和策... 针对高超声速飞行器姿态控制中的强非线性和大不确定性特点,以及传统强化学习算法在多重控制需求下训练收敛性和控制精度的不足,提出一种双动态自适应近端策略优化(proximal policy optimization,PPO)算法。算法通过软动态裁剪机制和策略驱动的熵调整机制,实现控制精度与执行机构保护的平衡,并在此基础上构建了集成气动特性和执行机构特性的综合仿真验证环境。结合比例-积分-微分控制思想,对状态观测空间进行了优化设计。仿真结果表明,与基准PPO算法相比,所提算法的收敛速度提升了22%,并显著改善了控制精度和动作平滑性。在不同飞行工况下,该方法展现出优异的策略适应性和鲁棒性,有效提升了飞行器的姿态控制性能。 展开更多
关键词 高超声速飞行器 动态自适应机制 智能控制 深度强化学习 近端策略优化
在线阅读 下载PDF
A PPO-Based DRL Approach for Scalable Communication in Civilian UAV Networks
3
作者 Chu Thi Minh Hue Nguyen Minh Quy 《Computers, Materials & Continua》 2026年第5期1869-1882,共14页
Nowadays,Unmanned Aerial Vehicles(UAVs)are making increasingly important contributions to numerous applications that enhance human quality of life,such as sensing and data collection,computing,and communication.Howeve... Nowadays,Unmanned Aerial Vehicles(UAVs)are making increasingly important contributions to numerous applications that enhance human quality of life,such as sensing and data collection,computing,and communication.However,communication between UAVs still faces challenges due to high-dynamic topology,volatile wireless links,and strict energy budgets.In this work,we introduce an improved communication scheme,namely Proximal Policy Optimization(PPO).Our solution casts hop–by–hop relay selection as aMarkov decision process and develops a decentralized Proximal Policy Optimization framework in an actor–critic form.Akey novelty is the design of the reward function,which jointly considers the delivery ratio,end-to-end delay,and energy efficiency,enabling flexible prioritization in dynamic environments.The simulation results across swarms of 20–70 UAVs show that,the proposed framework enhances delivery ratio to 5%over a Deep Q-Network baseline(reaching≈80%at 70 nodes),reduces latency by about 2–3ms inmedium-to-dense settings(from∼43 to 35–36ms),and attains comparable or slightly lower total energy consumption(typically 0.5%–2%lower).The results indicate that the proposed communication scheme,adaptive and scalable learning-based UAV scenarios,pave the way for re-world UAV deployments. 展开更多
关键词 Reinforcement learning proximal policy optimization(ppo) UAV 6G
在线阅读 下载PDF
Avoidance method for medium-to-long-range air-to-air missile based on the kan-λ-ppo algorithm
4
作者 Shijie Deng Yingxin Kou +4 位作者 You Li An Xu Bincheng Wen Juntao Zhang Ling Ma 《Defence Technology(防务技术)》 2026年第2期352-366,共15页
This study addresses the maneuver evasion problem for medium-to-long-range air-to-air missiles by proposing a KAN-λ-PPO-based evasion algorithm.The algorithm introduces Kolmogorov-Arnold Networks(KAN)to mitigate the ... This study addresses the maneuver evasion problem for medium-to-long-range air-to-air missiles by proposing a KAN-λ-PPO-based evasion algorithm.The algorithm introduces Kolmogorov-Arnold Networks(KAN)to mitigate the catastrophic forgetting issue of Multilayer Perceptrons(MLP)in continual learning,while incorporatingλ-return to resolve sparse reward challenges in evasion scenarios.First,we model the evasion problem withλ-return and present the KAN-λ-PPO algorithm.Subsequently,we establish game environments based on the segmented ballistic characteristics of medium and long range missiles.During training,a joint reward function is designed by combining the miss distance and positional advantages to train the agent.Experiments evaluate four dimensions:(1)Performance comparison between KAN and MLP in value function approximation;(2)Catastrophic forgetting mitigation of KAN-λ-PPO in dual-task scenarios;(3)Continual learning capabilities across multiple evasion scenarios;(4)Quantitative analysis of agent strategy evolution and positional advantages.Empirical results demonstrate that KAN improves value function approximation accuracy by an order of magnitude compared with traditional MLP architectures.In continual learning tasks,the KAN-λ-PPO scheme exhibits significant knowledge retention,achieving performance improvements of 32.7% and 8.6%over MLP baselines in Task1→2 and Task2→3 transitions,respectively.Furthermore,the learned maneuver strategies outperform High-G Barrel Rolls(HGB)and S-maneuver tactics in securing positional advantages while accomplishing evasion. 展开更多
关键词 Missile evasion Kolmogorov-Arnold networks Catastrophic forgetting λ-return ppo
在线阅读 下载PDF
PPO抑制剂类除草剂吡草醚的登记开发与产业化进阶路径
5
作者 王喆超 袁长春 《农化市场十日讯》 2026年第3期40-43,共4页
含氮杂环化合物因其显著的生物活性及结构可修饰性,已成为药物化学和农业化学领域的研究热点。其中,吡唑杂环作为五元含氮杂环的重要代表,凭借其独特的电子结构和空间位阻效应,在新型农药分子设计中展现出不可替代的优势。其分子骨架的... 含氮杂环化合物因其显著的生物活性及结构可修饰性,已成为药物化学和农业化学领域的研究热点。其中,吡唑杂环作为五元含氮杂环的重要代表,凭借其独特的电子结构和空间位阻效应,在新型农药分子设计中展现出不可替代的优势。其分子骨架的刚性平面结构可有效增强与靶标酶的π-π相互作用,这一特性在除草活性优化中具有重要应用价值。统计数据显示,近五年全球获批的除草剂品种中,吡唑类衍生物占比达17.6%。 展开更多
关键词 吡唑杂环 含氮杂环化合物 ppo抑制剂
在线阅读 下载PDF
基于DNN模型与PPO算法的火电厂热工过程智能控制与优化研究
6
作者 刘洪伟 《自动化应用》 2026年第5期56-58,62,共4页
针对传统的火电厂热工过程控制方法难以适应火电厂的复杂工况,易陷入局部最优和优化不稳定,导致机组经济性与环保性较低的问题,开展了基于深度神经网络(DNN)模型与近端策略优化(PPO)算法的热工过程智能控制与优化方法研究。通过数据预处... 针对传统的火电厂热工过程控制方法难以适应火电厂的复杂工况,易陷入局部最优和优化不稳定,导致机组经济性与环保性较低的问题,开展了基于深度神经网络(DNN)模型与近端策略优化(PPO)算法的热工过程智能控制与优化方法研究。通过数据预处理,构建高质量数据集,为模型训练奠定基础;设定涵盖经济、环保与设备安全的多目标约束体系,明确优化边界;利用DNN模型建立虚拟电厂模型,并基于PPO算法训练强化学习智能体,实现全局优化设定值与底层跟踪控制的协同。某660 MW超超临界机组的实验表明,所提方法在长期运行中显著降低了NO_(x)排放浓度,与较传统方法相比,年运行总成本降低了14.3%~21.3%,有效提升了机组经济性与环保性,为火电智能化转型提供了可靠技术途径。 展开更多
关键词 深度神经网络模型 近端策略优化算法 火电厂 热工过程 智能控制
在线阅读 下载PDF
基于PPO的Serverless平台自动伸缩策略研究
7
作者 龙诺亚 李子鹏 +4 位作者 张猛 郑元伟 张菡 童勇 王喜宾 《机械与电子》 2026年第3期102-110,共9页
为提升Serverless平台自动伸缩的资源效率与服务质量稳定性,提出一种基于近端策略优化(PPO)的自动伸缩策略。首先,结合Knative弹性伸缩架构,将自动伸缩问题建模为马尔科夫决策过程,构建包含集群多维资源状态与负载特征的状态空间,设计... 为提升Serverless平台自动伸缩的资源效率与服务质量稳定性,提出一种基于近端策略优化(PPO)的自动伸缩策略。首先,结合Knative弹性伸缩架构,将自动伸缩问题建模为马尔科夫决策过程,构建包含集群多维资源状态与负载特征的状态空间,设计融合吞吐量、响应时间及资源利用率阈值的复合奖励函数,并定义连续动作空间以适配Knative的参数配置特性。然后,基于Actor-Critic框架设计PPO算法,通过策略梯度优化与重要性采样机制实现稳定训练,解决传统强化学习方法在连续动作空间下的控制精度不足问题。最后,在Knative平台实现该策略,通过实时采集环境状态数据更新模型参数,动态调整资源分配与实例数量。实验结果表明,基于PPO的自动伸缩策略在平均吞吐量上相较基于Q-Learning的自动伸缩策略和平台默认策略KPA分别有19.3%和106.1%的提升,平均响应延迟相较其他2种对比策略分别减少12 ms和108 ms,P90响应延迟相较其他2种对比策略分别减少50 ms和223 ms,在并发场景下可以为Serverless云计算平台提供更好的服务质量水平。 展开更多
关键词 Serverless 自动伸缩 近端策略优化 马尔科夫决策过程
在线阅读 下载PDF
基于改进PPO算法的钻锚机器人机械臂路径规划
8
作者 张旭辉 田琛辉 +4 位作者 雷孟宇 杨文娟 田江伟 董征 田思昊 《煤炭学报》 北大核心 2025年第12期5420-5433,共14页
煤矿巷道支护装备的自动化与智能化水平较低,制约了煤矿巷道的成形效率,是造成“采掘失衡”的关键原因。为解决煤矿巷道支护装备自动化程度低、支护效率差的问题,针对一种集成悬臂式掘进机和多自由度机械臂的钻锚机器人,提出了一种基于... 煤矿巷道支护装备的自动化与智能化水平较低,制约了煤矿巷道的成形效率,是造成“采掘失衡”的关键原因。为解决煤矿巷道支护装备自动化程度低、支护效率差的问题,针对一种集成悬臂式掘进机和多自由度机械臂的钻锚机器人,提出了一种基于深度强化学习的钻锚机器人机械臂路径规划方法。在虚拟环境中构建煤矿巷道环境,并建立机械臂与机身、煤壁以及支护钢带的碰撞检测模型,使用层次包围盒法在虚拟环境进行碰撞检测,形成煤矿巷道边界受限情况下的避障策略。在近端策略优化(Proximal Policy Optimization,PPO)算法的基础上结合多方面因素提出改进。考虑到多自由度机械臂状态空间输入长度不固定的情况,引入长短记忆神经网络(Long Short Term Memory,LSTM)的环境状态输入处理方法,可以提升算法对环境的适应能力。并且在奖惩稀疏的情况下引入了好奇心机制(Intrinsic Curiosity Module,ICM),通过给予内在奖励鼓励智能体更大程度地探索环境。基于奖惩机制建立智能体,根据钻锚机器人的运动特性定义其状态空间与动作空间,在同一场景下分别使用2种算法对智能体进行训练,综合奖励值、回合步数、Actor网络损失值、Critic网络损失值等指标进行对比分析,最后经过仿真消融实验测试对比。实验结果表明,在原始PPO算法不能完成任务的情况下,改进后的算法路径长度比同样能完成任务的PPO-ICM算法缩短了3.98%,所用时间缩短了25.6%。为进一步验证改进后算法的鲁棒性,设计多组实验,改进后的PPO算法均完成路径规划任务,路径终点与目标位置的距离误差在3.88 cm之内,锚杆与竖直方向夹角误差在3°以内,能够有效完成路径规划任务,提升煤矿巷道支护系统的自动化程度。结果验证了所提方法在煤矿井下巷道支护时锚孔位置多变的情况下钻锚机器人多自由度机械臂在路径规划的可行性与有效性。 展开更多
关键词 巷道支护 钻锚机器人 碰撞检测 路径规划 改进ppo算法
在线阅读 下载PDF
基于改进PPO算法的机械臂动态路径规划 被引量:4
9
作者 万宇航 朱子璐 +3 位作者 钟春富 刘永奎 林廷宇 张霖 《系统仿真学报》 北大核心 2025年第6期1462-1473,共12页
针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出... 针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出了基于LSTM网络的环境状态输入处理方法,并对PPO算法的网络结构进行了改进;基于人工势场法设计了奖励函数,并建立机械臂碰撞检测模型。实验结果表明:改进算法能够适应场景中障碍物数量和位置的变化,具有更快的收敛速度和稳定性。 展开更多
关键词 动态路径规划 改进ppo算法 LSTM网络 人工势场法 ML-Agents
原文传递
基于深度强化学习PPO的车辆智能控制方法 被引量:1
10
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题 被引量:1
11
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
一种面向博弈场景的PPO-Dueling DQN策略优化方法
12
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度Q网络 ppo算法 网络攻防博弈 效能评估
在线阅读 下载PDF
局部风信息启发的AVW-PPO室内气源定位算法
13
作者 李世钰 袁杰 +2 位作者 谢霖伟 郭旭 张宁宁 《哈尔滨工业大学学报》 北大核心 2025年第8期57-68,共12页
为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始... 为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始PPO算法的基础上引入辅助价值网络,以减少单一值网络的估计偏差,从而提升策略更新的稳定性与预测精度。其次,设计了一种风导向策略,将局部环境风场信息融入强化学习框架中的状态空间与奖励函数,使机器人能够更敏锐地感知羽流环境的动态变化,优化其决策路径,从而有效提高气源定位的效率。最后,通过构建二维环境中的气体扩散模型,在3种不同的湍流条件下对所提算法进行了测试。结果表明:相同环境条件下,AVW-PPO算法在平均搜索步数和成功率两个指标上均优于其他同类算法,且定位成功率超过99%。其中,风导向策略在提升搜索效率方面表现尤为突出,有助于减少机器人完成任务所需的时间。本研究为解决室内复杂湍流环境下的气源定位问题提供了新思路和新方法。 展开更多
关键词 气源定位 深度强化学习 近端策略优化(ppo) 辅助价值网络 风导向策略
在线阅读 下载PDF
自适应奖励函数的PPO曲面覆盖方法
14
作者 李淑怡 阳波 +2 位作者 陈灵 沈玲 唐文胜 《计算机工程》 北大核心 2025年第3期86-94,共9页
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面... 针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA Ⅱ、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 展开更多
关键词 清洁机器人 曲面 覆盖路径规划 强化学习 近端策略优化
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
15
作者 李锦键 王兴贵 丁颖杰 《电源学报》 北大核心 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 近端策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
一种基于PPO算法的低空基站优化模型
16
作者 薄云鹏 亢抗 +1 位作者 潘桂新 汪敏 《电子技术应用》 2025年第7期60-64,共5页
通过优化现有地面网络基站来实现低空网络服务具有成本低、建设快等优点,面对低空基站优化过程中存在的无线环境复杂、配置参数多样、优化目标互相影响等问题,提出了一种基于近端策略优化算法的多维低空网络基站优化模型:通过射线追踪... 通过优化现有地面网络基站来实现低空网络服务具有成本低、建设快等优点,面对低空基站优化过程中存在的无线环境复杂、配置参数多样、优化目标互相影响等问题,提出了一种基于近端策略优化算法的多维低空网络基站优化模型:通过射线追踪技术计算不同类型、不同角度基站的低空覆盖能力,并构建支持多目标优化和多参数配置的低空网络基站优化模型,利用PPO算法得到基站配置策略。在仿真环境中进行训练与结果验证,证明该模型可有效生成基站优化方案,且相较于基于A2C方法的模型具有更快的收敛速度和更好的基站优化效果。 展开更多
关键词 低空基站 低空通信 近端策略优化 强化学习
在线阅读 下载PDF
基于LSTM-PPO算法的异构无人机集群任务分配算法
17
作者 杨光伟 孙鹏 +3 位作者 张杰勇 张永壮 崔捷 李天鑫 《指挥信息系统与技术》 2025年第6期54-62,77,共10页
无人机集群任务分配因无人机及任务数量增加导致可行解呈指数级上升,成为NP难问题。针对异构无人机集群任务分配这一NP难问题,提出了一种融合长短期记忆(LSTM)网络与近端策略优化(PPO)的深度强化学习算法。通过构建包含任务时序和航程... 无人机集群任务分配因无人机及任务数量增加导致可行解呈指数级上升,成为NP难问题。针对异构无人机集群任务分配这一NP难问题,提出了一种融合长短期记忆(LSTM)网络与近端策略优化(PPO)的深度强化学习算法。通过构建包含任务时序和航程约束等条件的马尔可夫决策过程模型,将状态空间定义为无人机状态、任务状态与约束状态的三元组,动作空间涵盖任务分配和高度调整等操作,并设计了多目标分层奖励函数。试验结果表明,在不同无人机与任务数量组合场景下,该算法的任务完成总时间和总路径代价较贪婪算法、遗传算法及基础PPO算法均取得更优效果。LSTM对时序依赖的捕捉能力与PPO的策略优化机制协同,有效解决了多机协同中的动态决策问题,为无人机集群任务分配提供了高效解决方案。 展开更多
关键词 无人机集群 任务分配 长短期记忆网络 近端策略优化
在线阅读 下载PDF
基于PPO算法的一对一空战格斗决策方法 被引量:1
18
作者 周琪栋 江志东 +1 位作者 霍立平 赵冬梅 《计算机测量与控制》 2025年第10期165-173,共9页
空战格斗具有作战要素多、态势变化快和作战氛围紧张等特点,其决策方法是人工智能领域的热点研究课题;目前关于近距空战算法的研究大都在简化的低精度场景或现有仿真平台中进行,受实际问题的复杂性和仿真效能的限制大多简化了空战决策模... 空战格斗具有作战要素多、态势变化快和作战氛围紧张等特点,其决策方法是人工智能领域的热点研究课题;目前关于近距空战算法的研究大都在简化的低精度场景或现有仿真平台中进行,受实际问题的复杂性和仿真效能的限制大多简化了空战决策模型,降低了研究结果的参考价值;针对此问题,基于Unity3D搭建了满足研究需求的可视化空战平台并设计了飞机的机动动作集,根据空空格斗时的敌我态势特点定义了态势评估函数和奖励函数,在此基础上构建了基于近端策略优化算法的一对一空战格斗决策框架;实验结果表明,决策模型能够驱动智能体根据战场态势进行灵活的机动决策,具备较强的自主决策的能力,验证了方法的有效性。 展开更多
关键词 人工智能 空战格斗 强化学习 近端策略优化 空战决策
在线阅读 下载PDF
结合PPO和蒙特卡洛树搜索的斗地主博弈模型
19
作者 王世鹏 王亚杰 +2 位作者 吴燕燕 郭其龙 赵甜宇 《重庆理工大学学报(自然科学)》 北大核心 2025年第8期126-133,共8页
斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy... 斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization,PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提供动作概率的策略模型,为蒙特卡洛树搜索的选择和模拟阶段提供策略指导。在选择阶段,通过PPO策略模型输出的动作概率优化策略选择公式,指导高质量动作节点的选择。在模拟阶段,PPO替代了随机模拟过程,使模拟更加符合策略,减少低效路径的探索。实验结果表明:结合PPO优化后的蒙特卡洛树搜索不仅提高了决策的效率,还提升了模型的胜率,表现出较强的斗地主博弈决策优势。 展开更多
关键词 ppo算法 蒙特卡洛树搜索 斗地主 非完备信息博弈
在线阅读 下载PDF
美味牛肝菌PPO酶学特性及其抑制机理
20
作者 资璐熙 向仕聪 +3 位作者 徐柠檬 李为兰 秦粉 郭磊 《西北农业学报》 北大核心 2025年第2期290-299,共10页
以美味牛肝菌为原料,对PPO进行分离纯化后研究其酶学特性,在此基础上,采用动力学模型和Lineweaver-Burk作图法对PPO热失活动力学和抑制剂作用机理进行分析。结果表明:美味牛肝菌PPO酶促反应产物在407 nm处有最大吸收峰,与邻苯二酚亲和... 以美味牛肝菌为原料,对PPO进行分离纯化后研究其酶学特性,在此基础上,采用动力学模型和Lineweaver-Burk作图法对PPO热失活动力学和抑制剂作用机理进行分析。结果表明:美味牛肝菌PPO酶促反应产物在407 nm处有最大吸收峰,与邻苯二酚亲和力最强,酶促反应动力学参数K_(m)=9.41 mmol/L,V_(max)=196.08 U/min,PPO最适底物为50 mmol/L邻苯二酚,最适pH为6.8,最适反应温度和时间分别为45℃、7 min。PPO在90℃下酶失活最快,其动力学参数为k=2.5045 min^(-1)、D=0.9420 min、T_(1/2)=0.2768 min;70℃~90℃下美味牛肝菌PPO失活活化能E_(a)=130.283 kJ/mol。偏重亚硫酸钠的抑制类型属于非竞争性抑制,抗坏血酸和L-半胱氨酸的抑制类型属于竞争性抑制。热处理和添加抑制剂能有效抑制PPO酶活力,研究结果为美味牛肝菌采后储藏及加工过程中的品质控制提供了一定的参考依据。 展开更多
关键词 美味牛肝菌 多酚氧化酶 酶学特性 分子对接 热失活 抑制剂机理
在线阅读 下载PDF
上一页 1 2 69 下一页 到第
使用帮助 返回顶部