-
题名基于时间尺度分离理论的空战深度强化学习分层算法
- 1
-
-
作者
谭泰
江泰民
黎博文
李杰
李辉
化晨昊
-
机构
四川大学计算机学院
四川大学视觉合成图形图像技术国家级重点实验室
-
出处
《工程科学与技术》
北大核心
2026年第2期69-83,共15页
-
基金
国家自然科学基金-联合基金项目(U20A20161)。
-
文摘
六自由度无人机空战是一个具有复杂多维状态、耦合连续动作和高度非线性动力学的挑战性场景。深度强化学习不需要标签数据,仅通过与环境交互优化策略,在自主空战机动决策中的应用受到广泛关注。然而,高维度的状态和动作空间导致端到端训练难以学习到有效策略、收敛缓慢且泛化性差;奖励函数的设计多依赖人工经验,获得好的奖励并不等同于学习到好的策略。针对这些问题,本文提出了一种基于时分框架的两阶段时间尺度状态分离近端策略优化(two stage time-scale states separation proximal policy optimization,TTS-PPO)算法。因飞控参数对不同状态量控制效果的时间尺度差异,该算法将空战机动划分为短周期转动运动和长周期轨迹运动两部分,短周期部分采用比例-积分-微分(PID)算法完成飞控参数实时输出,长周期部分通过近端策略优化(PPO)算法对短周期PID控制接口进行训练,使两类运动的动作空间解耦,从而使无人机更容易学到有效策略;同时,将环境状态量分离得到长短周期状态量,降低状态空间的维度从而加快收敛并提高模型的泛化性。此外,本文在训练过程中对长周期决策的PPO网络采取两阶段训练方式:第一阶段设计单步奖励并采用较低的决策频率,使无人机训练过程快速度过冷启动时期;第二阶段只保留终局奖励并采用更高的决策频率,避免陷入追求高奖励而损失性能的误区。实验结果表明:使用该框架的算法能够收敛到更高的奖励值;引入长短周期状态量能提升约67%的收敛速度,且在不同空战场景中的泛化性更强;TTS-PPO算法增加了第二阶段训练,性能进一步提升,仅以直线飞行的敌机作为对手训练后就能击败专家无人机。
-
关键词
时间尺度分离
比例-积分-微分
近端策略优化
两阶段训练
两阶段时间尺度状态分离近端策略优化
-
Keywords
time-scale separation
PID
PPO
two-stage training
ttsppo
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
V249.1
[航空宇航科学与技术—飞行器设计]
-