-
题名基于深度强化学习的空间捕获自主决策
- 1
-
-
作者
黄成
殷振凯
邢爱佳
于智龙
-
机构
哈尔滨理工大学自动化学院
-
出处
《仪器仪表学报》
北大核心
2025年第9期198-211,共14页
-
基金
国家自然科学基金(52102455)
黑龙江省自然科学基金(LH2023F032)项目资助。
-
文摘
针对航天器机械臂在复杂空间环境下执行旋转目标捕获任务时的自主决策问题,提出了一种改进的分布式深度确定性策略梯度的决策方法,以进一步增强捕获任务的自主决策能力,其中捕获航天器装备有三自由度的机械臂用于执行捕获操作,而目标航天器则处于固定位置并以恒定角速度进行旋转。为了提升空间捕获系统在复杂环境下的探索能力,设计了一种基于状态熵最大化的内部奖励探索机制:该机制通过计算当前状态与最小批量样本中各状态之间的欧氏距离,选取其中最小距离并通过熵计算将其转化为内部奖励,再与外部奖励进行线性叠加,构成最终的总奖励值,进而提升算法的收敛速度。与此同时,进一步构造了一种双网络结构:即通过两个价值网络分别对候选动作进行并行评估,并由两个策略网络选择价值更优的动作并输出执行,同时引入奖励重塑函数对奖励信号进行重塑,以降低算法估计的偏差,同时提高样本效率。最后,通过与多种主流强化学习算法进行仿真对比,验证了所提方法的有效性和优越性。具体实验结果表明:改进后的D4PG算法在奖励值方面提升了32.25%,在收敛速度方面提升了3.08%,显著提高了航天器机械臂执行空间捕获任务的自主决策能力。
-
关键词
空间捕获
d4pg算法
内部奖励探索
奖励重塑
双网络结构
-
Keywords
space capture
d4pg algorithm
internal reward exploration
reward reshaping
dual network structure
-
分类号
TH166
[机械工程—机械制造及自动化]
-