期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的空间捕获自主决策
1
作者 黄成 殷振凯 +1 位作者 邢爱佳 于智龙 《仪器仪表学报》 北大核心 2025年第9期198-211,共14页
针对航天器机械臂在复杂空间环境下执行旋转目标捕获任务时的自主决策问题,提出了一种改进的分布式深度确定性策略梯度的决策方法,以进一步增强捕获任务的自主决策能力,其中捕获航天器装备有三自由度的机械臂用于执行捕获操作,而目标航... 针对航天器机械臂在复杂空间环境下执行旋转目标捕获任务时的自主决策问题,提出了一种改进的分布式深度确定性策略梯度的决策方法,以进一步增强捕获任务的自主决策能力,其中捕获航天器装备有三自由度的机械臂用于执行捕获操作,而目标航天器则处于固定位置并以恒定角速度进行旋转。为了提升空间捕获系统在复杂环境下的探索能力,设计了一种基于状态熵最大化的内部奖励探索机制:该机制通过计算当前状态与最小批量样本中各状态之间的欧氏距离,选取其中最小距离并通过熵计算将其转化为内部奖励,再与外部奖励进行线性叠加,构成最终的总奖励值,进而提升算法的收敛速度。与此同时,进一步构造了一种双网络结构:即通过两个价值网络分别对候选动作进行并行评估,并由两个策略网络选择价值更优的动作并输出执行,同时引入奖励重塑函数对奖励信号进行重塑,以降低算法估计的偏差,同时提高样本效率。最后,通过与多种主流强化学习算法进行仿真对比,验证了所提方法的有效性和优越性。具体实验结果表明:改进后的D4PG算法在奖励值方面提升了32.25%,在收敛速度方面提升了3.08%,显著提高了航天器机械臂执行空间捕获任务的自主决策能力。 展开更多
关键词 空间捕获 d4pg算法 内部奖励探索 奖励重塑 双网络结构
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部