针对桥式吊车中传统轨迹规划方法在复杂模型中数学分析复杂、难以适应动态环境的问题,提出了一种基于值函数分布的深度强化学习算法(Distributional Soft Actor-critic with Three Refinements,DSACT),用于桥式吊车的实时轨迹规划。DSAC...针对桥式吊车中传统轨迹规划方法在复杂模型中数学分析复杂、难以适应动态环境的问题,提出了一种基于值函数分布的深度强化学习算法(Distributional Soft Actor-critic with Three Refinements,DSACT),用于桥式吊车的实时轨迹规划。DSACT算法通过分布式值函数能够捕捉更丰富的状态-动作值分布信息,为决策提供更全面的表征学习;DSACT算法结合3项优化策略(期望价值替换、基于方差的临界梯度调整及双值分布学习),显著提升了模型的收敛速度、稳定性和鲁棒性。设计了滑模跟踪控制器以实现对规划轨迹的精确跟踪,提高系统的抗干扰能力和动态响应性能。仿真结果表明,与经典SAC和DDPG算法相比,DSACT算法在规划精度、收敛速度和控制稳定性方面表现更优;而滑模跟踪控制器相比传统PID控制器,在跟踪精度、抗干扰能力和动态响应方面具有显著优势。展开更多
文摘针对桥式吊车中传统轨迹规划方法在复杂模型中数学分析复杂、难以适应动态环境的问题,提出了一种基于值函数分布的深度强化学习算法(Distributional Soft Actor-critic with Three Refinements,DSACT),用于桥式吊车的实时轨迹规划。DSACT算法通过分布式值函数能够捕捉更丰富的状态-动作值分布信息,为决策提供更全面的表征学习;DSACT算法结合3项优化策略(期望价值替换、基于方差的临界梯度调整及双值分布学习),显著提升了模型的收敛速度、稳定性和鲁棒性。设计了滑模跟踪控制器以实现对规划轨迹的精确跟踪,提高系统的抗干扰能力和动态响应性能。仿真结果表明,与经典SAC和DDPG算法相比,DSACT算法在规划精度、收敛速度和控制稳定性方面表现更优;而滑模跟踪控制器相比传统PID控制器,在跟踪精度、抗干扰能力和动态响应方面具有显著优势。