无人机集群对抗是一类重要而复杂的博弈问题。为了求解无人机集群最佳协作防守策略,从“观察、定位、决策、行动”(Observe,Orient,Decide and Act,OODA)决策循环出发,基于多智能体深度强化学习进行算法设计。一方面,设计基于QMIX的单...无人机集群对抗是一类重要而复杂的博弈问题。为了求解无人机集群最佳协作防守策略,从“观察、定位、决策、行动”(Observe,Orient,Decide and Act,OODA)决策循环出发,基于多智能体深度强化学习进行算法设计。一方面,设计基于QMIX的单层决策算法,用以解决多无人机协作中的贡献度分配以及高维空间问题;另一方面,提出规则与强化学习融合的分层决策模式,先由决策层基于规则或隐马尔可夫模型(Hidden Markov Model,HMM)意图识别来分析作战形势,据此进行无人机调度,再通过行动层的QMIX算法输出动作。为验证本文所提算法,基于Python和Unity构建了可控可观察的仿真平台,并设计了对抗想定,然后从协作效果、资源效率和泛化性3个方面定量评估防守策略。结果表明,分层决策的各项指标明显优于单层决策,胜率得到显著提升,其中基于HMM意图识别的分层策略表现最佳。展开更多
文摘无人机集群对抗是一类重要而复杂的博弈问题。为了求解无人机集群最佳协作防守策略,从“观察、定位、决策、行动”(Observe,Orient,Decide and Act,OODA)决策循环出发,基于多智能体深度强化学习进行算法设计。一方面,设计基于QMIX的单层决策算法,用以解决多无人机协作中的贡献度分配以及高维空间问题;另一方面,提出规则与强化学习融合的分层决策模式,先由决策层基于规则或隐马尔可夫模型(Hidden Markov Model,HMM)意图识别来分析作战形势,据此进行无人机调度,再通过行动层的QMIX算法输出动作。为验证本文所提算法,基于Python和Unity构建了可控可观察的仿真平台,并设计了对抗想定,然后从协作效果、资源效率和泛化性3个方面定量评估防守策略。结果表明,分层决策的各项指标明显优于单层决策,胜率得到显著提升,其中基于HMM意图识别的分层策略表现最佳。