期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
Variable reward function-driven strategies for impulsive orbital attack-defense games under multiple constraints and victory conditions
1
作者 Liran Zhao Sihan Xu +1 位作者 Qinbo Sun Zhaohui Dang 《Defence Technology(防务技术)》 2025年第9期159-183,共25页
This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breac... This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breach the defender's interception to rendezvous with the target,while the defender seeks to protect the target by blocking or actively pursuing the attacker.Four different maneuvering constraints and five potential game outcomes are incorporated to more accurately model AD game problems and increase complexity,thereby reducing the effectiveness of traditional methods such as differential games and game-tree searches.To address these challenges,this study proposes a multiagent deep reinforcement learning solution with variable reward functions.Two attack strategies,Direct attack(DA)and Bypass attack(BA),are developed for the attacker,each focusing on different mission priorities.Similarly,two defense strategies,Direct interdiction(DI)and Collinear interdiction(CI),are designed for the defender,each optimizing specific defensive actions through tailored reward functions.Each reward function incorporates both process rewards(e.g.,distance and angle)and outcome rewards,derived from physical principles and validated via geometric analysis.Extensive simulations of four strategy confrontations demonstrate average defensive success rates of 75%for DI vs.DA,40%for DI vs.BA,80%for CI vs.DA,and 70%for CI vs.BA.Results indicate that CI outperforms DI for defenders,while BA outperforms DA for attackers.Moreover,defenders achieve their objectives more effectively under identical maneuvering capabilities.Trajectory evolution analyses further illustrate the effectiveness of the proposed variable reward function-driven strategies.These strategies and analyses offer valuable guidance for practical orbital defense scenarios and lay a foundation for future multi-agent game research. 展开更多
关键词 Orbital attack-defense game Impulsive maneuver Multi-agent deep reinforcement learning reward function design
在线阅读 下载PDF
基于分层多智能体强化学习的多无人机视距内空战
2
作者 雍宇晨 李子豫 董琦 《智能系统学报》 北大核心 2025年第3期548-556,共9页
为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强... 为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强化学习算法,研究了多无人机空战缠斗场景。复杂的空战任务被分解为上层导弹打击任务和下层飞行跟踪任务,有效地减少了战术行动的模糊性,并提高了多无人机空战场景中的自主机动决策能力。此外,通过设计新颖的奖励函数和采用自博弈方法,减少了大型战场环境导致的无意义探索。仿真结果表明,该算法不仅有助于智能体学习基本的飞行战术和高级的作战战术,而且在防御和进攻能力上优于其他多智能体空战算法。 展开更多
关键词 视距内空战 缠斗 自主机动决策 自博弈 分层强化学习 多智能体博弈 分层决策网络 奖励函数设计
在线阅读 下载PDF
基于强化学习的多无人车协同围捕方法 被引量:3
3
作者 苏牧青 王寅 +1 位作者 濮锐敏 余萌 《工程科学学报》 EI CSCD 北大核心 2024年第7期1237-1250,共14页
本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;... 本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%. 展开更多
关键词 无人车 协同围捕 柔性执行者-评论家算法 注意力机制 奖励函数设计
在线阅读 下载PDF
基于深度强化学习的双星近距离追逃博弈控制方法
4
作者 范书珲 廖文和 +1 位作者 张翔 陈俊宇 《中国惯性技术学报》 CSCD 北大核心 2024年第12期1240-1249,共10页
为提高双星近距离追逃博弈成功率和效率,提出了一种基于双延迟深度确定性策略梯度的追逃博弈算法,采用互博弈的方式,优化求解双星博弈控制策略。首先建立了双星追逃博弈环境和相对运动学模型,并利用双人零和马尔可夫博弈理论来描述追逃... 为提高双星近距离追逃博弈成功率和效率,提出了一种基于双延迟深度确定性策略梯度的追逃博弈算法,采用互博弈的方式,优化求解双星博弈控制策略。首先建立了双星追逃博弈环境和相对运动学模型,并利用双人零和马尔可夫博弈理论来描述追逃博弈问题。其次为了改善空间追逃博弈环境中状态维度多,搜索空间大导致的追逃任务成功率难以提高等问题,设计了一种考虑追击方向矢量的引导性奖励函数以及适用于双星近距离追逃任务的状态空间和动作空间。最后基于Open-AI Gym框架搭建双星追逃博弈仿真环境用于博弈策略的训练优化,通过仿真对比,验证了本文算法的有效性和优越性。针对微分博弈策略目标,所提追击策略较微分博弈策略的博弈平均时间缩短了208.2 s,博弈成功率提高了3%。 展开更多
关键词 追逃博弈 零和博弈 深度强化学习 奖励函数设计 策略优化
在线阅读 下载PDF
政府科技管理中的行政奖励研究 被引量:3
5
作者 王枫云 《科学管理研究》 CSSCI 北大核心 2013年第1期41-44,共4页
政府科技管理中的行政奖励,因其本身固有的民主、信任、合作与激励的行为取向与价值追求,在引导、激励行政相对方实施符合政府科技管理意图的行为、推进政府科技管理目标的顺利达成中发挥了积极和重要的作用。了解政府科技管理中行政奖... 政府科技管理中的行政奖励,因其本身固有的民主、信任、合作与激励的行为取向与价值追求,在引导、激励行政相对方实施符合政府科技管理意图的行为、推进政府科技管理目标的顺利达成中发挥了积极和重要的作用。了解政府科技管理中行政奖励的主要类别和多种功能,并对其进行科学的制度设计,有助于在政府科技管理的实践中更好地发挥行政奖励的功效。 展开更多
关键词 政府 科技管理 行政奖励 类别 功能 制度设计
原文传递
基于终端诱导强化学习的航天器轨道追逃博弈 被引量:21
6
作者 耿远卓 袁利 +1 位作者 黄煌 汤亮 《自动化学报》 EI CAS CSCD 北大核心 2023年第5期974-984,共11页
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实... 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性. 展开更多
关键词 航天器追逃 智能博弈 近端策略优化 奖励函数设计 终端诱导
在线阅读 下载PDF
高校学生奖惩管理信息系统的研究与设计 被引量:1
7
作者 叶小卉 《科技信息》 2011年第15期59-59,401,共2页
为提高学生管理工作的效率和水平,本文以A大学为例,针对该大学现行奖学金评选过程中存在的问题进行需求分析,开发学生奖惩管理信息系统,设计出了系统的功能模块,为完善A大学的学生奖惩管理,以及后期该系统的继续实现与开发提供了方向与... 为提高学生管理工作的效率和水平,本文以A大学为例,针对该大学现行奖学金评选过程中存在的问题进行需求分析,开发学生奖惩管理信息系统,设计出了系统的功能模块,为完善A大学的学生奖惩管理,以及后期该系统的继续实现与开发提供了方向与实用参考价值。 展开更多
关键词 学生奖惩管理信息系统 需求分析 功能设计
在线阅读 下载PDF
基于强化学习的电磁悬浮型磁浮列车悬浮控制 被引量:3
8
作者 胡轲珽 徐俊起 +1 位作者 刘志刚 林国斌 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第3期332-340,共9页
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计... 为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。 展开更多
关键词 电磁悬浮(EMS)型磁浮列车 悬浮控制 强化学习控制 软演员-评论家(SAC)智能体 奖励函数设计
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部