期刊文献+
共找到256篇文章
< 1 2 13 >
每页显示 20 50 100
Variable reward function-driven strategies for impulsive orbital attack-defense games under multiple constraints and victory conditions
1
作者 Liran Zhao Sihan Xu +1 位作者 Qinbo Sun Zhaohui Dang 《Defence Technology(防务技术)》 2025年第9期159-183,共25页
This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breac... This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breach the defender's interception to rendezvous with the target,while the defender seeks to protect the target by blocking or actively pursuing the attacker.Four different maneuvering constraints and five potential game outcomes are incorporated to more accurately model AD game problems and increase complexity,thereby reducing the effectiveness of traditional methods such as differential games and game-tree searches.To address these challenges,this study proposes a multiagent deep reinforcement learning solution with variable reward functions.Two attack strategies,Direct attack(DA)and Bypass attack(BA),are developed for the attacker,each focusing on different mission priorities.Similarly,two defense strategies,Direct interdiction(DI)and Collinear interdiction(CI),are designed for the defender,each optimizing specific defensive actions through tailored reward functions.Each reward function incorporates both process rewards(e.g.,distance and angle)and outcome rewards,derived from physical principles and validated via geometric analysis.Extensive simulations of four strategy confrontations demonstrate average defensive success rates of 75%for DI vs.DA,40%for DI vs.BA,80%for CI vs.DA,and 70%for CI vs.BA.Results indicate that CI outperforms DI for defenders,while BA outperforms DA for attackers.Moreover,defenders achieve their objectives more effectively under identical maneuvering capabilities.Trajectory evolution analyses further illustrate the effectiveness of the proposed variable reward function-driven strategies.These strategies and analyses offer valuable guidance for practical orbital defense scenarios and lay a foundation for future multi-agent game research. 展开更多
关键词 Orbital attack-defense game Impulsive maneuver Multi-agent deep reinforcement learning reward function design
在线阅读 下载PDF
Reward Function Design Method for Long Episode Pursuit Tasks Under Polar Coordinate in Multi-Agent Reinforcement Learning
2
作者 DONG Yubo CUI Tao +3 位作者 ZHOU Yufan SONG Xun ZHU Yue DONG Peng 《Journal of Shanghai Jiaotong university(Science)》 EI 2024年第4期646-655,共10页
Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting... Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting in low rewards and an inability for agents to learn strategies.This paper proposes a deep reinforcement learning(DRL)training method that employs an ensemble segmented multi-reward function design approach to address the convergence problem mentioned before.The ensemble reward function combines the advantages of two reward functions,which enhances the training effect of agents in long episode.Then,we eliminate the non-monotonic behavior in reward function introduced by the trigonometric functions in the traditional 2D polar coordinates observation representation.Experimental results demonstrate that this method outperforms the traditional single reward function mechanism in the pursuit scenario by enhancing agents’policy scores of the task.These ideas offer a solution to the convergence challenges faced by DRL models in long episode pursuit problems,leading to an improved model training performance. 展开更多
关键词 multi-agent reinforcement learning deep reinforcement learning(DRL) long episode reward function
原文传递
基于深度强化学习的游戏智能引导算法 被引量:2
3
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于对抗强化学习的无人机逃离路径规划方法
4
作者 黄湘松 王梦宇 潘大鹏 《航空学报》 北大核心 2025年第17期292-307,共16页
在无人机技术迅速发展的背景下,如何应对其他无人机的恶意追捕成为了无人机安全防护中的重要课题。针对通过使用对抗强化学习算法,提升无人机在敌对环境中的适应性和生存能力这一问题,利用对抗强化学习框架,针对无人机逃逸过程中接收错... 在无人机技术迅速发展的背景下,如何应对其他无人机的恶意追捕成为了无人机安全防护中的重要课题。针对通过使用对抗强化学习算法,提升无人机在敌对环境中的适应性和生存能力这一问题,利用对抗强化学习框架,针对无人机逃逸过程中接收错误信息对决策产生干扰的问题进行了处理,以围捕者与逃逸者之间的对抗为基础,优化运输无人机的策略以应对围捕者的行为。针对传统的强化学习方法中的稀疏奖励问题,结合人工势场法提出逐步奖励策略机制,使得无人机可以更有效地适应围捕环境。结果表明,该算法相比于近端策略优化(PPO)算法,无人机的逃逸成功率提升了54.47%,同时运输时间减少了34.35%,显著提高了无人机的运输效率。结果为无人机的安全防护提供了新的技术方案,并探索了对抗强化学习在恶意追捕情境下的应用潜力。 展开更多
关键词 对抗训练 强化学习 逃逸路径规划 逃逸决策 奖励函数
原文传递
基于改进深度强化学习的交通信号灯控制
5
作者 韦敏 蔡常健 《计算机工程与设计》 北大核心 2025年第3期927-933,共7页
为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待... 为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待时间和车道最大队列长度的多任务奖励函数,提高城市交叉口的通行效率。实验结果表明,所提方法能够获得更高奖励,在训练场景对比基线方法平均等待时间和平均队列长度均明显降低,平均速度明显提高,测试结果同样验证所提方法更能提高道路通行效率。 展开更多
关键词 深度强化学习 信号灯控制 对决网络 状态空间 奖励函数 城市交叉口 交通工程
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
6
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 PPO算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
基于多代理深度强化学习的战术无线网络安全路由算法研究
7
作者 谢英辉 刘亮 《传感技术学报》 北大核心 2025年第8期1482-1490,共9页
由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代... 由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代理,它们通过深度神经网络学习决策路由。将跳数、一跳时延、数据包丢失率和能量消耗信息关联到奖励函数,使得代理能够选择时延低、可靠性高的转发节点,进而克服干扰攻击。仿真结果表明,提出的MRSR路由提高了数据包传递率和能量效率。 展开更多
关键词 战术无线网络 安全路由 干扰攻击 多代理深度强化学习 奖励函数
在线阅读 下载PDF
洋流干扰下低速欠驱动AUV的三维路径规划
8
作者 陈世同 鲁子瑜 《智能系统学报》 北大核心 2025年第2期425-434,共10页
海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,... 海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,由于传统的强化Q网络(deep Q-network,DQN)路径规划算法在复杂环境下存在过估计的问题,提出了基于优先经验回放方法的改进DQN路径规划算法,同时对动作设计和奖励函数进行优化。在基于S57海图数据建立的三维海洋环境下,利用地球与空间研究机构(earth&space research,ESR)提供的洋流数据进行路径规划仿真。实验结果表明,在充分考虑洋流干扰的情况下,改进后的DQN算法能够规划出较优的全局路径规划,提供一条时间最短且能耗最低的航行路线,为AUV水下航行提供参考。 展开更多
关键词 自主水下运载器 强化学习 洋流干扰 路径规划 三维海洋环境 强化Q网络 S57海图 奖励函数
在线阅读 下载PDF
如何实现真正的智能?——关于智能体中事实性计算与价值性算计深度融合的思考
9
作者 刘伟 龙擎天 马楠 《电子科技大学学报(社科版)》 2025年第5期1-7,共7页
该文深入探讨了人工智能(AI)实现真正智能的关键路径,主张通过事实性计算与价值性算计的深度融合,推动AI从单纯的自动化工具向具备认知与道德能力的智能系统转变。当前AI在处理客观数据方面表现出色,但在理解和应对人类社会的复杂价值... 该文深入探讨了人工智能(AI)实现真正智能的关键路径,主张通过事实性计算与价值性算计的深度融合,推动AI从单纯的自动化工具向具备认知与道德能力的智能系统转变。当前AI在处理客观数据方面表现出色,但在理解和应对人类社会的复杂价值问题时存在明显不足,可能导致决策偏差和伦理困境。论文明确区分事实性事实与价值性事实,指出后者基于前者并影响事实认知;在强化学习中,提出奖惩函数设计需兼顾事实准确性与价值目标;在人机环境系统中,构建动态协同框架以融合事实的可计算性与价值的可判定性;强调通过具身认知等技术改进人机交互,推动AI从功能性模拟转向机制性模拟;在多人多智能体系统中,分析多事实与多价值的动态交互,突出通信与自组织的必要性。AI若要跨越工具理性,迈向价值理性,必须实现事实性与价值性的有机结合。 展开更多
关键词 人机交互 智能体 人工智能 价值与事实 奖惩函数
在线阅读 下载PDF
基于深度多智能体强化学习的机床混流装配线调度优化
10
作者 姜兴宇 陈嘉淇 +1 位作者 王立权 徐伟宏 《工业工程》 2025年第4期15-23,共9页
为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应... 为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应用去中心化分散执行的双重深度Q网络(double deep Q network,DDQN)的智能体来学习生产信息与调度目标的关系。该框架采用集中训练与分散执行的策略,并使用参数共享技术,能处理多智能体强化学习中的非稳态问题。在此基础上,采用递归神经网络来管理可变长度的状态和行动表示,使智能体具有处理任意规模问题的能力。同时引入全局/局部奖励函数,以解决训练过程中的奖励稀疏问题。通过消融实验,确定了最优的参数组合。数值实验结果表明,与标准测试方案相比,本算法在目标达成度方面,平均总延迟工件数较改善前提升了24.1%~32.3%,训练速度提高了8.3%。 展开更多
关键词 机床混流装配线 深度多智能体强化学习 递归神经网络 全局/局部奖励函数
在线阅读 下载PDF
基于功能磁共振技术探讨首发抑郁症奖赏网络功能异常研究
11
作者 肖雪 田静 +6 位作者 孙绪 任渝棠 徐辉 余学 李明山 孙继飞 侯小兵 《精神医学杂志》 2025年第2期118-122,共5页
目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两... 目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两组脑网络的差异。同时,收集FED组17项汉密尔顿抑郁量表(HAMD-17)评分,分析异常脑区与临床症状之间的相关性。结果与对照组比较,FED组在左侧腹侧纹状体上部与左侧中央后回的FC减低(P<0.005),右侧腹侧纹状体上部与左侧尾状核的FC增高(P<0.005),左侧背侧尾状核与右侧颞中回的FC增高(P<0.005),右侧背侧尾侧壳核与右侧顶下小叶的FC减低(P<0.005),左侧背侧吻侧壳核与右侧顶下小叶的FC减低(P<0.005),腹侧吻侧壳核与右侧缘上回的FC减低(P<0.005)。相关性分析结果显示,左侧背侧吻侧壳核与右侧顶下小叶的FC值与HAMD-17评分呈正相关(P<0.05)。结论FED患者在纹状体亚区与默认网络及感觉运动皮层的功能连接上存在异常改变,且奖赏网络内部的功能连接也出现异常。本研究为理解FED的神经病理机制及靶向治疗提供了新的视角。 展开更多
关键词 首发抑郁症 功能磁共振成像 功能连接 奖赏网络
暂未订购
改进奖励函数的深度强化学习路径规划方法 被引量:6
12
作者 桑垚 马晓宁 《计算机应用与软件》 北大核心 2025年第1期271-276,共6页
针对深度强化学习在路径规划问题中的稀疏奖励问题,提出一种基于潜能奖励函数的深度强化学习模型。该模型通过设计新的奖励函数,提高奖励密度和样本利用率,减少训练难度,提升智能体在不同地图中的寻路成功率。仿真结果表明,改进后的模... 针对深度强化学习在路径规划问题中的稀疏奖励问题,提出一种基于潜能奖励函数的深度强化学习模型。该模型通过设计新的奖励函数,提高奖励密度和样本利用率,减少训练难度,提升智能体在不同地图中的寻路成功率。仿真结果表明,改进后的模型在简单地图上路径规划成功率提高7.08百分点,在复杂地图上规划成功率提高12.60百分点;与最先进的算法对比,寻路成功率近似,但规划路径结果的长度较短。 展开更多
关键词 深度强化学习 路径规划 移动机器人 奖励函数
在线阅读 下载PDF
动态环境下共融机器人深度强化学习导航算法 被引量:3
13
作者 顾金浩 况立群 +2 位作者 韩慧妍 曹亚明 焦世超 《计算机工程与应用》 北大核心 2025年第4期90-98,共9页
在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交... 在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交要求,才能被人类接受。为了提升多智能体在动态场景中的自主导航能力,针对多智能体导航中社会适应性低和寻找最优值函数问题,提出了一种动态环境下共融机器人深度强化学习避障算法。建立了更贴近人类行为的运动模型并将其添加到深度强化学习框架中,用于提高共融机器人的合作性;为了在行人物理安全的基础上提升其感知安全,重新制定了奖励函数;利用非线性深度神经网络代替传统的值函数,解决寻找最优值函数问题。仿真实验显示,相较于最新的深度强化学习导航方法,该方法在不增加导航时间的情况下实现了100%的导航成功率,且没有发生任何碰撞。结果表明,该方法使共融机器人最大限度地满足人类的社交原则,同时朝着目标前进,有效提高了行人的感知安全。 展开更多
关键词 服务机器人 避障算法 深度强化学习 最优值函数 奖励函数
在线阅读 下载PDF
基于PD3PG的无人驾驶行为决策仿真
14
作者 曹克让 王涵 +2 位作者 刘亚茹 范慧杰 梁琳琦 《计算机工程与设计》 北大核心 2025年第4期1149-1156,共8页
为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG... 为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG算法,提高重要经验的利用率以及加快神经网络的训练速度。通过仿真平台TORCS,验证了PD3PG算法相比于DDPG算法拥有更快的收敛速度,更高的回合奖励,以及更加稳定的偏移量,行为决策控制效果更加优秀。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法 无人驾驶 行为决策 奖励函数 经验回放 决斗网络
在线阅读 下载PDF
一种无人机冲突探测与避让系统决策方法
15
作者 汤新民 李帅 +1 位作者 顾俊伟 管祥民 《电子与信息学报》 北大核心 2025年第5期1301-1309,共9页
针对无人机探测与避让(DAA)系统中无人机飞行碰撞避免的决策问题,该文提出一种将无人机系统检测和避免警报逻辑(DAIDALUS)和马尔可夫决策过程(MDP)相结合的方法。DAIDALUS算法的引导逻辑可以根据当前状态空间计算无人机避撞策略,将这些... 针对无人机探测与避让(DAA)系统中无人机飞行碰撞避免的决策问题,该文提出一种将无人机系统检测和避免警报逻辑(DAIDALUS)和马尔可夫决策过程(MDP)相结合的方法。DAIDALUS算法的引导逻辑可以根据当前状态空间计算无人机避撞策略,将这些策略作为MDP的动作空间,并设置合适的奖励函数和状态转移概率,建立MDP模型,探究不同折扣因子对无人机飞行避撞过程的影响。仿真结果表明:相比于DAIDALUS,本方法的效率提升27.2%;当折扣因子设置为0.99时,可以平衡长期与短期收益;净空入侵率为5.8%,威胁机与本机最近距离为343 m,该方法可以满足无人机飞行过程中避撞的要求。 展开更多
关键词 无人机系统 探测与避让 马尔可夫决策过程 奖励函数
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
16
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
基于A-TD3的码垛机器人轨迹规划
17
作者 金桥 杨光锐 +2 位作者 王霄 徐凌桦 张芳 《现代制造工程》 北大核心 2025年第5期42-52,共11页
深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Determini... 深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法用于机械臂的轨迹规划。首先,在笛卡尔坐标系下建立码垛机器人的数学模型,并对其进行运动学分析;其次,针对学习速率低和鲁棒性差的问题,基于机械臂和障碍物的相对方向和位置,设计了一种改进方位奖励函数结合双延迟深度确定性策略梯度(A-TD3)算法用于码垛机器人机械臂轨迹规划,以增强机械臂目标搜索的导向性,提高学习效率和鲁棒性。仿真结果表明,相比于改进前TD3算法,A-TD3算法平均收敛速度提升了11.84%,平均奖励值提升了4.64%,平均极差下降了10.30%,在轨迹规划用时上也比主流RRT和GA算法短,验证了A-TD3算法在码垛机器人机械臂轨迹规划应用中的有效性。 展开更多
关键词 机械臂 深度强化学习 改进方位奖励函数 双延迟深度确定性策略梯度 轨迹规划
在线阅读 下载PDF
基于强化学习的多机协同超视距空战决策算法
18
作者 王志刚 龚华军 +1 位作者 尹逸 刘小雄 《南京航空航天大学学报(自然科学版)》 北大核心 2025年第5期831-841,共11页
现代战争中的空战态势复杂多变,因此探索一种快速有效的决策方法十分重要。本文对多架无人机协同对抗问题展开研究,提出一种基于长短期记忆(Long and short-term memory,LSTM)和多智能体深度确定策略梯度(Multi-agent deep deterministi... 现代战争中的空战态势复杂多变,因此探索一种快速有效的决策方法十分重要。本文对多架无人机协同对抗问题展开研究,提出一种基于长短期记忆(Long and short-term memory,LSTM)和多智能体深度确定策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)的多机协同超视距空战决策算法。首先,建立无人机运动模型、雷达探测区模型和导弹攻击区模型。然后,提出了多机协同超视距空战决策算法。设计了集中式训练LSTM-MADDPG分布式执行架构和协同空战系统的状态空间来处理多架无人机之间的同步决策问题;设计了学习率衰减机制来提升网络的收敛速度和稳定性;利用LSTM网络改进了网络结构,增强了网络对战术特征的提取能力;利用基于衰减因子的奖励函数机制加强无人机的协同对抗能力。仿真结果表明所提出的多机协同超视距空战决策算法使无人机具备了协同攻防的能力,同时算法具备良好的稳定性和收敛性。 展开更多
关键词 协同空战决策 多智能体强化学习 混合奖励函数 长短期记忆网络
在线阅读 下载PDF
基于深度强化学习的变步长LMS算法
19
作者 徐君阳 张红梅 张坤 《仪器仪表学报》 北大核心 2025年第2期70-80,共11页
针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参... 针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参流程。首先,构建了一个融合深度强化学习和自适应滤波的算法模型,该模型利用深度强化学习智能体控制步长因子的变化,代替了传统变步长算法中用于步长调整的非线性函数,从而规避了繁琐的实验调参流程,降低了算法使用的复杂性。其次,提出了基于误差的状态奖励和基于步长的动作奖励函数,引入动态奖励与负奖励机制,有效提升算法的收敛速度。此外,设计了基于欠完备编码器的网络结构,提高了强化学习策略的推理能力。通过实验验证,相较于其他较新的变步长算法,所提出的算法具有更快的收敛速度和更小的稳态误差,在不同初始参数下均能快速调整至合理的步长值,减少了实验调参的工作量。将训练完成的网络应用到系统辨识、信号去噪以及截流区龙口水域水位信号的滤波等实际领域中,均取得了良好的性能表现,证明了算法具有一定的泛化能力,并进一步证实了其有效性。 展开更多
关键词 变步长LMS算法 深度强化学习 自适应滤波 奖励函数
原文传递
面向不同粗糙程度地面的四足机器人自适应控制方法
20
作者 张楠杰 陈玉全 +2 位作者 季茂沁 孙运康 王冰 《自动化学报》 北大核心 2025年第7期1585-1598,共14页
针对四足机器人在复杂环境中的高速稳定运动问题,提出一种融合模型和学习的分层运动控制框架.首先,提出基于单次落足点偏差的惩罚机制,实现对连续滑动状态的有效评估.其次,构建基于双曲正切函数的连续接触状态描述,显著改善了传统离散... 针对四足机器人在复杂环境中的高速稳定运动问题,提出一种融合模型和学习的分层运动控制框架.首先,提出基于单次落足点偏差的惩罚机制,实现对连续滑动状态的有效评估.其次,构建基于双曲正切函数的连续接触状态描述,显著改善了传统离散方法中的相位切换冲击问题.然后,设计基于LSTM的地面特性实时估计网络,实现质心位置的自适应调整.最后,提出基于执行层和决策层的分层控制框架,提高系统的环境适应能力.在Isaac Gym仿真环境中的实验表明,该控制方法能够适应不同摩擦系数和运动速度条件.特别是在极低摩擦环境(μ=0.05)下,自适应控制策略通过0.061 0 m的质心高度调整,在维持1.428 4 m/s运动速度的同时,将足端滑动距离控制在0.308±0.005 0 cm,充分验证了所提控制方法的有效性和实用价值. 展开更多
关键词 四足机器人 强化学习 自适应控制策略 奖励函数优化 分层控制框架
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部