期刊文献+
共找到734篇文章
< 1 2 37 >
每页显示 20 50 100
基于角度搜索和深度Q网络的移动机器人路径规划算法 被引量:2
1
作者 李宗刚 韩森 +1 位作者 陈引娟 宁小刚 《兵工学报》 北大核心 2025年第2期30-44,共15页
针对深度Q网络(Deep Q Network,DQN)算法在求解路径规划问题时存在学习时间长、收敛速度慢的局限性,提出一种角度搜索(Angle Searching,AS)和DQN相结合的算法(Angle Searching-Deep Q Network,AS-DQN),通过规划搜索域,控制移动机器人的... 针对深度Q网络(Deep Q Network,DQN)算法在求解路径规划问题时存在学习时间长、收敛速度慢的局限性,提出一种角度搜索(Angle Searching,AS)和DQN相结合的算法(Angle Searching-Deep Q Network,AS-DQN),通过规划搜索域,控制移动机器人的搜索方向,减少栅格节点的遍历,提高路径规划的效率。为加强移动机器人之间的协作能力,提出一种物联网信息融合技术(Internet Information Fusion Technology,IIFT)模型,能够将多个分散的局部环境信息整合为全局信息,指导移动机器人规划路径。仿真实验结果表明:与标准DQN算法相比,AS-DQN算法可以缩短移动机器人寻得到达目标点最优路径的时间,将IIFT模型与AS-DQN算法相结合路径规划效率更加显著。实体实验结果表明:AS-DQN算法能够应用于Turtlebot3无人车,并成功找到起点至目标点的最优路径。 展开更多
关键词 移动机器人 路径规划 深度Q网络 角度搜索策略 物联网信息融合技术
在线阅读 下载PDF
掘进巷道狭长受限空间的掘锚设备避碰路径规划方法研究 被引量:1
2
作者 杨文娟 张冉 +7 位作者 张旭辉 田思昊 王泽尧 郑西利 任志腾 万继成 杜昱阳 张寒冰 《煤炭科学技术》 北大核心 2025年第S1期483-496,共14页
针对煤矿井下狭长受限空间条件下掘锚设备协同作业过程中的碰撞检测与避碰路径规划难题,提出了基于深度强化学习(Deep Reinforcement Learning,DRL)的煤矿掘进巷道掘锚设备碰撞检测与避碰路径规划方法。利用激光雷达将巷道环境进行实时... 针对煤矿井下狭长受限空间条件下掘锚设备协同作业过程中的碰撞检测与避碰路径规划难题,提出了基于深度强化学习(Deep Reinforcement Learning,DRL)的煤矿掘进巷道掘锚设备碰撞检测与避碰路径规划方法。利用激光雷达将巷道环境进行实时重建,在虚拟环境中建立掘进设备与钻锚设备的路径规划训练模型,在构建的掘进工作面虚拟三维场景下,采用混合层次包围盒法进行掘锚设备、钻锚设备以及掘进巷道间的虚拟碰撞检测。针对掘锚设备的运动特性,在SAC(Soft Actor-Critic)算法的基础上引入多智能体经验共享机制,提出了MAES-SAC(Multi-Agent Experience Sharing)算法,通过定义智能体的状态空间和动作空间,设计相应的奖惩机制,对智能体进行训练。仿真结果表明,相比于PPO算法和SAC算法,MAES-SAC算法平均奖励值分别提高了8.21%与7.43%,最高奖励值分别提高了0.25%与0.14%,达到最高奖励值的步数分别缩短与3.06%和6.63%,标准差分别减少了10.07%与6.99%。最后,搭建了掘锚设备避碰路径规划与碰撞感知系统实验平台,通过虚实运动同步性测试和掘锚设备避碰轨迹规划实验,验证了掘锚设备避碰路径规划的可行性和准确性,该方法为煤矿井下掘进设备群碰撞感知与协同避碰路径规划提供了新的思路,对推动煤矿井下掘进工作面智能化建设具有重要意义。 展开更多
关键词 煤矿机器人 路径规划 深度强化学习 受限空间 虚实结合
在线阅读 下载PDF
基于KP-DDPG的矿山运载机器人路径规划实验平台设计 被引量:1
3
作者 杨健健 程琪 +2 位作者 章腾 黄先诚 韩子毅 《实验技术与管理》 北大核心 2025年第1期143-151,共9页
针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改... 针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改变了随机采样经验池策略,建立积极经验重放缓冲区,优先采样时序差分误差大的样本进行训练。在仿真平台上比较了传统路径规划算法与所提算法的性能,结果表明KP-DDPG算法可以有效地克服DDPG方法训练周期长、路径规划技术差等缺点。同时设计了基于数字孪生的矿山无人运输仿真系统,在数字孪生仿真平台上验证了规划路径转角的合理性。 展开更多
关键词 路径规划 强化学习 KP-DDPG 数字孪生仿真平台
在线阅读 下载PDF
基于改进DDPG的多AGV路径规划算法
4
作者 赵学健 叶昊 +1 位作者 李豪 孙知信 《计算机科学》 北大核心 2025年第6期306-315,共10页
在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯... 在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯度算法Improved-AC-DDPG(Improved-Adaptive Cooperative-Deep Deterministic Policy Gradient)。该算法通过环境数据采集构建状态向量,并实时规划路径,动态生成任务序列以减少AGV间的冲突,同时监测并预测调整避障策略,持续优化策略参数。实验结果表明,与常规DDPG和人工势场优化DDPG(Artificial Potential Field-Deep Deterministic Policy Gradient,APF-DDPG)算法相比,Improved-AC-DDPG在收敛速度、避障能力、路径规划效果和能耗方面均表现更佳,显著提升了多AGV系统的效率与安全性。本研究为多智能体系统在动态环境中的建模与协作提供了新思路,具有重要的理论价值和应用潜力。 展开更多
关键词 AGV 路径规划 深度强化学习 DDPG
在线阅读 下载PDF
基于RGCAL-TD3的奖励引导保守优势学习路径规划方法
5
作者 王科平 李宏涛 +1 位作者 王田 杨艺 《计算机集成制造系统》 北大核心 2025年第10期3762-3772,共11页
针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可... 针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可观测马尔可夫决策过程。其次,将奖励引入到保守优势学习中,在此基础上重新定义了优势学习算子,并参与到TD误差的更新,从而根据回放经验中的奖励值增强对动作差距非线性的学习能力。最后,在Gazebo平台设计了多种动态实验场景,与主流深度强化学习算法进行对比实验。仿真实验结果表明,所提算法的样本利用率优于其他算法,在运行时间、移动步数以及导航成功率等指标上也具有整体优势。最后,在真实场景下进行了测试,进一步验证了所提算法的可行性和有效性。 展开更多
关键词 动态场景 路径规划 深度强化学习 奖励引导的保守优势学习 动作差距
在线阅读 下载PDF
基于改进烟花算法的多无人机路径规划 被引量:2
6
作者 杨进 陈步前 《计算机与现代化》 2025年第6期51-55,70,共6页
本文研究多个无人机在复杂环境下的路径规划,设计满足约束条件的目标函数。同时针对烟花算法在全局收敛和局部收敛上的不足,提出一种改进的烟花算法。在产生变异火花的过程中,利用Levy变异代替高斯变异生成变异火花,同时规避了算法原本... 本文研究多个无人机在复杂环境下的路径规划,设计满足约束条件的目标函数。同时针对烟花算法在全局收敛和局部收敛上的不足,提出一种改进的烟花算法。在产生变异火花的过程中,利用Levy变异代替高斯变异生成变异火花,同时规避了算法原本容易在原点处陷入局部最优的问题;另外为了提升烟花算法的局部性以及个体之间的信息交换,引入一种深度信息交换策略来选择下一代的火花。将改进后的烟花算法和其他智能优化算法进行比较,仿真结果表明,改进后的烟花算法收敛速度以及稳定性具有显著优势,可以更好地进行多无人机的路径规划。 展开更多
关键词 路径规划 烟花算法 深度信息交换策略 Levy分布
在线阅读 下载PDF
基于拥塞感知和缓存通信的多智能体路径规划
7
作者 张永良 李子文 +2 位作者 许家豪 江雨宸 崔滢 《计算机科学》 北大核心 2025年第8期317-325,共9页
多智能体路径规划任务(MAPF)是大规模机器人系统的重要组成部分。基于冲突搜索的传统规划器受限于计算时间,导致可扩展性低,而基于通信机制的多智能体强化学习策略显著改善了这一问题。随着任务规模的扩大,如何有效通信和避免拥塞成为... 多智能体路径规划任务(MAPF)是大规模机器人系统的重要组成部分。基于冲突搜索的传统规划器受限于计算时间,导致可扩展性低,而基于通信机制的多智能体强化学习策略显著改善了这一问题。随着任务规模的扩大,如何有效通信和避免拥塞成为基于学习方法的主要障碍。针对这些问题,提出了一种基于缓存通信并具备拥塞感知能力的分布式规划器(C3MAP),在合理降低通信频率的同时保持优异的求解成功率。具体而言,当且仅当智能体的可观测信息与上一次通信内容存在显著差异或接收到其他智能体传来的广播请求信号时,才对局部视野内的智能体进行广播通信;同时,引入拥塞信息作为局部可观测信息,以指导智能体避开拥塞区域。基准测试的实验结果表明,C3MAP在结构化场景中的求解成功率均高于90%,显著优于现有基于学习的方法,且在大规模场景实验中进一步验证了缓存通信机制优越的稳定性以及拥塞感知的有效性。 展开更多
关键词 多智能体系统 路径规划 深度强化学习 拥塞感知 缓存通信
在线阅读 下载PDF
未知环境下基于突变定位SAC算法的移动机器人路径规划
8
作者 胡立坤 韦春有 《计算机应用研究》 北大核心 2025年第2期455-461,共7页
针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信... 针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信息的情况下计算子目标点位置,减少移动机器人规划路径的长度。同时,通过引入基于虚拟势场的critic网络改进损失函数和多阶段训练方法,提高SAC智能体的训练速度。实验结果表明,与DDPG、SAC、PER-SAC和HER-TD3相比,突变定位SAC算法在训练时间上分别减少了46.68%、39.50%、20.18%和27.79%。此外,突变定位SAC算法在不同环境下规划路径的长度平均减少了13.71%、10.26%、10.90%和15.89%。 展开更多
关键词 移动机器人 路径规划 深度强化学习算法 SAC算法 激光雷达 未知环境
在线阅读 下载PDF
基于深度强化学习的无人艇航迹规划与控制
9
作者 关巍 奚赵勇 +1 位作者 崔哲闻 张显库 《中国航海》 北大核心 2025年第3期129-136,146,共9页
本研究旨在运用强化学习方法解决无人艇航迹规划与控制问题。在航迹规划方面,采用Q学习(Q-learning)算法,针对真实水域进行航迹规划。在奖励函数设计中考虑了浅水区,并致力于减少航迹的转向点数量。在航迹控制方面,将柔性动作评价(SAC)... 本研究旨在运用强化学习方法解决无人艇航迹规划与控制问题。在航迹规划方面,采用Q学习(Q-learning)算法,针对真实水域进行航迹规划。在奖励函数设计中考虑了浅水区,并致力于减少航迹的转向点数量。在航迹控制方面,将柔性动作评价(SAC)算法与比例积分微分(PID)控制算法相结合,克服了传统PID控制器参数人工整定、调节困难的问题的同时,也规避了深度强化学习缺乏可解释性的缺点。通过与传统PID算法、遗传算法(GA)和深度确定性策略梯度(DDPG)进行对比试验,展现出所提出SAC-PID方法的优越性。仿真结果表明,所规划的航迹能够综合考虑航迹距离、浅水区、航路转向点数量等优化目标,所提出的SAC-PID方法能够很好实现航迹跟踪效果。 展开更多
关键词 航迹规划 航迹控制 深度强化学习 水面无人艇
在线阅读 下载PDF
混合交通无信号交叉口智能网联汽车低风险左转运动控制
10
作者 李立 赵峥程 +2 位作者 许文鹏 路庆昌 龚贤武 《中国公路学报》 北大核心 2025年第5期276-296,共21页
为了使智能网联汽车(Intelligent Connected Vehicle,ICV)在混合交通条件下安全顺畅通过无信号交叉口,提出了一种基于动态碰撞风险评估和深度强化学习的ICV低风险左转运动控制方法。首先,从无信号交叉口真实车辆轨迹中提取左转冲突事件... 为了使智能网联汽车(Intelligent Connected Vehicle,ICV)在混合交通条件下安全顺畅通过无信号交叉口,提出了一种基于动态碰撞风险评估和深度强化学习的ICV低风险左转运动控制方法。首先,从无信号交叉口真实车辆轨迹中提取左转冲突事件,设计了考虑车辆实时转向角度的碰撞概率计算方法,将其与碰撞严重程度指标相结合评价车辆左转碰撞风险;接着,根据不同碰撞严重程度的左转冲突事件发生的先验概率与条件概率,使用贝叶斯定理计算事件发生的后验概率,并加和获得ICV左转风险感知系数;然后,采用K-shape聚类划分存在潜在左转冲突的有人驾驶车辆行驶风格,将多种风格的有人驾驶车辆作为与ICV混合行驶的交通仿真背景车辆;进而,采用虚拟队列方法确定交叉口冲突区内的车辆通行顺序,以此为基础构建ICV期望车速多目标规划模型,并使用粒子群优化算法求解期望车速;最后,提出一种考虑动态行车风险的ICV左转运动决策深度强化学习算法RA-SAC(Risk-awareness Soft Actor-critic),将左转风险感知系数和期望车速纳入算法的奖励函数中,设计随左转风险变化的奖惩调整机制,使ICV迭代学习通过冲突区的策略,并使用算法输出参数控制ICV纵向和转向运动控制器。基于Prescan与Simulink搭建无信号交叉口混合交通仿真环境,选择3种经典深度强化学习算法作为RA-SAC算法的对比算法。结果表明:轨迹中提取的左转冲突事件中,有人驾驶车辆风格差异明显;相较于对比算法,RA-SAC算法能够使用更少的训练步数获得更高的训练奖励,ICV与临近车辆车头时距低于安全阈值的累计时间平均减少91.09%,ICV风险系数下降速度平均提高27.00%,通行效率和驾乘舒适度综合分数平均提高21.40%,与多种风格的有人驾驶车辆交互时适应性更好。 展开更多
关键词 汽车工程 左转运动控制 深度强化学习 RA-SAC 智能网联汽车 无信号交叉口 混合交通 碰撞风险
原文传递
基于改进DQN的无人机三维路径规划研究
11
作者 孔建国 赵恬恬 +2 位作者 梁海军 刘晨宇 马珂昕 《舰船电子工程》 2025年第7期36-40,共5页
为了解决DQN在未知环境下无人机路径规划中存在收敛性差及成功率较低的问题,提出了一种基于NoisyNet-DuelingDQN的路径规划方法。该方法在传统的DQN算法基础上引入了竞争网络,以更好地评估每一动作的价值;其次,通过给神经网络的权重引... 为了解决DQN在未知环境下无人机路径规划中存在收敛性差及成功率较低的问题,提出了一种基于NoisyNet-DuelingDQN的路径规划方法。该方法在传统的DQN算法基础上引入了竞争网络,以更好地评估每一动作的价值;其次,通过给神经网络的权重引入噪声,从而可以更好地探索空间,寻找最优策略。最后通过仿真实验证明:1)该算法在不同环境下相比传统的DQN和NoisyNet-DQN算法具有更好的收敛性和更高的奖励值;2)经60000次后,该算法成功率较DQN提高12.16%,较NoisyNet-DQN提高3.6%。 展开更多
关键词 深度强化学习 路径规划 DQN算法 NoisyNet-DuelingDQN
在线阅读 下载PDF
基于深度强化学习的面向无线充电的电动汽车路径规划 被引量:1
12
作者 靳勇 陈政超 杨惠珍 《自动化应用》 2025年第2期72-75,共4页
电动汽车的广泛应用使得电动汽车充电面临成本高、效率低和城市电网负荷大等一系列问题。为此,在行车道铺设无线充电线圈以实现电动汽车的无线充电,形式化了电动汽车无线充电调度问题;基于深度强化学习,提出了电动汽车调度算法,以使所... 电动汽车的广泛应用使得电动汽车充电面临成本高、效率低和城市电网负荷大等一系列问题。为此,在行车道铺设无线充电线圈以实现电动汽车的无线充电,形式化了电动汽车无线充电调度问题;基于深度强化学习,提出了电动汽车调度算法,以使所有电动汽车在满足截止时间约束和能量约束下的总剩余电量最大。仿真实验分别从电动汽车的数量、充电路段的数量和截止时间的均值等方面分析了所提算法的性能。结果表明,所提算法的总剩余电量性能明显优于对比算法。 展开更多
关键词 电动汽车 无线充电 路径规划 带限制的最短路径 深度强化学习
在线阅读 下载PDF
校园末端物流无人化的需求测度与模拟优化研究 被引量:1
13
作者 梁佳宁 黄子沐 龙瀛 《上海城市规划》 北大核心 2025年第2期15-24,共10页
末端物流无人化作为一种新兴技术手段,虽然已初步应用于实践中,但其在实施效果和优化策略方面尚缺乏系统性和定量化的研究。通过量化校园末端物流无人化的实际需求,评估不同自动化水平和情景下的社会效益、经济效益、生态效益,为校园无... 末端物流无人化作为一种新兴技术手段,虽然已初步应用于实践中,但其在实施效果和优化策略方面尚缺乏系统性和定量化的研究。通过量化校园末端物流无人化的实际需求,评估不同自动化水平和情景下的社会效益、经济效益、生态效益,为校园无人化物流规划提供科学依据。以清华大学校园为典型应用场景,结合YOLOv8和Byte Track算法开发物流需求测度模型,实现对监控数据中骑手的自动识别与计数。在此基础上,结合问卷数据,利用Anylogic平台进行仿真模拟,分析末端物流无人化在多种情景下的影响。结果表明,末端物流无人化在提高配送效率和降低能耗方面具有明显优势,但存在导致顾客等待时间增加的问题,服务水平仍需提升。通过提高机器人或骑手速度、增加机器人数量和增加配送枢纽数量等策略,可以提高配送效率,减少顾客等待时间,并减少能源消耗。基于模拟结果,发现校园内需要部署至少40台机器人以完成配送任务。此外,布局4—5个配送枢纽、每个枢纽15—20个机器人,具有较高的经济性。同时,建议将机器人及骑手速度控制在13—15 km/h以实现安全与效率的平衡。 展开更多
关键词 无人物流 校园环境 仿真模拟 深度学习 规划设计
在线阅读 下载PDF
基于Transformer-DCGAR-SAC的移动机器人路径规划 被引量:1
14
作者 张文科 李宏涛 +1 位作者 王科平 杨艺 《传感器与微系统》 北大核心 2025年第5期152-158,共7页
为提升移动机器人在静态或动态场景下处理环境信息的能力及基于随机性策略的动作选取机制,通过深入探讨随机性策略梯度算法,提出了一种基于Transformer的双重Critic网络引导的动作选择机制-柔性策略-评估(Transformer DCGAR-SAC)算法的... 为提升移动机器人在静态或动态场景下处理环境信息的能力及基于随机性策略的动作选取机制,通过深入探讨随机性策略梯度算法,提出了一种基于Transformer的双重Critic网络引导的动作选择机制-柔性策略-评估(Transformer DCGAR-SAC)算法的移动机器人路径规划方法。首先,利用了Transformer的高效序列处理能力可以捕捉环境动态变化的特点,将Transformer模型与SAC算法的随机性策略网络融合。随后,提出一种基于双重Critic网络引导的动作选择机制。该机制引入了V网络,并与Q网络共同评估价值差异,指导动作根据相对价值进行选择,减小偏向过估计动作的风险。在仿真实验方面,与两种随机性策略算法进行了对比,所提算法在样本利用率和成功率等多个关键指标上优于其他算法。此外,在真实场景中进行算法的实车实验,并成功在真实场景下实现了路径规划,验证了算法的可行性和有效性。 展开更多
关键词 动态场景 路径规划 深度强化学习 TRANSFORMER 动作选择机制
在线阅读 下载PDF
改进奖励函数的深度强化学习路径规划方法 被引量:6
15
作者 桑垚 马晓宁 《计算机应用与软件》 北大核心 2025年第1期271-276,共6页
针对深度强化学习在路径规划问题中的稀疏奖励问题,提出一种基于潜能奖励函数的深度强化学习模型。该模型通过设计新的奖励函数,提高奖励密度和样本利用率,减少训练难度,提升智能体在不同地图中的寻路成功率。仿真结果表明,改进后的模... 针对深度强化学习在路径规划问题中的稀疏奖励问题,提出一种基于潜能奖励函数的深度强化学习模型。该模型通过设计新的奖励函数,提高奖励密度和样本利用率,减少训练难度,提升智能体在不同地图中的寻路成功率。仿真结果表明,改进后的模型在简单地图上路径规划成功率提高7.08百分点,在复杂地图上规划成功率提高12.60百分点;与最先进的算法对比,寻路成功率近似,但规划路径结果的长度较短。 展开更多
关键词 深度强化学习 路径规划 移动机器人 奖励函数
在线阅读 下载PDF
基于分层自主决策和DQN的自适应牧羊控制方法
16
作者 赵江 杨智 +1 位作者 池沛 王英勋 《控制与决策》 北大核心 2025年第5期1523-1532,共10页
牧羊控制方法逐渐被应用于机场鸟群驱离、无人机放牧、空地协同监视和引导等大规模集群运动协调问题.以牧羊无人机为例,提出基于分层自主决策和深度Q网络(DQN)的自适应牧羊控制方法.首先,考虑离群个体活跃度衰减等因素,建立牧羊控制问... 牧羊控制方法逐渐被应用于机场鸟群驱离、无人机放牧、空地协同监视和引导等大规模集群运动协调问题.以牧羊无人机为例,提出基于分层自主决策和深度Q网络(DQN)的自适应牧羊控制方法.首先,考虑离群个体活跃度衰减等因素,建立牧羊控制问题的感知和运动模型;然后,针对个体滞留和离群问题,提出基于全局质心的弧形轨迹(GCM-Arc)控制方法和避障策略,提升羊群受控个体占比;最后,建立分层自主决策模型,结合GCM-Arc控制方法与深度Q网络,提出分层GCM-Arc控制方法,以实现控制模式自适应切换和参数自适应调整.数字仿真实验表明,所提出方法在牧羊任务时间、无人机总路程、羊群平均半径、单体离群率和牧羊任务成功率方面,明显优于经典的两种牧羊控制方法. 展开更多
关键词 牧羊控制 无人机 分层自主决策 深度Q网络 自适应 路径规划
原文传递
基于人工势场的防疫机器人改进近端策略优化算法
17
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 PPO算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
基于Bi-LSTM的空间站在轨事件规划
18
作者 宫贺 张嘉城 +5 位作者 王功波 刘丹 马邝 郭帅 罗亚中 梁彦刚 《宇航学报》 北大核心 2025年第1期193-203,共11页
空间站在轨事件规划是支持空间站长期在轨运营并最大化效益的关键技术,其本质上是一种考虑时间和在轨多类资源约束的组合调度问题。已有研究中的代表性方法包括基于规则的启发式算法和基于群体智能的优化算法。前者效率较高,但收敛性不... 空间站在轨事件规划是支持空间站长期在轨运营并最大化效益的关键技术,其本质上是一种考虑时间和在轨多类资源约束的组合调度问题。已有研究中的代表性方法包括基于规则的启发式算法和基于群体智能的优化算法。前者效率较高,但收敛性不足;后者可获得近全局最优解,但计算成本较高。因此,提出一种基于学习的智能规划方法,构建基于Bi-LSTM的空间站在轨事件规划神经网络模型,通过网络预训练提取空间站在轨事件规划问题特征,捕捉规划对象到规划结果的映射。提出了基于A3C框架的无监督网络训练方法,在训练中嵌入了一种启发式约束化解策略指导网络收敛。经过训练的神经网络规划模型可在线快速生成事件执行方案,自主有效化解多类型约束,规划成功率超过99%。 展开更多
关键词 空间站 任务规划 深度强化学习 神经网络 组合调度
在线阅读 下载PDF
深度强化学习在导弹弹道规划中的应用
19
作者 张敬 李彤 +2 位作者 李建锋 谭立国 张士峰 《国防科技大学学报》 北大核心 2025年第3期109-118,共10页
针对导弹弹道规划问题,搭建了适用性的Gym训练环境,基于双延迟深度确定性策略梯度框架设计了智能体网络结构,根据终端约束和过程约束设计奖励函数,形成了智能弹道规划方法。通过部署于嵌入式GPU计算加速平台,进行了拉偏仿真和对比测试,... 针对导弹弹道规划问题,搭建了适用性的Gym训练环境,基于双延迟深度确定性策略梯度框架设计了智能体网络结构,根据终端约束和过程约束设计奖励函数,形成了智能弹道规划方法。通过部署于嵌入式GPU计算加速平台,进行了拉偏仿真和对比测试,结果表明:该方法在不同射程任务要求下能够满足导弹能力和过程约束,有效克服环境干扰,具有针对不同对象模型的适应性。同时,该方法计算速度极快,远超流行的GPOPS-Ⅱ工具箱,单步弹道指令计算用时在ms以下,能够支持实时在线弹道生成,为工程应用提供了有效实现途径和技术支撑。 展开更多
关键词 弹道规划 深度强化学习 导弹 嵌入式GPU平台
在线阅读 下载PDF
基于深度强化学习的太阳能无人机航迹规划 被引量:1
20
作者 余子杰 郑征 +3 位作者 李清东 郭林 任素萍 郭健 《航空学报》 北大核心 2025年第12期275-295,共21页
高空长航时太阳能无人机(HALE-SUAV)通过合理的航迹规划可以极大提升其续航性能,而深度强化学习方法由于实时性与自适应性成为该航迹规划问题的理想选择。针对基于深度强化学习方法的HALE-SUAV航迹规划问题,建立了无人机的运动学与动力... 高空长航时太阳能无人机(HALE-SUAV)通过合理的航迹规划可以极大提升其续航性能,而深度强化学习方法由于实时性与自适应性成为该航迹规划问题的理想选择。针对基于深度强化学习方法的HALE-SUAV航迹规划问题,建立了无人机的运动学与动力学模型以及能量相关模型,设计了其能量管理策略,搭建了该航迹规划问题的深度强化学习整体框架,并最终使用训练出来的模型进行了不同太阳能辐射强度情况下的航迹规划实验。研究结果表示基于所提的深度强化学习方法,HALE-SUAV能够选择基于当前太阳能辐射强度情况下合理的控制指令,以提高其续航性能。研究结果显示了深度强化学习方法在HALE-SUAV航迹规划问题的潜在应用价值。 展开更多
关键词 深度强化学习 高空长航时太阳能无人机 航迹规划 续航性能 能量管理策略
原文传递
上一页 1 2 37 下一页 到第
使用帮助 返回顶部