期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的双足机器人行走策略研究 被引量:1
1
作者 李静 丁佳文 +1 位作者 沈南燕 李翀 《机器人技术与应用》 2025年第3期44-49,共6页
本文提出了一种基于深度强化学习的双足机器人行走控制方法,旨在解决传统模型预测控制在复杂地形环境中存在的适应性差和计算效率低等问题。基于英伟达(NVIDIA)的Isaac Gym仿真平台构建了包含多种复杂地形特征的训练环境,采用端到端的... 本文提出了一种基于深度强化学习的双足机器人行走控制方法,旨在解决传统模型预测控制在复杂地形环境中存在的适应性差和计算效率低等问题。基于英伟达(NVIDIA)的Isaac Gym仿真平台构建了包含多种复杂地形特征的训练环境,采用端到端的学习框架成功实现了GR-1双足机器人的稳定行走控制。实验结果表明,该控制策略使机器人能够100%成功完成粗糙地形、隆起地形、坑洼地形、斜坡以及阶梯等多种复杂地形的自主穿越任务。为验证该算法的泛化性能,进一步将训练获得的行走策略以零样本迁移的方式部署至MuJoCo物理引擎,在不同动力学参数的仿真环境中均表现出良好的适应性。 展开更多
关键词 双足机器人 深度强化学习 行走策略 零样本迁移 仿真器 Isaac Gym mujoco
在线阅读 下载PDF
基于改进双树RRT^(*)算法的冗余机械臂末端路径规划 被引量:4
2
作者 吴剑雄 毕卓然 +1 位作者 李宗道 李清都 《计算机应用研究》 CSCD 北大核心 2024年第2期459-465,共7页
针对冗余机械臂的冗余特性与相关RRT^(*)算法在规划机械臂末端路径的应用中存在的搜索效率较低、收敛性不稳定以及没有充分考虑到机械臂末端几何构型与自身运动特性对路径规划影响的问题,提出一种改进策略。首先,引入一种基于根尾节点... 针对冗余机械臂的冗余特性与相关RRT^(*)算法在规划机械臂末端路径的应用中存在的搜索效率较低、收敛性不稳定以及没有充分考虑到机械臂末端几何构型与自身运动特性对路径规划影响的问题,提出一种改进策略。首先,引入一种基于根尾节点连线夹角的采样点选择方式,并设置目标逼近区域。根据连续采样成功次数动态选择改进采样与随机采样。接着,将双树扩展策略与上述方法相结合。最后,将初始可行路径进行二次重连得到最终的优化路径。通过验证,改进双树RRT^(*)方法能够有效地提升搜索效率、收敛性以及路径的优越性。虚拟碰撞体与胶囊碰撞体的引入也能较好地应对机械臂末端结构与运动特性带来的影响。使用Mujoco物理仿真引擎进行机械臂运动验证,证明该策略可以为冗余机械臂末端规划出一条较优的可行路径。 展开更多
关键词 冗余机械臂 RRT^(*) 末端路径 根尾节点 目标逼近区域 双树扩展 虚拟碰撞体 胶囊碰撞体 mujoco
在线阅读 下载PDF
基于PPO算法的机器人轴孔装配控制与仿真 被引量:1
3
作者 申玉鑫 刘晓明 +1 位作者 肖逸 余德平 《机械》 2023年第12期74-80,共7页
针对在管道运输和航空航天领域常见的大口径轴孔装配任务,设计一种基于PPO算法的装配控制方法。首先,建立强化学习算法与装配环境交互训练框架,设计两个网络用于拟合装配策略和评估值函数;其次,设计机器人输出的动作空间与装配环境输出... 针对在管道运输和航空航天领域常见的大口径轴孔装配任务,设计一种基于PPO算法的装配控制方法。首先,建立强化学习算法与装配环境交互训练框架,设计两个网络用于拟合装配策略和评估值函数;其次,设计机器人输出的动作空间与装配环境输出的状态空间,保证学习过程中的有效探索;然后,设计非线性奖励函数以确保训练过程的快速收敛;最后,搭建基于MuJoCo物理引擎的机器人大口径轴孔装配仿真平台,并在仿真平台上对设计算法进行训练和实验。结果表明:基于PPO算法的训练框架能保证训练过程的快速收敛,改进后的优势函数估计方法提升了训练过程的稳定性,训练模型不仅能保证轴插入孔和法兰面贴合,还能保证装配过程的安全性。 展开更多
关键词 装配 PPO算法 Mu JoCo仿真
在线阅读 下载PDF
Extending DDPG with Physics-Informed Constraints for Energy-Efficient Robotic Control
4
作者 Abubakar Elsafi Arafat Abdulgader Mohammed Elhag +2 位作者 Lubna A.Gabralla Ali Ahmed Ashraf Osman Ibrahim 《Computer Modeling in Engineering & Sciences》 2025年第10期621-647,共27页
Energy efficiency stands as an essential factor when implementing deep reinforcement learning(DRL)policies for robotic control systems.Standard algorithms,including Deep Deterministic Policy Gradient(DDPG),primarily o... Energy efficiency stands as an essential factor when implementing deep reinforcement learning(DRL)policies for robotic control systems.Standard algorithms,including Deep Deterministic Policy Gradient(DDPG),primarily optimize task rewards but at the cost of excessively high energy consumption,making them impractical for real-world robotic systems.To address this limitation,we propose Physics-Informed DDPG(PI-DDPG),which integrates physics-based energy penalties to develop energy-efficient yet high-performing control policies.The proposed method introduces adaptive physics-informed constraints through a dynamic weighting factor(λ),enabling policies that balance reward maximization with energy savings.Our motivation is to overcome the impracticality of rewardonly optimization by designing controllers that achieve competitive performance while substantially reducing energy consumption.PI-DDPG was evaluated in nine MuJoCo continuous control environments,where it demonstrated significant improvements in energy efficiency without compromising stability or performance.Experimental results confirm that PI-DDPG substantially reduces energy consumption compared to standard DDPG,while maintaining competitive task performance.For instance,energy costs decreased from 5542.98 to 3119.02 in HalfCheetah-v4 and from1909.13 to 1586.75 in Ant-v4,with stable performance in Hopper-v4(205.95 vs.130.82)and InvertedPendulum-v4(322.97 vs.311.29).Although DDPG sometimes yields higher rewards,such as in HalfCheetah-v4(5695.37 vs.4894.59),it requires significantly greater energy expenditure.These results highlight PI-DDPG as a promising energy-conscious alternative for robotic control. 展开更多
关键词 Physics-informed DDPG energy-efficient RL robotic control continuous control tasks mujoco environments reward-energy trade-off
在线阅读 下载PDF
基于近端策略优化算法及视觉感知的机械臂导纳控制研究 被引量:1
5
作者 黄一超 张嘉琪 +3 位作者 赵宇涵 卢洋 赵文龙 周亮 《建模与仿真》 2024年第6期6512-6524,共13页
现代机械臂交互任务中,由于环境的复杂性和不确定性,精确的物体表面建模常常难以实现。因此,如何在不依赖精确模型的情况下,提高机械臂与环境交互时的适应性和稳定性成为机械臂与环境交互任务的研究重点之一。本文针对机械臂交互任务,... 现代机械臂交互任务中,由于环境的复杂性和不确定性,精确的物体表面建模常常难以实现。因此,如何在不依赖精确模型的情况下,提高机械臂与环境交互时的适应性和稳定性成为机械臂与环境交互任务的研究重点之一。本文针对机械臂交互任务,旨在实现视觉引导下的精细力控。研究工作首先基于MuJoCo(Multi-Joint Dynamics with Contact)物理引擎搭建了机械臂交互仿真环境,并创新性的融合了基于位置的视觉伺服(Position-Based Visual Servo,PBVS)控制和导纳控制。通过深度强化学习(Deep Reinforcement Learning,DRL)中的近端策略优化(Proximal Policy Optimization,PPO)算法,有效整合了视觉信息和力信息,从而提出了一种结合了视觉感知的导纳控制策略。通过对比实验验证,结合视觉感知的导纳控制相较于视觉伺服控制,力控整体性能提升68.75%;相较于经典的导纳控制,峰值力控制精度提高15%。实验结果表明,结合视觉感知的导纳控制在平面和不规则凹面环境中均表现出色:不仅能精确执行视觉引导下的力控任务,还能在多样化的接触面上保持稳定的交互力并迅速适应环境变化。在精密装配、医疗辅助和服务机械臂等领域,能够提高机械臂在复杂、不确定环境中的适应性和稳定性,从而推动智能机械臂自主操作的进一步发展。 展开更多
关键词 深度强化学习 近端策略优化 导纳控制 视觉伺服控制 mujoco仿真
在线阅读 下载PDF
仿真环境下不规则物体的高斯过程隐式曲面核函数优化
6
作者 顾浩宇 张国庆 李清都 《建模与仿真》 2024年第3期3643-3652,共10页
对于一个物体进行探索时,首要目标就是获取物体的形状,而当针对形状复杂的物体如不规则方块时,隐式曲面往往是最优选择。本文针对MuJoCo仿真平台下的建立的不规则物体,采用RBF(Radial Basis Function)高斯核函数和TPS(Thin Plate Spline... 对于一个物体进行探索时,首要目标就是获取物体的形状,而当针对形状复杂的物体如不规则方块时,隐式曲面往往是最优选择。本文针对MuJoCo仿真平台下的建立的不规则物体,采用RBF(Radial Basis Function)高斯核函数和TPS(Thin Plate Spline covariance)薄板协方差核函数分别建立高斯过程,完成对物体的隐式曲面建模,通过对比,相比于最初的TPS核函数,改用调参后的RBF误差减小了93.07%。通过仿真实验结果表明,对于仿真平台中的不规则物体,高斯过程隐式曲面能够有效通过少量的采集数据完成曲面建模。 展开更多
关键词 高斯过程 隐式曲面 核函数优化 参数调优 MuJuCo仿真
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部