期刊文献+
共找到781,166篇文章
< 1 2 250 >
每页显示 20 50 100
面向长序列自主作业的非对称Actor-Critic强化学习方法
1
作者 任君凯 瞿宇珂 +3 位作者 罗嘉威 倪子淇 卢惠民 叶益聪 《国防科技大学学报》 北大核心 2025年第4期111-122,共12页
长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑... 长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑战。通过整合多个Critic网络协同训练单一Actor网络,并引入生成对抗模仿学习为Critic网络生成内在奖励,从而降低长序列任务学习难度。在此基础上,设计两阶段学习方法,利用模仿学习为强化学习提供高质量预训练行为策略,在进一步提高学习效率的同时,增强策略的泛化性能。面向化学实验室长序列自主作业的仿真结果表明,该方法显著提高了机器人长序列操作技能的学习效率与行为策略的鲁棒性。 展开更多
关键词 自主作业机器人 强化学习 actor-critic 长序列操作
在线阅读 下载PDF
基于Actor-Critic算法的新能源汽车实时充电优化调度研究
2
作者 赖城贤 杨婷 苏庆列 《黑龙江工业学院学报(综合版)》 2025年第5期128-133,共6页
随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通... 随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通过并行计算提高算法效率。研究结果显示,该算法在精准率上迅速上升,在约200次迭代后达到0.9,显著优于其他算法。在运行时间方面,该算法始终保持较低水平,显示出高运行效率。在充电负载管理上,该算法在50小时内达到约45kW的负载,充电效率接近90%,且充电成本在所有车辆数量下均为最低。该算法在新能源汽车充电调度中表现出色,不仅提高了充电效率,降低了充电成本,而且具有较快的收敛速度和较低的运行时间,为新能源汽车充电调度提供了一种有效的解决方案。 展开更多
关键词 actor-critic算法 新能源汽车 实时充电 优化调度 状态空间
在线阅读 下载PDF
Mixture of Experts Framework Based on Soft Actor-Critic Algorithm for Highway Decision-Making of Connected and Automated Vehicles
3
作者 Fuxing Yao Chao Sun +2 位作者 Bing Lu Bo Wang Haiyang Yu 《Chinese Journal of Mechanical Engineering》 2025年第1期382-395,共14页
Decision-making of connected and automated vehicles(CAV)includes a sequence of driving maneuvers that improve safety and efficiency,characterized by complex scenarios,strong uncertainty,and high real-time requirements... Decision-making of connected and automated vehicles(CAV)includes a sequence of driving maneuvers that improve safety and efficiency,characterized by complex scenarios,strong uncertainty,and high real-time requirements.Deep reinforcement learning(DRL)exhibits excellent capability of real-time decision-making and adaptability to complex scenarios,and generalization abilities.However,it is arduous to guarantee complete driving safety and efficiency under the constraints of training samples and costs.This paper proposes a Mixture of Expert method(MoE)based on Soft Actor-Critic(SAC),where the upper-level discriminator dynamically decides whether to activate the lower-level DRL expert or the heuristic expert based on the features of the input state.To further enhance the performance of the DRL expert,a buffer zone is introduced in the reward function,preemptively applying penalties before insecure situations occur.In order to minimize collision and off-road rates,the Intelligent Driver Model(IDM)and Minimizing Overall Braking Induced by Lane changes(MOBIL)strategy are designed by heuristic experts.Finally,tested in typical simulation scenarios,MOE shows a 13.75%improvement in driving efficiency compared with the traditional DRL method with continuous action space.It ensures high safety with zero collision and zero off-road rates while maintaining high adaptability. 展开更多
关键词 DECISION-MAKING Soft actor-critic Connected and automated vehicles
在线阅读 下载PDF
A New Inversion-free Iterative Method for Solving the Nonlinear Matrix Equation and Its Application in Optimal Control
4
作者 GAO Xiangyu XIE Weiwei ZHANG Lina 《应用数学》 北大核心 2026年第1期143-150,共8页
In this paper,we consider the maximal positive definite solution of the nonlinear matrix equation.By using the idea of Algorithm 2.1 in ZHANG(2013),a new inversion-free method with a stepsize parameter is proposed to ... In this paper,we consider the maximal positive definite solution of the nonlinear matrix equation.By using the idea of Algorithm 2.1 in ZHANG(2013),a new inversion-free method with a stepsize parameter is proposed to obtain the maximal positive definite solution of nonlinear matrix equation X+A^(*)X|^(-α)A=Q with the case 0<α≤1.Based on this method,a new iterative algorithm is developed,and its convergence proof is given.Finally,two numerical examples are provided to show the effectiveness of the proposed method. 展开更多
关键词 Nonlinear matrix equation Maximal positive definite solution Inversion-free iterative method Optimal control
在线阅读 下载PDF
Centralized Circumcentered-Reection Method for Solving the Convex Feasibility Problem in Sparse Signal Recovery
5
作者 Chunmei LI Bangjun CHEN Xuefeng DUAN 《Journal of Mathematical Research with Applications》 2026年第1期119-133,共15页
Convex feasibility problems are widely used in image reconstruction,sparse signal recovery,and other areas.This paper is devoted to considering a class of convex feasibility problem arising from sparse signal recovery... Convex feasibility problems are widely used in image reconstruction,sparse signal recovery,and other areas.This paper is devoted to considering a class of convex feasibility problem arising from sparse signal recovery.We rst derive the projection formulas for a vector onto the feasible sets.The centralized circumcentered-reection method is designed to solve the convex feasibility problem.Some numerical experiments demonstrate the feasibility and e ectiveness of the proposed algorithm,showing superior performance compared to conventional alternating projection methods. 展开更多
关键词 convex feasibility problem centralized circumcentered-re ection method sparse signal recovery compressed sensing
原文传递
Numerical Simulation of the Welding Deformation of Marine Thin Plates Based on a Temperature Gradient-thermal Strain Method
6
作者 Lin Wang Yugang Miao +3 位作者 Zhenjian Zhuo Chunxiang Lin Benshun Zhang Duanfeng Han 《哈尔滨工程大学学报(英文版)》 2026年第1期122-135,共14页
Marine thin plates are susceptible to welding deformation owing to their low structural stiffness.Therefore,the efficient and accurate prediction of welding deformation is essential for improving welding quality.The t... Marine thin plates are susceptible to welding deformation owing to their low structural stiffness.Therefore,the efficient and accurate prediction of welding deformation is essential for improving welding quality.The traditional thermal elastic-plastic finite element method(TEP-FEM)can accurately predict welding deformation.However,its efficiency is low because of the complex nonlinear transient computation,making it difficult to meet the needs of rapid engineering evaluation.To address this challenge,this study proposes an efficient prediction method for welding deformation in marine thin plate butt welds.This method is based on the coupled temperature gradient-thermal strain method(TG-TSM)that integrates inherent strain theory with a shell element finite element model.The proposed method first extracts the distribution pattern and characteristic value of welding-induced inherent strain through TEP-FEM analysis.This strain is then converted into the equivalent thermal load applied to the shell element model for rapid computation.The proposed method-particularly,the gradual temperature gradient-thermal strain method(GTG-TSM)-achieved improved computational efficiency and consistent precision.Furthermore,the proposed method required much less computation time than the traditional TEP-FEM.Thus,this study lays the foundation for future prediction of welding deformation in more complex marine thin plates. 展开更多
关键词 Marine thin plate Welding deformation Numerical simulation Temperature gradient-thermal strain method Shell element
在线阅读 下载PDF
基于对称扰动采样的Actor-critic算法 被引量:2
7
作者 张春元 朱清新 《控制与决策》 EI CSCD 北大核心 2015年第12期2161-2167,共7页
针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环... 针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环境并行交互;然后,基于两者的最大时域差分(TD)误差选取Agent的行为动作,并对值函数参数进行更新;最后,基于两者的平均常规梯度或增量自然梯度对策略参数进行更新.理论分析和仿真结果表明,所提框架具有较好的收敛性和计算效率. 展开更多
关键词 actor-critic方法 对称扰动采样 连续空间 强化学习
原文传递
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:11
8
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动actor-critic 框架
在线阅读 下载PDF
基于改进Actor-Critic算法的多传感器交叉提示技术 被引量:2
9
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 actor-critic算法 强化学习 目标探测 传感器资源调度
在线阅读 下载PDF
基于Tile Coding编码和模型学习的Actor-Critic算法 被引量:3
10
作者 金玉净 朱文文 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2014年第6期239-242,249,共5页
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状... Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。 展开更多
关键词 强化学习 TILE CODING actor-critic 模型学习 函数逼近
在线阅读 下载PDF
基于批量递归最小二乘的自然Actor-Critic算法 被引量:4
11
作者 王国芳 方舟 李平 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第7期1335-1342,共8页
为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法... 为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法的引入使得智能体能根据自身运算能力自由调整各批次运算的数据量,即每次策略估计时使用的数据量,在全乐观和部分乐观之间进行权衡,大大提高了NAC-LSTD算法的灵活性.山地车仿真实验表明,与NAC-LSTD算法相比,NAC-BRLS算法在保证一定收敛性能的前提下,能够明显降低智能体的单步平均运算负担. 展开更多
关键词 自然梯度 actor-critic 批次更新 递归最小二乘
在线阅读 下载PDF
基于Actor-Critic算法的多无人机协同空战目标重分配方法 被引量:4
12
作者 陈宇轩 王国强 +1 位作者 罗贺 马滢滢 《无线电工程》 北大核心 2022年第7期1266-1275,共10页
目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分... 目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分配框架,构建了基于目标重分配的马尔科夫决策过程、Actor网络结构和Critic网络结构。针对强化学习算法中存在的奖励稀疏问题,设计了局部回报和全局汇报相结合的双层回报函数。在基于VR-Forces仿真平台中验证了该方法的有效性。实验结果表明,提出的多无人机协同空战目标重分配方法能够有效地提升空战对抗的胜率。 展开更多
关键词 无人机 空战 目标重分配 强化学习 actor-critic算法
在线阅读 下载PDF
Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用 被引量:29
13
作者 李琛 黄炎焱 +1 位作者 张永亮 陈天德 《系统工程与电子技术》 EI CSCD 北大核心 2021年第3期755-762,共8页
将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针... 将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针对上述方法的不足,提出了一种基于强化学习并结合规则的多智能体决策方法,以提升兵棋推演的智能水平。侧重采用强化学习对多算子的行动决策进行决策分析,并结合产生式规则对战术决策进行规划。构建基于Actor-Critic框架的多算子分布执行集中训练的行动决策模型,对比每个算子互不交流的封闭式行动决策学习方法,提出的分布执行集中训练方法更具优势且有效。 展开更多
关键词 智能战术 兵棋推演 多智能体强化学习 actor-critic框架 分布执行集中训练
在线阅读 下载PDF
滑模控制器参数整定的Actor-Critic学习算法 被引量:5
14
作者 宋仕元 胡剑波 +1 位作者 王应洋 韩霖晓 《电光与控制》 CSCD 北大核心 2020年第9期24-27,49,共5页
针对滑模变结构控制律设计过程中出现的控制参数整定问题,提出一种基于强化学习的滑模变结构控制参数寻优方法。首先,根据系统设计了相应的滑模控制律,并给出了参数选择的范围,设计了基于Actor-Critic结构的参数在线整定器。然后,选择TD... 针对滑模变结构控制律设计过程中出现的控制参数整定问题,提出一种基于强化学习的滑模变结构控制参数寻优方法。首先,根据系统设计了相应的滑模控制律,并给出了参数选择的范围,设计了基于Actor-Critic结构的参数在线整定器。然后,选择TD-Error方法进行求解计算,并用梯度下降法计算出神经网络权值的更新取值。最后,以固定翼飞行器纵向通道系统为例进行了仿真和实验验证,实验结果说明所提出控制方法减小了控制参数整定的盲目性,有效提升了系统的动态性能。 展开更多
关键词 滑模变结构控制 actor-critic 强化学习 参数整定
在线阅读 下载PDF
基于核方法的连续动作Actor-Critic学习 被引量:8
15
作者 陈兴国 高阳 +1 位作者 范顺国 俞亚君 《模式识别与人工智能》 EI CSCD 北大核心 2014年第2期103-110,共8页
强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Acto... 强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性. 展开更多
关键词 强化学习 连续动作空间 函数估计 核方法
在线阅读 下载PDF
基于actor-critic算法的分数阶多自主体系统最优主-从一致性控制 被引量:5
16
作者 马丽新 刘晨 刘磊 《应用数学和力学》 CSCD 北大核心 2022年第1期104-114,共11页
研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数... 研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数值仿真实验证明了该算法的可行性和有效性. 展开更多
关键词 分数阶多自主体系统 actor-critic算法 最优主-从一致性 事件触发 间歇
在线阅读 下载PDF
Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法 被引量:26
17
作者 陈亮 梁宸 +1 位作者 张景异 刘韵婷 《控制与决策》 EI CSCD 北大核心 2021年第1期75-82,共8页
现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式... 现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式有效且可扩展,提出一种混合DDPG(Mi-DDPG)算法.首先,在Actor网络加入双向循环神经网络(BRNN)作为同兵种agent信息交流层;然后,在Critic网络加入其他兵种agent信息来学习多agent协同策略.另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理.实验中,在不同的场景下用Mi-DDPG算法与其他算法进行对比,Mi-DDPG在收敛速度和任务完成度方面有明显提高,具有在现实世界应用的潜在价值. 展开更多
关键词 强化学习 深度学习 多智能体 RNN DDPG actor-critic
原文传递
基于Actor-Critic学习的数控机床加工过程控制方法 被引量:2
18
作者 黄苏 《辽东学院学报(自然科学版)》 CAS 2022年第4期273-278,共6页
为了精准控制数控机床的加工过程,提升数控机床工作效率,研究基于Actor-Critic学习的数控机床加工过程控制方法是很好的解决办法。通过结合模糊推理系统与径向基函数神经网络,设计Actor-Critic学习网络结构;通过增加网络节点完成网络结... 为了精准控制数控机床的加工过程,提升数控机床工作效率,研究基于Actor-Critic学习的数控机床加工过程控制方法是很好的解决办法。通过结合模糊推理系统与径向基函数神经网络,设计Actor-Critic学习网络结构;通过增加网络节点完成网络结构学习,利用梯度下降法完成网络可调参数学习,得到模糊Actor-Critic学习网络;通过数控机床加工过程切削力设定值和实际输出切削力测量值之差,获取PID控制器误差信号;利用状态转换器转换误差信号,获取加工过程状态向量,并输入到模糊Actor-Critic学习网络内,输出PID控制器最优参数,完成数控机床加工过程控制。实验证明:在加工不同材料时,该方法均可有效控制加工过程,且最大偏差较小;在不同切削深度时,该方法的跟踪误差平方与绝对误差积分均较低,具备较优的控制精度与平稳度,从而可有效提升数控机床工作效率。 展开更多
关键词 actor-critic学习 数控机床 加工过程控制 模糊推理 梯度下降法 控制器
在线阅读 下载PDF
广义行为正则化离线Actor-Critic 被引量:3
19
作者 程玉虎 黄龙阳 +3 位作者 侯棣元 张佳志 陈俊龙 王雪松 《计算机学报》 EI CAS CSCD 北大核心 2023年第4期843-855,共13页
行为正则化Actor-Critic(BRAC)是一种离线强化学习算法,通过将当前策略与行为策略之间的Kullback-Leibler(KL)散度作为策略目标函数的正则化项来缓解分布偏移问题.但是,由于KL散度是一种无界的分布差异度量,在策略差异过大时,策略目标... 行为正则化Actor-Critic(BRAC)是一种离线强化学习算法,通过将当前策略与行为策略之间的Kullback-Leibler(KL)散度作为策略目标函数的正则化项来缓解分布偏移问题.但是,由于KL散度是一种无界的分布差异度量,在策略差异过大时,策略目标函数中的累积期望回报项将仅对策略改进发挥有限的作用,从而导致最终学到的策略性能较差.针对该问题,将当前策略与行为策略之间的斜对称Jensen-Shannon(JS)散度作为策略目标函数的正则化项,提出了一种广义行为正则化离线Actor-Critic(GOACBR)算法.理论分析表明:由于斜对称JS散度有界,将其作为正则化项有助于降低策略性能差异.进一步,针对行为策略未知导致难以直接计算当前策略和行为策略间斜对称JS散度的问题,设计了一个辅助网络来对其进行间接估计.最后,给出了GOACBR的收敛性理论证明.在D4RL基准数据集上的评估结果表明:相较于BRAC,GOACBR在所有测试任务上获得的平均累积回报总和提升了289.8%.相关代码公布在https://github.com/houge1996/GOAC. 展开更多
关键词 离线actor-critic 行为正则化 斜对称JS散度 分布偏移
在线阅读 下载PDF
Path Planning and Tracking Control for Parking via Soft Actor-Critic Under Non-Ideal Scenarios 被引量:3
20
作者 Xiaolin Tang Yuyou Yang +3 位作者 Teng Liu Xianke Lin Kai Yang Shen Li 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第1期181-195,共15页
Parking in a small parking lot within limited space poses a difficult task. It often leads to deviations between the final parking posture and the target posture. These deviations can lead to partial occupancy of adja... Parking in a small parking lot within limited space poses a difficult task. It often leads to deviations between the final parking posture and the target posture. These deviations can lead to partial occupancy of adjacent parking lots, which poses a safety threat to vehicles parked in these parking lots. However, previous studies have not addressed this issue. In this paper, we aim to evaluate the impact of parking deviation of existing vehicles next to the target parking lot(PDEVNTPL) on the automatic ego vehicle(AEV) parking, in terms of safety, comfort, accuracy, and efficiency of parking. A segmented parking training framework(SPTF) based on soft actor-critic(SAC) is proposed to improve parking performance. In the proposed method, the SAC algorithm incorporates strategy entropy into the objective function, to enable the AEV to learn parking strategies based on a more comprehensive understanding of the environment. Additionally, the SPTF simplifies complex parking tasks to maintain the high performance of deep reinforcement learning(DRL). The experimental results reveal that the PDEVNTPL has a detrimental influence on the AEV parking in terms of safety, accuracy, and comfort, leading to reductions of more than 27%, 54%, and 26%respectively. However, the SAC-based SPTF effectively mitigates this impact, resulting in a considerable increase in the parking success rate from 71% to 93%. Furthermore, the heading angle deviation is significantly reduced from 2.25 degrees to 0.43degrees. 展开更多
关键词 Automatic parking control strategy parking deviation(APS) soft actor-critic(SAC)
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部