期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
一种基于改进型SAC的蜂甲一体协同作战仿真算法
1
作者 付泽建 魏洁英 +3 位作者 罗浩 魏国强 王杰 张华 《火力与指挥控制》 北大核心 2026年第1期148-155,共8页
基于强化学习的多智能体算法在作战仿真领域具有重要意义,针对传统算法在模拟蜂甲一体作战等高扩展性、高灵活性的复杂场景中的问题,引入集中计算的评论家注意力共享机制和多智能体优势函数,提出了一种基于改进型SAC的蜂甲一体协同作战... 基于强化学习的多智能体算法在作战仿真领域具有重要意义,针对传统算法在模拟蜂甲一体作战等高扩展性、高灵活性的复杂场景中的问题,引入集中计算的评论家注意力共享机制和多智能体优势函数,提出了一种基于改进型SAC的蜂甲一体协同作战仿真算法。结合作战场景与改进后的算法,设计两种蜂甲一体仿真作战环境进行对比研究。结果表明,相较于MADDPG算法和SAC算法,改进型SAC算法进一步提高了算法的回报率和收敛速度。 展开更多
关键词 蜂甲一体 作战仿真 强化学习 注意力机制 优势函数 软演员-评论家算法
在线阅读 下载PDF
基于SC-SAC算法的REHMIS-IES优化调度策略
2
作者 潘雷 丁云飞 +4 位作者 庞毅 王宇璇 陈建伟 高瑞 张立阳 《综合智慧能源》 2026年第1期43-58,共16页
可再生能源-制氢-制甲醇一体站(REHMIS)通过利用可再生能源发电制取绿氢,并进一步将绿氢与二氧化碳合成甲醇,从而实现绿氢对传统化石能源制氢的替代。为了同时满足REHMIS的甲醇负荷需求及其配套建筑的多能源需求,设计了新型综合能源系统... 可再生能源-制氢-制甲醇一体站(REHMIS)通过利用可再生能源发电制取绿氢,并进一步将绿氢与二氧化碳合成甲醇,从而实现绿氢对传统化石能源制氢的替代。为了同时满足REHMIS的甲醇负荷需求及其配套建筑的多能源需求,设计了新型综合能源系统(IES)拓扑结构REHMIS-IES。为获得REHMIS-IES高效运行策略,提出了一种基于严格约束的软演员-评论家(SC-SAC)算法执行框架。将所建数学模型转化为马尔可夫决策过程,同时引入状态约束机制(SCM)以避免储能系统状态出现剧烈波动。在SC-SAC算法的执行阶段,将训练后的Q网络与动作约束转化成混合整数线性规划(MILP)模型,以保证调度决策能够满足各项运行约束。多场景仿真结果表明:所提系统在保障多能需求的同时可有效降低运行成本;与其他深度强化学习算法相比,SC-SAC算法可使系统能量不平衡度降低约16.2%,运行成本至少下降11.7%。 展开更多
关键词 可再生能源-制氢-制甲醇一体化站 绿氢 储能 综合能源系统 深度强化学习 状态约束机制 软演员-评论家算法 混合整数线性规划
在线阅读 下载PDF
基于SAC的桥式起重机智能防摇控制 被引量:1
3
作者 唐伟强 王伟 +1 位作者 马瑞 许天鹏 《中国工程机械学报》 北大核心 2025年第3期438-443,共6页
针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输... 针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输入,驱动力作为动作网络的输出。为了提高训练过程中的稳定性,采用4个价值网络,并在价值网络中引入熵正则项和熵加权系数,用于平衡训练过程中探索和利用之间的关系。价值网络通过软更新的方式得到目标网络,从而减少了训练过程中局部最优和发散的情况。最后通过模型训练,得到用于控制的动作网络。结果表明:所提出的智能防摇控制系统对载荷摆角具有很好的抑制作用,而且对载荷质量变化、绳长参数摄动以及外部干扰具有很好的鲁棒性。与基于末端执行器广义运动方法相比,所提出的方法在起重机系统动态性能和抗干扰方面展现出一定的优势。 展开更多
关键词 桥式起重机 摆角控制 软演员评论家算法 强化学习
在线阅读 下载PDF
基于优先经验回放的生成式SAC算法及其应用
4
作者 张伟 李玉俊 +2 位作者 谢雯雯 许耘嘉 孙庚 《吉林大学学报(理学版)》 北大核心 2025年第6期1713-1722,共10页
针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升... 针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升学习效率;其次,该算法将生成式Transformer架构集成到演员网络中以增强对状态特征的动态捕捉能力,从而显著提升其在复杂优化任务中的性能;最后,在高校后勤人员动态调度优化问题上进行应用实验.实验结果表明,与原始柔性演员-评论家算法及经典深度Q网络算法相比,改进的柔性演员-评论家算法在人力需求动态拟合方面误差更小,从而有效验证了其在实际应用中的优势和实用性. 展开更多
关键词 深度强化学习 柔性演员-评论家算法 优先经验回放 Transformer架构 后勤管理
在线阅读 下载PDF
VRF与SAC融合的无人机蜂群分段智能轨迹规划方法 被引量:2
5
作者 陆璐 王鑫海 孟云鹤 《火箭军工程大学学报》 2025年第3期32-44,共13页
针对无人机蜂群机动过程中需兼顾较大搜索范围和高效到达目标点的问题,提出一种基于多目标评估的优化方法,以改善传统路径规划算法在无人机编队半径受限情况下的性能表现。通过设计多目标评估体系,从路径质量、编队稳定性、能量效率及... 针对无人机蜂群机动过程中需兼顾较大搜索范围和高效到达目标点的问题,提出一种基于多目标评估的优化方法,以改善传统路径规划算法在无人机编队半径受限情况下的性能表现。通过设计多目标评估体系,从路径质量、编队稳定性、能量效率及任务完成度4个方面,将路径规划分为虚拟刚体算法执行段和智能算法执行段。通过对比柔性动作-评价(soft actor-critic, SAC)算法与深度确定性策略梯度(deep deterministic policy gradient, DDPG)2种智能算法的训练效果,最终选取SAC算法来执行分段轨迹优化。仿真结果表明:以四旋翼无人机为例,所提出的融合了虚拟刚体编队(virtual rigid formation, VRF)算法与SAC算法的多段轨迹规划方法,在路径质量方面相比传统A*算法和DDPG算法分别提升了12.2%和5.8%,在能量效率方面分别提升了19.3%和6.5%,表明所提方法能够克服传统轨迹规划算法在大范围搜索下的局限性,实现了动态路径优化与评估性能的提升。 展开更多
关键词 无人机蜂群 虚拟刚体编队 sac算法 分段规划 多目标评估
原文传递
基于EFRE-SAC的无人机自主避障策略
6
作者 刘萌月 时宏伟 《计算机系统应用》 2025年第6期53-61,共9页
在无人机自主避障任务中,传统强化学习算法往往面临状态空间高维、信息稀疏以及探索效率低下等挑战.现有的SAC(soft Actor-Critic)算法虽然具备较强的稳定性和样本效率,但在复杂环境下的表现仍显不足.为此,本文提出了一种基于注意力机... 在无人机自主避障任务中,传统强化学习算法往往面临状态空间高维、信息稀疏以及探索效率低下等挑战.现有的SAC(soft Actor-Critic)算法虽然具备较强的稳定性和样本效率,但在复杂环境下的表现仍显不足.为此,本文提出了一种基于注意力机制SE和随机网络蒸馏RND模块改进的SAC算法,旨在提升无人机在三维地形环境中的自主避障能力.注意力机制SE通过自适应调整特征图的通道权重,增强了模型对重要信息的关注能力,从而提升了特征表达的有效性;而改进的RND网络则通过生成对抗目标,鼓励探索新环境,丰富了样本的多样性和改善了收集效率.基于上述的SE和RND,我们构建了一个增强特征表达和探索的SAC(EFRE-SAC)框架,使得无人机能够更有效地从深度图像中学习环境特征,并在三维环境中快速适应.在AirSim+UE4仿真平台的实验结果表明,所提出的改进方法显著提高了无人机的避障成功率和训练效率,验证了改进的SE和RND模块在强化学习任务中的有效性. 展开更多
关键词 无人机 避障 软行动者-评论家 随机网络蒸馏 注意力机制
在线阅读 下载PDF
基于SAC算法的带落角约束的末制导律
7
作者 康冰冰 姜涛 +2 位作者 赵念 王晓宁 吴思 《战术导弹技术》 北大核心 2025年第2期121-129,共9页
为发挥强化学习算法在制导律设计中的优势,针对带落角约束的末制导问题,构建了基于柔性动作-评价(Soft Actor-Critic,SAC)算法的训练模型。根据期望导弹命中状态和降低收敛难度的原则,设计了奖励函数、状态参数。在训练中设定了不同的... 为发挥强化学习算法在制导律设计中的优势,针对带落角约束的末制导问题,构建了基于柔性动作-评价(Soft Actor-Critic,SAC)算法的训练模型。根据期望导弹命中状态和降低收敛难度的原则,设计了奖励函数、状态参数。在训练中设定了不同的初始条件并尝试不同的模型参数,得到了稳定的SAC制导律,经过仿真验证,SAC制导律能够以设定的落角命中固定目标。仿真结果表明,与最优制导律(Optimal Proportional Law,OPL)相比,SAC制导律需用加速度值更小,末时刻加速度接近零;SAC制导律的终端落角误差更小、收敛更快;SAC制导律的脱靶量更小,制导精度更高。 展开更多
关键词 sac算法 强化学习 落角约束 末制导律 最优制导律 偏置导引律 人工神经网络
原文传递
基于深度强化学习的原油短期调度优化
8
作者 侯艳 杨佳佳 +1 位作者 滕少华 朱清华 《工业工程》 2026年第1期155-163,共9页
针对原油短期调度中原油转运速率优化不足的问题,采用分解的思路,将管道转运速率从离散值转换为连续实数值范围,同时提出一种新的决策生成方法,避免对管道转运速率这一连续实数值域的搜索,从而防止算法性能下降。在此基础上,通过合理设... 针对原油短期调度中原油转运速率优化不足的问题,采用分解的思路,将管道转运速率从离散值转换为连续实数值范围,同时提出一种新的决策生成方法,避免对管道转运速率这一连续实数值域的搜索,从而防止算法性能下降。在此基础上,通过合理设计状态特征、动作空间和奖励函数,提出一种基于SAC(soft actor-critic)算法的原油调度方法。该方法综合考虑了原油短期详细调度中所产生的管道混合成本、罐底混合成本、蒸馏塔的换罐成本、供油罐使用成本以及能耗成本共5个炼油调度目标。最后通过实例分析表明,利用SAC算法所得的调度与已有文献结果对比,单个目标优化效果提升了1.2%~77.8%不等。 展开更多
关键词 原油短期调度 深度强化学习 组合优化 软演员-评论家(sac)
在线阅读 下载PDF
基于强化学习算法的闸控河网工程水位控制方法
9
作者 陈珠亮 孔令仲 +4 位作者 肖洋 张涛涛 冯仲恺 王晓颖 刘子涵 《南水北调与水利科技(中英文)》 北大核心 2026年第1期31-41,共11页
为保障河道网络工程景观功能发挥与供水安全、实现水位稳定控制,传统水位控制方法中基于经验的手动调节和比例-积分(proportional-integral,PI)自动控制算法存在明显局限性,易导致水位调节精度不足、动态过程中振荡现象明显等问题,难以... 为保障河道网络工程景观功能发挥与供水安全、实现水位稳定控制,传统水位控制方法中基于经验的手动调节和比例-积分(proportional-integral,PI)自动控制算法存在明显局限性,易导致水位调节精度不足、动态过程中振荡现象明显等问题,难以满足工程对水位稳定的核心需求。通过构建河道水闸群强化学习训练框架,采用软演员评论家(soft actor-critic,SAC)算法训练水闸控制智能体,以实现水闸群实时高效联合调控。结果表明:经充分训练收敛后,该智能体水力控制性能优异,随机流量扰动引发水位波动时,可快速将水位精准调控至目标值(偏差严格控制在±0.2 m内),调控误差范围较传统PI算法缩小48.8%。相较于PI算法,其核心优势为:水位稳定速度显著提升,动态调节收敛速度加快40%;水闸操作次数大幅减少,闸门动作频次降低32%;环境适应性更强,可在不同水流条件下稳定维持期望水位(PI算法对部分渠池如闸4的水位调控偏差达0.332 m,超出目标范围)。研究证实,基于SAC的强化学习方法为河道网络水位稳定调控提供了创新解决方案,能有效应对随机流量扰动,提升水位调节稳定性与精准度,为河网智能化管理控制提供重要技术支撑,在工程中应用前景广阔。 展开更多
关键词 河网 水位控制 强化学习 sac算法 闸门调控
在线阅读 下载PDF
基于SAC模型的改进遗传算法求解TSP问题 被引量:17
10
作者 陈斌 刘卫国 《计算机科学与探索》 CSCD 北大核心 2021年第9期1680-1693,共14页
遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值。针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解。改进算法将种群作为与智能体(agent)交互的环境,引入贪心算... 遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值。针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解。改进算法将种群作为与智能体(agent)交互的环境,引入贪心算法对环境进行初始化,使用改进后的交叉与变异运算作为agent的动作空间,将种群的进化过程视为一个整体,以最大化种群进化过程的累计奖励为目标,结合当前种群个体适应度情况,采用基于SAC的策略梯度算法,生成控制种群进化的动作策略,合理运用遗传算法的全局和局部搜索能力,优化种群的进化过程,平衡种群收敛速度与遗传操作次数之间的关系。对TSPLIB实例的实验结果表明,改进的遗传算法可有效地避免陷入局部最优解,在提高种群收敛速度的同时,减少寻优过程的迭代次数。 展开更多
关键词 强化学习 遗传算法(GA) 旅行商问题(TSP) 深度策略梯度 soft actor-critic(sac)模型
在线阅读 下载PDF
基于SAC算法的无人机自主空战决策算法 被引量:12
11
作者 李波 白双霞 +2 位作者 孟波波 梁诗阳 李曾琳 《指挥控制与仿真》 2022年第5期24-30,共7页
针对无人机在空战过程中的自主决策问题,以无人机1v1攻防为背景提出了无人机近距空战模型。采用Markov决策过程建立了无人机自主机动模型,提出基于Soft Actor Critic (SAC)算法的无人机自主空战决策算法,以无人机空战态势数据作为输入,... 针对无人机在空战过程中的自主决策问题,以无人机1v1攻防为背景提出了无人机近距空战模型。采用Markov决策过程建立了无人机自主机动模型,提出基于Soft Actor Critic (SAC)算法的无人机自主空战决策算法,以无人机空战态势数据作为输入,输出无人机机动指令,使得无人机通过完成指定指令,率先锁定敌方无人机并抢先攻击。最后,设计仿真实验,通过对比双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient Algorithm, TD3)算法,验证了基于SAC算法的无人机空战决策算法在增强策略探索的情况下,学习速度大幅度提高,使无人机在任意初始态势下主动占据优势,并成功打击目标,有效提高了无人机在空战决策过程中的自主性。 展开更多
关键词 无人机 空战决策算法 soft actor critic MARKOV决策过程
在线阅读 下载PDF
基于SAC深度强化学习算法的充电枪寻孔策略研究 被引量:1
12
作者 徐建明 陈阜 董建伟 《高技术通讯》 CAS 2023年第1期63-71,共9页
针对机器人自动化充电任务中的寻孔操作,研究基于柔性行动者评价者(SAC)深度强化学习算法的机器人寻孔策略。设计一个基于actor-critic框架、以枪头位姿、接触力信息为输入、末端枪头坐标系XY平面动作为输出的策略控制器。该策略控制器... 针对机器人自动化充电任务中的寻孔操作,研究基于柔性行动者评价者(SAC)深度强化学习算法的机器人寻孔策略。设计一个基于actor-critic框架、以枪头位姿、接触力信息为输入、末端枪头坐标系XY平面动作为输出的策略控制器。该策略控制器共有5个神经网络,分别为actor网络、2个目标critic网络、2个critic网络;actor网络负责输出寻孔动作,目标critic网络负责输出下一寻孔状态下寻孔动作的价值评估,critic网络负责输出当前寻孔状态下寻孔动作的价值评估。基于double-Q trick方法使用2个目标critic网络输出价值中的较小值和2个critic网络输出价值中的较小值来分别更新critic网络和actor网络,以训练策略控制器。采用力位混合控制结构,将actor网络输出的XY平面位移动作转换成期望平动速度,与Z轴力跟踪导纳控制输出的期望速度合成机器人期望速度引导充电枪寻孔。仿真和实验验证了所提方法的有效性。 展开更多
关键词 机器人寻孔 深度强化学习 柔性行动者评价者(sac)算法 神经网络 力控制
在线阅读 下载PDF
基于软演员-评论家的移动边缘计算任务卸载策略
13
作者 郭阳 江晓明 《通信技术》 2026年第1期70-77,共8页
无人机凭借部署灵活、覆盖范围广以及无线通信可靠等特点,已在移动边缘计算中得到广泛应用。考虑到无人机在能耗和计算能力方面的局限性,构建了任务卸载与飞行轨迹的联合优化问题,并以任务处理时延与能耗的加权和最小化为优化目标,提出... 无人机凭借部署灵活、覆盖范围广以及无线通信可靠等特点,已在移动边缘计算中得到广泛应用。考虑到无人机在能耗和计算能力方面的局限性,构建了任务卸载与飞行轨迹的联合优化问题,并以任务处理时延与能耗的加权和最小化为优化目标,提出了一种改进型软演员-评论家算法。该算法通过引入长短期记忆网络增强模型对时序特征的建模能力,同时结合优先经验回放机制提升训练收敛效率。仿真结果表明,所提出的算法在降低系统开销方面表现出显著优势。 展开更多
关键词 移动边缘计算 任务卸载 无人机 软演员-评论家算法
在线阅读 下载PDF
动态博弈下变后掠翼飞行器智能决策规避方法
14
作者 张景辉 张秀云 +1 位作者 刘达 宗群 《哈尔滨工业大学学报》 北大核心 2026年第1期35-46,共12页
为解决变后掠翼飞行器在动态拦截环境下的自主规避问题,本文提出一种智能变形决策算法,通过实时调节后掠角,将动态变形作为规避的核心手段。首先,针对后掠角可变的变体飞行器模型,基于最小二乘法拟合气动系数,并分析了气动参数对飞行器... 为解决变后掠翼飞行器在动态拦截环境下的自主规避问题,本文提出一种智能变形决策算法,通过实时调节后掠角,将动态变形作为规避的核心手段。首先,针对后掠角可变的变体飞行器模型,基于最小二乘法拟合气动系数,并分析了气动参数对飞行器气动性能的影响,从而为智能变形决策提供依据。其次,考虑变后掠翼飞行器飞行速度、飞行区域边界等实际物理约束条件,构建面向突防任务的变体飞行器-双拦截器动态博弈场景,结合飞行器状态、拦截器状态及目标信息的状态空间,设计以规避效果、气动性能为优化目标的决策模型。仿真实验验证结果表明,本文算法能够在完成自主变形决策规避的同时,兼顾机动性和敏捷性,克服了传统变形策略依赖离线优化计算和根据预设任务切换,难以自适应应对高动态博弈环境的局限性。 展开更多
关键词 变体飞行器 强化学习 自主变形决策 柔性动作-评价 规避
在线阅读 下载PDF
基于SAC强化学习的车联网频谱资源动态分配 被引量:11
15
作者 黄煜梵 彭诺蘅 +3 位作者 林艳 范建存 张一晋 余妍秋 《计算机工程》 CAS CSCD 北大核心 2021年第9期34-43,共10页
针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多... 针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多智能体马尔科夫决策过程模型。利用SAC强化学习算法设计神经网络,通过最大化熵与累计奖励和以训练智能体,使得V2V链路经过不断学习优化频谱资源分配。仿真结果表明,与基于深度Q网络和深度确定性策略梯度的频谱资源分配方案相比,该方案可以更高效地完成车联网链路之间的频谱共享任务,且信道传输速率和载荷成功交付率更高。 展开更多
关键词 车联网 资源分配 多智能体强化学习 柔性致动-评价算法 频谱分配
在线阅读 下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:3
16
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 sac算法 路径规划 奖励函数
在线阅读 下载PDF
基于深度强化学习的高速公路合流区可变限速控制
17
作者 黄德栋 侯亚利 +3 位作者 史鸿儒 于欣海 陈凌志 丁恒 《现代交通与冶金材料》 2026年第1期42-49,共8页
高速公路多条车道之间交通流存在显著的差异性,尤其在合流区域。为了提升高速公路合流区交通效率,基于深度强化学习理论,本文提出一种软行动者-评论家(Soft Actor-Critc, SAC)与差分可变限速(Differential Variable Speed Limit,DVSL)... 高速公路多条车道之间交通流存在显著的差异性,尤其在合流区域。为了提升高速公路合流区交通效率,基于深度强化学习理论,本文提出一种软行动者-评论家(Soft Actor-Critc, SAC)与差分可变限速(Differential Variable Speed Limit,DVSL)联合控制方法。该方法使用深度强化学习(Deep Reinforcement Learning,DRL)模型用于DVSL,将SAC算法与VSL结合,实现高速公路车道间施加动态且不同的限速措施。所提出的SAC-DVSL模型使用考虑安全和效率的混合奖励函数来训练DVSL智能体,并对训练过程进行了分析。通过SUMO仿真平台的实验测试表明,该控制策略能够提高高速公路合流区的安全性和通行效率。 展开更多
关键词 高速公路 合流区 可变限速控制 强化学习 软行动者-评论家(sac)
在线阅读 下载PDF
基于改进SAC算法的移动机器人路径规划 被引量:14
18
作者 李永迪 李彩虹 +1 位作者 张耀玉 张国胜 《计算机应用》 CSCD 北大核心 2023年第2期654-660,共7页
为解决SAC算法在移动机器人局部路径规划中训练时间长、收敛速度慢等问题,通过引入优先级经验回放(PER)技术,提出了PER-SAC算法。首先从等概率从经验池中随机抽取样本变为按优先级抽取,使网络优先训练误差较大的样本,从而提高了机器人... 为解决SAC算法在移动机器人局部路径规划中训练时间长、收敛速度慢等问题,通过引入优先级经验回放(PER)技术,提出了PER-SAC算法。首先从等概率从经验池中随机抽取样本变为按优先级抽取,使网络优先训练误差较大的样本,从而提高了机器人训练过程的收敛速度和稳定性;其次优化时序差分(TD)误差的计算,以降低训练偏差;然后利用迁移学习,使机器人从简单环境到复杂环境逐步训练,从而提高训练速度;另外,设计了改进的奖励函数,增加机器人的内在奖励,从而解决了环境奖励稀疏的问题;最后在ROS平台上进行仿真测试。仿真结果表明,在不同的障碍物环境中,PER-SAC算法均比原始算法收敛速度更快、规划的路径长度更短,并且PER-SAC算法能够减少训练时间,在路径规划性能上明显优于原始算法。 展开更多
关键词 移动机器人 局部路径规划 sac算法 优先级经验回放 ROS平台
在线阅读 下载PDF
融合注意力机制与SAC算法的虚拟电厂多能流低碳调度 被引量:8
19
作者 俞晓荣 徐青山 +1 位作者 杜璞良 王冬 《电力工程技术》 北大核心 2024年第5期233-246,共14页
虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难... 虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。 展开更多
关键词 虚拟电厂(VPP) 多能流 改进碳交易机制 深度强化学习 注意力机制(AM) 柔性动作评价(sac)算法
在线阅读 下载PDF
基于SAC的炼厂原油储运调度方法 被引量:2
20
作者 马楠 李洪奇 +1 位作者 刘华林 杨磊 《化工进展》 EI CAS CSCD 北大核心 2024年第3期1167-1177,共11页
目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法... 目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法。该算法首先将炼厂原油资源调度问题转换为马尔可夫决策过程,其次提出了一种基于软演员-评论家(soft actor-critic,SAC)的深度强化学习算法来同时确定调度过程中的传输目标等离散决策以及传输速度等连续决策。结果表明,算法学习到的策略可行性较好,与基线算法相比,油轮在港时间、调度方案事件数量、加工计划执行率等重要指标方面均得到了较好的效果,在求解时间方面大幅提升至毫秒级,并有效控制随机事件对整体决策的影响范围。该算法可为沿海炼厂原油储运调度快速决策提供新的思路。 展开更多
关键词 炼厂原油储运 资源调度 深度强化学习 软演员-评论家
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部