期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
基于SAC的桥式起重机智能防摇控制
1
作者 唐伟强 王伟 +1 位作者 马瑞 许天鹏 《中国工程机械学报》 北大核心 2025年第3期438-443,共6页
针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输... 针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输入,驱动力作为动作网络的输出。为了提高训练过程中的稳定性,采用4个价值网络,并在价值网络中引入熵正则项和熵加权系数,用于平衡训练过程中探索和利用之间的关系。价值网络通过软更新的方式得到目标网络,从而减少了训练过程中局部最优和发散的情况。最后通过模型训练,得到用于控制的动作网络。结果表明:所提出的智能防摇控制系统对载荷摆角具有很好的抑制作用,而且对载荷质量变化、绳长参数摄动以及外部干扰具有很好的鲁棒性。与基于末端执行器广义运动方法相比,所提出的方法在起重机系统动态性能和抗干扰方面展现出一定的优势。 展开更多
关键词 桥式起重机 摆角控制 软演员评论家算法 强化学习
在线阅读 下载PDF
基于EFRE-SAC的无人机自主避障策略
2
作者 刘萌月 时宏伟 《计算机系统应用》 2025年第6期53-61,共9页
在无人机自主避障任务中,传统强化学习算法往往面临状态空间高维、信息稀疏以及探索效率低下等挑战.现有的SAC(soft Actor-Critic)算法虽然具备较强的稳定性和样本效率,但在复杂环境下的表现仍显不足.为此,本文提出了一种基于注意力机... 在无人机自主避障任务中,传统强化学习算法往往面临状态空间高维、信息稀疏以及探索效率低下等挑战.现有的SAC(soft Actor-Critic)算法虽然具备较强的稳定性和样本效率,但在复杂环境下的表现仍显不足.为此,本文提出了一种基于注意力机制SE和随机网络蒸馏RND模块改进的SAC算法,旨在提升无人机在三维地形环境中的自主避障能力.注意力机制SE通过自适应调整特征图的通道权重,增强了模型对重要信息的关注能力,从而提升了特征表达的有效性;而改进的RND网络则通过生成对抗目标,鼓励探索新环境,丰富了样本的多样性和改善了收集效率.基于上述的SE和RND,我们构建了一个增强特征表达和探索的SAC(EFRE-SAC)框架,使得无人机能够更有效地从深度图像中学习环境特征,并在三维环境中快速适应.在AirSim+UE4仿真平台的实验结果表明,所提出的改进方法显著提高了无人机的避障成功率和训练效率,验证了改进的SE和RND模块在强化学习任务中的有效性. 展开更多
关键词 无人机 避障 软行动者-评论家 随机网络蒸馏 注意力机制
在线阅读 下载PDF
VRF与SAC融合的无人机蜂群分段智能轨迹规划方法
3
作者 陆璐 王鑫海 孟云鹤 《火箭军工程大学学报》 2025年第3期32-44,共13页
针对无人机蜂群机动过程中需兼顾较大搜索范围和高效到达目标点的问题,提出一种基于多目标评估的优化方法,以改善传统路径规划算法在无人机编队半径受限情况下的性能表现。通过设计多目标评估体系,从路径质量、编队稳定性、能量效率及... 针对无人机蜂群机动过程中需兼顾较大搜索范围和高效到达目标点的问题,提出一种基于多目标评估的优化方法,以改善传统路径规划算法在无人机编队半径受限情况下的性能表现。通过设计多目标评估体系,从路径质量、编队稳定性、能量效率及任务完成度4个方面,将路径规划分为虚拟刚体算法执行段和智能算法执行段。通过对比柔性动作-评价(soft actor-critic, SAC)算法与深度确定性策略梯度(deep deterministic policy gradient, DDPG)2种智能算法的训练效果,最终选取SAC算法来执行分段轨迹优化。仿真结果表明:以四旋翼无人机为例,所提出的融合了虚拟刚体编队(virtual rigid formation, VRF)算法与SAC算法的多段轨迹规划方法,在路径质量方面相比传统A*算法和DDPG算法分别提升了12.2%和5.8%,在能量效率方面分别提升了19.3%和6.5%,表明所提方法能够克服传统轨迹规划算法在大范围搜索下的局限性,实现了动态路径优化与评估性能的提升。 展开更多
关键词 无人机蜂群 虚拟刚体编队 sac算法 分段规划 多目标评估
原文传递
基于SAC算法的带落角约束的末制导律
4
作者 康冰冰 姜涛 +2 位作者 赵念 王晓宁 吴思 《战术导弹技术》 北大核心 2025年第2期121-129,共9页
为发挥强化学习算法在制导律设计中的优势,针对带落角约束的末制导问题,构建了基于柔性动作-评价(Soft Actor-Critic,SAC)算法的训练模型。根据期望导弹命中状态和降低收敛难度的原则,设计了奖励函数、状态参数。在训练中设定了不同的... 为发挥强化学习算法在制导律设计中的优势,针对带落角约束的末制导问题,构建了基于柔性动作-评价(Soft Actor-Critic,SAC)算法的训练模型。根据期望导弹命中状态和降低收敛难度的原则,设计了奖励函数、状态参数。在训练中设定了不同的初始条件并尝试不同的模型参数,得到了稳定的SAC制导律,经过仿真验证,SAC制导律能够以设定的落角命中固定目标。仿真结果表明,与最优制导律(Optimal Proportional Law,OPL)相比,SAC制导律需用加速度值更小,末时刻加速度接近零;SAC制导律的终端落角误差更小、收敛更快;SAC制导律的脱靶量更小,制导精度更高。 展开更多
关键词 sac算法 强化学习 落角约束 末制导律 最优制导律 偏置导引律 人工神经网络
原文传递
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:2
5
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 sac算法 路径规划 奖励函数
在线阅读 下载PDF
融合注意力机制与SAC算法的虚拟电厂多能流低碳调度 被引量:6
6
作者 俞晓荣 徐青山 +1 位作者 杜璞良 王冬 《电力工程技术》 北大核心 2024年第5期233-246,共14页
虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难... 虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。 展开更多
关键词 虚拟电厂(VPP) 多能流 改进碳交易机制 深度强化学习 注意力机制(AM) 柔性动作评价(sac)算法
在线阅读 下载PDF
基于SAC的炼厂原油储运调度方法 被引量:2
7
作者 马楠 李洪奇 +1 位作者 刘华林 杨磊 《化工进展》 EI CAS CSCD 北大核心 2024年第3期1167-1177,共11页
目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法... 目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法。该算法首先将炼厂原油资源调度问题转换为马尔可夫决策过程,其次提出了一种基于软演员-评论家(soft actor-critic,SAC)的深度强化学习算法来同时确定调度过程中的传输目标等离散决策以及传输速度等连续决策。结果表明,算法学习到的策略可行性较好,与基线算法相比,油轮在港时间、调度方案事件数量、加工计划执行率等重要指标方面均得到了较好的效果,在求解时间方面大幅提升至毫秒级,并有效控制随机事件对整体决策的影响范围。该算法可为沿海炼厂原油储运调度快速决策提供新的思路。 展开更多
关键词 炼厂原油储运 资源调度 深度强化学习 软演员-评论家
在线阅读 下载PDF
融合三支多属性决策与SAC的兵棋推演智能决策技术 被引量:2
8
作者 彭莉莎 孙宇祥 +1 位作者 薛宇凡 周献中 《系统工程与电子技术》 EI CSCD 北大核心 2024年第7期2310-2322,共13页
近年来,将深度强化学习技术用于兵棋推演的智能对抗策略生成受到广泛关注。针对强化学习决策模型采样率低、训练收敛慢以及智能体博弈胜率低的问题,提出一种融合三支多属性决策(three-way multiple attribute decision making,TWMADM)... 近年来,将深度强化学习技术用于兵棋推演的智能对抗策略生成受到广泛关注。针对强化学习决策模型采样率低、训练收敛慢以及智能体博弈胜率低的问题,提出一种融合三支多属性决策(three-way multiple attribute decision making,TWMADM)与强化学习的智能决策技术。基于经典软表演者-批评家(soft actor-critic,SAC)算法开发兵棋智能体,利用TWMADM方法评估对方算子的威胁情况,并将该威胁评估结果以先验知识的形式引入到SAC算法中规划战术决策。在典型兵棋推演系统中开展博弈对抗实验,结果显示所提算法可有效加快训练收敛速度,提升智能体的对抗策略生成效率和博弈胜率。 展开更多
关键词 兵棋推演 三支多属性决策 软表演者-批评家 强化学习 智能决策
在线阅读 下载PDF
稳定且受限的新强化学习SAC算法
9
作者 海日 张兴亮 +1 位作者 姜源 杨永健 《吉林大学学报(信息科学版)》 CAS 2024年第2期318-325,共8页
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固... 为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。 展开更多
关键词 强化学习 最大熵强化学习 Q值高估 sac算法
在线阅读 下载PDF
基于SAC算法的多交叉口交通信号控制研究 被引量:3
10
作者 钱立军 宣亮 +1 位作者 陈健 陈晨 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第1期105-111,共7页
针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性“行动器-评判器”(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应... 针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性“行动器-评判器”(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应的系统采样策略和回报函数.与原采样策略相比,新采样策略将相邻智能体的策略信息加入到系统状态中,使当前智能体能够得到更多的交叉口交通分布和合作策略信息.与原回报函数相比,新回报函数中引入空间折扣因子,缩小了相邻智能体的观察和回报值,使当前智能体更加关注和改善当前交通状况.随后在此基础上分别应用DQN和SAC算法设计交通信号控制方法.Webster配时法是利用相位流量数据开发的一种基于周期的固定相位长度交通信号方法,与DQN和SAC算法相比,其优化目标是降低交叉口延迟时间,不考虑交叉口排队长度.在城市交通模拟软件(simulation of urban mobility,SUMO)中构建一个时变交通流交通网络,并在其中分别对基于DQN、SAC和Webster配时法的信号配时控制方法进行仿真测试.仿真结果表明:基于SAC算法的交通信号控制方法与基于DQN算法和Webster配时法的交通信号控制方法相比,能够显著减少交叉口排队长度和平均延迟时间,具体来说,车辆平均排队长度分别减少了17.8%和28.2%,平均延迟分别减少了26.8%和36.3%,说明所提出的方法具有更好的控制效果. 展开更多
关键词 智能交通 交通信号控制 信号交叉口 深度Q网络 柔性“行动器-评判器”
在线阅读 下载PDF
基于CQL-SAC的自动驾驶防撞决策方法
11
作者 刘玉辉 于镝 《北京信息科技大学学报(自然科学版)》 2024年第3期16-24,共9页
针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SA... 针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SAC算法,以缓解价值过估计问题。然后,在算法训练过程中引入专家经验,实现算法快速收敛,以解决学习效率低的问题。最后,利用防撞模块对CQL-SAC算法输出的动作进行安全检查和矫正,避免车辆碰撞。在基于高速公路的仿真场景下对方法有效性进行验证。仿真结果表明,在训练阶段,CQL-SAC算法相比SAC算法和样本内行动评论(in-sample actor-critic, InAC)算法收敛速度分别提升12.5%、5.4%,引入专家经验后算法收敛速度进一步提升14.3%;在测试阶段,本文算法与SAC和InAC算法相比,成功率分别提升17、12百分点,平均回合奖励分别提升23.1%、10.7%。 展开更多
关键词 智慧交通 自动驾驶决策 保守Q学习算法 软行动评论算法 专家经验 防撞策略
在线阅读 下载PDF
缓存辅助的移动边缘计算任务卸载与资源分配 被引量:1
12
作者 李致远 陈品润 《计算机工程与设计》 北大核心 2025年第5期1248-1255,共8页
针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,... 针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,上层使用软动作评价算法进行计算任务卸载与资源分配决策。仿真实验结果表明,HRLJCORA算法与现有基线算法相比,有效降低了总开销,相较于联合优化计算任务卸载与资源分配(JORA)算法,卸载决策奖励值提高了13.11%,为用户提供了更优质的服务。 展开更多
关键词 移动边缘计算 缓存辅助 卸载决策 资源分配 分层强化学习 深度Q-learning网络算法 软动作评价算法
在线阅读 下载PDF
考虑进站策略的网联电动公交车节能驾驶优化研究 被引量:1
13
作者 南斯睿 于谦 +2 位作者 李铁柱 尚赞娣 陈海波 《交通运输系统工程与信息》 北大核心 2025年第2期82-94,共13页
针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。 展开更多
关键词 智能交通 节能驾驶优化 深度强化学习 纯电动公交 柔性演员-评论家算法
在线阅读 下载PDF
考虑多换电站的多无人机应急电力巡检路径规划方法 被引量:1
14
作者 秦文龙 罗贺 +3 位作者 李晓多 阴酉龙 林世忠 王国强 《控制与决策》 北大核心 2025年第8期2391-2399,共9页
多无人机应急电力巡检的时间十分有限,在选择关键巡检目标时需要考虑各目标的故障概率差异,同时为提升巡检效率,可以引进换电站降低无人机续航能力不足的影响.针对上述特点,将考虑多换电站的多无人机应急电力巡检路径规划问题建模为多... 多无人机应急电力巡检的时间十分有限,在选择关键巡检目标时需要考虑各目标的故障概率差异,同时为提升巡检效率,可以引进换电站降低无人机续航能力不足的影响.针对上述特点,将考虑多换电站的多无人机应急电力巡检路径规划问题建模为多站点多航次团队定向问题,并设计一种融合软演员-评论家模型的遗传算法(SAC-GA).首先,在遗传算法中加入两类局部搜索算子,以优化多无人机访问目标的选择和缩短无人机飞行路径距离.其次,提出一种基于SAC模型的参数调优机制,利用SAC模型基于最大熵学习策略的优势,在遗传算法迭代过程中,根据历史学习经验和种群的状态动态生成合适的交叉、变异概率以及染色体再插入中的权距比.实验结果表明,算法在小规模实验和大规模实验上均具有明显优势,并通过消融实验验证SAC-GA中局部搜索算子的有效性和参数调整方法的优越性.最后,通过案例分析验证算法在不同应急场景下的有效性. 展开更多
关键词 团队定向问题 多无人机 路径规划 遗传算法 sac模型
原文传递
基于SAC模型的改进遗传算法求解TSP问题 被引量:17
15
作者 陈斌 刘卫国 《计算机科学与探索》 CSCD 北大核心 2021年第9期1680-1693,共14页
遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值。针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解。改进算法将种群作为与智能体(agent)交互的环境,引入贪心算... 遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值。针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解。改进算法将种群作为与智能体(agent)交互的环境,引入贪心算法对环境进行初始化,使用改进后的交叉与变异运算作为agent的动作空间,将种群的进化过程视为一个整体,以最大化种群进化过程的累计奖励为目标,结合当前种群个体适应度情况,采用基于SAC的策略梯度算法,生成控制种群进化的动作策略,合理运用遗传算法的全局和局部搜索能力,优化种群的进化过程,平衡种群收敛速度与遗传操作次数之间的关系。对TSPLIB实例的实验结果表明,改进的遗传算法可有效地避免陷入局部最优解,在提高种群收敛速度的同时,减少寻优过程的迭代次数。 展开更多
关键词 强化学习 遗传算法(GA) 旅行商问题(TSP) 深度策略梯度 soft actor-critic(sac)模型
在线阅读 下载PDF
LoRa网络中基于深度强化学习的信息年龄优化
16
作者 程克非 陈彩蝶 +1 位作者 罗佳 陈前斌 《电子与信息学报》 北大核心 2025年第2期541-550,共10页
信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指... 信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指出,在LoRa上行传输过程中,随着数据包数量增多,AoI主要受到数据包碰撞影响。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该文采用连续动作空间映射离散动作空间的方式,使用柔性动作-评价(SAC)算法对LoRa网络下的AoI进行优化。仿真结果显示,SAC算法优于传统算法与传统深度强化学习算法,可有效降低网络的平均AoI。 展开更多
关键词 信息年龄 LoRa 柔性动作-评价算法 深度强化学习 优化策略
在线阅读 下载PDF
混行下CAV作业区分段式深度强化学习合流模型
17
作者 辛琪 荚胜琪 +2 位作者 徐猛 齐嘉乐 袁伟 《交通信息与安全》 北大核心 2025年第2期95-108,共14页
针对经典提前合流和延迟合流对动态流量适应性差,以及上游速度差导致合流车辆“错位”问题,研究了基于深度强化学习方法的作业区智能网联车(connected and autonomous vehicle,CAV)分段控制合流模型。通过依次进行车速引导、间距创建和... 针对经典提前合流和延迟合流对动态流量适应性差,以及上游速度差导致合流车辆“错位”问题,研究了基于深度强化学习方法的作业区智能网联车(connected and autonomous vehicle,CAV)分段控制合流模型。通过依次进行车速引导、间距创建和位置对齐,解决换道期多辆封闭车道合流车辆同时申请汇入1个开放车道间距而导致的汇入冲突和效率降低问题。模型将基于柔性演员-评论家算法的纵向轨迹控制与规则的换道决策相结合,共同优化合流轨迹。其中纵向轨迹优化首先选取自车速度与加速度、前车速度与到其距离、相邻车道前后车速度与到其距离、到合流点距离9个特征作为智能体状态,用以刻画自车所处的局部和全局交通状态;其次以降低加速度幅值及其变化率、避免碰撞、创建合流间距、对齐开放车道间距中心、抑制前后车速度差、按推荐速度引导、增加后车让行为目标,分别从舒适、安全、效率角度构建了作业区分段式奖励函数。特别地,基于目标车道后车速度差构建的效率惩罚性函数,解决了混行交通流合流点停车延误多的问题。仿真结果表明:在中、高流量下,与提前合流、延迟合流和新英格兰合流方法相比,本文模型平均车速和最小碰撞时间分别提升了约4.76%和19.71%,进一步加强了作业区行车效率及安全;此外,在含异质人工驾驶车辆的混行交通下,随着CAV市场渗透率的提高,平均车速、最小碰撞时间和合流成功率均呈增大趋势,且均能实现不停车合流。 展开更多
关键词 智能交通 作业区合流 合流控制模型 柔性演员-评论家算法 混合交通流
在线阅读 下载PDF
基于SAC算法的无人机自主空战决策算法 被引量:12
18
作者 李波 白双霞 +2 位作者 孟波波 梁诗阳 李曾琳 《指挥控制与仿真》 2022年第5期24-30,共7页
针对无人机在空战过程中的自主决策问题,以无人机1v1攻防为背景提出了无人机近距空战模型。采用Markov决策过程建立了无人机自主机动模型,提出基于Soft Actor Critic (SAC)算法的无人机自主空战决策算法,以无人机空战态势数据作为输入,... 针对无人机在空战过程中的自主决策问题,以无人机1v1攻防为背景提出了无人机近距空战模型。采用Markov决策过程建立了无人机自主机动模型,提出基于Soft Actor Critic (SAC)算法的无人机自主空战决策算法,以无人机空战态势数据作为输入,输出无人机机动指令,使得无人机通过完成指定指令,率先锁定敌方无人机并抢先攻击。最后,设计仿真实验,通过对比双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient Algorithm, TD3)算法,验证了基于SAC算法的无人机空战决策算法在增强策略探索的情况下,学习速度大幅度提高,使无人机在任意初始态势下主动占据优势,并成功打击目标,有效提高了无人机在空战决策过程中的自主性。 展开更多
关键词 无人机 空战决策算法 soft actor critic MARKOV决策过程
在线阅读 下载PDF
无人机携带STAR‑RIS辅助的超密集网络效益优化研究
19
作者 张国斌 陈瀚 +1 位作者 杨芷晴 李晓滨 《南京邮电大学学报(自然科学版)》 北大核心 2025年第5期14-22,共9页
针对5G时代超密集网络部署成本与能效的挑战,提出一种结合无人机以及同时透射和反射信号的可重构智能表面(STAR‑RIS)的网络规划设计方法。该方法通过构建包含宏基站、用户终端和携带STAR‑RIS模块的无人机超密集网络模型,利用软演员评论... 针对5G时代超密集网络部署成本与能效的挑战,提出一种结合无人机以及同时透射和反射信号的可重构智能表面(STAR‑RIS)的网络规划设计方法。该方法通过构建包含宏基站、用户终端和携带STAR‑RIS模块的无人机超密集网络模型,利用软演员评论家(Soft Actor‑Critic,SAC)算法优化网络配置,以实现在满足通信速率需求的前提下最大化系统效益。首先构建了速率模型和功率模型,并基于模型设计了能量和成本效益目标函数。然后通过SAC算法求解优化问题,得到在满足功率、速率和成本限制条件下的最优网络配置。仿真结果表明,该方法能够有效提升网络能量和成本效益,减少系统能耗和部署成本。 展开更多
关键词 超密集网络 无人机 STAR‑RIS sac算法 效益优化
在线阅读 下载PDF
面向电动扶梯场景下的双足机器人反馈步态控制方法
20
作者 龚艳兰 陶重犇 《工业控制计算机》 2025年第7期56-58,共3页
针对上下电动扶梯导致双足机器人质心位置发生变化,腿部、脚部和躯干关节无法及时调整质心到稳定位置,从而影响双足机器人在复杂环境中行走时稳定性差的问题,提出一种基于值函数的模型预测控制与无模型强化学习结合的分层框架算法。首... 针对上下电动扶梯导致双足机器人质心位置发生变化,腿部、脚部和躯干关节无法及时调整质心到稳定位置,从而影响双足机器人在复杂环境中行走时稳定性差的问题,提出一种基于值函数的模型预测控制与无模型强化学习结合的分层框架算法。首先提出两个顺序框架,其中基于值函数的模型预测控制作为获得最佳动作序列的先前准备。其次,这些先前最佳动作序列用来加速无模型强化学习的策略学习。最后提出了一种值函数模型预测软行动者-评论家方法。实验表明,所提方法在基线任务上收敛速度更快,鲁棒性更好。 展开更多
关键词 模型预测控制 软行动者-评论家算法 价值函数 分层框架 步态控制
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部