期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
融入SAC算法的光储微网混合储能自驱优级联自抗扰控制
1
作者 周雪松 张宇轩 +3 位作者 马幼捷 王馨悦 陶珑 问虎龙 《电力系统保护与控制》 北大核心 2025年第13期93-104,共12页
母线电压稳定是实现新能源高水平消纳的重要前提。针对光储直流微电网混合储能系统因源荷不确定性扰动导致的母线电压波动问题,提出一种融入深度强化学习柔性动作评价(soft actor-critic, SAC)算法的自驱优级联自抗扰控制策略。首先,设... 母线电压稳定是实现新能源高水平消纳的重要前提。针对光储直流微电网混合储能系统因源荷不确定性扰动导致的母线电压波动问题,提出一种融入深度强化学习柔性动作评价(soft actor-critic, SAC)算法的自驱优级联自抗扰控制策略。首先,设计了级联扩张状态观测器来实时估计和补偿系统中的不确定性扰动,以提升系统的扰动估计精度。其次,针对系统建立了马尔可夫决策模型,并设计了状态奖励与信息熵综合评估的SAC智能体,融入控制器参数优化中。通过其在线学习和经验回放实现了控制参数的自驱优整定,进一步提高了系统的抗扰性和鲁棒性。最后,通过仿真实验对比了3种控制策略在典型工况下的控制性能,验证了所提策略的有效性和优越性。 展开更多
关键词 光储直流微电网 混合储能 自抗扰控制 深度强化学习 sac算法
在线阅读 下载PDF
未知环境下基于突变定位SAC算法的移动机器人路径规划
2
作者 胡立坤 韦春有 《计算机应用研究》 北大核心 2025年第2期455-461,共7页
针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信... 针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信息的情况下计算子目标点位置,减少移动机器人规划路径的长度。同时,通过引入基于虚拟势场的critic网络改进损失函数和多阶段训练方法,提高SAC智能体的训练速度。实验结果表明,与DDPG、SAC、PER-SAC和HER-TD3相比,突变定位SAC算法在训练时间上分别减少了46.68%、39.50%、20.18%和27.79%。此外,突变定位SAC算法在不同环境下规划路径的长度平均减少了13.71%、10.26%、10.90%和15.89%。 展开更多
关键词 移动机器人 路径规划 深度强化学习算法 sac算法 激光雷达 未知环境
在线阅读 下载PDF
基于PID-Lagrange-SAC的深度强化学习楼宇建筑用能行为调控策略
3
作者 凌䶮飞 陈涛 高赐威 《电力需求侧管理》 2025年第5期90-96,共7页
楼宇建筑的用能行为有着巨大的调节潜力,为解决此问题提出了一种基于PID-Lagrange-SAC算法的调控方法。首先,将楼宇建筑用能行为调控问题建模为马尔科夫决策过程(markov decision process,MDP)模型,将可调控设备的状态及外部变量建立为... 楼宇建筑的用能行为有着巨大的调节潜力,为解决此问题提出了一种基于PID-Lagrange-SAC算法的调控方法。首先,将楼宇建筑用能行为调控问题建模为马尔科夫决策过程(markov decision process,MDP)模型,将可调控设备的状态及外部变量建立为状态空间,可调控设备的运行功率作为决策变量,设计恰当的奖励函数以指导智能体学习较好的动作策略。为了抑制智能体违反约束条件的行为,进一步将问题建立为带约束项的马尔科夫决策过程(constrained MDP,CMDP),并将PID控制与Lagrange方法结合应用于Soft actor-critic算法进行训练。算例分析表明,最终得到的调控策略在满足用户舒适度的同时降低了楼宇建筑的运行成本及碳排放,验证了所提方法的有效性及优越性。 展开更多
关键词 楼宇建筑 用能行为调控 深度强化学习 带约束项的马尔科夫决策过程 马尔科夫决策过程算法
在线阅读 下载PDF
基于SAC算法的露天煤矿无人驾驶运输车辆避障控制研究 被引量:1
4
作者 宋佳琛 韩硕 +1 位作者 田文明 辛守辉 《煤矿机械》 2025年第2期213-217,共5页
大部分无人驾驶车辆避障控制过程只适用于动作空间和状态空间维度较低的环境,易导致避障控制形成的运动路径过长。针对这一问题,提出了基于Soft Actor-Critic(SAC)算法的露天煤矿无人驾驶运输车辆避障控制方法。建立包含1个演员网络、2... 大部分无人驾驶车辆避障控制过程只适用于动作空间和状态空间维度较低的环境,易导致避障控制形成的运动路径过长。针对这一问题,提出了基于Soft Actor-Critic(SAC)算法的露天煤矿无人驾驶运输车辆避障控制方法。建立包含1个演员网络、2个评论家目标网络和2个评论家网络的SAC深度学习网络框架。通过SAC算法的迭代更新,对环境地图中的智能体进行不断训练,规划出最优避障路径。通过模糊PID控制器执行控制指令,实现无人驾驶运输车辆避障安全行驶控制。实验结果表明,该方法形成的车辆避障运动路径长度始终不超过60 m,显著提升了复杂环境中运输车辆的工作性能。 展开更多
关键词 sac算法 露天煤矿 无人驾驶车辆 局部地图 避障路径 避障控制
原文传递
基于SAC算法的无人机路径规划与视频QoE研究
5
作者 刘利民 李晋峰 康云鹏 《长江信息通信》 2025年第9期198-201,210,共5页
随着无人机(UAV)技术的发展,凭借其高灵活性和快速部署能力,已成为灾后救援场景中不可或缺的工具。针对灾区复杂环境下的通信和能耗优化问题,该研究提出了一种结合动态自适应流媒体编码(DASH)技术和Soft Actor-Critic(SAC)算法的解决方... 随着无人机(UAV)技术的发展,凭借其高灵活性和快速部署能力,已成为灾后救援场景中不可或缺的工具。针对灾区复杂环境下的通信和能耗优化问题,该研究提出了一种结合动态自适应流媒体编码(DASH)技术和Soft Actor-Critic(SAC)算法的解决方案。通过联合优化视频编码参数、飞行策略及带宽资源分配,以实现在保证用户视频视频体验质量(QoE)的同时,尽可能降低UAV能耗,从而提高系统效益。仿真实验表明,相较于传统深度强化学习(DRL)算法(如DDPG、PPO),该文提出的SAC算法在收敛速度、奖励值及稳定性等方面均具有显著优势。 展开更多
关键词 无人机 深度强化学习 灾后救援 sac算法 路径规划
在线阅读 下载PDF
AoI约束下基于SAC算法的无人机路径规划
6
作者 朱庆亮 郭志坚 王奇 《仪表技术》 2025年第3期73-77,共5页
无人机因其高灵活性和广覆盖能力,被广泛应用于动态场景下的信息采集。然而,现有研究多集中于静态设备场景,忽视了高移动性节点环境下的信息新鲜度(age of information, AoI)优化问题,同时无人机的有限能量限制了其在实际应用的有效性... 无人机因其高灵活性和广覆盖能力,被广泛应用于动态场景下的信息采集。然而,现有研究多集中于静态设备场景,忽视了高移动性节点环境下的信息新鲜度(age of information, AoI)优化问题,同时无人机的有限能量限制了其在实际应用的有效性。针对无人机辅助的车辆信息采集场景,提出一种基于柔性演员-评论家(soft actor-critic, SAC)算法的路径规划方法,通过优化无人机的飞行策略,平衡AoI和能效约束,引入最大熵深度强化学习框架,结合双Q网络结构和经验回放机制,在连续动作空间中实现了高效的策略学习。反复实验表明,该方法在收敛速度、奖励值和系统鲁棒性上显著优于传统强化学习算法(如DDPG和PPO),同时在复杂动态环境下有效提升了信息新鲜度和能量利用效率。 展开更多
关键词 无人机 深度强化学习 信息新鲜度 柔性演员-评论家算法 路径优化
原文传递
基于ASP-SAC算法的列车自动驾驶速度控制 被引量:4
7
作者 刘伯鸿 卢田 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第7期2637-2648,共12页
随着经济建设的绿色转型以及人工智能的快速发展,城市轨道交通已成为居民日常出行的重要方式,在保障安全性、高效性和准点性的前提下,列车运行的节能性和舒适性需求也越来越被关注。合理的运行策略能够有效实现多种目标需求下的列车自... 随着经济建设的绿色转型以及人工智能的快速发展,城市轨道交通已成为居民日常出行的重要方式,在保障安全性、高效性和准点性的前提下,列车运行的节能性和舒适性需求也越来越被关注。合理的运行策略能够有效实现多种目标需求下的列车自动驾驶速度控制,强化学习作为一种智能决策方法,能够有效解决这一控制问题。首先,通过综合分析技术、安全性和乘客体验等方面的因素,基于专家经验动作划分和状态信息熵将软演员-评论家(SAC)改进为动作状态经验优先软演员-评论家(ASP-SAC)方法,用于研究列车自动驾驶速度控制问题。其次,将问题马尔可夫形式化,搭建了列车运行环境,确定了状态空间、动作空间以及基于目标控制的奖励函数。最后,以北京地铁亦庄线的一段区间数据为例进行试验,对ASP-SAC方法进行验证并与其他一些算法在相同环境下进行性能优劣比较。研究结果表明:该方法对于多目标控制需求下的列车自动驾驶速度控制问题具有可行性,与未改进前相比算法效率提高22.73%,与PPO算法相比提高29.17%,改进效果良好。同时,列车运行时在安全性、舒适性无误的情况下,准时性、精确性和节能性都强于SAC、DQN、PPO以及PID算法,其中能耗分别减少3.64%、5.62%、4.38%、7.35%,控制效果良好。此外,该方法亦具备鲁棒性,在列车自动驾驶速度控制方面具有一定的优越性和可参考性。 展开更多
关键词 列车自动驾驶 多目标控制 强化学习 ASP-sac算法 速度控制
在线阅读 下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:2
8
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 sac算法 路径规划 奖励函数
在线阅读 下载PDF
融合注意力机制与SAC算法的虚拟电厂多能流低碳调度 被引量:6
9
作者 俞晓荣 徐青山 +1 位作者 杜璞良 王冬 《电力工程技术》 北大核心 2024年第5期233-246,共14页
虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难... 虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。 展开更多
关键词 虚拟电厂(VPP) 多能流 改进碳交易机制 深度强化学习 注意力机制(AM) 柔性动作评价(sac)算法
在线阅读 下载PDF
基于SAC算法的含柔性负荷电-气互联系统的频率与气压协调控制策略 被引量:3
10
作者 张磊光 陈海涛 杨军 《智慧电力》 北大核心 2024年第4期8-14,共7页
现今,电燃气系统在维持微电网稳定、经济、灵活运行方面发挥着重要作用。当其受到电力与天然气负荷扰动时,控制器需要协调微电网频率和天然气管道节点的燃气压力。为此,提出1种基于柔性动作评价(SAC)算法的电-气互联系统的频率-气压协... 现今,电燃气系统在维持微电网稳定、经济、灵活运行方面发挥着重要作用。当其受到电力与天然气负荷扰动时,控制器需要协调微电网频率和天然气管道节点的燃气压力。为此,提出1种基于柔性动作评价(SAC)算法的电-气互联系统的频率-气压协调控制策略。首先,在分析天然气管网及耦合设备运行特性的基础上,建立天然气输送动态模型。其次,基于可控负荷用户行为的随机性,建立了包括微型燃气轮机(MT),电转气(P2G)设备、可控负荷、分布式电源和负荷的微电网负载频率控制模型。此外,根据微电网频率与气压2个控制目标,设计了控制器的结构。最后,设置不同工况进行仿真,结果表明所提策略能协调系统的频率与气压。 展开更多
关键词 频率控制 微电网 电气耦合系统 sac算法 柔性负荷
在线阅读 下载PDF
基于SAC算法的多源信息融合机械臂控制方法 被引量:1
11
作者 权双璐 郭艳婕 +4 位作者 费逢宇 瑜熙敬 宋小云 辛顺恒 王超 《自动化应用》 2024年第5期52-54,共3页
融合多源传感器信息可实现机械臂的精准控制。提出了一种基于深度强化学习的多源信息融合控制方法,设计并搭建了可实现多源信息融合的机械臂控制实验平台,融合视觉、触觉、编码器3种模态信息,并选取学习效率较高的SAC算法实现机械臂自... 融合多源传感器信息可实现机械臂的精准控制。提出了一种基于深度强化学习的多源信息融合控制方法,设计并搭建了可实现多源信息融合的机械臂控制实验平台,融合视觉、触觉、编码器3种模态信息,并选取学习效率较高的SAC算法实现机械臂自主精准控制。在实验平台上,开展了3个由易到难的机械臂运动控制任务,以验证所提多源信息融合机械臂控制方案的有效性。 展开更多
关键词 机械臂 多源信息融合 深度强化学习 sac算法
在线阅读 下载PDF
稳定且受限的新强化学习SAC算法
12
作者 海日 张兴亮 +1 位作者 姜源 杨永健 《吉林大学学报(信息科学版)》 CAS 2024年第2期318-325,共8页
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固... 为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。 展开更多
关键词 强化学习 最大熵强化学习 Q值高估 sac算法
在线阅读 下载PDF
基于改进SAC算法的机械臂运动规划 被引量:1
13
作者 唐超 张帆 《电子科技》 2024年第11期47-54,共8页
针对深度强化学习算法在高维状态空间和高精度需求下的机械臂运动规划任务中存在探索效率低、收敛速度慢以及不收敛等问题,文中以SAC(Soft Actor-Critic)算法为基础,引入异步优势机制,提出了一种融合异步优势的AA-SAC(Asynchronous Adva... 针对深度强化学习算法在高维状态空间和高精度需求下的机械臂运动规划任务中存在探索效率低、收敛速度慢以及不收敛等问题,文中以SAC(Soft Actor-Critic)算法为基础,引入异步优势机制,提出了一种融合异步优势的AA-SAC(Asynchronous Advantage Soft Actor-Critic)算法。该算法使用Q target网络代替了原V网络,有效降低了Q网络的方差,n个独立的进程可并行训练,提升了训练效率。将AA-SAC算法的经验回放池划分成两个部分,将高质量的经验数据单独存放、单独采样,以提高有效经验数据的利用率。仿真结果表明,AA-SAC算法在收敛速度、成功率和稳定性上表现最优。相较于SAC算法,AA-SAC算法的收敛时间提前了3000回合。收敛后AA-SAC算法的成功率达到了96%,比SAC算法提升了6%,比DDPG(Deep Deterministic Policy Gradient)算法提升了26%。 展开更多
关键词 深度强化学习 异步优势 sac算法 经验回放池 机械臂 运动规划 微创手术 CoppeliaSim
在线阅读 下载PDF
基于CQL-SAC的自动驾驶防撞决策方法
14
作者 刘玉辉 于镝 《北京信息科技大学学报(自然科学版)》 2024年第3期16-24,共9页
针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SA... 针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SAC算法,以缓解价值过估计问题。然后,在算法训练过程中引入专家经验,实现算法快速收敛,以解决学习效率低的问题。最后,利用防撞模块对CQL-SAC算法输出的动作进行安全检查和矫正,避免车辆碰撞。在基于高速公路的仿真场景下对方法有效性进行验证。仿真结果表明,在训练阶段,CQL-SAC算法相比SAC算法和样本内行动评论(in-sample actor-critic, InAC)算法收敛速度分别提升12.5%、5.4%,引入专家经验后算法收敛速度进一步提升14.3%;在测试阶段,本文算法与SAC和InAC算法相比,成功率分别提升17、12百分点,平均回合奖励分别提升23.1%、10.7%。 展开更多
关键词 智慧交通 自动驾驶决策 保守Q学习算法 软行动评论算法 专家经验 防撞策略
在线阅读 下载PDF
基于深度强化学习的飞行器过载和姿态智能控制研究 被引量:3
15
作者 谭富威 何永宁 +3 位作者 孙晓晖 朱震 张庆昊 卢俊国 《飞控与探测》 2025年第1期25-31,共7页
针对复杂多变环境下的飞行器过载和姿态智能控制问题,提出了一种基于柔性动作评价(Soft Actor-Critic,SAC)强化学习算法的分布式智能体控制算法,建立了分布式高效环境交互的深度强化学习算法框架和飞行器过载和姿态智能控制算法系统,增... 针对复杂多变环境下的飞行器过载和姿态智能控制问题,提出了一种基于柔性动作评价(Soft Actor-Critic,SAC)强化学习算法的分布式智能体控制算法,建立了分布式高效环境交互的深度强化学习算法框架和飞行器过载和姿态智能控制算法系统,增加了强化学习算法训练的数据量级和数据分布,提高了飞行器控制算法的性能和鲁棒性。通过在仿真环境中的实验结果表明,基于训练得到的智能体能够有效地在无人飞行器仿真过程中进行过载和姿态控制,分布式SAC算法在无人飞行器仿真场景中的控制效果优于原始SAC算法。 展开更多
关键词 深度强化学习 无人飞行器 分布式sac算法 过载控制 姿态控制
在线阅读 下载PDF
基于SAC-IA和改进ICP算法的点云配准技术 被引量:49
16
作者 陈学伟 朱耀麟 +1 位作者 武桐 王祖全 《西安工程大学学报》 CAS 2017年第3期395-401,共7页
点云配准是真实三维世界物体或场景模型重建的关键问题之一.针对传统的ICP算法收敛速度慢,且在两点云集初始位置较大时易陷入局部最优解的问题,提出一种改进的点云配准算法.该算法首先利用基于特征点的采样一致性初始配准算法(SAC-IA)... 点云配准是真实三维世界物体或场景模型重建的关键问题之一.针对传统的ICP算法收敛速度慢,且在两点云集初始位置较大时易陷入局部最优解的问题,提出一种改进的点云配准算法.该算法首先利用基于特征点的采样一致性初始配准算法(SAC-IA)实现两点云的初始变换,使两点云集有相对较好的初始位姿,然后在传统ICP算法基础上使用k-d树(k-dimensional tree)加速对应点对的查找速度,并利用方向向量阈值去除错误点对.实验证明该算法具有相对较好的配准精度和收敛速度. 展开更多
关键词 点云配准 ICP算法 sac-IA 方向向量阈值
在线阅读 下载PDF
LoRa网络中基于深度强化学习的信息年龄优化
17
作者 程克非 陈彩蝶 +1 位作者 罗佳 陈前斌 《电子与信息学报》 北大核心 2025年第2期541-550,共10页
信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指... 信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指出,在LoRa上行传输过程中,随着数据包数量增多,AoI主要受到数据包碰撞影响。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该文采用连续动作空间映射离散动作空间的方式,使用柔性动作-评价(SAC)算法对LoRa网络下的AoI进行优化。仿真结果显示,SAC算法优于传统算法与传统深度强化学习算法,可有效降低网络的平均AoI。 展开更多
关键词 信息年龄 LoRa 柔性动作-评价算法 深度强化学习 优化策略
在线阅读 下载PDF
基于深度强化学习的改进RRT算法路径规划
18
作者 梁秀满 刘子良 刘振东 《系统仿真学报》 北大核心 2025年第10期2578-2593,共16页
针对RRT算法在三维复杂场景中规划全局路径时存在规划效率低、安全性和实用性较差而无法满足无人机对飞行路径的安全需求,提出SAC深度强化学习算法与RRT算法融合的SAC-RRT算法。设计基于SAC算法决策网络的目标点偏置策略和动态步长策略... 针对RRT算法在三维复杂场景中规划全局路径时存在规划效率低、安全性和实用性较差而无法满足无人机对飞行路径的安全需求,提出SAC深度强化学习算法与RRT算法融合的SAC-RRT算法。设计基于SAC算法决策网络的目标点偏置策略和动态步长策略,降低RRT盲目性;设计随机点修正过程,根据决策网络输出动作优化随机点位置,改善路径安全性;设计精简步骤和平滑步骤,进一步提高路径安全性。设计了不同复杂程度的三维场景,规划结果表明:SAC-RRT算法有效缩短了路径长度和规划时间,改善了路径的平滑性和安全性。 展开更多
关键词 深度强化学习 sac算法 RRT算法 无人机 三次B样条
原文传递
无人机携带STAR‑RIS辅助的超密集网络效益优化研究
19
作者 张国斌 陈瀚 +1 位作者 杨芷晴 李晓滨 《南京邮电大学学报(自然科学版)》 北大核心 2025年第5期14-22,共9页
针对5G时代超密集网络部署成本与能效的挑战,提出一种结合无人机以及同时透射和反射信号的可重构智能表面(STAR‑RIS)的网络规划设计方法。该方法通过构建包含宏基站、用户终端和携带STAR‑RIS模块的无人机超密集网络模型,利用软演员评论... 针对5G时代超密集网络部署成本与能效的挑战,提出一种结合无人机以及同时透射和反射信号的可重构智能表面(STAR‑RIS)的网络规划设计方法。该方法通过构建包含宏基站、用户终端和携带STAR‑RIS模块的无人机超密集网络模型,利用软演员评论家(Soft Actor‑Critic,SAC)算法优化网络配置,以实现在满足通信速率需求的前提下最大化系统效益。首先构建了速率模型和功率模型,并基于模型设计了能量和成本效益目标函数。然后通过SAC算法求解优化问题,得到在满足功率、速率和成本限制条件下的最优网络配置。仿真结果表明,该方法能够有效提升网络能量和成本效益,减少系统能耗和部署成本。 展开更多
关键词 超密集网络 无人机 STAR‑RIS sac算法 效益优化
在线阅读 下载PDF
基于SAC强化学习的车联网频谱资源动态分配 被引量:10
20
作者 黄煜梵 彭诺蘅 +3 位作者 林艳 范建存 张一晋 余妍秋 《计算机工程》 CAS CSCD 北大核心 2021年第9期34-43,共10页
针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多... 针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多智能体马尔科夫决策过程模型。利用SAC强化学习算法设计神经网络,通过最大化熵与累计奖励和以训练智能体,使得V2V链路经过不断学习优化频谱资源分配。仿真结果表明,与基于深度Q网络和深度确定性策略梯度的频谱资源分配方案相比,该方案可以更高效地完成车联网链路之间的频谱共享任务,且信道传输速率和载荷成功交付率更高。 展开更多
关键词 车联网 资源分配 多智能体强化学习 柔性致动-评价算法 频谱分配
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部