期刊文献+
共找到134篇文章
< 1 2 7 >
每页显示 20 50 100
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:1
1
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 actor网络 critic网络 DDPG算法 深度强化学习 控制系统
原文传递
基于Actor-Critic算法的新能源汽车实时充电优化调度研究
2
作者 赖城贤 杨婷 苏庆列 《黑龙江工业学院学报(综合版)》 2025年第5期128-133,共6页
随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通... 随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通过并行计算提高算法效率。研究结果显示,该算法在精准率上迅速上升,在约200次迭代后达到0.9,显著优于其他算法。在运行时间方面,该算法始终保持较低水平,显示出高运行效率。在充电负载管理上,该算法在50小时内达到约45kW的负载,充电效率接近90%,且充电成本在所有车辆数量下均为最低。该算法在新能源汽车充电调度中表现出色,不仅提高了充电效率,降低了充电成本,而且具有较快的收敛速度和较低的运行时间,为新能源汽车充电调度提供了一种有效的解决方案。 展开更多
关键词 actor-critic算法 新能源汽车 实时充电 优化调度 状态空间
在线阅读 下载PDF
基于Actor-Critic算法的无人机集群任务分配方法
3
作者 苏瑞 龚俊 张鸿宇 《兵工自动化》 北大核心 2025年第5期107-112,共6页
为最小化无人机集群任务分配中任务的完成总时间和总航程,提出一种基于Actor-Critic算法的优化方法。利用Actor-Critic算法中的Actor网络,根据当前状态生成任务分配策略,并用Critic网络评估Actor网络生成的策略价值。采用多阶时序差分误... 为最小化无人机集群任务分配中任务的完成总时间和总航程,提出一种基于Actor-Critic算法的优化方法。利用Actor-Critic算法中的Actor网络,根据当前状态生成任务分配策略,并用Critic网络评估Actor网络生成的策略价值。采用多阶时序差分误差,结合多个时间步的奖励来更新策略,以提高学习效率并减少延迟奖励。在多种任务场景下,通过仿真实验进行对比。仿真结果表明:该方法能够显著减少任务完成时间和航行距离,验证了在任务分配问题上的有效性。 展开更多
关键词 无人机集群 任务分配 强化学习 演员评论家算法
在线阅读 下载PDF
Actor-critic框架下的二次指派问题求解方法 被引量:1
4
作者 李雪源 韩丛英 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第2期275-284,共10页
二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完... 二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完全图并构造相应的关联图,从而将设施和地点的指派任务转化为关联图上的节点选择任务,基于actor-critic框架,提出一种全新的求解算法ACQAP。首先,利用多头注意力机制构造策略网络,处理来自图卷积神经网络的节点表征向量;然后,通过actor-critic算法预测每个节点被作为最优节点输出的概率;最后,依据该概率在可行时间内输出满足目标奖励函数的动作决策序列。该算法摆脱人工设计,且适用于不同规模的输入,更加灵活可靠。实验结果表明,在QAPLIB实例上,本算法在精度媲美传统启发式算法的前提下,迁移泛化能力更强;同时相对于NGM等基于学习的算法,求解的指派费用与最优解之间的偏差最小,且在大部分实例中,偏差均小于20%。 展开更多
关键词 二次指派问题 图卷积神经网络 深度强化学习 多头注意力机制 actor-critic算法
在线阅读 下载PDF
Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning 被引量:3
5
作者 Yun Zou Qing-Zi Xing +4 位作者 Bai-Chuan Wang Shu-Xin Zheng Cheng Cheng Zhong-Ming Wang Xue-Wu Wang 《Nuclear Science and Techniques》 SCIE CAS CSCD 2019年第10期133-141,共9页
This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the pre... This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the predictions of physical designs because of errors in mechanical matching and installation.Therefore,parameter optimization methods such as pointwise scanning,evolutionary algorithms(EAs),and robust conjugate direction search are widely used in beam tuning to compensate for this inconsistency.However,it is difficult for them to deal with a large number of discrete local optima.The A3C algorithm,which has been applied in the automated control field,provides an approach for improving multi-dimensional optimization.The A3C algorithm is introduced and improved for the real-time beam tuning code for accelerators.Experiments in which optimization is achieved by using pointwise scanning,the genetic algorithm(one kind of EAs),and the A3C-algorithm are conducted and compared to optimize the currents of four steering magnets and two solenoids in the low-energy beam transport section(LEBT)of the Xi’an Proton Application Facility.Optimal currents are determined when the highest transmission of a radio frequency quadrupole(RFQ)accelerator downstream of the LEBT is achieved.The optimal work points of the tuned accelerator were obtained with currents of 0 A,0 A,0 A,and 0.1 A,for the four steering magnets,and 107 A and 96 A for the two solenoids.Furthermore,the highest transmission of the RFQ was 91.2%.Meanwhile,the lower time required for the optimization with the A3C algorithm was successfully verified.Optimization with the A3C algorithm consumed 42%and 78%less time than pointwise scanning with random initialization and pre-trained initialization of weights,respectively. 展开更多
关键词 REAL-TIME BEAM tuning Parameter optimization ASYNCHRONOUS ADVANTAGE actor–critic algorithm Low-energy BEAM transport
在线阅读 下载PDF
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:11
6
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动actor-critic 框架
在线阅读 下载PDF
基于改进Actor-Critic算法的多传感器交叉提示技术 被引量:2
7
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 actor-critic算法 强化学习 目标探测 传感器资源调度
在线阅读 下载PDF
基于Actor-Critic算法的多无人机协同空战目标重分配方法 被引量:3
8
作者 陈宇轩 王国强 +1 位作者 罗贺 马滢滢 《无线电工程》 北大核心 2022年第7期1266-1275,共10页
目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分... 目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分配框架,构建了基于目标重分配的马尔科夫决策过程、Actor网络结构和Critic网络结构。针对强化学习算法中存在的奖励稀疏问题,设计了局部回报和全局汇报相结合的双层回报函数。在基于VR-Forces仿真平台中验证了该方法的有效性。实验结果表明,提出的多无人机协同空战目标重分配方法能够有效地提升空战对抗的胜率。 展开更多
关键词 无人机 空战 目标重分配 强化学习 actor-critic算法
在线阅读 下载PDF
基于actor-critic算法的分数阶多自主体系统最优主-从一致性控制 被引量:5
9
作者 马丽新 刘晨 刘磊 《应用数学和力学》 CSCD 北大核心 2022年第1期104-114,共11页
研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数... 研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数值仿真实验证明了该算法的可行性和有效性. 展开更多
关键词 分数阶多自主体系统 actor-critic算法 最优主-从一致性 事件触发 间歇
在线阅读 下载PDF
基于Actor-Critical架构的5G Massive MIMO波束能效的研究与应用
10
作者 乔勇 葛昌帅 +1 位作者 张天兴 鲁晓峰 《通信技术》 2022年第12期1642-1649,共8页
大规模阵列天线技术(Massive Multiple Input Multiple Output,Massive MIMO)作为第五代移动通信(5G)的无线核心技术,实现了多波束空间覆盖增强,然而5G Massive MIMO的多波束射频高能耗、多波束碰撞和增加的干扰造会成5G网络能效下降,... 大规模阵列天线技术(Massive Multiple Input Multiple Output,Massive MIMO)作为第五代移动通信(5G)的无线核心技术,实现了多波束空间覆盖增强,然而5G Massive MIMO的多波束射频高能耗、多波束碰撞和增加的干扰造会成5G网络能效下降,运营成本增高。基于3D数字地图、基站工程参数、终端上报的测量报告/最小化路测(Measurement Report/Minimization of Drive Test,MR/MDT)数据、用户/业务分布构建的三维数字孪生栅格,通过卷积长短期记忆(Convolutional Long Short Term Memory,Conv-LSTM)算法对栅格内的用户分布、业务分布进行分析和预测,通过Actor-Critic架构对5G波束配置和优化策略进行评估,实现不同场景、时段的5G波束最佳能效,智能适应5G网络潮汐效应,实现“网随业动”。 展开更多
关键词 大规模阵列天线技术 数字孪生 actor-critic算法架构 波束能效
在线阅读 下载PDF
基于Actor-Critic框架的渗透测试路径技术研究
11
作者 陆燕 杨秋芬 《科技资讯》 2022年第21期5-10,共6页
该文将层次强化学习与渗透测试相结合,将渗透测试过程建模为半马尔可夫决策模型,训练Agent在模拟网络环境中完成渗透测试路径发现,并提出了一种改进的基于Actor-Critic框架改进的自动分层记忆AHM-DQN算法(Automatic hierarchical memory... 该文将层次强化学习与渗透测试相结合,将渗透测试过程建模为半马尔可夫决策模型,训练Agent在模拟网络环境中完成渗透测试路径发现,并提出了一种改进的基于Actor-Critic框架改进的自动分层记忆AHM-DQN算法(Automatic hierarchical memory Deep Q Networks,AHM-DQN)。首先,在Actor网络中加入一个双向递归神经网络作为同一Agent的信息交换层;其次,在Critic网络加入其他种类的Agent信息来学习多种Agent协同策略。该算法在Actor-Critic算法上进行了以下改进:一是集成了自动分层功能,对任务目标和动作的选择进行自动分层,提高了算法的效率;二是结合记忆因子,帮助Agent有效地记忆和学习,解决奖励值的稀疏性问题,提高算法精度。该算法在学习效率和收敛速度上优于传统的分层学习算法,解决了渗透测试主要依靠人工进行的问题。 展开更多
关键词 渗透测试 分层学习算法 AHM-DQN算法 actor-critic框架
在线阅读 下载PDF
缓存辅助的移动边缘计算任务卸载与资源分配 被引量:1
12
作者 李致远 陈品润 《计算机工程与设计》 北大核心 2025年第5期1248-1255,共8页
针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,... 针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,上层使用软动作评价算法进行计算任务卸载与资源分配决策。仿真实验结果表明,HRLJCORA算法与现有基线算法相比,有效降低了总开销,相较于联合优化计算任务卸载与资源分配(JORA)算法,卸载决策奖励值提高了13.11%,为用户提供了更优质的服务。 展开更多
关键词 移动边缘计算 缓存辅助 卸载决策 资源分配 分层强化学习 深度Q-learning网络算法 软动作评价算法
在线阅读 下载PDF
面向高比例新能源并网的多智能体协同自动发电控制算法 被引量:1
13
作者 苏寅生 刘蔚 +3 位作者 张野 赵利刚 马骞 任建宇 《高压电器》 北大核心 2025年第5期80-92,共13页
具有强随机性的新能源大规模接入电网,给电网带来愈来愈差的控制性能。具有马尔可夫随机过程特性的强化学习对解决随机性问题具有优势,而面向新能源规模化接入时,其仍面临着无法获取最优解的问题,控制性能并不理想。因此,提出一种价值... 具有强随机性的新能源大规模接入电网,给电网带来愈来愈差的控制性能。具有马尔可夫随机过程特性的强化学习对解决随机性问题具有优势,而面向新能源规模化接入时,其仍面临着无法获取最优解的问题,控制性能并不理想。因此,提出一种价值估计矫正的软演员—评论家多智能体协同深度强化学习算法来获取多区域协同最优解。通过状态—动作的分布值函数减轻价值的过估计问题,从而获取全局最优解。对改进的IEEE标准两区域模型和西南三区域电网模型进行仿真,验证了所提算法的有效性,且与多种控制方法相比,具有更优的控制性及频率稳定性。 展开更多
关键词 自动发电控制 价值估计 软演员—评论家 分布值函数
在线阅读 下载PDF
基于SAC的桥式起重机智能防摇控制
14
作者 唐伟强 王伟 +1 位作者 马瑞 许天鹏 《中国工程机械学报》 北大核心 2025年第3期438-443,共6页
针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输... 针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输入,驱动力作为动作网络的输出。为了提高训练过程中的稳定性,采用4个价值网络,并在价值网络中引入熵正则项和熵加权系数,用于平衡训练过程中探索和利用之间的关系。价值网络通过软更新的方式得到目标网络,从而减少了训练过程中局部最优和发散的情况。最后通过模型训练,得到用于控制的动作网络。结果表明:所提出的智能防摇控制系统对载荷摆角具有很好的抑制作用,而且对载荷质量变化、绳长参数摄动以及外部干扰具有很好的鲁棒性。与基于末端执行器广义运动方法相比,所提出的方法在起重机系统动态性能和抗干扰方面展现出一定的优势。 展开更多
关键词 桥式起重机 摆角控制 软演员评论家算法 强化学习
在线阅读 下载PDF
基于图深度强化学习的有源配电网故障恢复方法
15
作者 何小龙 高红均 +4 位作者 王仁浚 罗龙波 叶萌 黄媛 刘俊勇 《电网技术》 北大核心 2025年第10期4342-4352,I0090-I0094,共16页
配电网的拓扑结构变动频繁,负荷水平和分布式电源(distributed generator,DG)出力的不确定性使得运行场景愈加复杂多变。基于此,提出了一种基于图深度强化学习的有源配电网故障恢复方法。首先,考虑DG与负荷的时变性,构建起基于图注意力... 配电网的拓扑结构变动频繁,负荷水平和分布式电源(distributed generator,DG)出力的不确定性使得运行场景愈加复杂多变。基于此,提出了一种基于图深度强化学习的有源配电网故障恢复方法。首先,考虑DG与负荷的时变性,构建起基于图注意力网络(graph attention network,GAT)与柔性策略-评价(soft actor-critic,SAC)算法相结合的配电网故障恢复框架,介绍故障恢复方法及其算法原理。然后,建立面向配电网故障恢复的图深度强化学习模型,通过将GAT嵌入到SAC算法的前置神经网络来提高智能体对配电网运行状态和拓扑结构的感知能力,并创新性地引入无效动作掩盖机制以规避非法动作,通过智能体与环境进行交互,寻找最优开关动作控制策略,实现高渗透率DG接入下的故障恢复趋优学习。最后,在IEEE33节点和148节点算例进行验证,并与多种基线方法进行对比测试,所提方法可以实现最快毫秒级故障恢复,具有更加高效优越的恢复效果,在拓扑变动下的负荷供电率相较于基准模型提升了4%~5%。 展开更多
关键词 有源配电网 分布式电源 故障恢复 图注意力网络 柔性策略-评价 无效动作掩盖
原文传递
考虑进站策略的网联电动公交车节能驾驶优化研究 被引量:1
16
作者 南斯睿 于谦 +2 位作者 李铁柱 尚赞娣 陈海波 《交通运输系统工程与信息》 北大核心 2025年第2期82-94,共13页
针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。 展开更多
关键词 智能交通 节能驾驶优化 深度强化学习 纯电动公交 柔性演员-评论家算法
在线阅读 下载PDF
考虑多换电站的多无人机应急电力巡检路径规划方法 被引量:1
17
作者 秦文龙 罗贺 +3 位作者 李晓多 阴酉龙 林世忠 王国强 《控制与决策》 北大核心 2025年第8期2391-2399,共9页
多无人机应急电力巡检的时间十分有限,在选择关键巡检目标时需要考虑各目标的故障概率差异,同时为提升巡检效率,可以引进换电站降低无人机续航能力不足的影响.针对上述特点,将考虑多换电站的多无人机应急电力巡检路径规划问题建模为多... 多无人机应急电力巡检的时间十分有限,在选择关键巡检目标时需要考虑各目标的故障概率差异,同时为提升巡检效率,可以引进换电站降低无人机续航能力不足的影响.针对上述特点,将考虑多换电站的多无人机应急电力巡检路径规划问题建模为多站点多航次团队定向问题,并设计一种融合软演员-评论家模型的遗传算法(SAC-GA).首先,在遗传算法中加入两类局部搜索算子,以优化多无人机访问目标的选择和缩短无人机飞行路径距离.其次,提出一种基于SAC模型的参数调优机制,利用SAC模型基于最大熵学习策略的优势,在遗传算法迭代过程中,根据历史学习经验和种群的状态动态生成合适的交叉、变异概率以及染色体再插入中的权距比.实验结果表明,算法在小规模实验和大规模实验上均具有明显优势,并通过消融实验验证SAC-GA中局部搜索算子的有效性和参数调整方法的优越性.最后,通过案例分析验证算法在不同应急场景下的有效性. 展开更多
关键词 团队定向问题 多无人机 路径规划 遗传算法 SAC模型
原文传递
基于高维协同软演员-评论家的多智能体自动发电控制 被引量:1
18
作者 柳丹 任建宇 +3 位作者 席磊 刘治洪 全悦 施宇 《南方电网技术》 北大核心 2025年第4期93-106,共14页
随着新能源渗透率不断提高,风光等新能源出力的强随机性导致电网频率不稳定及控制性能变差。为此,从自动发电控制角度探索一种多智能体强化学习方法,即高维协同软演员-评论家算法。所提算法通过在最大熵框架下鼓励智能体进行随机探索,... 随着新能源渗透率不断提高,风光等新能源出力的强随机性导致电网频率不稳定及控制性能变差。为此,从自动发电控制角度探索一种多智能体强化学习方法,即高维协同软演员-评论家算法。所提算法通过在最大熵框架下鼓励智能体进行随机探索,以解决Q学习及其衍生算法无法快速更新Q表以适应环境变化的问题。同时利用高斯分布策略生成连续动作值,使算法可在高维连续状态空间中寻找协同最优解,以解决传统强化学习高维“状态-动作”的维数灾问题,从而来有效应对新能源出力强随机性所导致的频率不稳定及控制性能变差的问题。通过在改进的IEEE标准两区域负荷频率控制模型及华中三区域负荷频率控制模型上的仿真实验,验证了该算法的有效性,且相较于其他算法,具有更优的控制性能及频率稳定性。 展开更多
关键词 自动发电控制 高维协同 软演员-评论家 多智能体 高斯分布
在线阅读 下载PDF
空天地一体化网络中基于联邦深度强化学习的边缘协作缓存策略 被引量:1
19
作者 刘亮 荆腾祥 +3 位作者 段洁 毛武平 燕洪成 马文杰 《通信学报》 北大核心 2025年第1期93-107,共15页
针对偏远地区网络覆盖范围有限的问题,将空天地一体化网络与移动边缘计算相结合,可以实现这些地区用户请求的低时延和高可靠传输,并能及时提供缓存服务。考虑到空天地一体化网络拓扑的动态变化和内容流行度不断更新的特点,首先提出了一... 针对偏远地区网络覆盖范围有限的问题,将空天地一体化网络与移动边缘计算相结合,可以实现这些地区用户请求的低时延和高可靠传输,并能及时提供缓存服务。考虑到空天地一体化网络拓扑的动态变化和内容流行度不断更新的特点,首先提出了一种空天地一体化边缘协作缓存的网络架构。然后,将边缘服务器的缓存替换问题建模为马尔可夫决策过程。最后,提出了一种联邦离散柔性演员评论家(FDSAC)算法,其核心思想是将加权注意力机制融入联邦学习框架中,并将双向长短期记忆网络集成到DSAC模型。以重构后的奖励函数为优化目标,通过最大化长期负奖励的期望来学习最优的缓存替换策略。仿真结果表明,与其他算法相比,所提算法可以在保护用户隐私的前提下,将用户请求的缓存命中率提高18%,内容的访问时延降低25%。 展开更多
关键词 空天地一体化网络 移动边缘计算 缓存 离散柔性演员评论家 联邦学习
在线阅读 下载PDF
LoRa网络中基于深度强化学习的信息年龄优化
20
作者 程克非 陈彩蝶 +1 位作者 罗佳 陈前斌 《电子与信息学报》 北大核心 2025年第2期541-550,共10页
信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指... 信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指出,在LoRa上行传输过程中,随着数据包数量增多,AoI主要受到数据包碰撞影响。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该文采用连续动作空间映射离散动作空间的方式,使用柔性动作-评价(SAC)算法对LoRa网络下的AoI进行优化。仿真结果显示,SAC算法优于传统算法与传统深度强化学习算法,可有效降低网络的平均AoI。 展开更多
关键词 信息年龄 LoRa 柔性动作-评价算法 深度强化学习 优化策略
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部