期刊文献+
共找到425篇文章
< 1 2 22 >
每页显示 20 50 100
A Dynamic Deceptive Defense Framework for Zero-Day Attacks in IIoT:Integrating Stackelberg Game and Multi-Agent Distributed Deep Deterministic Policy Gradient
1
作者 Shigen Shen Xiaojun Ji Yimeng Liu 《Computers, Materials & Continua》 2025年第11期3997-4021,共25页
The Industrial Internet of Things(IIoT)is increasingly vulnerable to sophisticated cyber threats,particularly zero-day attacks that exploit unknown vulnerabilities and evade traditional security measures.To address th... The Industrial Internet of Things(IIoT)is increasingly vulnerable to sophisticated cyber threats,particularly zero-day attacks that exploit unknown vulnerabilities and evade traditional security measures.To address this critical challenge,this paper proposes a dynamic defense framework named Zero-day-aware Stackelberg Game-based Multi-Agent Distributed Deep Deterministic Policy Gradient(ZSG-MAD3PG).The framework integrates Stackelberg game modeling with the Multi-Agent Distributed Deep Deterministic Policy Gradient(MAD3PG)algorithm and incorporates defensive deception(DD)strategies to achieve adaptive and efficient protection.While conventional methods typically incur considerable resource overhead and exhibit higher latency due to static or rigid defensive mechanisms,the proposed ZSG-MAD3PG framework mitigates these limitations through multi-stage game modeling and adaptive learning,enabling more efficient resource utilization and faster response times.The Stackelberg-based architecture allows defenders to dynamically optimize packet sampling strategies,while attackers adjust their tactics to reach rapid equilibrium.Furthermore,dynamic deception techniques reduce the time required for the concealment of attacks and the overall system burden.A lightweight behavioral fingerprinting detection mechanism further enhances real-time zero-day attack identification within industrial device clusters.ZSG-MAD3PG demonstrates higher true positive rates(TPR)and lower false alarm rates(FAR)compared to existing methods,while also achieving improved latency,resource efficiency,and stealth adaptability in IIoT zero-day defense scenarios. 展开更多
关键词 Industrial internet of things zero-day attacks Stackelberg game distributed deep deterministic policy gradient defensive spoofing dynamic defense
在线阅读 下载PDF
Perception Enhanced Deep Deterministic Policy Gradient for Autonomous Driving in Complex Scenarios
2
作者 Lyuchao Liao Hankun Xiao +3 位作者 Pengqi Xing Zhenhua Gan Youpeng He Jiajun Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期557-576,共20页
Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonom... Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonomous driving due to the unpredictable entry and exit of vehicles,susceptibility to traffic flow bottlenecks,and imperfect data in perceiving environmental information,rendering them a vital issue in the practical application of autonomous driving.To address the traffic challenges,this work focused on complex roundabouts with multi-lane and proposed a Perception EnhancedDeepDeterministic Policy Gradient(PE-DDPG)for AutonomousDriving in the Roundabouts.Specifically,themodel incorporates an enhanced variational autoencoder featuring an integrated spatial attention mechanism alongside the Deep Deterministic Policy Gradient framework,enhancing the vehicle’s capability to comprehend complex roundabout environments and make decisions.Furthermore,the PE-DDPG model combines a dynamic path optimization strategy for roundabout scenarios,effectively mitigating traffic bottlenecks and augmenting throughput efficiency.Extensive experiments were conducted with the collaborative simulation platform of CARLA and SUMO,and the experimental results show that the proposed PE-DDPG outperforms the baseline methods in terms of the convergence capacity of the training process,the smoothness of driving and the traffic efficiency with diverse traffic flow patterns and penetration rates of autonomous vehicles(AVs).Generally,the proposed PE-DDPGmodel could be employed for autonomous driving in complex scenarios with imperfect data. 展开更多
关键词 Autonomous driving traffic roundabouts deep deterministic policy gradient spatial attention mechanisms
在线阅读 下载PDF
Optimizing the Multi-Objective Discrete Particle Swarm Optimization Algorithm by Deep Deterministic Policy Gradient Algorithm
3
作者 Sun Yang-Yang Yao Jun-Ping +2 位作者 Li Xiao-Jun Fan Shou-Xiang Wang Zi-Wei 《Journal on Artificial Intelligence》 2022年第1期27-35,共9页
Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains ... Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains to be determined.The present work aims to probe into this topic.Experiments showed that the DDPG can not only quickly improve the convergence speed of MODPSO,but also overcome the problem of local optimal solution that MODPSO may suffer.The research findings are of great significance for the theoretical research and application of MODPSO. 展开更多
关键词 Deep deterministic policy gradient multi-objective discrete particle swarm optimization deep reinforcement learning machine learning
在线阅读 下载PDF
Optimum scheduling of truck-based mobile energy couriers(MEC)using deep deterministic policy gradient
4
作者 Yaze Li Jingxian Wu Yanjun Pan 《Intelligent and Converged Networks》 2025年第3期195-208,共14页
We propose a new architecture of truck-based mobile energy couriers(MEC)for power distribution networks with high penetration of renewable energy sources(RES).Each MEC is a truck equipped with high-density inverters,c... We propose a new architecture of truck-based mobile energy couriers(MEC)for power distribution networks with high penetration of renewable energy sources(RES).Each MEC is a truck equipped with high-density inverters,converters,capacitor banks,and energy storage devices.The MEC platform can improve the flexibility,resilience,and RES hosting capability of a distribution grid through spatial-temporal energy reallocation based on the stochastic behaviors of RES and loads.The employment of MEC necessitates the development of complex scheduling and control schemes that can adaptively cope with the dynamic natures of both the power grid and the transportation network.The problem is formulated as a non-convex optimization problem to minimize the total generation cost,subject to the various constraints imposed by conventional and renewable energy sources,energy storage,and transportation networks,etc.The problem is solved by combining optimal power flow(OPF)with deep reinforcement learning(DRL)under the framework of deep deterministic policy gradient(DDPG).Simulation results demonstrate that the proposed MEC platform with DDPG can achieve significant cost reduction compared to conventional systems with static energy storage. 展开更多
关键词 transportation network renewable energy integration mobile energy couriers(MECs) markov decision process(MDP) deep deterministic policy gradient(DDPG)
原文传递
DDPG优化算法的改进型自抗扰风电机组桨距角控制
5
作者 徐晓宁 范召强 +3 位作者 周雪松 陶珑 问虎龙 杨风霞 《太阳能学报》 北大核心 2026年第1期575-584,共10页
为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)... 为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)基础上引入自由扩张维度的状态变量,并对增阶后的参数基于比例微分形式进行改进,以提高对扰动的顺馈矫正能力。随后根据发电机转速误差设计合适的奖励函数,利用DDPG算法使改进后的线性自抗扰控制(LADRC)参数能够自适应调整,实现最优的控制效果。仿真结果表明,所提策略能有效应对风速剧烈波动,使桨距角能快速适应风速变化,从而维持风电机组的稳定运行和电能的高效输出。 展开更多
关键词 风电机组 桨距角 线性自抗扰控制 深度确定性策略梯度 奖励函数 参数整定
原文传递
自适应与多目标优化的VSG低频振荡TD3 控制策略
6
作者 李永刚 周鹤然 +1 位作者 周一辰 魏凡超 《辽宁工程技术大学学报(自然科学版)》 北大核心 2026年第1期98-106,共9页
针对虚拟同步机(VSG)接入弱电网频发的低频振荡问题,提出一种融合动态惯量-阻尼协同调节与多模态双延迟深度确定性策略梯度算法的VSG智能控制方法。构建包含动态惯性-阻尼调节机制的增强型VSG模型,基于频率波动标准差与变化率的实时监测... 针对虚拟同步机(VSG)接入弱电网频发的低频振荡问题,提出一种融合动态惯量-阻尼协同调节与多模态双延迟深度确定性策略梯度算法的VSG智能控制方法。构建包含动态惯性-阻尼调节机制的增强型VSG模型,基于频率波动标准差与变化率的实时监测,设计参数连续自适应算法,实现惯量常数H和阻尼系数D的动态协同优化。设计深度前馈神经网络的振荡感知型定性策略梯度算法(TD3),采用双状态经验回放缓冲区结构,将低频振荡特征向量嵌入训练样本,并构建包含频率偏差惩罚、电压偏移抑制和振荡能量约束的多目标奖励函数。仿真和实际算例结果表明,该策略可实现VSG低频振荡的在线快速准确评估,增强系统阻尼与惯量,减少低频振荡风险,改善系统的稳定性。 展开更多
关键词 虚拟同步机 低频振荡抑制 阻尼系数 动态惯量调节 双延迟深度确定性策略梯度算法
原文传递
MEC网络中双延迟深度确定性策略梯度的能效优化算法
7
作者 吴名星 《空天预警研究学报》 2026年第1期52-56,共5页
为解决动态移动边缘计算(MEC)网络中任务卸载与资源分配的能效优化问题,针对传统算法适应性差、强化学习算法稳定性不足的缺陷,提出基于双延迟深度确定性策略梯度(twin delayed DDPG, TD3)的能效优化(TD3-EE)算法.首先,考虑任务异构性... 为解决动态移动边缘计算(MEC)网络中任务卸载与资源分配的能效优化问题,针对传统算法适应性差、强化学习算法稳定性不足的缺陷,提出基于双延迟深度确定性策略梯度(twin delayed DDPG, TD3)的能效优化(TD3-EE)算法.首先,考虑任务异构性与动态资源状态构建了系统模型,建立时延约束下的能效最大化目标函数;然后,将问题转化为马尔可夫决策过程(MDP)模型,并利用TD3算法双Critic网络与延迟更新机制提升决策稳定性.仿真结果表明,该算法在任务完成率、能耗控制及收敛稳定性上优于DDPG-EE、TPBA算法. 展开更多
关键词 移动边缘计算 双延迟深度确定性策略梯度 任务卸载 资源分配
在线阅读 下载PDF
基于马尔科夫转换场与深度确定性策略梯度算法的VSC-HVDC系统控制参数优化方法
8
作者 朱介北 黄闽杰 +3 位作者 俞露杰 欧开健 刘晓龙 贾宏杰 《中国电机工程学报》 北大核心 2026年第5期1821-1832,I0008,共13页
针对柔性直流输电系统(voltage source converter based high voltage direct current transmission,VSC-HVDC)控制参数设计过程中存在的鲁棒性差、依赖已知电路参数、工程设计经验化等问题,提出一种基于马尔科夫转换场(Markov transiti... 针对柔性直流输电系统(voltage source converter based high voltage direct current transmission,VSC-HVDC)控制参数设计过程中存在的鲁棒性差、依赖已知电路参数、工程设计经验化等问题,提出一种基于马尔科夫转换场(Markov transition field,MTF)与深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)结合的鲁棒性强、不依赖电路参数特性以及可视化的VSC-HVDC控制参数优化设计方法。首先,采用马尔科夫转换场将电路功率、电压等一维时序波形数据转换为二维马尔科夫转换场域图像并使用马尔科夫转换场损失函数(Markov transition field loss,MTFL)判断二维转换域图的数据波动性;其次,将MTFL损失函数与DDPG算法相结合,综合利用MTFL损失函数对系统输出时序数据动态特性评价能力更强的优点和DDPG算法泛化性能优秀的特点,实现VSC-HVDC系统控制参数优化;最后,通过MATLAB模拟和实验结果验证该方法的有效性。 展开更多
关键词 柔性直流输电 控制参数优化 马尔科夫转换场损失函数 马尔科夫转换场 深度确定性策略梯度算法
原文传递
基于深度强化学习的多无人车协同路径规划方法
9
作者 戴晟潭 王寅 尚晨晨 《北京航空航天大学学报》 北大核心 2026年第2期541-550,共10页
为解决多无人车系统中的协同路径规划问题,利用深度强化学习方法,设计了一种高效的路径规划框架。构建基于双轮差速无人车的运动学模型和协同避障场景的数学模型;在此基础上,进一步分析深度强化学习在处理高维度状态空间和连续动作空间... 为解决多无人车系统中的协同路径规划问题,利用深度强化学习方法,设计了一种高效的路径规划框架。构建基于双轮差速无人车的运动学模型和协同避障场景的数学模型;在此基础上,进一步分析深度强化学习在处理高维度状态空间和连续动作空间等复杂动态场景时训练速度慢、采样效率低和适应能力差的机理,为多无人车协同路径规划研究提供理论基础。针对全部可观测条件下多无人车协同路径规划避障围捕的策略生成问题,提出改进双延迟深度确定性策略梯度(AE-TD3)算法,在围捕无人车输出的动作上添加来自高斯分布的随机噪声,并权衡探索或利用输出动作,使围捕无人车在未知环境中能更有效地探索,实现多无人车高效稳定的协同避障围捕。仿真实验表明,改进算法相较于双延迟深度确定性策略梯度(TD3)算法,平均奖励的收敛速度更快,围捕时间缩短16.7%,验证了改进算法的可行性。 展开更多
关键词 路径规划 协同避障和围捕 深度强化学习 双延迟深度确定性策略梯度算法 动作增强探索策略
原文传递
基于知识嵌入型深度强化学习的电力系统频率紧急控制方法
10
作者 李佳旭 吴俊勇 +2 位作者 史法顺 张振远 李栌苏 《电力系统自动化》 北大核心 2026年第1期97-107,共11页
随着新型电力系统建设的快速推进,电力系统频率安全面临的挑战愈发严峻,当系统发生故障导致频率失稳时,采取紧急控制恢复频率稳定至关重要。文中提出一种基于知识嵌入型深度强化学习(DRL)的电力系统频率紧急控制方法。首先,将频率紧急... 随着新型电力系统建设的快速推进,电力系统频率安全面临的挑战愈发严峻,当系统发生故障导致频率失稳时,采取紧急控制恢复频率稳定至关重要。文中提出一种基于知识嵌入型深度强化学习(DRL)的电力系统频率紧急控制方法。首先,将频率紧急控制问题转化为马尔可夫模型,以仿真系统为强化学习环境,并基于深度确定性策略梯度(DDPG)算法构建深度强化学习智能体。此外,通过理论知识引导动作空间优化,综合考虑高频切机与低频减载两类场景。最后,在IEEE 39节点系统中进行控制效果测试,结果表明:深度强化学习智能体能够给出有效的频率紧急控制策略,维护系统频率安全;知识嵌入的方法改善了模型的训练稳定性,能显著提高智能体的策略学习效率与决策质量。 展开更多
关键词 人工智能 新型电力系统 频率安全 频率紧急控制 深度强化学习 深度确定性策略梯度 高频切机 低频减载
在线阅读 下载PDF
并行异速机批量混合流水车间动态调度方法研究
11
作者 昝云磊 刘贵杰 +4 位作者 王川 张玮 刘新宇 钟正彬 张金营 《机电工程》 北大核心 2026年第1期102-116,共15页
针对电站锅炉屏式管屏制造中多动态事件耦合导致的调度响应滞后及多目标协同优化难题,提出了一种基于深度强化学习的动态调度方法。首先,构建了并行异速机批量混合流水车间调度模型(LSHFSP-Qm),以精确描述异构机器速度、批量转移和能耗... 针对电站锅炉屏式管屏制造中多动态事件耦合导致的调度响应滞后及多目标协同优化难题,提出了一种基于深度强化学习的动态调度方法。首先,构建了并行异速机批量混合流水车间调度模型(LSHFSP-Qm),以精确描述异构机器速度、批量转移和能耗等生产约束条件;然后,基于双延迟深层确定性策略梯度(TD3)算法框架,采用长短时记忆(LSTM)网络重构了策略网络以增强时序特征提取能力,同时,设计了多级奖励机制,集成处理了时差、能耗和订单延迟的惩罚,从而构建了灵活自适应的动态事件驱动多目标重调度机制;最后,通过多组基准算例和车间实验验证了该方法的有效性。研究结果表明:改进TD3算法较传统深度强化学习方法提供了更好的近优解;在某屏式管屏车间中,调度效率提升了309.09%,动态事件反应速度提升了300%,综合生产效率间接提升了14.29%,订单拖期时间缩短了66.7%,生产线设备平均能耗降低了5%。该方法可有效协调多目标冲突,显著增强算法复杂动态环境中的适应性,可为装备制造业车间调度智能化转型提供可行方案。 展开更多
关键词 并行异速机批量混合流水车间调度问题 柔性制造系统及单元 双延迟深层确定性策略梯度算法 深度强化学习 动态调度 多目标优化
在线阅读 下载PDF
面向有向网络下异构多智能体系统的抗毁性优化机制研究
12
作者 段刘祺 熊唯韬 +3 位作者 尹子硕 毛伯敏 郭鸿志 慕德俊 《移动通信》 2026年第1期87-95,102,共10页
面向6G智能无线安全通信网络,针对分布式基站、边缘计算节点及无人机辅助通信等异构有向多智能体系统(MAS)在动态电磁环境中抗毁性不足的问题,提出一种面向功能约束的抗毁性优化机制。该机制基于节点功能属性构建效能量化模型,建立融合... 面向6G智能无线安全通信网络,针对分布式基站、边缘计算节点及无人机辅助通信等异构有向多智能体系统(MAS)在动态电磁环境中抗毁性不足的问题,提出一种面向功能约束的抗毁性优化机制。该机制基于节点功能属性构建效能量化模型,建立融合连通鲁棒性、路径可达性与功能均衡度的综合性能评估体系,将抗毁性优化问题形式化为图优化问题,并采用多智能体深度确定性策略梯度(MADDPG)算法实现智能化动态拓扑重构,保障无线网络在节点失效或遭受攻击时的安全通信连续性。仿真结果表明,所提方法在网络恢复率、可扩展性和规模适应能力方面均优于传统算法,为6G网络中智能化、自主化的安全体系建设提供了有效技术支撑。 展开更多
关键词 多智能体系统 抗毁性 拓扑重构 异构网络 MADDPG
在线阅读 下载PDF
基于改进深度确定性策略梯度算法的发电商竞价策略研究
13
作者 冯景康 荆朝霞 《电气自动化》 2026年第1期69-71,共3页
为了有效反映电力市场主体充分考虑自身禀赋以及可行申报空间后可能形成的复杂策略,提出了一种发电商竞价策略优化求解方法。首先,构建了考虑发电商申报容量灵活配置的电力市场竞价模型,应用深度确定性策略梯度算法对所提模型进行求解;... 为了有效反映电力市场主体充分考虑自身禀赋以及可行申报空间后可能形成的复杂策略,提出了一种发电商竞价策略优化求解方法。首先,构建了考虑发电商申报容量灵活配置的电力市场竞价模型,应用深度确定性策略梯度算法对所提模型进行求解;其次,通过改进原算法的探索策略,提高了算法探索效率;最后,通过算例对比不同报价模型以及算法下竞价策略求解的效果。结果表明,所提模型提升了竞价策略的灵活性,所提算法改进提升了算法探索效率。 展开更多
关键词 电力市场 经济调度 竞价策略 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于动态权重多指标经验回放的MADDPG算法研究
14
作者 胡金泽 唐宏伟 +2 位作者 程翰超 谢培淼 贺露谊 《农业装备与车辆工程》 2026年第1期73-80,共8页
针对多智能体深度强化学习中传统经验回放机制存在的评估指标单一与权重策略静态化问题,提出一种基于动态权重多指标经验回放的改进MADDPG算法。设计了多维度经验评估体系,将时序差分误差、经验年龄和合作贡献度3个指标系统融合,实现对... 针对多智能体深度强化学习中传统经验回放机制存在的评估指标单一与权重策略静态化问题,提出一种基于动态权重多指标经验回放的改进MADDPG算法。设计了多维度经验评估体系,将时序差分误差、经验年龄和合作贡献度3个指标系统融合,实现对经验样本价值的全面评估;提出了动态权重调整机制,通过训练进程自适应的权重系数调整,使算法在训练初期注重个体价值函数准确性,后期偏向团队协作优化;构建了协作感知的优先级框架,通过合作贡献度指标显式量化经验在多智能体协作中的价值,提升团队协作效率。在OpenAI多智能体粒子环境的3个典型场景中的实验结果表明:与对比算法相比,所提算法在平均回合奖励、目标达成率与冲突规避率等关键性能指标上均有提升,收敛速度更快,验证了其有效性与优越性。 展开更多
关键词 多智能体强化学习 多智能体深度确定性策略梯度算法 经验回放 动态权重 合作贡献度 协作探索
在线阅读 下载PDF
基于深度强化学习的柑橘黄龙病智能动态防控策略
15
作者 张勇威 骆智聪 +1 位作者 邓小玲 兰玉彬 《华南农业大学学报》 北大核心 2026年第1期74-85,共12页
【目的】柑橘黄龙病(Citrus Huanglongbing,HLB)传播受多重动态因素耦合影响,传统最优控制方法因计算复杂度高且依赖精确模型,导致其在实际应用中存在局限性。为解决这一问题,本文提出了一种基于双延迟深度确定性策略梯度(Twin delayed ... 【目的】柑橘黄龙病(Citrus Huanglongbing,HLB)传播受多重动态因素耦合影响,传统最优控制方法因计算复杂度高且依赖精确模型,导致其在实际应用中存在局限性。为解决这一问题,本文提出了一种基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)的HLB智能动态防控方法。【方法】首先,构建融合宿主−媒介交互机制的HLB传播控制动力学模型,并通过离散化处理将其转化为马尔科夫决策过程环境;随后,引入TD3算法,设计生物约束兼容的多目标奖励函数;最后,提出HLB防控策略。【结果】仿真试验结果表明,与DDPG、PPO等传统算法相比,本文提出的基于TD3的HLB动态防控策略在多项关键指标上均呈现出明显优势,系统状态收敛至无病平衡点的速度分别提升了26.59%和20.99%;累计控制成本分别降低了23.79%和19.90%;杀虫剂峰值使用量减少了约35.57%。数值分析结果进一步表明,在HLB爆发初期,及时喷洒杀虫剂干预对阻断HLB传播链具有关键作用;动态防控策略相较于恒定控制策略,在抑制病害扩散效果和降低实施控制的成本方面更具优势。【结论】本研究提出的基于TD3的HLB防控方法为高效控制HLB传播提供了新的视角,展示了深度强化学习方法在农业病害防控中的潜力。 展开更多
关键词 柑橘黄龙病 深度强化学习 双延迟深度确定性策略梯度 最优控制 防控策略
在线阅读 下载PDF
无小区大规模MIMO的接入点选择与卸载优化
16
作者 陈丽琼 杨新元 孙怀英 《计算机工程与应用》 北大核心 2026年第4期324-334,共11页
在移动边缘计算(mobile edge computing,MEC)中,为了满足低延时服务的需求,基于无小区大规模多输入多输出(cell-free massive multiple-input multiple-output,CF-mMIMO)的MEC系统正在成为一种有效的解决方案。然而,由于接入点集分配的... 在移动边缘计算(mobile edge computing,MEC)中,为了满足低延时服务的需求,基于无小区大规模多输入多输出(cell-free massive multiple-input multiple-output,CF-mMIMO)的MEC系统正在成为一种有效的解决方案。然而,由于接入点集分配的复杂性和网络资源的动态性,MEC系统在接入点分配和延迟优化方面面临挑战,这也制约了系统的整体效率和用户体验。针对上述问题,构建了一种基于开放式无线接入网络(open radio access network,O-RAN)和CF-mMIMO技术的MEC系统架构,并通过联合优化用户接入点分配和任务卸载策略,以最小化系统时延和能耗。提出一种基于模糊逻辑(fuzzy logic,FL)与双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的优化算法(FL-TD3)。其中模糊逻辑模块依据系统状态和环境特征构建先验决策,以降低TD3算法中决策空间维度高导致的优化难度。基于构建的先验决策,TD3算法通过超网络自适应优化先验决策,提高策略对动态环境的适应性。仿真结果表明,与TD3算法、DDPG(deep deterministic policy gradient)算法、Random算法相比,FL-TD3算法在优化用户平均时延和能耗上的性能有显著提升。 展开更多
关键词 边缘计算卸载 深度强化学习 任务卸载 双延迟深度确定性策略梯度(TD3) 模糊逻辑
在线阅读 下载PDF
融合强化学习的无模型自适应控制末端执行器恒力控制
17
作者 凌泽懿 张树忠 +2 位作者 唐一文 周杰 赵卫 《液压与气动》 北大核心 2026年第1期51-60,共10页
针对气动打磨系统中存在的非线性强、扰动敏感与建模困难等问题,提出一种基于强化学习双延迟深度确定性策略梯度的无模型自适应控制策略:双延迟深度确定性策略梯度无模型自适应控制,在MATLAB/Simulink中构建了气动加载系统模型,设计所... 针对气动打磨系统中存在的非线性强、扰动敏感与建模困难等问题,提出一种基于强化学习双延迟深度确定性策略梯度的无模型自适应控制策略:双延迟深度确定性策略梯度无模型自适应控制,在MATLAB/Simulink中构建了气动加载系统模型,设计所提出的控制策略控制架构,并定义其状态-动作与复合奖励函数,开展四种工况的仿真研究。仿真结果表明,所提出的控制策略控制效果最优。在恒力加载下,该控制策略无明显超调、调整时间为0.94 s;在干扰加载中,两次扰动的最大偏差分别为3.0 N和3.2 N;在正弦力加载中,该控制策略输出更贴近目标曲线,误差为0.16 N;在变角度加载中,该控制策略误差减小0.4 N。综上,所提出的控制策略在复杂非线性气动系统中表现出更高的控制精度、响应速度与鲁棒性,具有良好的工程应用价值。 展开更多
关键词 气动打磨 无模型自适应控制 强化学习 双延迟深度确定性策略梯度 恒力控制
在线阅读 下载PDF
Noise-driven enhancement for exploration:Deep reinforcement learning for UAV autonomous navigation in complex environments
18
作者 Haotian ZHANG Yiyang LI +1 位作者 Lingquan CHENG Jianliang AI 《Chinese Journal of Aeronautics》 2026年第1期454-471,共18页
Unmanned Aerial Vehicle(UAV)plays a prominent role in various fields,and autonomous navigation is a crucial component of UAV intelligence.Deep Reinforcement Learning(DRL)has expanded the research avenues for addressin... Unmanned Aerial Vehicle(UAV)plays a prominent role in various fields,and autonomous navigation is a crucial component of UAV intelligence.Deep Reinforcement Learning(DRL)has expanded the research avenues for addressing challenges in autonomous navigation.Nonetheless,challenges persist,including getting stuck in local optima,consuming excessive computations during action space exploration,and neglecting deterministic experience.This paper proposes a noise-driven enhancement strategy.In accordance with the overall learning phases,a global noise control method is designed,while a differentiated local noise control method is developed by analyzing the exploration demands of four typical situations encountered by UAV during navigation.Both methods are integrated into a dual-model for noise control to regulate action space exploration.Furthermore,noise dual experience replay buffers are designed to optimize the rational utilization of both deterministic and noisy experience.In uncertain environments,based on the Twin Delay Deep Deterministic Policy Gradient(TD3)algorithm with Long Short-Term Memory(LSTM)network and Priority Experience Replay(PER),a Noise-Driven Enhancement Priority Memory TD3(NDE-PMTD3)is developed.We established a simulation environment to compare different algorithms,and the performance of the algorithms is analyzed in various scenarios.The training results indicate that the proposed algorithm accelerates the convergence speed and enhances the convergence stability.In test experiments,the proposed algorithm successfully and efficiently performs autonomous navigation tasks in diverse environments,demonstrating superior generalization results. 展开更多
关键词 Action space exploration Autonomous navigation Deep reinforcement learning Twin delay deep deterministic policy gradient Unmanned aerial vehicle
原文传递
基于改进DDPG算法的水下机器人运动位置控制分析
19
作者 林四敏 《拖拉机与农用运输车》 2026年第1期93-95,98,共4页
深度确定性策略梯度(DDPG)算法在应用到水下机器人(ROV)运动控制方面存在计算不稳定性的情况,为此通过考虑参数噪声对DDPG算法进行改进,并成功应用于ROV位置控制上。将预设水下目标坐标作为系统输入,经计算处理后输出精确控制指令,通过... 深度确定性策略梯度(DDPG)算法在应用到水下机器人(ROV)运动控制方面存在计算不稳定性的情况,为此通过考虑参数噪声对DDPG算法进行改进,并成功应用于ROV位置控制上。将预设水下目标坐标作为系统输入,经计算处理后输出精确控制指令,通过协调控制各推进器的输出功率,实现预期控制效果。研究结果表明:偏航角超调量出现轻微超调并迅速在60 s时恢复稳定。对传统PID方法,改进DDPG控制策略相具有显著优势,系统响应速度更快,表明该研究具有很好的有效性。 展开更多
关键词 水下机器人 深度确定性策略梯度 参数噪声 运动控制
在线阅读 下载PDF
基于分布式MAS的医院管理信息系统编队控制研究
20
作者 吴冬宇 刘继钰 李辕 《微型电脑应用》 2026年第1期217-220,共4页
在面对日益增长的医疗管理需求时,传统的医院管理信息系统难以满足现代化需求。因此,以多智能体系统(MAS)为框架基础,通过引入深度确定性策略梯度算法,提出一种新型编队控制算法。测试结果表明,与现有较为先进的算法相比,所提出的算法... 在面对日益增长的医疗管理需求时,传统的医院管理信息系统难以满足现代化需求。因此,以多智能体系统(MAS)为框架基础,通过引入深度确定性策略梯度算法,提出一种新型编队控制算法。测试结果表明,与现有较为先进的算法相比,所提出的算法更具高效性和实用性,显著提高了医院管理信息系统的资源分配效率和管理效果。 展开更多
关键词 多智能体系统 深度确定性策略梯度算法 医院信息 编队 资源分配
在线阅读 下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部