期刊文献+
共找到332篇文章
< 1 2 17 >
每页显示 20 50 100
基于DRL的大规模定制装配车间调度研究
1
作者 屈新怀 张慧慧 +1 位作者 丁必荣 孟冠军 《合肥工业大学学报(自然科学版)》 北大核心 2025年第7期878-883,共6页
针对大规模定制装配车间中订单的随机性和偶然性问题,文章提出一种基于深度强化学习(deep reinforcement learning,DRL)的大规模定制装配车间作业调度优化方法。建立以最小化产品组件更换次数和最小化订单提前/拖期惩罚为目标的大规模... 针对大规模定制装配车间中订单的随机性和偶然性问题,文章提出一种基于深度强化学习(deep reinforcement learning,DRL)的大规模定制装配车间作业调度优化方法。建立以最小化产品组件更换次数和最小化订单提前/拖期惩罚为目标的大规模定制装配车间作业调度优化模型,基于调度模型建立马尔科夫决策过程,合理定义状态、动作和奖励函数;将调度模型优化问题与DRL方法相结合,并采用改进的D3QN算法进行模型求解;最后进行仿真实验验证。结果表明,文章所提方法能有效减少产品组件更换次数和降低订单提前/拖期惩罚。 展开更多
关键词 大规模定制 装配车间 深度强化学习(drl) 车间作业调度 调度优化模型
在线阅读 下载PDF
一种基于DRL的分布式装备体系优选方法
2
作者 王子怡 张凯 +1 位作者 钱殿伟 刘玉贞 《系统仿真学报》 北大核心 2025年第6期1565-1573,共9页
针对传统算法在大规模场景中求解速度不足且适应性较差的问题,基于DRL对大规模分布式装备体系优选问题进行智能化求解。根据分布式装备体系作战的特点,利用复杂网络对其进行图形式建模,并基于注意力机制对装备间的连边关系进行表征,构... 针对传统算法在大规模场景中求解速度不足且适应性较差的问题,基于DRL对大规模分布式装备体系优选问题进行智能化求解。根据分布式装备体系作战的特点,利用复杂网络对其进行图形式建模,并基于注意力机制对装备间的连边关系进行表征,构建分布式装备体系数字仿真环境。仿真结果表明:与遗传进化算法相比,该模型在求解时间、适应性等方面优势明显,有效提高了大规模分布式装备体系优选决策模型的性能。 展开更多
关键词 drl 图神经网络 注意力机制 复杂网络 分布式装备体系
原文传递
基于DRL的RIS辅助空地一体化网络多目标优化
3
作者 李大卓 杨毅 钱道庆 《计算机辅助工程》 2025年第2期65-71,共7页
针对可重构智能表面(reconfigurable intelligence surface,RIS)辅助空地一体化网络(integrated aerial-terrestrial networks,IATNs)中多目标优化问题,提出一种利用深度强化学习(deep reinforcement learning,DRL)联合优化主动发射波... 针对可重构智能表面(reconfigurable intelligence surface,RIS)辅助空地一体化网络(integrated aerial-terrestrial networks,IATNs)中多目标优化问题,提出一种利用深度强化学习(deep reinforcement learning,DRL)联合优化主动发射波束成形矩阵、被动RIS反射波束成形矩阵和无人机(unmanned aerial vehicle,UAV)轨迹的算法框架。利用基站主动波束成形技术和非正交多址接入(non-orthogonal multiple access,NOMA)技术,建立系统和速率最大化的多目标约束优化模型。用基于DRL的深度确定性策略梯度(deep deterministic policy gradient,DDPG)框架优化基站主动发射波束成形矩阵、RIS被动反射波束成形矩阵和UAV轨迹。结果表明:DDPG框架集成自适应算子机制,在系统性能、执行时间以及更高的计算速度方面都优于传统迭代优化标准方案,系统和速率能提升18%左右。 展开更多
关键词 可重构智能表面(RIS) 空地一体化网络(IATNs) 非正交多址协议(NOMA) 深度强化学习(drl) 深度确定性策略梯度(DDPG) 无人机(UAV)
在线阅读 下载PDF
基于DRL的节能自动驾驶研究综述
4
作者 周江 《中国储运》 2025年第3期53-53,共1页
随着对环境可持续性关注的日益增强,自动驾驶车辆的节能驾驶技术成为一个备受研究关注的领域。深度强化学习(DRL)作为一种强大的决策优化工具,为实现自动驾驶车辆的节能目标提供了新的途径。本文综述了深度强化学习在节能自动驾驶车辆... 随着对环境可持续性关注的日益增强,自动驾驶车辆的节能驾驶技术成为一个备受研究关注的领域。深度强化学习(DRL)作为一种强大的决策优化工具,为实现自动驾驶车辆的节能目标提供了新的途径。本文综述了深度强化学习在节能自动驾驶车辆中的研究现状。 展开更多
关键词 自动驾驶 深度强化学习 节能驾驶 环境可持续性 drl 节能目标 决策优化 研究综述
在线阅读 下载PDF
DRL-based federated self-supervised learning for task offloading and resource allocation in ISAC-enabled vehicle edge computing
5
作者 Xueying Gu Qiong Wu +3 位作者 Pingyi Fan Nan Cheng Wen Chen Khaled B.Letaief 《Digital Communications and Networks》 2025年第5期1614-1627,共14页
Intelligent Transportation Systems(ITS)leverage Integrated Sensing and Communications(ISAC)to enhance data exchange between vehicles and infrastructure in the Internet of Vehicles(IoV).This integration inevitably incr... Intelligent Transportation Systems(ITS)leverage Integrated Sensing and Communications(ISAC)to enhance data exchange between vehicles and infrastructure in the Internet of Vehicles(IoV).This integration inevitably increases computing demands,risking real-time system stability.Vehicle Edge Computing(VEC)addresses this by offloading tasks to Road Side Units(RSUs),ensuring timely services.Our previous work,the FLSimCo algorithm,which uses local resources for federated Self-Supervised Learning(SSL),has a limitation:vehicles often can’t complete all iteration tasks.Our improved algorithm offloads partial tasks to RSUs and optimizes energy consumption by adjusting transmission power,CPU frequency,and task assignment ratios,balancing local and RSU-based training.Meanwhile,setting an offloading threshold further prevents inefficiencies.Simulation results show that the enhanced algorithm reduces energy consumption and improves offloading efficiency and accuracy of federated SSL. 展开更多
关键词 Integrated sensing and communications(ISAC) Federated self-supervised learning Resource allocation and offloading Deep reinforcement learning(drl) Vehicle edge computing(VEC)
在线阅读 下载PDF
面向通信空白场景的DRL辅助FANET双跳信息增强路由协议
6
作者 郭歆莹 李明 朱春华 《无线电通信技术》 北大核心 2025年第5期929-939,共11页
针对飞行自组网(Flying Ad Hoc Network,FANET)在通信空白场景下存在的高时延问题,提出了一种深度强化学习(Deep Reinforcement Learning,DRL)辅助的双跳信息增强路由协议(Double-Hop Information Enhanced Routing Protocol,DHRP)。为... 针对飞行自组网(Flying Ad Hoc Network,FANET)在通信空白场景下存在的高时延问题,提出了一种深度强化学习(Deep Reinforcement Learning,DRL)辅助的双跳信息增强路由协议(Double-Hop Information Enhanced Routing Protocol,DHRP)。为了实现有效的路由决策,采用马尔可夫决策过程(Markov Decision Process,MDP)对路由行为进行建模,在状态空间设计中结合了节点位置信息与链路信道容量,并综合考虑了双跳范围内的网络信息,以深度值网络为核心,在融合实时网络状态动态调整机制的奖励函数引导下,做出最优下一跳路由决策。实验结果表明,在通信空白场景下,DHRP相较于现有的路由方案,显著降低了FANET的平均端到端时延。此外,在不同节点规模和网络拥塞条件下,DHRP均表现出优越的适应性和鲁棒性,通过对动态网络环境的实时感知与智能决策机制,有效保障了整体网络性能。 展开更多
关键词 飞行自组网 通信空白 深度强化学习 双跳信息 路由协议
在线阅读 下载PDF
融合DRL的改进遗传算法求解众包车辆-公共交通协同配送问题
7
作者 冯睿锋 陈彦如 《计算机工程》 北大核心 2025年第10期357-368,共12页
针对农村地区配送场景,提出一种车辆路径问题的变体——众包车辆-公共交通协同配送问题(VRPOD-SL)。该问题对参与配送的公交车辆及其服务的物流客户进行选择,同时需选择参与配送的众包车辆,并对众包车辆的行驶路径等进行决策。考虑众包... 针对农村地区配送场景,提出一种车辆路径问题的变体——众包车辆-公共交通协同配送问题(VRPOD-SL)。该问题对参与配送的公交车辆及其服务的物流客户进行选择,同时需选择参与配送的众包车辆,并对众包车辆的行驶路径等进行决策。考虑众包车辆的起终点、服务范围和最大载重,以及公交车辆的载货空间限制和按固定路线行驶等特点,以最小化配送总成本为优化目标,构建VRPOD-SL的整数规划模型。由于公交车辆提供物流服务的客户选择决策,影响到众包车辆的服务客户选择,进而需要不断求解众包车辆路径问题,导致问题的计算复杂度较高,因此设计一种基于深度强化学习(DRL)的启发式算法,即融合了注意力模型的遗传算法(GA-AM)。该算法将遗传算法(GA)的全局搜索特性和注意力模型(AM)的并行决策能力相结合,能够有效减少VRPOD-SL的求解时间。同时设计局部搜索算法,进一步提高解决方案的质量。数值实验结果表明,所提出的GA-AM在求解性能方面明显优于Gurobi求解器、自适应大邻域搜索(ALNS)算法和变邻域搜索(VNS)算法。此外,研究结果也验证了众包车辆-公共交通协同配送模式的有效性。 展开更多
关键词 车辆路径问题 深度强化学习 改进遗传算法 众包车辆-公共交通协同配送 自适应大邻域搜索算法
在线阅读 下载PDF
DRL燃烧器设计研究 被引量:4
8
作者 王爱华 李红军 蔡九菊 《冶金能源》 北大核心 2003年第1期31-33,60,共4页
简要回顾了国内外高效蓄热式燃烧技术研究现状 ,针对我国工业炉窑煤气热值不高的实际情况 ,提出一种新型的高效蓄热式低NOx 燃烧器DRL设计指导思想 ,实行空气、煤气双预热燃烧方式 ,采用烟气掺混外循环和流体射流回流相结合的手段 ,实现... 简要回顾了国内外高效蓄热式燃烧技术研究现状 ,针对我国工业炉窑煤气热值不高的实际情况 ,提出一种新型的高效蓄热式低NOx 燃烧器DRL设计指导思想 ,实行空气、煤气双预热燃烧方式 ,采用烟气掺混外循环和流体射流回流相结合的手段 ,实现低NOx 排放量燃烧 。 展开更多
关键词 drl燃烧器 设计研究 蓄热室 双预混 掺混
在线阅读 下载PDF
基于DRL与微分对策的无人机空战决策研究 被引量:9
9
作者 杨霄 李晓婷 +1 位作者 赵彦东 张亚星 《火力与指挥控制》 CSCD 北大核心 2021年第5期71-75,80,共6页
随着无人机战场环境越来越复杂,空战对抗将逐渐成为主要的一种无人机作战方式。为了能够确保我方无人机在快速演变的战场态势下抓住先机、精确决策、快速致胜,需要根据实际作战环境、作战样式,建立无人机和环境进行交互的规则、无人机... 随着无人机战场环境越来越复杂,空战对抗将逐渐成为主要的一种无人机作战方式。为了能够确保我方无人机在快速演变的战场态势下抓住先机、精确决策、快速致胜,需要根据实际作战环境、作战样式,建立无人机和环境进行交互的规则、无人机空战对抗中采用的战术使用规则,并结合规则,通过智能决策算法,达到提升无人机空战对抗胜率的目的。提出一种结合微分对策(Differential Games,DG)的深度强化学习方法(Deep Reinforcement Learning,DRL)解决此问题,利用深度强化学习的智能决策性以及微分对策的准确机动性,实现战术决策到机动决策。最后以空战对抗1V1为例,对提出的方法进行验证,结果证明方法可行有效。 展开更多
关键词 空战决策 微分对策 drl 空中对抗
在线阅读 下载PDF
基于DRL的四轮独立驱动电动车辆的侧向车速估计 被引量:1
10
作者 郑阳俊 贺帅 +5 位作者 帅志斌 李建秋 盖江涛 李勇 张颖 李国辉 《汽车安全与节能学报》 CAS CSCD 北大核心 2022年第2期309-316,共8页
为精确估计车辆行驶状态,提出了一种四轮独立驱动电动车辆侧向车速估计方法。基于深度强化学习(DRL)范式,设计了侧向车速估计方法的架构;基于深度确定性策略梯度(DDPG)算法,设计了DRL智能体;采用循环神经网络,搭建了DDPG算法中的Actor... 为精确估计车辆行驶状态,提出了一种四轮独立驱动电动车辆侧向车速估计方法。基于深度强化学习(DRL)范式,设计了侧向车速估计方法的架构;基于深度确定性策略梯度(DDPG)算法,设计了DRL智能体;采用循环神经网络,搭建了DDPG算法中的Actor网络和Critic网络。基于设计的奖励函数和训练场景,借助Matlab/Simulink软件,完成了算法的实现和训练;并通过在车辆双车道变换等实际行驶工况的仿真,进行了验证。结果表明:在经过了630次的学习训练之后,与扩展Kalman滤波方法相比,本文方法的估计精度提升40%。因而,本文方法能够在常用行驶工况中对车辆侧向车速进行估计。 展开更多
关键词 车辆动力学控制 四轮独立驱动电动车辆 侧向车速估计 深度强化学习(drl) 深度确定性策略梯度(DDPG)
在线阅读 下载PDF
DRL在卷烟厂AGV路径规划应用中的准确性优化研究
11
作者 杨丁成 刘昇 潘朱良 《今日制造与升级》 2024年第6期107-110,共4页
为解决卷烟厂自动引导车运行效率与路径准确性问题,设计一套基于DRL技术的路径规划系统。考虑AGV所在环境、自身位置、避让需求等内容,引入ROS和OpenPose模块实现独立感知与定位实现环境搭建。同时,引入奖惩机制提高AGV系统对复杂环境... 为解决卷烟厂自动引导车运行效率与路径准确性问题,设计一套基于DRL技术的路径规划系统。考虑AGV所在环境、自身位置、避让需求等内容,引入ROS和OpenPose模块实现独立感知与定位实现环境搭建。同时,引入奖惩机制提高AGV系统对复杂环境的表征效果。仿真结果显示,通过该系统和DRL算法所构建的AGV路径精度与效率提升策略,不仅能够满足基础性运输需求,还能实现避让现场行人与其他引导车,保证复杂工作条件下的运行安全。 展开更多
关键词 drl 自动导引车 卷烟厂
在线阅读 下载PDF
CoopAI-Route: DRL Empowered Multi-Agent Cooperative System for Efficient QoS-Aware Routing for Network Slicing in Multi-Domain SDN
12
作者 Meignanamoorthi Dhandapani V.Vetriselvi R.Aishwarya 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第9期2449-2486,共38页
The emergence of beyond 5G networks has the potential for seamless and intelligent connectivity on a global scale.Network slicing is crucial in delivering services for different,demanding vertical applications in this... The emergence of beyond 5G networks has the potential for seamless and intelligent connectivity on a global scale.Network slicing is crucial in delivering services for different,demanding vertical applications in this context.Next-generation applications have time-sensitive requirements and depend on the most efficient routing path to ensure packets reach their intended destinations.However,the existing IP(Internet Protocol)over a multi-domain network faces challenges in enforcing network slicing due to minimal collaboration and information sharing among network operators.Conventional inter-domain routing methods,like Border Gateway Protocol(BGP),cannot make routing decisions based on performance,which frequently results in traffic flowing across congested paths that are never optimal.To address these issues,we propose CoopAI-Route,a multi-agent cooperative deep reinforcement learning(DRL)system utilizing hierarchical software-defined networks(SDN).This framework enforces network slicing in multi-domain networks and cooperative communication with various administrators to find performance-based routes in intra-and inter-domain.CoopAI-Route employs the Distributed Global Topology(DGT)algorithm to define inter-domain Quality of Service(QoS)paths.CoopAI-Route uses a DRL agent with a message-passing multi-agent Twin-Delayed Deep Deterministic Policy Gradient method to ensure optimal end-to-end routes adapted to the specific requirements of network slicing applications.Our evaluation demonstrates CoopAI-Route’s commendable performance in scalability,link failure handling,and adaptability to evolving topologies compared to state-of-the-art methods. 展开更多
关键词 6G MULTI-DOMAIN MULTI-AGENT ROUTING drl SDN
在线阅读 下载PDF
DRL提高汽车安全 能耗更低
13
作者 盛进步 《汽车零部件》 2011年第2期20-20,共1页
1972年,芬兰提出强制白天开灯,其它北欧国家紧随其后;1989年,加拿大提出强制所有的新车必须安装自动的昼间行驶灯(DRL);1995年,美国所有的GM车型均把DRL做为标配。
关键词 drl 汽车安全 能耗 北欧国家 加拿大 行驶 新车 GM
在线阅读 下载PDF
我国暂不会强制安装DRL
14
作者 吴彬 《汽车零部件》 2011年第2期21-21,共1页
2011年2月8日欧盟委员会负责工业事务的副主席安东尼奥·塔亚尼发表声明:欧盟已经通过新法规,即强制新车安装日间行车灯,其中轿车和小型货车从2011年2月7日起开始实行,卡车和巴士在2012年8月7日开始实行。
关键词 安装 drl 欧盟委员会 小型货车 副主席 车灯 新车 轿车
在线阅读 下载PDF
基于DRL的飞行自组网自适应多模式路由算法 被引量:2
15
作者 黄凯 邱修林 +1 位作者 殷俊 杨余旺 《计算机工程与应用》 CSCD 北大核心 2023年第14期268-274,共7页
针对传统飞行自组网协议自适应能力不强、大规模网络应用场景效果不佳的问题,提出了一种基于深度强化学习的多模式路由算法。该算法综合利用系统吞吐量、分组递交率和平均端到端时延等参数构建价值函数,通过智能体自动调节各个无人机的... 针对传统飞行自组网协议自适应能力不强、大规模网络应用场景效果不佳的问题,提出了一种基于深度强化学习的多模式路由算法。该算法综合利用系统吞吐量、分组递交率和平均端到端时延等参数构建价值函数,通过智能体自动调节各个无人机的路由工作模式,将大型网络分解为主体网络和数个与之相连的小型异构网络,降低了系统复杂度,局部性能达到最优,提升了整个网络的性能。使用NS3仿真平台测试了算法和传统协议AODV、DSDV的性能指标。仿真结果表明,算法显著优于传统协议,且网络规模越大、负载越高则优势越明显,平均吞吐量提升了55.46%,分组递交率提升了39.85%,平均端到端时延降低了60.94%。 展开更多
关键词 飞行自组网 深度强化学习 自适应路由算法 混合路由
在线阅读 下载PDF
我国日间行车使用DRL的可行性及策略分析 被引量:1
16
作者 宝然 唐琤琤 晁遂 《公路交通科技》 CAS CSCD 北大核心 2022年第S02期197-201,208,共6页
为了推行日间行车灯在我国的使用,以减少日间交通事故,提升我国道路使用者日间行车的安全性,在总结国内外有关研究及规定的基础上,针对日间行车灯使用的安全性,对国外日间行车灯的有关研究及通行规定进行了总结。通过国外已有规定及其... 为了推行日间行车灯在我国的使用,以减少日间交通事故,提升我国道路使用者日间行车的安全性,在总结国内外有关研究及规定的基础上,针对日间行车灯使用的安全性,对国外日间行车灯的有关研究及通行规定进行了总结。通过国外已有规定及其实施效果与我国有关规定进行对比,将日间行车灯在我国推行的必要性和可行性进行了分析。提出我国在推行日间行车灯的使用时可以选取大雾天气多、白昼时间短的地区进行试点,并对全国范围内的重点车辆进行规定。同时提出《道路交通安全法》及其实施条例修订时纳入机动车日间行车使用日间行车灯的规定,在此条件下删去国家标准《道路交通标志和标线》中“开车灯”指示标志,进行相关的宣传、教育、管理。 展开更多
关键词 交通工程 行车安全 交通安全性分析 日间行车灯 国家标准 开车灯标志
原文传递
基于DRL的边缘监控任务卸载与资源分配算法 被引量:1
17
作者 李超 李贾宝 +2 位作者 丁才昌 叶志伟 左方威 《系统仿真学报》 CAS CSCD 北大核心 2024年第9期2113-2126,共14页
为解决边缘计算环境下密集型监控任务资源受限的问题,提出一种基于DRL的监控任务卸载与资源分配算法。以监控任务时延和识别精度为优化目标,将监控系统中的任务卸载、无线信道分配和图像压缩率的联合决策目标优化求解建模为马尔可夫决... 为解决边缘计算环境下密集型监控任务资源受限的问题,提出一种基于DRL的监控任务卸载与资源分配算法。以监控任务时延和识别精度为优化目标,将监控系统中的任务卸载、无线信道分配和图像压缩率的联合决策目标优化求解建模为马尔可夫决策过程;针对无线信道动态性和监控任务随机性引起的训练样本波动性较大,导致算法收敛速度慢和不稳定,采用Transformer注意力机制对多时隙序列的信道状态和监控任务信息进行联合编码。编码后的状态信息能够捕捉多时隙状态序列之间的依赖关系,提升网络状态的表征能力,并以此提高算法鲁棒性。实验结果表明:与传统强化学习算法和启发式算法相比,该算法在降低任务计算时延的同时能够有效提高识别精度。 展开更多
关键词 监控任务 移动边缘计算 深度强化学习 任务卸载 资源分配 注意力机制
原文传递
基于DRL和自由步态的六足机器人运动规划研究 被引量:1
18
作者 王鑫鹏 傅汇乔 +3 位作者 邓归洲 唐开强 陈春林 留沧海 《系统仿真学报》 CAS CSCD 北大核心 2024年第2期373-384,共12页
为提高六足机器人在非结构环境下的通过率和运动性能,提出一种基于DRL和自由步态规划器的多接触运动规划算法。自由步态规划器获取目标状态下可达落足点从而输出最优步态序列;利用DRL训练得到六足机器人在随机生成的梅花桩环境中的质心... 为提高六足机器人在非结构环境下的通过率和运动性能,提出一种基于DRL和自由步态规划器的多接触运动规划算法。自由步态规划器获取目标状态下可达落足点从而输出最优步态序列;利用DRL训练得到六足机器人在随机生成的梅花桩环境中的质心运动策略。为了保证机器人在运动过程中相邻状态之间的可达性,利用状态转移可行性模型对状态转移可行性进行判定,实现六足机器人在不同宽度沟壑梅花桩环境下的落脚点规划。仿真与样机实验表明:多接触运动规划算法能够让机器人快速平稳地从起点到达目标区域,并自动调整步态模式以应对不同环境下随机分布的梅花桩。 展开更多
关键词 六足机器人 自由步态 深度强化学习 多接触运动规划 非结构环境
原文传递
基于DRL和轨迹优化的多机器人导航和编队维护 被引量:2
19
作者 朱继伟 张隆源 +2 位作者 王冀 罗佳宁 李伟 《传感器与微系统》 CSCD 北大核心 2023年第9期129-132,共4页
本文提出了一种基于深度强化学习(DRL)和轨迹优化的方法来实现避障导航同时保持编队。定义了基于图论的可微队形度量,并将其与DRL相结合,提出了一种新的近端策略优化联合轨迹优化(PPOTO)的算法。多个机器人共享策略,通过由DRL得到的马... 本文提出了一种基于深度强化学习(DRL)和轨迹优化的方法来实现避障导航同时保持编队。定义了基于图论的可微队形度量,并将其与DRL相结合,提出了一种新的近端策略优化联合轨迹优化(PPOTO)的算法。多个机器人共享策略,通过由DRL得到的马尔可夫决策模型生成预测轨迹,并通过编队度量进行优化,最终由机器人对该轨迹进行跟踪。在生成的随机地图上进行了大量的测试实验,结果表明:所提方法可以实现多机器人的编队和导航的任务,并且相对端到端的PPO算法有着明显的性能提升。 展开更多
关键词 多机器人导航 编队控制 深度强化学习 轨迹优化
在线阅读 下载PDF
三层移动网络体系中基于DRL的卸载策略研究 被引量:2
20
作者 葛海波 赵其实 +1 位作者 车虹葵 李照宇 《传感器与微系统》 CSCD 北大核心 2022年第8期60-63,67,共5页
在用户设备、边缘计算服务器和云服务器构成的三层移动网络体系中,如何高效地进行任务卸载是一个重要的问题。针对移动边缘计算(MEC)中多用户多服务器环境下的长时延和高能耗问题,提出一种基于深度强化学习(DRL)算法的三层移动网络架构... 在用户设备、边缘计算服务器和云服务器构成的三层移动网络体系中,如何高效地进行任务卸载是一个重要的问题。针对移动边缘计算(MEC)中多用户多服务器环境下的长时延和高能耗问题,提出一种基于深度强化学习(DRL)算法的三层移动网络架构,将卸载决策问题模型化为约束条件下的最优化问题。结合深度强化学习理论,利用改进的A3C(IA3C)算法求解。仿真结果表明:与深度Q网络(DQN)、全本地卸载算法、全边缘卸载算法相比,在设备数量、MEC计算能力和用户数据量三个方面,提出的卸载策略均能更有效地降低总成本。 展开更多
关键词 移动边缘计算 三层移动网络体系 任务卸载 异步优势动作评价 深度强化学习
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部