期刊文献+
共找到270篇文章
< 1 2 14 >
每页显示 20 50 100
Variable reward function-driven strategies for impulsive orbital attack-defense games under multiple constraints and victory conditions
1
作者 Liran Zhao Sihan Xu +1 位作者 Qinbo Sun Zhaohui Dang 《Defence Technology(防务技术)》 2025年第9期159-183,共25页
This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breac... This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breach the defender's interception to rendezvous with the target,while the defender seeks to protect the target by blocking or actively pursuing the attacker.Four different maneuvering constraints and five potential game outcomes are incorporated to more accurately model AD game problems and increase complexity,thereby reducing the effectiveness of traditional methods such as differential games and game-tree searches.To address these challenges,this study proposes a multiagent deep reinforcement learning solution with variable reward functions.Two attack strategies,Direct attack(DA)and Bypass attack(BA),are developed for the attacker,each focusing on different mission priorities.Similarly,two defense strategies,Direct interdiction(DI)and Collinear interdiction(CI),are designed for the defender,each optimizing specific defensive actions through tailored reward functions.Each reward function incorporates both process rewards(e.g.,distance and angle)and outcome rewards,derived from physical principles and validated via geometric analysis.Extensive simulations of four strategy confrontations demonstrate average defensive success rates of 75%for DI vs.DA,40%for DI vs.BA,80%for CI vs.DA,and 70%for CI vs.BA.Results indicate that CI outperforms DI for defenders,while BA outperforms DA for attackers.Moreover,defenders achieve their objectives more effectively under identical maneuvering capabilities.Trajectory evolution analyses further illustrate the effectiveness of the proposed variable reward function-driven strategies.These strategies and analyses offer valuable guidance for practical orbital defense scenarios and lay a foundation for future multi-agent game research. 展开更多
关键词 Orbital attack-defense game Impulsive maneuver Multi-agent deep reinforcement learning reward function design
在线阅读 下载PDF
Reward Function Design Method for Long Episode Pursuit Tasks Under Polar Coordinate in Multi-Agent Reinforcement Learning
2
作者 DONG Yubo CUI Tao +3 位作者 ZHOU Yufan SONG Xun ZHU Yue DONG Peng 《Journal of Shanghai Jiaotong university(Science)》 EI 2024年第4期646-655,共10页
Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting... Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting in low rewards and an inability for agents to learn strategies.This paper proposes a deep reinforcement learning(DRL)training method that employs an ensemble segmented multi-reward function design approach to address the convergence problem mentioned before.The ensemble reward function combines the advantages of two reward functions,which enhances the training effect of agents in long episode.Then,we eliminate the non-monotonic behavior in reward function introduced by the trigonometric functions in the traditional 2D polar coordinates observation representation.Experimental results demonstrate that this method outperforms the traditional single reward function mechanism in the pursuit scenario by enhancing agents’policy scores of the task.These ideas offer a solution to the convergence challenges faced by DRL models in long episode pursuit problems,leading to an improved model training performance. 展开更多
关键词 multi-agent reinforcement learning deep reinforcement learning(DRL) long episode reward function
原文传递
DDPG优化算法的改进型自抗扰风电机组桨距角控制
3
作者 徐晓宁 范召强 +3 位作者 周雪松 陶珑 问虎龙 杨风霞 《太阳能学报》 北大核心 2026年第1期575-584,共10页
为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)... 为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)基础上引入自由扩张维度的状态变量,并对增阶后的参数基于比例微分形式进行改进,以提高对扰动的顺馈矫正能力。随后根据发电机转速误差设计合适的奖励函数,利用DDPG算法使改进后的线性自抗扰控制(LADRC)参数能够自适应调整,实现最优的控制效果。仿真结果表明,所提策略能有效应对风速剧烈波动,使桨距角能快速适应风速变化,从而维持风电机组的稳定运行和电能的高效输出。 展开更多
关键词 风电机组 桨距角 线性自抗扰控制 深度确定性策略梯度 奖励函数 参数整定
原文传递
改进DDPG的磁浮控制研究
4
作者 张振利 宋成林 +1 位作者 汪永壮 杨杰 《工程科学学报》 北大核心 2026年第2期422-435,共14页
针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针... 针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针对传统DDPG算法在电磁悬浮控制中的不足,设计一种分段式反比例奖励函数,以提升稳态精度和响应速度,并对DDPG控制流程进行分析及优化,以满足实际部署需求.最后,通过仿真与实验,对比分析电流环跟踪、奖励函数、训练步长以及模型变化对控制性能的影响.结果表明:采用分段式反比例奖励函数的IDDPG控制器在降低稳态误差和超调的同时,显著提升系统的响应速度,且优化后的控制流程适用于实际系统部署.此外,不同模型下使用相同参数稳态误差均低于5%,取得基本一致的控制效果,远优于滑模控制(Sliding mode control, SMC)的31%和比例–积分–微分控制(Proportional–Integral–Derivative control, PID)的12%,验证了IDDPG在不依赖精确模型情况下的良好适应性.同时,抗扰实验中,IDDPG相比PID超调减少51%,调节时间缩短49%,具有更强抗扰性. 展开更多
关键词 DDPG 奖励函数 控制指标 系统建模 磁浮系统 学习步长
在线阅读 下载PDF
流奖赏引导的基于模型学习的策略优化方法
5
作者 王义 钟珊 龚声蓉 《计算机工程与设计》 北大核心 2026年第2期528-535,共8页
针对基于模型的强化学习中模型误差累积与探索效率低下的问题,提出耦合标准化流的动态奖励优化方法。通过构建双流网络区分真实环境与模型生成分布,利用分布差异动态重构奖励函数:训练阶段最小化差异提升预测精度,策略在线交互阶段根据... 针对基于模型的强化学习中模型误差累积与探索效率低下的问题,提出耦合标准化流的动态奖励优化方法。通过构建双流网络区分真实环境与模型生成分布,利用分布差异动态重构奖励函数:训练阶段最小化差异提升预测精度,策略在线交互阶段根据差异强度自适应调节探索范围。该方法突破传统静态奖励机制限制,在连续控制任务中有效抑制多步预测误差传播,显著提升样本效率与累积回报,同时增强策略收敛稳定性,为开放环境中的智能体学习提供新范式。 展开更多
关键词 强化学习 模型学习 策略优化 标准化流 样本效率 奖赏函数 探索与利用
在线阅读 下载PDF
基于SAC改进的机器人路径规划算法
6
作者 姚博远 黄志勇 《计算机工程与设计》 北大核心 2026年第2期327-335,共9页
为了提升机器人在未知动态环境下的路径规划能力,提出了一种基于强化学习的路径规划算法PMS-SAC,在SAC算法基础上,以加权优先采样取代均匀采样,并以多步回报替代单步奖励,从而提升样本效率并加快收敛。将路径规划任务建模为马尔可夫决... 为了提升机器人在未知动态环境下的路径规划能力,提出了一种基于强化学习的路径规划算法PMS-SAC,在SAC算法基础上,以加权优先采样取代均匀采样,并以多步回报替代单步奖励,从而提升样本效率并加快收敛。将路径规划任务建模为马尔可夫决策过程,引入辅助奖励函数优化奖励分布。PMS-SAC算法提升了样本使用效率,缩短了训练时间,加快了收敛速度,缓解了稀疏奖励问题。在ROS和Gazebo平台进行了仿真,实验结果表明,与SAC算法相比,PMSSAC算法最大成功率提升达到了15.8%,平均收敛轮次减少了175轮。 展开更多
关键词 机器人 路径规划 强化学习 经验回放 多步学习 奖励函数 稀疏奖励
在线阅读 下载PDF
基于深度强化学习智能制导的研究思考
7
作者 郭威 常远 +2 位作者 程芳 王清云 王冲 《现代防御技术》 北大核心 2026年第1期73-84,共12页
在当前战争环境多元化和复杂化的情况下,战争形态也经历了重大的转变。随着当前人工智能技术的不断发展,其在各个领域的影响力也不断提升。对强化学习的原理以及发展进行了全面的阐述,并且对于深度强化学习在智能制导领域的应用进行了分... 在当前战争环境多元化和复杂化的情况下,战争形态也经历了重大的转变。随着当前人工智能技术的不断发展,其在各个领域的影响力也不断提升。对强化学习的原理以及发展进行了全面的阐述,并且对于深度强化学习在智能制导领域的应用进行了分析;对于智能制导领域的关键技术进行全面的总结,并基于当前智能制导的研究进展,对于当前存在的问题挑战以及智能所带来的影响进行了详细分析,为智能制导的发展提供借鉴和指导。 展开更多
关键词 智能制导 深度强化学习 制导律 人工智能 奖励函数
在线阅读 下载PDF
基于改进深度强化学习算法的电网侧储能系统调峰控制策略
8
作者 杨瑞锋 韩昱 《储能科学与技术》 北大核心 2026年第1期166-176,共11页
随着新能源大规模接入电网,传统调度模式难以应对系统高随机性与复杂性,电网侧储能系统的优化调度成为提升电网灵活性与可靠性的关键。本研究提出一种基于改进深度强化学习的电网侧储能调峰控制策略:通过融合可再生能源出力、负荷需求... 随着新能源大规模接入电网,传统调度模式难以应对系统高随机性与复杂性,电网侧储能系统的优化调度成为提升电网灵活性与可靠性的关键。本研究提出一种基于改进深度强化学习的电网侧储能调峰控制策略:通过融合可再生能源出力、负荷需求及储能设备参数构建多源数据输入层,设计兼顾短期调峰效益与长期全生命周期成本的奖励函数,使智能体通过与微网环境交互学习最优调度策略。基于园区级微网测试系统的案例表明,该策略较传统调度方法,全生命周期成本降低11.9%~34.6%,电池寿命延长22.55%~37.36%,同时新能源综合消纳率提升至92.3%,微网峰谷差降幅达36.36%。该策略为现代电网中电网侧储能系统的动态智能管理提供数据驱动方案,助力提升电网运行效率与新能源消纳能力。 展开更多
关键词 改进深度强化学习 电网侧储能 奖励函数 优化调度 全生命周期
在线阅读 下载PDF
基于复合回报函数的空战指向控制策略研究
9
作者 徐俊 邓向阳 +3 位作者 付宇鹏 岳圣智 宋婧菡 林远山 《现代电子技术》 北大核心 2026年第2期73-79,共7页
针对近距离空战中无人机难以在任意态势下快速指向控制问题,提出一种基于复合回报函数设计的空战指向控制策略。为了避免空战中无人机自主低效大机动完成指向任务后,陷入能量退却的危险状态,设计融合能量、时间、攻击角等多维度约束的... 针对近距离空战中无人机难以在任意态势下快速指向控制问题,提出一种基于复合回报函数设计的空战指向控制策略。为了避免空战中无人机自主低效大机动完成指向任务后,陷入能量退却的危险状态,设计融合能量、时间、攻击角等多维度约束的复合回报函数对不同初始态势无人机进行指向瞄准训练。针对空战任务中观测空间、动作空间的复杂高维特性导致的策略难收敛的问题,对SAC算法训练中双Actor-Critic神经网络结构的网络参数更新过程进行分层L_(2)范数梯度裁剪,显著提高了算法的收敛效率。仿真结果表明:所提算法能够很好地引导飞机快速做出保留能量和机动性的机动决策指令并完成指向瞄准任务;相较于TD3、PPO、DDPG等传统深度强化学习算法,其具有更优的收敛效率。 展开更多
关键词 固定翼飞机 深度强化学习 回报函数塑造 空战策略 机动决策 连续空间 策略约束
在线阅读 下载PDF
中国草畜平衡制度的结构优化与体系完善
10
作者 陈宝山 姜贺天 +1 位作者 麻芦苇 丁梦茹 《自然资源学报》 北大核心 2026年第1期71-86,共16页
草畜平衡制度在抑制牧民超载放牧、保护草原生态平衡方面发挥着重要作用,但部分地区草畜矛盾、草地退化等问题依旧严峻。运用结构功能分析法对中国草畜平衡制度进行分析发现,草畜平衡制度的实施呈现出草原保护成效较为显著,通过法律手... 草畜平衡制度在抑制牧民超载放牧、保护草原生态平衡方面发挥着重要作用,但部分地区草畜矛盾、草地退化等问题依旧严峻。运用结构功能分析法对中国草畜平衡制度进行分析发现,草畜平衡制度的实施呈现出草原保护成效较为显著,通过法律手段明确制度运行的职、权、责关系的正功能,但也产生了限制放牧行为、抑制牧户权利、最终成为一种限权行为,以及影响牧户放牧收入、降低牧户守约积极性、产生负向激励的负功能。因果检视表明,草畜平衡规范结构断裂与制度结构配置不合理的外部结构障碍,核定周期过长、约束与激励失衡和监督监测制度局限的内部结构障碍,以及奖补混同抑制牧民积极性的内外部结构衔接障碍,共同制约了制度功能的发挥。鉴于此,应统筹草畜平衡与禁牧、休牧、轮牧、舍饲等制度,完善草畜平衡法规和制度体系,优化激励约束平衡、载畜量核定和监督监测制度,构建草畜平衡补奖与草原生态产品价值实现的衔接制度,破解制度结构障碍。 展开更多
关键词 草畜平衡制度 结构功能分析 奖补衔接 生态产品价值实现
原文传递
基于对抗强化学习的无人机逃离路径规划方法 被引量:1
11
作者 黄湘松 王梦宇 潘大鹏 《航空学报》 北大核心 2025年第17期292-307,共16页
在无人机技术迅速发展的背景下,如何应对其他无人机的恶意追捕成为了无人机安全防护中的重要课题。针对通过使用对抗强化学习算法,提升无人机在敌对环境中的适应性和生存能力这一问题,利用对抗强化学习框架,针对无人机逃逸过程中接收错... 在无人机技术迅速发展的背景下,如何应对其他无人机的恶意追捕成为了无人机安全防护中的重要课题。针对通过使用对抗强化学习算法,提升无人机在敌对环境中的适应性和生存能力这一问题,利用对抗强化学习框架,针对无人机逃逸过程中接收错误信息对决策产生干扰的问题进行了处理,以围捕者与逃逸者之间的对抗为基础,优化运输无人机的策略以应对围捕者的行为。针对传统的强化学习方法中的稀疏奖励问题,结合人工势场法提出逐步奖励策略机制,使得无人机可以更有效地适应围捕环境。结果表明,该算法相比于近端策略优化(PPO)算法,无人机的逃逸成功率提升了54.47%,同时运输时间减少了34.35%,显著提高了无人机的运输效率。结果为无人机的安全防护提供了新的技术方案,并探索了对抗强化学习在恶意追捕情境下的应用潜力。 展开更多
关键词 对抗训练 强化学习 逃逸路径规划 逃逸决策 奖励函数
原文传递
基于深度强化学习的游戏智能引导算法 被引量:2
12
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
如何实现真正的智能?——关于智能体中事实性计算与价值性算计深度融合的思考 被引量:1
13
作者 刘伟 龙擎天 马楠 《电子科技大学学报(社科版)》 2025年第5期1-7,共7页
该文深入探讨了人工智能(AI)实现真正智能的关键路径,主张通过事实性计算与价值性算计的深度融合,推动AI从单纯的自动化工具向具备认知与道德能力的智能系统转变。当前AI在处理客观数据方面表现出色,但在理解和应对人类社会的复杂价值... 该文深入探讨了人工智能(AI)实现真正智能的关键路径,主张通过事实性计算与价值性算计的深度融合,推动AI从单纯的自动化工具向具备认知与道德能力的智能系统转变。当前AI在处理客观数据方面表现出色,但在理解和应对人类社会的复杂价值问题时存在明显不足,可能导致决策偏差和伦理困境。论文明确区分事实性事实与价值性事实,指出后者基于前者并影响事实认知;在强化学习中,提出奖惩函数设计需兼顾事实准确性与价值目标;在人机环境系统中,构建动态协同框架以融合事实的可计算性与价值的可判定性;强调通过具身认知等技术改进人机交互,推动AI从功能性模拟转向机制性模拟;在多人多智能体系统中,分析多事实与多价值的动态交互,突出通信与自组织的必要性。AI若要跨越工具理性,迈向价值理性,必须实现事实性与价值性的有机结合。 展开更多
关键词 人机交互 智能体 人工智能 价值与事实 奖惩函数
在线阅读 下载PDF
基于改进深度强化学习的交通信号灯控制
14
作者 韦敏 蔡常健 《计算机工程与设计》 北大核心 2025年第3期927-933,共7页
为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待... 为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待时间和车道最大队列长度的多任务奖励函数,提高城市交叉口的通行效率。实验结果表明,所提方法能够获得更高奖励,在训练场景对比基线方法平均等待时间和平均队列长度均明显降低,平均速度明显提高,测试结果同样验证所提方法更能提高道路通行效率。 展开更多
关键词 深度强化学习 信号灯控制 对决网络 状态空间 奖励函数 城市交叉口 交通工程
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
15
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 PPO算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
基于多代理深度强化学习的战术无线网络安全路由算法研究
16
作者 谢英辉 刘亮 《传感技术学报》 北大核心 2025年第8期1482-1490,共9页
由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代... 由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代理,它们通过深度神经网络学习决策路由。将跳数、一跳时延、数据包丢失率和能量消耗信息关联到奖励函数,使得代理能够选择时延低、可靠性高的转发节点,进而克服干扰攻击。仿真结果表明,提出的MRSR路由提高了数据包传递率和能量效率。 展开更多
关键词 战术无线网络 安全路由 干扰攻击 多代理深度强化学习 奖励函数
在线阅读 下载PDF
洋流干扰下低速欠驱动AUV的三维路径规划
17
作者 陈世同 鲁子瑜 《智能系统学报》 北大核心 2025年第2期425-434,共10页
海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,... 海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,由于传统的强化Q网络(deep Q-network,DQN)路径规划算法在复杂环境下存在过估计的问题,提出了基于优先经验回放方法的改进DQN路径规划算法,同时对动作设计和奖励函数进行优化。在基于S57海图数据建立的三维海洋环境下,利用地球与空间研究机构(earth&space research,ESR)提供的洋流数据进行路径规划仿真。实验结果表明,在充分考虑洋流干扰的情况下,改进后的DQN算法能够规划出较优的全局路径规划,提供一条时间最短且能耗最低的航行路线,为AUV水下航行提供参考。 展开更多
关键词 自主水下运载器 强化学习 洋流干扰 路径规划 三维海洋环境 强化Q网络 S57海图 奖励函数
在线阅读 下载PDF
基于深度多智能体强化学习的机床混流装配线调度优化
18
作者 姜兴宇 陈嘉淇 +1 位作者 王立权 徐伟宏 《工业工程》 2025年第4期15-23,共9页
为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应... 为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应用去中心化分散执行的双重深度Q网络(double deep Q network,DDQN)的智能体来学习生产信息与调度目标的关系。该框架采用集中训练与分散执行的策略,并使用参数共享技术,能处理多智能体强化学习中的非稳态问题。在此基础上,采用递归神经网络来管理可变长度的状态和行动表示,使智能体具有处理任意规模问题的能力。同时引入全局/局部奖励函数,以解决训练过程中的奖励稀疏问题。通过消融实验,确定了最优的参数组合。数值实验结果表明,与标准测试方案相比,本算法在目标达成度方面,平均总延迟工件数较改善前提升了24.1%~32.3%,训练速度提高了8.3%。 展开更多
关键词 机床混流装配线 深度多智能体强化学习 递归神经网络 全局/局部奖励函数
在线阅读 下载PDF
基于功能磁共振技术探讨首发抑郁症奖赏网络功能异常研究
19
作者 肖雪 田静 +6 位作者 孙绪 任渝棠 徐辉 余学 李明山 孙继飞 侯小兵 《精神医学杂志》 2025年第2期118-122,共5页
目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两... 目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两组脑网络的差异。同时,收集FED组17项汉密尔顿抑郁量表(HAMD-17)评分,分析异常脑区与临床症状之间的相关性。结果与对照组比较,FED组在左侧腹侧纹状体上部与左侧中央后回的FC减低(P<0.005),右侧腹侧纹状体上部与左侧尾状核的FC增高(P<0.005),左侧背侧尾状核与右侧颞中回的FC增高(P<0.005),右侧背侧尾侧壳核与右侧顶下小叶的FC减低(P<0.005),左侧背侧吻侧壳核与右侧顶下小叶的FC减低(P<0.005),腹侧吻侧壳核与右侧缘上回的FC减低(P<0.005)。相关性分析结果显示,左侧背侧吻侧壳核与右侧顶下小叶的FC值与HAMD-17评分呈正相关(P<0.05)。结论FED患者在纹状体亚区与默认网络及感觉运动皮层的功能连接上存在异常改变,且奖赏网络内部的功能连接也出现异常。本研究为理解FED的神经病理机制及靶向治疗提供了新的视角。 展开更多
关键词 首发抑郁症 功能磁共振成像 功能连接 奖赏网络
暂未订购
基于PD3PG的无人驾驶行为决策仿真 被引量:2
20
作者 曹克让 王涵 +2 位作者 刘亚茹 范慧杰 梁琳琦 《计算机工程与设计》 北大核心 2025年第4期1149-1156,共8页
为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG... 为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG算法,提高重要经验的利用率以及加快神经网络的训练速度。通过仿真平台TORCS,验证了PD3PG算法相比于DDPG算法拥有更快的收敛速度,更高的回合奖励,以及更加稳定的偏移量,行为决策控制效果更加优秀。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法 无人驾驶 行为决策 奖励函数 经验回放 决斗网络
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部