期刊文献+
共找到274篇文章
< 1 2 14 >
每页显示 20 50 100
Variable reward function-driven strategies for impulsive orbital attack-defense games under multiple constraints and victory conditions
1
作者 Liran Zhao Sihan Xu +1 位作者 Qinbo Sun Zhaohui Dang 《Defence Technology(防务技术)》 2025年第9期159-183,共25页
This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breac... This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breach the defender's interception to rendezvous with the target,while the defender seeks to protect the target by blocking or actively pursuing the attacker.Four different maneuvering constraints and five potential game outcomes are incorporated to more accurately model AD game problems and increase complexity,thereby reducing the effectiveness of traditional methods such as differential games and game-tree searches.To address these challenges,this study proposes a multiagent deep reinforcement learning solution with variable reward functions.Two attack strategies,Direct attack(DA)and Bypass attack(BA),are developed for the attacker,each focusing on different mission priorities.Similarly,two defense strategies,Direct interdiction(DI)and Collinear interdiction(CI),are designed for the defender,each optimizing specific defensive actions through tailored reward functions.Each reward function incorporates both process rewards(e.g.,distance and angle)and outcome rewards,derived from physical principles and validated via geometric analysis.Extensive simulations of four strategy confrontations demonstrate average defensive success rates of 75%for DI vs.DA,40%for DI vs.BA,80%for CI vs.DA,and 70%for CI vs.BA.Results indicate that CI outperforms DI for defenders,while BA outperforms DA for attackers.Moreover,defenders achieve their objectives more effectively under identical maneuvering capabilities.Trajectory evolution analyses further illustrate the effectiveness of the proposed variable reward function-driven strategies.These strategies and analyses offer valuable guidance for practical orbital defense scenarios and lay a foundation for future multi-agent game research. 展开更多
关键词 Orbital attack-defense game Impulsive maneuver Multi-agent deep reinforcement learning reward function design
在线阅读 下载PDF
Reward Function Design Method for Long Episode Pursuit Tasks Under Polar Coordinate in Multi-Agent Reinforcement Learning
2
作者 DONG Yubo CUI Tao +3 位作者 ZHOU Yufan SONG Xun ZHU Yue DONG Peng 《Journal of Shanghai Jiaotong university(Science)》 EI 2024年第4期646-655,共10页
Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting... Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting in low rewards and an inability for agents to learn strategies.This paper proposes a deep reinforcement learning(DRL)training method that employs an ensemble segmented multi-reward function design approach to address the convergence problem mentioned before.The ensemble reward function combines the advantages of two reward functions,which enhances the training effect of agents in long episode.Then,we eliminate the non-monotonic behavior in reward function introduced by the trigonometric functions in the traditional 2D polar coordinates observation representation.Experimental results demonstrate that this method outperforms the traditional single reward function mechanism in the pursuit scenario by enhancing agents’policy scores of the task.These ideas offer a solution to the convergence challenges faced by DRL models in long episode pursuit problems,leading to an improved model training performance. 展开更多
关键词 multi-agent reinforcement learning deep reinforcement learning(DRL) long episode reward function
原文传递
DDPG优化算法的改进型自抗扰风电机组桨距角控制
3
作者 徐晓宁 范召强 +3 位作者 周雪松 陶珑 问虎龙 杨风霞 《太阳能学报》 北大核心 2026年第1期575-584,共10页
为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)... 为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)基础上引入自由扩张维度的状态变量,并对增阶后的参数基于比例微分形式进行改进,以提高对扰动的顺馈矫正能力。随后根据发电机转速误差设计合适的奖励函数,利用DDPG算法使改进后的线性自抗扰控制(LADRC)参数能够自适应调整,实现最优的控制效果。仿真结果表明,所提策略能有效应对风速剧烈波动,使桨距角能快速适应风速变化,从而维持风电机组的稳定运行和电能的高效输出。 展开更多
关键词 风电机组 桨距角 线性自抗扰控制 深度确定性策略梯度 奖励函数 参数整定
原文传递
基于SAC3Q-HDM的强化学习机器人路径规划
4
作者 李德权 熊婉 《系统仿真学报》 北大核心 2026年第3期714-724,共11页
针对强化学习在路径规划中存在的高估和低估偏差、样本利用率低、无法平衡探索和利用等问题,提出一种改进型SAC方法。通过自适应温度系数调节熵的大小平衡探索与利用;在SAC框架基础上引入三重Critic架构,通过Q值不确定性动态加权融合最... 针对强化学习在路径规划中存在的高估和低估偏差、样本利用率低、无法平衡探索和利用等问题,提出一种改进型SAC方法。通过自适应温度系数调节熵的大小平衡探索与利用;在SAC框架基础上引入三重Critic架构,通过Q值不确定性动态加权融合最小值与平均值,平衡高估和低估偏差;设计混合动态采样经验回放缓冲区,根据奖励阈值划分经验数据,动态调整采样比例,实现从核心策略到全面泛化的渐进式学习;设计层次化启发式奖励函数,引导机器人在任务中平衡目标趋近、障碍规避的多目标需求。仿真实验结果表明:改进后的算法在路径长度、规划时间和成功率等方面具有明显优势,提升了路径规划的效率和鲁棒性。 展开更多
关键词 强化学习 路径规划 SAC 混合动态采样 层次化启发式奖励函数
原文传递
改进DDPG的磁浮控制研究
5
作者 张振利 宋成林 +1 位作者 汪永壮 杨杰 《工程科学学报》 北大核心 2026年第2期422-435,共14页
针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针... 针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针对传统DDPG算法在电磁悬浮控制中的不足,设计一种分段式反比例奖励函数,以提升稳态精度和响应速度,并对DDPG控制流程进行分析及优化,以满足实际部署需求.最后,通过仿真与实验,对比分析电流环跟踪、奖励函数、训练步长以及模型变化对控制性能的影响.结果表明:采用分段式反比例奖励函数的IDDPG控制器在降低稳态误差和超调的同时,显著提升系统的响应速度,且优化后的控制流程适用于实际系统部署.此外,不同模型下使用相同参数稳态误差均低于5%,取得基本一致的控制效果,远优于滑模控制(Sliding mode control, SMC)的31%和比例–积分–微分控制(Proportional–Integral–Derivative control, PID)的12%,验证了IDDPG在不依赖精确模型情况下的良好适应性.同时,抗扰实验中,IDDPG相比PID超调减少51%,调节时间缩短49%,具有更强抗扰性. 展开更多
关键词 DDPG 奖励函数 控制指标 系统建模 磁浮系统 学习步长
在线阅读 下载PDF
流奖赏引导的基于模型学习的策略优化方法
6
作者 王义 钟珊 龚声蓉 《计算机工程与设计》 北大核心 2026年第2期528-535,共8页
针对基于模型的强化学习中模型误差累积与探索效率低下的问题,提出耦合标准化流的动态奖励优化方法。通过构建双流网络区分真实环境与模型生成分布,利用分布差异动态重构奖励函数:训练阶段最小化差异提升预测精度,策略在线交互阶段根据... 针对基于模型的强化学习中模型误差累积与探索效率低下的问题,提出耦合标准化流的动态奖励优化方法。通过构建双流网络区分真实环境与模型生成分布,利用分布差异动态重构奖励函数:训练阶段最小化差异提升预测精度,策略在线交互阶段根据差异强度自适应调节探索范围。该方法突破传统静态奖励机制限制,在连续控制任务中有效抑制多步预测误差传播,显著提升样本效率与累积回报,同时增强策略收敛稳定性,为开放环境中的智能体学习提供新范式。 展开更多
关键词 强化学习 模型学习 策略优化 标准化流 样本效率 奖赏函数 探索与利用
在线阅读 下载PDF
基于SAC改进的机器人路径规划算法
7
作者 姚博远 黄志勇 《计算机工程与设计》 北大核心 2026年第2期327-335,共9页
为了提升机器人在未知动态环境下的路径规划能力,提出了一种基于强化学习的路径规划算法PMS-SAC,在SAC算法基础上,以加权优先采样取代均匀采样,并以多步回报替代单步奖励,从而提升样本效率并加快收敛。将路径规划任务建模为马尔可夫决... 为了提升机器人在未知动态环境下的路径规划能力,提出了一种基于强化学习的路径规划算法PMS-SAC,在SAC算法基础上,以加权优先采样取代均匀采样,并以多步回报替代单步奖励,从而提升样本效率并加快收敛。将路径规划任务建模为马尔可夫决策过程,引入辅助奖励函数优化奖励分布。PMS-SAC算法提升了样本使用效率,缩短了训练时间,加快了收敛速度,缓解了稀疏奖励问题。在ROS和Gazebo平台进行了仿真,实验结果表明,与SAC算法相比,PMSSAC算法最大成功率提升达到了15.8%,平均收敛轮次减少了175轮。 展开更多
关键词 机器人 路径规划 强化学习 经验回放 多步学习 奖励函数 稀疏奖励
在线阅读 下载PDF
男性甲基苯丙胺依赖者奖赏功能的行为表现及前额叶激活特征
8
作者 李沙 邓晓琴 +7 位作者 胥国华 陈俊琦 彭文程 孙姣 王瑜 王成 黄伟 郑松波 《中国心理卫生杂志》 北大核心 2026年第4期342-348,共7页
目的:探究男性甲基苯丙胺(MA)依赖者的奖赏功能的行为表现及前额叶激活特征。方法:招募15名男性MA依赖者和15名男性健康对照者,通过货币奖励延迟(MID)任务,并结合功能性近红外光谱技术测量奖励、中性和惩罚刺激条件下的行为学指标(正确... 目的:探究男性甲基苯丙胺(MA)依赖者的奖赏功能的行为表现及前额叶激活特征。方法:招募15名男性MA依赖者和15名男性健康对照者,通过货币奖励延迟(MID)任务,并结合功能性近红外光谱技术测量奖励、中性和惩罚刺激条件下的行为学指标(正确率、反应时)和前额叶皮层激活水平,同时完成行为抑制/激活系统量表和Barratt冲动量表(BIS-11)。结果:MA依赖者在MID任务奖励、中性及惩罚刺激条件下的正确率均小于健康对照者(均P<0.01);奖励刺激条件下,MA依赖者的反应时大于健康对照者(P<0.05);中性刺激条件下,MA依赖者的左背外侧前额叶皮层激活水平大于健康对照者(P<0.05);MA依赖者的BIS-11总分大于健康对照者(P<0.05)。控制年龄和受教育程度后,两组在正确率、反应时、前额叶激活水平及BIS-11总分的组别主效应均无统计学意义(均P>0.05)。结论:男性MA依赖者的奖赏功能与健康成年人有异,表现为行为效率低下和更多认知资源消耗,但这种差异可能受个体差异性影响。 展开更多
关键词 甲基苯丙胺 奖赏功能 货币奖励延迟 功能性近红外光谱
暂未订购
基于规则与改进wall-following的多智能体协同围捕策略
9
作者 王佳旭 冀承慧 +1 位作者 胡创业 丁男 《计算机仿真》 2026年第1期423-435,445,共14页
针对多智能体协同执行围捕任务面临的动态性,提出了一种基于规则与改进wall-following的深度强化学习算法(Rule-Based Deep Reinforcement Learning,RBDRL)。首先,RBDRL算法根据目标和障碍物在历史行为区间内动作选择的统计,进行连续执... 针对多智能体协同执行围捕任务面临的动态性,提出了一种基于规则与改进wall-following的深度强化学习算法(Rule-Based Deep Reinforcement Learning,RBDRL)。首先,RBDRL算法根据目标和障碍物在历史行为区间内动作选择的统计,进行连续执行多步动作的状态预测,并利用基于wall-following规则设计的Upward-Downward规则在四边形网格环境中生成闭环轨迹;其次,针对闭环轨迹中的冗余路径,采用缩减规则对轨迹进行优化;再次,将这些规则集成到深度强化学习框架中,并设计了综合型奖励机制,尤其在团队奖励中,特别纳入了对时间成本的考量;最后,将RBDRL算法分别与基于计数的深度强化学习算法和无规则的深度强化学习算法在包含不同规模和数量的静态与动态障碍物场景中进行对比实验。实验结果表明,所提方法在解决多智能体在动态环境中协同执行围捕任务的问题时,具有可行性与有效性。 展开更多
关键词 多智能体 路径规划 动态预测 空间缩减 奖励函数
在线阅读 下载PDF
基于深度强化学习的永磁同步电机控制算法研究
10
作者 范慧妍 王爽 《电机与控制应用》 2026年第3期269-278,共10页
【目的】深度强化学习(DRL)作为一种新兴的智能控制技术,在电机驱动系统控制领域展现出显著潜力。对此,本文研究并设计了一种先进的基于DRL的永磁同步电机(PMSM)驱动控制架构,旨在不依赖电机物理参数精确辨识的情况下,实现高精度、无模... 【目的】深度强化学习(DRL)作为一种新兴的智能控制技术,在电机驱动系统控制领域展现出显著潜力。对此,本文研究并设计了一种先进的基于DRL的永磁同步电机(PMSM)驱动控制架构,旨在不依赖电机物理参数精确辨识的情况下,实现高精度、无模型的鲁棒控制。【方法】本文将深度Q网络与有限控制集转矩控制结合,通过在线学习直接输出逆变器的开关状态,使智能体能够通过与电机环境的持续在线学习与交互,直接确定逆变器的最优开关状态。首先,设计了一个综合性多层次奖励函数以反映PMSM的复杂特性,同时兼顾了高保真转矩跟踪、定子电流幅值最小化以及系统整体能量效率最大化等多个优化目标。其次,为了弥补理论探索与实际安全需求之间的差距,建立了一种基于电流约束的新型安全保护与评估机制。该机制确保了DRL固有的随机探索过程不会导致系统过流或硬件损坏。最后,通过引入Q学习结构和自动化超参数优化方法,有效提高了算法的收敛性和控制性能。【结果】仿真结果表明,在训练400个回合后平均奖励值稳定于1附近,证明了算法优异的收敛性。所提算法能够精准跟踪转矩指令,在不同转速及负载阶跃工况下均保持了较快的响应速度与极小的稳态误差。通过合理的权重配置,系统有效实现了转矩精度与运行效率的平衡。此外,安全保护机制通过done信号实时截断高风险状态的预期收益,确保定子电流始终严格约束在安全阈值内,验证了模型在小样本场景下的稳健性。【结论】所提方案实现了无模型的高性能转矩控制,其引入的安全评估机制为强化学习在电力电子领域的应用提供了科学依据与预防性运维的新思路,为电机智能控制提供了新的研究方向。 展开更多
关键词 深度强化学习 永磁同步电机 有限控制集转矩控制 多层次奖励函数
在线阅读 下载PDF
基于深度强化学习智能制导的研究思考
11
作者 郭威 常远 +2 位作者 程芳 王清云 王冲 《现代防御技术》 北大核心 2026年第1期73-84,共12页
在当前战争环境多元化和复杂化的情况下,战争形态也经历了重大的转变。随着当前人工智能技术的不断发展,其在各个领域的影响力也不断提升。对强化学习的原理以及发展进行了全面的阐述,并且对于深度强化学习在智能制导领域的应用进行了分... 在当前战争环境多元化和复杂化的情况下,战争形态也经历了重大的转变。随着当前人工智能技术的不断发展,其在各个领域的影响力也不断提升。对强化学习的原理以及发展进行了全面的阐述,并且对于深度强化学习在智能制导领域的应用进行了分析;对于智能制导领域的关键技术进行全面的总结,并基于当前智能制导的研究进展,对于当前存在的问题挑战以及智能所带来的影响进行了详细分析,为智能制导的发展提供借鉴和指导。 展开更多
关键词 智能制导 深度强化学习 制导律 人工智能 奖励函数
在线阅读 下载PDF
基于改进深度强化学习算法的电网侧储能系统调峰控制策略
12
作者 杨瑞锋 韩昱 《储能科学与技术》 北大核心 2026年第1期166-176,共11页
随着新能源大规模接入电网,传统调度模式难以应对系统高随机性与复杂性,电网侧储能系统的优化调度成为提升电网灵活性与可靠性的关键。本研究提出一种基于改进深度强化学习的电网侧储能调峰控制策略:通过融合可再生能源出力、负荷需求... 随着新能源大规模接入电网,传统调度模式难以应对系统高随机性与复杂性,电网侧储能系统的优化调度成为提升电网灵活性与可靠性的关键。本研究提出一种基于改进深度强化学习的电网侧储能调峰控制策略:通过融合可再生能源出力、负荷需求及储能设备参数构建多源数据输入层,设计兼顾短期调峰效益与长期全生命周期成本的奖励函数,使智能体通过与微网环境交互学习最优调度策略。基于园区级微网测试系统的案例表明,该策略较传统调度方法,全生命周期成本降低11.9%~34.6%,电池寿命延长22.55%~37.36%,同时新能源综合消纳率提升至92.3%,微网峰谷差降幅达36.36%。该策略为现代电网中电网侧储能系统的动态智能管理提供数据驱动方案,助力提升电网运行效率与新能源消纳能力。 展开更多
关键词 改进深度强化学习 电网侧储能 奖励函数 优化调度 全生命周期
在线阅读 下载PDF
基于复合回报函数的空战指向控制策略研究
13
作者 徐俊 邓向阳 +3 位作者 付宇鹏 岳圣智 宋婧菡 林远山 《现代电子技术》 北大核心 2026年第2期73-79,共7页
针对近距离空战中无人机难以在任意态势下快速指向控制问题,提出一种基于复合回报函数设计的空战指向控制策略。为了避免空战中无人机自主低效大机动完成指向任务后,陷入能量退却的危险状态,设计融合能量、时间、攻击角等多维度约束的... 针对近距离空战中无人机难以在任意态势下快速指向控制问题,提出一种基于复合回报函数设计的空战指向控制策略。为了避免空战中无人机自主低效大机动完成指向任务后,陷入能量退却的危险状态,设计融合能量、时间、攻击角等多维度约束的复合回报函数对不同初始态势无人机进行指向瞄准训练。针对空战任务中观测空间、动作空间的复杂高维特性导致的策略难收敛的问题,对SAC算法训练中双Actor-Critic神经网络结构的网络参数更新过程进行分层L_(2)范数梯度裁剪,显著提高了算法的收敛效率。仿真结果表明:所提算法能够很好地引导飞机快速做出保留能量和机动性的机动决策指令并完成指向瞄准任务;相较于TD3、PPO、DDPG等传统深度强化学习算法,其具有更优的收敛效率。 展开更多
关键词 固定翼飞机 深度强化学习 回报函数塑造 空战策略 机动决策 连续空间 策略约束
在线阅读 下载PDF
基于随机集成网络-TD3的四足机器人步态学习方法
14
作者 朱晓庆 朱晓宇 +2 位作者 阮晓钢 南博睿 毕兰越 《北京工业大学学报》 北大核心 2026年第4期371-379,共9页
为解决四足机器人技能学习领域中双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法中存在Q值低估导致价值估计不准确,从而出现学习效果恶化的问题,提出一种随机集成网络-TD3(randomized ensembled n... 为解决四足机器人技能学习领域中双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法中存在Q值低估导致价值估计不准确,从而出现学习效果恶化的问题,提出一种随机集成网络-TD3(randomized ensembled network-TD3,RE-TD3)算法。首先,该算法集成多个Q值网络,并随机选取Q值网络进行评估,缓解价值估计不准确的问题,有效提高策略性能;其次,设计合适的奖励函数以正确引导四足机器人的步态学习任务;最后,设置仿真实验进行验证。实验结果表明,该算法能够使四足机器人学习到良好的运动步态,与TD3算法相比,奖励值提高了32%,机体稳定性提高了约67%,期望方向偏离量提高了60%。 展开更多
关键词 强化学习 四足机器人 双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient TD3) 奖励函数 步态学习 集成网络
在线阅读 下载PDF
中国草畜平衡制度的结构优化与体系完善
15
作者 陈宝山 姜贺天 +1 位作者 麻芦苇 丁梦茹 《自然资源学报》 北大核心 2026年第1期71-86,共16页
草畜平衡制度在抑制牧民超载放牧、保护草原生态平衡方面发挥着重要作用,但部分地区草畜矛盾、草地退化等问题依旧严峻。运用结构功能分析法对中国草畜平衡制度进行分析发现,草畜平衡制度的实施呈现出草原保护成效较为显著,通过法律手... 草畜平衡制度在抑制牧民超载放牧、保护草原生态平衡方面发挥着重要作用,但部分地区草畜矛盾、草地退化等问题依旧严峻。运用结构功能分析法对中国草畜平衡制度进行分析发现,草畜平衡制度的实施呈现出草原保护成效较为显著,通过法律手段明确制度运行的职、权、责关系的正功能,但也产生了限制放牧行为、抑制牧户权利、最终成为一种限权行为,以及影响牧户放牧收入、降低牧户守约积极性、产生负向激励的负功能。因果检视表明,草畜平衡规范结构断裂与制度结构配置不合理的外部结构障碍,核定周期过长、约束与激励失衡和监督监测制度局限的内部结构障碍,以及奖补混同抑制牧民积极性的内外部结构衔接障碍,共同制约了制度功能的发挥。鉴于此,应统筹草畜平衡与禁牧、休牧、轮牧、舍饲等制度,完善草畜平衡法规和制度体系,优化激励约束平衡、载畜量核定和监督监测制度,构建草畜平衡补奖与草原生态产品价值实现的衔接制度,破解制度结构障碍。 展开更多
关键词 草畜平衡制度 结构功能分析 奖补衔接 生态产品价值实现
原文传递
基于对抗强化学习的无人机逃离路径规划方法 被引量:1
16
作者 黄湘松 王梦宇 潘大鹏 《航空学报》 北大核心 2025年第17期292-307,共16页
在无人机技术迅速发展的背景下,如何应对其他无人机的恶意追捕成为了无人机安全防护中的重要课题。针对通过使用对抗强化学习算法,提升无人机在敌对环境中的适应性和生存能力这一问题,利用对抗强化学习框架,针对无人机逃逸过程中接收错... 在无人机技术迅速发展的背景下,如何应对其他无人机的恶意追捕成为了无人机安全防护中的重要课题。针对通过使用对抗强化学习算法,提升无人机在敌对环境中的适应性和生存能力这一问题,利用对抗强化学习框架,针对无人机逃逸过程中接收错误信息对决策产生干扰的问题进行了处理,以围捕者与逃逸者之间的对抗为基础,优化运输无人机的策略以应对围捕者的行为。针对传统的强化学习方法中的稀疏奖励问题,结合人工势场法提出逐步奖励策略机制,使得无人机可以更有效地适应围捕环境。结果表明,该算法相比于近端策略优化(PPO)算法,无人机的逃逸成功率提升了54.47%,同时运输时间减少了34.35%,显著提高了无人机的运输效率。结果为无人机的安全防护提供了新的技术方案,并探索了对抗强化学习在恶意追捕情境下的应用潜力。 展开更多
关键词 对抗训练 强化学习 逃逸路径规划 逃逸决策 奖励函数
原文传递
基于深度强化学习的游戏智能引导算法 被引量:2
17
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
如何实现真正的智能?——关于智能体中事实性计算与价值性算计深度融合的思考 被引量:1
18
作者 刘伟 龙擎天 马楠 《电子科技大学学报(社科版)》 2025年第5期1-7,共7页
该文深入探讨了人工智能(AI)实现真正智能的关键路径,主张通过事实性计算与价值性算计的深度融合,推动AI从单纯的自动化工具向具备认知与道德能力的智能系统转变。当前AI在处理客观数据方面表现出色,但在理解和应对人类社会的复杂价值... 该文深入探讨了人工智能(AI)实现真正智能的关键路径,主张通过事实性计算与价值性算计的深度融合,推动AI从单纯的自动化工具向具备认知与道德能力的智能系统转变。当前AI在处理客观数据方面表现出色,但在理解和应对人类社会的复杂价值问题时存在明显不足,可能导致决策偏差和伦理困境。论文明确区分事实性事实与价值性事实,指出后者基于前者并影响事实认知;在强化学习中,提出奖惩函数设计需兼顾事实准确性与价值目标;在人机环境系统中,构建动态协同框架以融合事实的可计算性与价值的可判定性;强调通过具身认知等技术改进人机交互,推动AI从功能性模拟转向机制性模拟;在多人多智能体系统中,分析多事实与多价值的动态交互,突出通信与自组织的必要性。AI若要跨越工具理性,迈向价值理性,必须实现事实性与价值性的有机结合。 展开更多
关键词 人机交互 智能体 人工智能 价值与事实 奖惩函数
在线阅读 下载PDF
基于改进深度强化学习的交通信号灯控制
19
作者 韦敏 蔡常健 《计算机工程与设计》 北大核心 2025年第3期927-933,共7页
为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待... 为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待时间和车道最大队列长度的多任务奖励函数,提高城市交叉口的通行效率。实验结果表明,所提方法能够获得更高奖励,在训练场景对比基线方法平均等待时间和平均队列长度均明显降低,平均速度明显提高,测试结果同样验证所提方法更能提高道路通行效率。 展开更多
关键词 深度强化学习 信号灯控制 对决网络 状态空间 奖励函数 城市交叉口 交通工程
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
20
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 PPO算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部