期刊文献+
共找到280篇文章
< 1 2 14 >
每页显示 20 50 100
Variable reward function-driven strategies for impulsive orbital attack-defense games under multiple constraints and victory conditions
1
作者 Liran Zhao Sihan Xu +1 位作者 Qinbo Sun Zhaohui Dang 《Defence Technology(防务技术)》 2025年第9期159-183,共25页
This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breac... This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breach the defender's interception to rendezvous with the target,while the defender seeks to protect the target by blocking or actively pursuing the attacker.Four different maneuvering constraints and five potential game outcomes are incorporated to more accurately model AD game problems and increase complexity,thereby reducing the effectiveness of traditional methods such as differential games and game-tree searches.To address these challenges,this study proposes a multiagent deep reinforcement learning solution with variable reward functions.Two attack strategies,Direct attack(DA)and Bypass attack(BA),are developed for the attacker,each focusing on different mission priorities.Similarly,two defense strategies,Direct interdiction(DI)and Collinear interdiction(CI),are designed for the defender,each optimizing specific defensive actions through tailored reward functions.Each reward function incorporates both process rewards(e.g.,distance and angle)and outcome rewards,derived from physical principles and validated via geometric analysis.Extensive simulations of four strategy confrontations demonstrate average defensive success rates of 75%for DI vs.DA,40%for DI vs.BA,80%for CI vs.DA,and 70%for CI vs.BA.Results indicate that CI outperforms DI for defenders,while BA outperforms DA for attackers.Moreover,defenders achieve their objectives more effectively under identical maneuvering capabilities.Trajectory evolution analyses further illustrate the effectiveness of the proposed variable reward function-driven strategies.These strategies and analyses offer valuable guidance for practical orbital defense scenarios and lay a foundation for future multi-agent game research. 展开更多
关键词 Orbital attack-defense game Impulsive maneuver Multi-agent deep reinforcement learning reward function design
在线阅读 下载PDF
Reward Function Design Method for Long Episode Pursuit Tasks Under Polar Coordinate in Multi-Agent Reinforcement Learning
2
作者 DONG Yubo CUI Tao +3 位作者 ZHOU Yufan SONG Xun ZHU Yue DONG Peng 《Journal of Shanghai Jiaotong university(Science)》 EI 2024年第4期646-655,共10页
Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting... Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting in low rewards and an inability for agents to learn strategies.This paper proposes a deep reinforcement learning(DRL)training method that employs an ensemble segmented multi-reward function design approach to address the convergence problem mentioned before.The ensemble reward function combines the advantages of two reward functions,which enhances the training effect of agents in long episode.Then,we eliminate the non-monotonic behavior in reward function introduced by the trigonometric functions in the traditional 2D polar coordinates observation representation.Experimental results demonstrate that this method outperforms the traditional single reward function mechanism in the pursuit scenario by enhancing agents’policy scores of the task.These ideas offer a solution to the convergence challenges faced by DRL models in long episode pursuit problems,leading to an improved model training performance. 展开更多
关键词 multi-agent reinforcement learning deep reinforcement learning(DRL) long episode reward function
原文传递
A Study on the Addictive Feature of Nonsuicidal Self-Injury in Adolescents With Depression Disorders and Its Correlation With Serum Beta-Endorphin Concentration and Neural Reward Responsiveness
3
作者 Jie Li Xiaogang Zhu +4 位作者 Peiwen Zhang Yuxing Wang Jian Zhong Yiming Wang Lixia Yang 《iRADIOLOGY》 2025年第6期456-464,共9页
Background:Nonsuicidal self-injury(NSSI)in adolescents with depression disorders often exhibits addictive patterns,potentially linked to serum beta-endorphin levels and neural reward responsiveness.Beta-endorphin,invo... Background:Nonsuicidal self-injury(NSSI)in adolescents with depression disorders often exhibits addictive patterns,potentially linked to serum beta-endorphin levels and neural reward responsiveness.Beta-endorphin,involved in reward processing,alongside dysregulated neural reward pathways,may reinforce self-injurious behaviors,highlighting the need to explore these mechanisms.Methods:Adolescents(aged 12-17 years)with depression disorders were divided into an NSSI group(21 subjects)and a control group(11 subjects)according to inclusion criteria.Serum beta-endorphin concentration was measured using the enzyme-linked immunosorbent assay method.The Addiction Factor Scale was used to assess addiction levels.Statistical analyses were con-ducted using SPSS 25.0.The oxygenated hemoglobin response signal was detected using functional near-infrared spectroscopy.Analyses were performed using NIRS_KIT 2.0.Results:Compared with the control group,the NSSI group exhibited lower serum beta-endorphin concentration.Additionally,85.7%of those in the NSSI group displayed addictive behaviors,and serum beta-endorphin concentration was negatively correlated with the Addiction Factor Scale score.The reward task activated channels 17,20,and 21(corresponding to the dorsolateral prefrontal cortex[PFC]and frontopolar PFC)in the gain condition and channels 20 and 21 in the loss condition.The oxygenated hemoglobin concentration of the differential waveform(Δ[oxy-Hb])of channel 12(corresponding to the frontopolar PFC)correlated positively with the Addiction Factor Scale score and negatively with the serum beta-endorphin concentration. 展开更多
关键词 adolescents with depression disorders BETA-ENDORPHIN functional near-infrared spectroscopy neural reward responsiveness non-suicidal self-injury
暂未订购
DDPG优化算法的改进型自抗扰风电机组桨距角控制
4
作者 徐晓宁 范召强 +3 位作者 周雪松 陶珑 问虎龙 杨风霞 《太阳能学报》 北大核心 2026年第1期575-584,共10页
为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)... 为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)基础上引入自由扩张维度的状态变量,并对增阶后的参数基于比例微分形式进行改进,以提高对扰动的顺馈矫正能力。随后根据发电机转速误差设计合适的奖励函数,利用DDPG算法使改进后的线性自抗扰控制(LADRC)参数能够自适应调整,实现最优的控制效果。仿真结果表明,所提策略能有效应对风速剧烈波动,使桨距角能快速适应风速变化,从而维持风电机组的稳定运行和电能的高效输出。 展开更多
关键词 风电机组 桨距角 线性自抗扰控制 深度确定性策略梯度 奖励函数 参数整定
原文传递
改进DDPG的磁浮控制研究
5
作者 张振利 宋成林 +1 位作者 汪永壮 杨杰 《工程科学学报》 北大核心 2026年第2期422-435,共14页
针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针... 针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针对传统DDPG算法在电磁悬浮控制中的不足,设计一种分段式反比例奖励函数,以提升稳态精度和响应速度,并对DDPG控制流程进行分析及优化,以满足实际部署需求.最后,通过仿真与实验,对比分析电流环跟踪、奖励函数、训练步长以及模型变化对控制性能的影响.结果表明:采用分段式反比例奖励函数的IDDPG控制器在降低稳态误差和超调的同时,显著提升系统的响应速度,且优化后的控制流程适用于实际系统部署.此外,不同模型下使用相同参数稳态误差均低于5%,取得基本一致的控制效果,远优于滑模控制(Sliding mode control, SMC)的31%和比例–积分–微分控制(Proportional–Integral–Derivative control, PID)的12%,验证了IDDPG在不依赖精确模型情况下的良好适应性.同时,抗扰实验中,IDDPG相比PID超调减少51%,调节时间缩短49%,具有更强抗扰性. 展开更多
关键词 DDPG 奖励函数 控制指标 系统建模 磁浮系统 学习步长
在线阅读 下载PDF
基于SAC改进的机器人路径规划算法
6
作者 姚博远 黄志勇 《计算机工程与设计》 北大核心 2026年第2期327-335,共9页
为了提升机器人在未知动态环境下的路径规划能力,提出了一种基于强化学习的路径规划算法PMS-SAC,在SAC算法基础上,以加权优先采样取代均匀采样,并以多步回报替代单步奖励,从而提升样本效率并加快收敛。将路径规划任务建模为马尔可夫决... 为了提升机器人在未知动态环境下的路径规划能力,提出了一种基于强化学习的路径规划算法PMS-SAC,在SAC算法基础上,以加权优先采样取代均匀采样,并以多步回报替代单步奖励,从而提升样本效率并加快收敛。将路径规划任务建模为马尔可夫决策过程,引入辅助奖励函数优化奖励分布。PMS-SAC算法提升了样本使用效率,缩短了训练时间,加快了收敛速度,缓解了稀疏奖励问题。在ROS和Gazebo平台进行了仿真,实验结果表明,与SAC算法相比,PMSSAC算法最大成功率提升达到了15.8%,平均收敛轮次减少了175轮。 展开更多
关键词 机器人 路径规划 强化学习 经验回放 多步学习 奖励函数 稀疏奖励
在线阅读 下载PDF
流奖赏引导的基于模型学习的策略优化方法
7
作者 王义 钟珊 龚声蓉 《计算机工程与设计》 北大核心 2026年第2期528-535,共8页
针对基于模型的强化学习中模型误差累积与探索效率低下的问题,提出耦合标准化流的动态奖励优化方法。通过构建双流网络区分真实环境与模型生成分布,利用分布差异动态重构奖励函数:训练阶段最小化差异提升预测精度,策略在线交互阶段根据... 针对基于模型的强化学习中模型误差累积与探索效率低下的问题,提出耦合标准化流的动态奖励优化方法。通过构建双流网络区分真实环境与模型生成分布,利用分布差异动态重构奖励函数:训练阶段最小化差异提升预测精度,策略在线交互阶段根据差异强度自适应调节探索范围。该方法突破传统静态奖励机制限制,在连续控制任务中有效抑制多步预测误差传播,显著提升样本效率与累积回报,同时增强策略收敛稳定性,为开放环境中的智能体学习提供新范式。 展开更多
关键词 强化学习 模型学习 策略优化 标准化流 样本效率 奖赏函数 探索与利用
在线阅读 下载PDF
基于规则与改进wall-following的多智能体协同围捕策略
8
作者 王佳旭 冀承慧 +1 位作者 胡创业 丁男 《计算机仿真》 2026年第1期423-435,445,共14页
针对多智能体协同执行围捕任务面临的动态性,提出了一种基于规则与改进wall-following的深度强化学习算法(Rule-Based Deep Reinforcement Learning,RBDRL)。首先,RBDRL算法根据目标和障碍物在历史行为区间内动作选择的统计,进行连续执... 针对多智能体协同执行围捕任务面临的动态性,提出了一种基于规则与改进wall-following的深度强化学习算法(Rule-Based Deep Reinforcement Learning,RBDRL)。首先,RBDRL算法根据目标和障碍物在历史行为区间内动作选择的统计,进行连续执行多步动作的状态预测,并利用基于wall-following规则设计的Upward-Downward规则在四边形网格环境中生成闭环轨迹;其次,针对闭环轨迹中的冗余路径,采用缩减规则对轨迹进行优化;再次,将这些规则集成到深度强化学习框架中,并设计了综合型奖励机制,尤其在团队奖励中,特别纳入了对时间成本的考量;最后,将RBDRL算法分别与基于计数的深度强化学习算法和无规则的深度强化学习算法在包含不同规模和数量的静态与动态障碍物场景中进行对比实验。实验结果表明,所提方法在解决多智能体在动态环境中协同执行围捕任务的问题时,具有可行性与有效性。 展开更多
关键词 多智能体 路径规划 动态预测 空间缩减 奖励函数
在线阅读 下载PDF
基于深度强化学习智能制导的研究思考
9
作者 郭威 常远 +2 位作者 程芳 王清云 王冲 《现代防御技术》 北大核心 2026年第1期73-84,共12页
在当前战争环境多元化和复杂化的情况下,战争形态也经历了重大的转变。随着当前人工智能技术的不断发展,其在各个领域的影响力也不断提升。对强化学习的原理以及发展进行了全面的阐述,并且对于深度强化学习在智能制导领域的应用进行了分... 在当前战争环境多元化和复杂化的情况下,战争形态也经历了重大的转变。随着当前人工智能技术的不断发展,其在各个领域的影响力也不断提升。对强化学习的原理以及发展进行了全面的阐述,并且对于深度强化学习在智能制导领域的应用进行了分析;对于智能制导领域的关键技术进行全面的总结,并基于当前智能制导的研究进展,对于当前存在的问题挑战以及智能所带来的影响进行了详细分析,为智能制导的发展提供借鉴和指导。 展开更多
关键词 智能制导 深度强化学习 制导律 人工智能 奖励函数
在线阅读 下载PDF
中国草畜平衡制度的结构优化与体系完善
10
作者 陈宝山 姜贺天 +1 位作者 麻芦苇 丁梦茹 《自然资源学报》 北大核心 2026年第1期71-86,共16页
草畜平衡制度在抑制牧民超载放牧、保护草原生态平衡方面发挥着重要作用,但部分地区草畜矛盾、草地退化等问题依旧严峻。运用结构功能分析法对中国草畜平衡制度进行分析发现,草畜平衡制度的实施呈现出草原保护成效较为显著,通过法律手... 草畜平衡制度在抑制牧民超载放牧、保护草原生态平衡方面发挥着重要作用,但部分地区草畜矛盾、草地退化等问题依旧严峻。运用结构功能分析法对中国草畜平衡制度进行分析发现,草畜平衡制度的实施呈现出草原保护成效较为显著,通过法律手段明确制度运行的职、权、责关系的正功能,但也产生了限制放牧行为、抑制牧户权利、最终成为一种限权行为,以及影响牧户放牧收入、降低牧户守约积极性、产生负向激励的负功能。因果检视表明,草畜平衡规范结构断裂与制度结构配置不合理的外部结构障碍,核定周期过长、约束与激励失衡和监督监测制度局限的内部结构障碍,以及奖补混同抑制牧民积极性的内外部结构衔接障碍,共同制约了制度功能的发挥。鉴于此,应统筹草畜平衡与禁牧、休牧、轮牧、舍饲等制度,完善草畜平衡法规和制度体系,优化激励约束平衡、载畜量核定和监督监测制度,构建草畜平衡补奖与草原生态产品价值实现的衔接制度,破解制度结构障碍。 展开更多
关键词 草畜平衡制度 结构功能分析 奖补衔接 生态产品价值实现
原文传递
基于改进深度强化学习算法的电网侧储能系统调峰控制策略
11
作者 杨瑞锋 韩昱 《储能科学与技术》 北大核心 2026年第1期166-176,共11页
随着新能源大规模接入电网,传统调度模式难以应对系统高随机性与复杂性,电网侧储能系统的优化调度成为提升电网灵活性与可靠性的关键。本研究提出一种基于改进深度强化学习的电网侧储能调峰控制策略:通过融合可再生能源出力、负荷需求... 随着新能源大规模接入电网,传统调度模式难以应对系统高随机性与复杂性,电网侧储能系统的优化调度成为提升电网灵活性与可靠性的关键。本研究提出一种基于改进深度强化学习的电网侧储能调峰控制策略:通过融合可再生能源出力、负荷需求及储能设备参数构建多源数据输入层,设计兼顾短期调峰效益与长期全生命周期成本的奖励函数,使智能体通过与微网环境交互学习最优调度策略。基于园区级微网测试系统的案例表明,该策略较传统调度方法,全生命周期成本降低11.9%~34.6%,电池寿命延长22.55%~37.36%,同时新能源综合消纳率提升至92.3%,微网峰谷差降幅达36.36%。该策略为现代电网中电网侧储能系统的动态智能管理提供数据驱动方案,助力提升电网运行效率与新能源消纳能力。 展开更多
关键词 改进深度强化学习 电网侧储能 奖励函数 优化调度 全生命周期
在线阅读 下载PDF
基于复合回报函数的空战指向控制策略研究
12
作者 徐俊 邓向阳 +3 位作者 付宇鹏 岳圣智 宋婧菡 林远山 《现代电子技术》 北大核心 2026年第2期73-79,共7页
针对近距离空战中无人机难以在任意态势下快速指向控制问题,提出一种基于复合回报函数设计的空战指向控制策略。为了避免空战中无人机自主低效大机动完成指向任务后,陷入能量退却的危险状态,设计融合能量、时间、攻击角等多维度约束的... 针对近距离空战中无人机难以在任意态势下快速指向控制问题,提出一种基于复合回报函数设计的空战指向控制策略。为了避免空战中无人机自主低效大机动完成指向任务后,陷入能量退却的危险状态,设计融合能量、时间、攻击角等多维度约束的复合回报函数对不同初始态势无人机进行指向瞄准训练。针对空战任务中观测空间、动作空间的复杂高维特性导致的策略难收敛的问题,对SAC算法训练中双Actor-Critic神经网络结构的网络参数更新过程进行分层L_(2)范数梯度裁剪,显著提高了算法的收敛效率。仿真结果表明:所提算法能够很好地引导飞机快速做出保留能量和机动性的机动决策指令并完成指向瞄准任务;相较于TD3、PPO、DDPG等传统深度强化学习算法,其具有更优的收敛效率。 展开更多
关键词 固定翼飞机 深度强化学习 回报函数塑造 空战策略 机动决策 连续空间 策略约束
在线阅读 下载PDF
ACR-MLM:a privacy-preserving framework for anonymous and confidential rewarding in blockchain-based multi-level marketing
13
作者 Saeed Banaeian Far Azadeh Imani Rad Maryam Rajabzadeh Asaar 《Data Science and Management》 2022年第4期219-231,共13页
Network marketing is a trading technique that provides companies with the opportunity to increase sales.With the increasing number of Internet-based purchases,several threats are increasingly observed in this field,su... Network marketing is a trading technique that provides companies with the opportunity to increase sales.With the increasing number of Internet-based purchases,several threats are increasingly observed in this field,such as user privacy violations,company owner(CO)fraud,the changing of sold products’information,and the scalability of selling networks.This study presents the concept of a blockchain-based market called ACR-MLM that functions based on the multi-level marketing(MLM)model,through which registered users receive anonymous and confidential rewards for their own and their subgroups’sales.Applying a public blockchain as the ACR-MLM framework’s infrastructure solves existing problems in MLM-based markets,such as CO fraud(against the government or its users),user privacy violations(obtaining their real names or subgroup users),and scalability(when vast numbers of users have been registered).To provide confidentiality and scalability to the ACR-MLM framework,hierarchical identity-based encryption(HIBE)was applied with a functional encryption(FE)scheme.Finally,the security of ACR-MLM is analyzed using the random oracle(RO)model and then evaluated. 展开更多
关键词 Anonymous rewarding Blockchain functional encryption Multi-level marketing PRIVACY
在线阅读 下载PDF
基于对抗强化学习的无人机逃离路径规划方法 被引量:1
14
作者 黄湘松 王梦宇 潘大鹏 《航空学报》 北大核心 2025年第17期292-307,共16页
在无人机技术迅速发展的背景下,如何应对其他无人机的恶意追捕成为了无人机安全防护中的重要课题。针对通过使用对抗强化学习算法,提升无人机在敌对环境中的适应性和生存能力这一问题,利用对抗强化学习框架,针对无人机逃逸过程中接收错... 在无人机技术迅速发展的背景下,如何应对其他无人机的恶意追捕成为了无人机安全防护中的重要课题。针对通过使用对抗强化学习算法,提升无人机在敌对环境中的适应性和生存能力这一问题,利用对抗强化学习框架,针对无人机逃逸过程中接收错误信息对决策产生干扰的问题进行了处理,以围捕者与逃逸者之间的对抗为基础,优化运输无人机的策略以应对围捕者的行为。针对传统的强化学习方法中的稀疏奖励问题,结合人工势场法提出逐步奖励策略机制,使得无人机可以更有效地适应围捕环境。结果表明,该算法相比于近端策略优化(PPO)算法,无人机的逃逸成功率提升了54.47%,同时运输时间减少了34.35%,显著提高了无人机的运输效率。结果为无人机的安全防护提供了新的技术方案,并探索了对抗强化学习在恶意追捕情境下的应用潜力。 展开更多
关键词 对抗训练 强化学习 逃逸路径规划 逃逸决策 奖励函数
原文传递
基于深度强化学习的游戏智能引导算法 被引量:2
15
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
如何实现真正的智能?——关于智能体中事实性计算与价值性算计深度融合的思考 被引量:1
16
作者 刘伟 龙擎天 马楠 《电子科技大学学报(社科版)》 2025年第5期1-7,共7页
该文深入探讨了人工智能(AI)实现真正智能的关键路径,主张通过事实性计算与价值性算计的深度融合,推动AI从单纯的自动化工具向具备认知与道德能力的智能系统转变。当前AI在处理客观数据方面表现出色,但在理解和应对人类社会的复杂价值... 该文深入探讨了人工智能(AI)实现真正智能的关键路径,主张通过事实性计算与价值性算计的深度融合,推动AI从单纯的自动化工具向具备认知与道德能力的智能系统转变。当前AI在处理客观数据方面表现出色,但在理解和应对人类社会的复杂价值问题时存在明显不足,可能导致决策偏差和伦理困境。论文明确区分事实性事实与价值性事实,指出后者基于前者并影响事实认知;在强化学习中,提出奖惩函数设计需兼顾事实准确性与价值目标;在人机环境系统中,构建动态协同框架以融合事实的可计算性与价值的可判定性;强调通过具身认知等技术改进人机交互,推动AI从功能性模拟转向机制性模拟;在多人多智能体系统中,分析多事实与多价值的动态交互,突出通信与自组织的必要性。AI若要跨越工具理性,迈向价值理性,必须实现事实性与价值性的有机结合。 展开更多
关键词 人机交互 智能体 人工智能 价值与事实 奖惩函数
在线阅读 下载PDF
基于功能磁共振技术探讨首发抑郁症奖赏网络功能异常研究
17
作者 肖雪 田静 +6 位作者 孙绪 任渝棠 徐辉 余学 李明山 孙继飞 侯小兵 《精神医学杂志》 2025年第2期118-122,共5页
目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两... 目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两组脑网络的差异。同时,收集FED组17项汉密尔顿抑郁量表(HAMD-17)评分,分析异常脑区与临床症状之间的相关性。结果与对照组比较,FED组在左侧腹侧纹状体上部与左侧中央后回的FC减低(P<0.005),右侧腹侧纹状体上部与左侧尾状核的FC增高(P<0.005),左侧背侧尾状核与右侧颞中回的FC增高(P<0.005),右侧背侧尾侧壳核与右侧顶下小叶的FC减低(P<0.005),左侧背侧吻侧壳核与右侧顶下小叶的FC减低(P<0.005),腹侧吻侧壳核与右侧缘上回的FC减低(P<0.005)。相关性分析结果显示,左侧背侧吻侧壳核与右侧顶下小叶的FC值与HAMD-17评分呈正相关(P<0.05)。结论FED患者在纹状体亚区与默认网络及感觉运动皮层的功能连接上存在异常改变,且奖赏网络内部的功能连接也出现异常。本研究为理解FED的神经病理机制及靶向治疗提供了新的视角。 展开更多
关键词 首发抑郁症 功能磁共振成像 功能连接 奖赏网络
暂未订购
基于多代理深度强化学习的战术无线网络安全路由算法研究
18
作者 谢英辉 刘亮 《传感技术学报》 北大核心 2025年第8期1482-1490,共9页
由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代... 由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代理,它们通过深度神经网络学习决策路由。将跳数、一跳时延、数据包丢失率和能量消耗信息关联到奖励函数,使得代理能够选择时延低、可靠性高的转发节点,进而克服干扰攻击。仿真结果表明,提出的MRSR路由提高了数据包传递率和能量效率。 展开更多
关键词 战术无线网络 安全路由 干扰攻击 多代理深度强化学习 奖励函数
在线阅读 下载PDF
基于改进深度强化学习的交通信号灯控制
19
作者 韦敏 蔡常健 《计算机工程与设计》 北大核心 2025年第3期927-933,共7页
为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待... 为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待时间和车道最大队列长度的多任务奖励函数,提高城市交叉口的通行效率。实验结果表明,所提方法能够获得更高奖励,在训练场景对比基线方法平均等待时间和平均队列长度均明显降低,平均速度明显提高,测试结果同样验证所提方法更能提高道路通行效率。 展开更多
关键词 深度强化学习 信号灯控制 对决网络 状态空间 奖励函数 城市交叉口 交通工程
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
20
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 PPO算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部