期刊文献+
共找到99篇文章
< 1 2 5 >
每页显示 20 50 100
基于功能磁共振技术探讨首发抑郁症奖赏网络功能异常研究
1
作者 肖雪 田静 +6 位作者 孙绪 任渝棠 徐辉 余学 李明山 孙继飞 侯小兵 《精神医学杂志》 2025年第2期118-122,共5页
目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两... 目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两组脑网络的差异。同时,收集FED组17项汉密尔顿抑郁量表(HAMD-17)评分,分析异常脑区与临床症状之间的相关性。结果与对照组比较,FED组在左侧腹侧纹状体上部与左侧中央后回的FC减低(P<0.005),右侧腹侧纹状体上部与左侧尾状核的FC增高(P<0.005),左侧背侧尾状核与右侧颞中回的FC增高(P<0.005),右侧背侧尾侧壳核与右侧顶下小叶的FC减低(P<0.005),左侧背侧吻侧壳核与右侧顶下小叶的FC减低(P<0.005),腹侧吻侧壳核与右侧缘上回的FC减低(P<0.005)。相关性分析结果显示,左侧背侧吻侧壳核与右侧顶下小叶的FC值与HAMD-17评分呈正相关(P<0.05)。结论FED患者在纹状体亚区与默认网络及感觉运动皮层的功能连接上存在异常改变,且奖赏网络内部的功能连接也出现异常。本研究为理解FED的神经病理机制及靶向治疗提供了新的视角。 展开更多
关键词 首发抑郁症 功能磁共振成像 功能连接 奖赏网络
暂未订购
基于改进深度强化学习的交通信号灯控制
2
作者 韦敏 蔡常健 《计算机工程与设计》 北大核心 2025年第3期927-933,共7页
为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待... 为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待时间和车道最大队列长度的多任务奖励函数,提高城市交叉口的通行效率。实验结果表明,所提方法能够获得更高奖励,在训练场景对比基线方法平均等待时间和平均队列长度均明显降低,平均速度明显提高,测试结果同样验证所提方法更能提高道路通行效率。 展开更多
关键词 深度强化学习 信号灯控制 对决网络 状态空间 奖励函数 城市交叉口 交通工程
在线阅读 下载PDF
重性抑郁障碍快感缺失的磁共振成像与神经生物学机制研究进展 被引量:1
3
作者 黄佩姗 王克 +2 位作者 张雪琳 苗懿 董强利 《中国神经精神疾病杂志》 北大核心 2025年第3期180-185,共6页
重性抑郁障碍的核心症状之一是快感缺失,表现为个体对愉悦刺激的反应能力下降。伴快感缺失的重性抑郁障碍患者脑影像表现出一定特点,如纹状体、颞叶等脑区体积或皮质厚度减少,脑白质束微观结构改变,额叶、颞叶和边缘系统的神经元活动异... 重性抑郁障碍的核心症状之一是快感缺失,表现为个体对愉悦刺激的反应能力下降。伴快感缺失的重性抑郁障碍患者脑影像表现出一定特点,如纹状体、颞叶等脑区体积或皮质厚度减少,脑白质束微观结构改变,额叶、颞叶和边缘系统的神经元活动异常,默认模式网络、奖赏网络和额顶叶网络的连接性改变等。此外,压力应激、基因表达、谷氨酸系统及生物节律等因素也可能对快感缺失产生影响。快感缺失的神经生物学机制复杂多样,对重性抑郁障碍的诊断、治疗和预后具有重要指导意义。 展开更多
关键词 快感缺失 重性抑郁障碍 磁共振成像 脑结构 脑功能 脑网络 奖赏网络 神经机制
暂未订购
洋流干扰下低速欠驱动AUV的三维路径规划
4
作者 陈世同 鲁子瑜 《智能系统学报》 北大核心 2025年第2期425-434,共10页
海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,... 海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,由于传统的强化Q网络(deep Q-network,DQN)路径规划算法在复杂环境下存在过估计的问题,提出了基于优先经验回放方法的改进DQN路径规划算法,同时对动作设计和奖励函数进行优化。在基于S57海图数据建立的三维海洋环境下,利用地球与空间研究机构(earth&space research,ESR)提供的洋流数据进行路径规划仿真。实验结果表明,在充分考虑洋流干扰的情况下,改进后的DQN算法能够规划出较优的全局路径规划,提供一条时间最短且能耗最低的航行路线,为AUV水下航行提供参考。 展开更多
关键词 自主水下运载器 强化学习 洋流干扰 路径规划 三维海洋环境 强化Q网络 S57海图 奖励函数
在线阅读 下载PDF
针刺治疗对原发性痛经患者中枢奖赏网络的影响
5
作者 朱豪 粟孟华 +5 位作者 魏微 余思奕 郭小丽 申治富 王亚楠 杨洁 《中华中医药杂志》 北大核心 2025年第2期969-975,共7页
目的:基于功能磁共振成像(fMRI)技术,探讨针刺治疗对原发性痛经(PDM)患者奖赏网络的中枢调控机制。方法:共纳入PDM患者46例,随机分为等待治疗组和针刺组,每组23例。等待治疗组在试验期间不接受任何治疗,针刺组接受3个月经周期的针刺治... 目的:基于功能磁共振成像(fMRI)技术,探讨针刺治疗对原发性痛经(PDM)患者奖赏网络的中枢调控机制。方法:共纳入PDM患者46例,随机分为等待治疗组和针刺组,每组23例。等待治疗组在试验期间不接受任何治疗,针刺组接受3个月经周期的针刺治疗。两组患者治疗前后分别进行视觉模拟量表(VAS)评分、Cox痛经症状量表(CMSS)评分、疼痛灾难化量表(PCS)评分、血清前列腺素F_(2α)(PGF_(2α))评估以及fMRI扫描。以双侧腹侧被盖区(VTA)为种子点进行功能连接(FC)分析。结果:与治疗前比较,针刺组在治疗后VTA与右侧眶额回(OFC)、双侧背外侧前额叶皮层(DLPFC)、左侧前脑岛(AI)、左侧背侧前扣带回(dACC)以及左侧蓝斑的FC值增高,而VTA与左侧伏隔核(NAc)、双侧尾状核的FC降低;等待治疗组在试验后VTA与右侧中央前回、右侧顶上小叶FC增高;而VTA与右侧舌回、右侧腹外侧前额叶皮层(VLPFC)、右侧海马(HIP)等脑区的FC降低。与等待治疗组比较,针刺组在治疗后VTA与双侧VLPFC、双侧前AI、右侧HIP、右侧舌回、左侧dACC等脑区的FC增高;而VTA与右侧中央前回、右侧尾状核等脑区的FC降低。针刺组患者在针刺治疗后,VTA-dACC的FC变化与PCS改善值呈正相关(P<0.05),VTA-NAc的FC变化与CMSS以及PGF2α的改善值呈正相关(P<0.05,P<0.01)。结论:针刺可能通过靶向调控以中脑边缘系统(VTA-NAc)为核心的奖赏网络,进而起到治疗PDM的作用。 展开更多
关键词 奖赏网络 原发性痛经 针刺 腹侧被盖区 功能磁共振成像
原文传递
基于深度多智能体强化学习的机床混流装配线调度优化
6
作者 姜兴宇 陈嘉淇 +1 位作者 王立权 徐伟宏 《工业工程》 2025年第4期15-23,共9页
为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应... 为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应用去中心化分散执行的双重深度Q网络(double deep Q network,DDQN)的智能体来学习生产信息与调度目标的关系。该框架采用集中训练与分散执行的策略,并使用参数共享技术,能处理多智能体强化学习中的非稳态问题。在此基础上,采用递归神经网络来管理可变长度的状态和行动表示,使智能体具有处理任意规模问题的能力。同时引入全局/局部奖励函数,以解决训练过程中的奖励稀疏问题。通过消融实验,确定了最优的参数组合。数值实验结果表明,与标准测试方案相比,本算法在目标达成度方面,平均总延迟工件数较改善前提升了24.1%~32.3%,训练速度提高了8.3%。 展开更多
关键词 机床混流装配线 深度多智能体强化学习 递归神经网络 全局/局部奖励函数
在线阅读 下载PDF
基于改进DQN算法的移动机器人路径规划
7
作者 于效民 王欣 +1 位作者 吴迪 刘雪莲 《计算机应用与软件》 北大核心 2025年第6期335-341,共7页
移动机器人在动态未知复杂环境中进行路径规划时,需要保证机器人的实时性。针对DQN算法在移动机器人路径规划中存在的过估计问题以及收敛速度慢的问题,提出一种C-RD3QN算法(Combination-Residual Dueling Double DQN)。该算法在D3QN算... 移动机器人在动态未知复杂环境中进行路径规划时,需要保证机器人的实时性。针对DQN算法在移动机器人路径规划中存在的过估计问题以及收敛速度慢的问题,提出一种C-RD3QN算法(Combination-Residual Dueling Double DQN)。该算法在D3QN算法基础上,将卷积层修改为残差网络结构,使用竞争网络结构中的动作优势函数来估计动作值函数,将状态值函数与奖励值结合,使机器人达到更快的收敛速度。经过仿真实验对比分析,表明C-RD3QN算法能够进行更优的路径规划。 展开更多
关键词 深度强化学习 机器人路径规划 残差网络结构 奖励值重构
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
8
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
基于PD3PG的无人驾驶行为决策仿真
9
作者 曹克让 王涵 +2 位作者 刘亚茹 范慧杰 梁琳琦 《计算机工程与设计》 北大核心 2025年第4期1149-1156,共8页
为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG... 为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG算法,提高重要经验的利用率以及加快神经网络的训练速度。通过仿真平台TORCS,验证了PD3PG算法相比于DDPG算法拥有更快的收敛速度,更高的回合奖励,以及更加稳定的偏移量,行为决策控制效果更加优秀。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法 无人驾驶 行为决策 奖励函数 经验回放 决斗网络
在线阅读 下载PDF
社交媒体互动反馈对食物奖赏加工的影响机制
10
作者 张雪萌 刘永 +1 位作者 韩茵 陈红 《心理科学进展》 北大核心 2025年第5期753-765,共13页
食物奖赏反应的增强和环境中食物线索的诱惑可能是肥胖流行的重要因素。研究发现社交媒体曝光是导致过度进食的风险因素,但其潜在影响机制还未见探究。本研究从社交媒体互动的新视角切入,第一部分从理论层面探究社交媒体互动反馈对肥胖... 食物奖赏反应的增强和环境中食物线索的诱惑可能是肥胖流行的重要因素。研究发现社交媒体曝光是导致过度进食的风险因素,但其潜在影响机制还未见探究。本研究从社交媒体互动的新视角切入,第一部分从理论层面探究社交媒体互动反馈对肥胖者食物奖赏加工的影响机制;模拟社交媒体互动,利用ERP技术(研究1)、fMRI技术(研究2)探究社交媒体“点赞”与评论对肥胖者食物奖赏“想要”“喜欢”成分以及奖赏神经机制的影响。第二部分从应用层面,关注如何构建健全的社会网络文化体系,引导肥胖者建立健康饮食行为;训练社交媒体行为,利用ERP技术(研究3)、fMRI技术(研究4)考察社交媒体互动行为训练对肥胖者健康食物“想要”“喜欢”以及奖赏神经机制的影响。本研究进一步从社交媒体互动的视角丰富了食物奖赏理论,同时为健全公共文化服务体系,引导健康饮食提出干预策略。 展开更多
关键词 社交网络 网络行为 食物奖赏 肥胖 社交媒体互动
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法 被引量:1
11
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度Q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
多智能体强化学习驱动的主动声呐发射参数联合优化
12
作者 生雪莉 穆梦飞 +2 位作者 毕耀 高远 石冰玉 《哈尔滨工程大学学报》 北大核心 2025年第8期1557-1565,共9页
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为... 针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络(double deep q-network),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。 展开更多
关键词 主动声呐 水下探测 信道适配 发射参数联合优化 多智能体 强化学习 奖励塑形 双深度Q网络
在线阅读 下载PDF
面向无人机多状态模糊推理的Q学习路由机制研究 被引量:1
13
作者 刘星宇 强楠楠 付银娟 《信息技术》 2025年第6期17-22,29,共7页
针对无人机网络拓扑高动态变化,路由空洞等问题,设计一种基于多状态模糊推理的Q学习(State Fuzzy Reasoning Q-learing Routing Algorithm,SFR-QR)路由机制。该机制首先利用无人机本身相对距离、相对方向、相对角度特点进行模糊推理,形... 针对无人机网络拓扑高动态变化,路由空洞等问题,设计一种基于多状态模糊推理的Q学习(State Fuzzy Reasoning Q-learing Routing Algorithm,SFR-QR)路由机制。该机制首先利用无人机本身相对距离、相对方向、相对角度特点进行模糊推理,形成Q学习的运动反馈奖励,接着结合无人机网络的链路质量以及转发消耗的能量来修正最优路由策略,并实现相应的仿真。仿真结果表明,该SFR-QR路由算法不仅比只考虑一个状态约束的DQR、LQR在平均网络时延方面提高了0.03秒,分组传送成功率提高了1%,以及链路的稳定性方面提高了0.005,而且更适用于3维无人机网络的通信需求。 展开更多
关键词 无人机自组网 强化学习 奖励函数 学习率 路由算法
在线阅读 下载PDF
基于分层多智能体强化学习的多无人机视距内空战
14
作者 雍宇晨 李子豫 董琦 《智能系统学报》 北大核心 2025年第3期548-556,共9页
为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强... 为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强化学习算法,研究了多无人机空战缠斗场景。复杂的空战任务被分解为上层导弹打击任务和下层飞行跟踪任务,有效地减少了战术行动的模糊性,并提高了多无人机空战场景中的自主机动决策能力。此外,通过设计新颖的奖励函数和采用自博弈方法,减少了大型战场环境导致的无意义探索。仿真结果表明,该算法不仅有助于智能体学习基本的飞行战术和高级的作战战术,而且在防御和进攻能力上优于其他多智能体空战算法。 展开更多
关键词 视距内空战 缠斗 自主机动决策 自博弈 分层强化学习 多智能体博弈 分层决策网络 奖励函数设计
在线阅读 下载PDF
基于节点信任特征和非合作博弈的恶意节点检测 被引量:1
15
作者 王欢 杜永文 +1 位作者 王春芳 黄腾飞 《传感器与微系统》 北大核心 2025年第4期123-127,共5页
针对无线传感器网络(WSNs)中恶意节点检测存在复杂度高和检测精度低等问题,提出一种基于节点信任特征和非合作博弈(NTC-NCG)的恶意节点检测方法。首先,该方法通过设置独立监督网络确保监督节点安全,采用分簇优化机制改进簇头选取策略;其... 针对无线传感器网络(WSNs)中恶意节点检测存在复杂度高和检测精度低等问题,提出一种基于节点信任特征和非合作博弈(NTC-NCG)的恶意节点检测方法。首先,该方法通过设置独立监督网络确保监督节点安全,采用分簇优化机制改进簇头选取策略;其次,构建信任评估模型,比较节点可信度和相异系数,将节点分为恶意节点和可疑节点;最后,建立非合作博弈模型,引入奖惩机制,迫使可疑节点转发数据包,激励监督节点持续监听并及时检测出网络中的恶意节点。实验结果表明:该方法对恶意节点入侵检测具有有效性,提高了网络检测率,降低了误检率,从而延长了网络生命周期。 展开更多
关键词 无线传感器网络 恶意节点 信任评估模型 非合作博弈 奖惩机制
在线阅读 下载PDF
针对区域防御的多无人机序列捕捉算法 被引量:1
16
作者 何子琦 李博宸 +1 位作者 王成罡 宋磊 《兵工学报》 北大核心 2025年第4期279-291,共13页
针对区域防御任务中多个入侵者的拦截问题,考虑追捕任务间时序关系与总体拦截效能,提出一种多无人机序列捕捉算法。基于任务的长期规划收益与短期执行效果构建任务的时序收益与空间收益,分别作为任务分配和任务执行的优化目标,实现复杂... 针对区域防御任务中多个入侵者的拦截问题,考虑追捕任务间时序关系与总体拦截效能,提出一种多无人机序列捕捉算法。基于任务的长期规划收益与短期执行效果构建任务的时序收益与空间收益,分别作为任务分配和任务执行的优化目标,实现复杂博弈问题的动态实时求解。基于可达集方法描述攻防双方优势程度并构建任务时序收益,引入深度Q网络对其进行估计进而引导任务分配;基于任务空间收益求解单攻击者追逃博弈问题,给出连续动作空间任务执行的最优控制策略。仿真结果表明,所提算法通过优化任务时空收益能够实现多无人机间的有效合作,提升防御方的捕获成功率,并具有较强的可扩展性。 展开更多
关键词 多无人机 时空任务收益 序列捕捉 时序任务分配 深度Q网络
在线阅读 下载PDF
基于强化学习的多机协同超视距空战决策算法
17
作者 王志刚 龚华军 +1 位作者 尹逸 刘小雄 《南京航空航天大学学报(自然科学版)》 北大核心 2025年第5期831-841,共11页
现代战争中的空战态势复杂多变,因此探索一种快速有效的决策方法十分重要。本文对多架无人机协同对抗问题展开研究,提出一种基于长短期记忆(Long and short-term memory,LSTM)和多智能体深度确定策略梯度(Multi-agent deep deterministi... 现代战争中的空战态势复杂多变,因此探索一种快速有效的决策方法十分重要。本文对多架无人机协同对抗问题展开研究,提出一种基于长短期记忆(Long and short-term memory,LSTM)和多智能体深度确定策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)的多机协同超视距空战决策算法。首先,建立无人机运动模型、雷达探测区模型和导弹攻击区模型。然后,提出了多机协同超视距空战决策算法。设计了集中式训练LSTM-MADDPG分布式执行架构和协同空战系统的状态空间来处理多架无人机之间的同步决策问题;设计了学习率衰减机制来提升网络的收敛速度和稳定性;利用LSTM网络改进了网络结构,增强了网络对战术特征的提取能力;利用基于衰减因子的奖励函数机制加强无人机的协同对抗能力。仿真结果表明所提出的多机协同超视距空战决策算法使无人机具备了协同攻防的能力,同时算法具备良好的稳定性和收敛性。 展开更多
关键词 协同空战决策 多智能体强化学习 混合奖励函数 长短期记忆网络
在线阅读 下载PDF
Heterogeneous Network Selection Optimization Algorithm Based on a Markov Decision Model 被引量:9
18
作者 Jianli Xie Wenjuan Gao Cuiran Li 《China Communications》 SCIE CSCD 2020年第2期40-53,共14页
A network selection optimization algorithm based on the Markov decision process(MDP)is proposed so that mobile terminals can always connect to the best wireless network in a heterogeneous network environment.Consideri... A network selection optimization algorithm based on the Markov decision process(MDP)is proposed so that mobile terminals can always connect to the best wireless network in a heterogeneous network environment.Considering the different types of service requirements,the MDP model and its reward function are constructed based on the quality of service(QoS)attribute parameters of the mobile users,and the network attribute weights are calculated by using the analytic hierarchy process(AHP).The network handoff decision condition is designed according to the different types of user services and the time-varying characteristics of the network,and the MDP model is solved by using the genetic algorithm and simulated annealing(GA-SA),thus,users can seamlessly switch to the network with the best long-term expected reward value.Simulation results show that the proposed algorithm has good convergence performance,and can guarantee that users with different service types will obtain satisfactory expected total reward values and have low numbers of network handoffs. 展开更多
关键词 heterogeneous wireless networks Markov decision process reward function genetic algorithm simulated annealing
在线阅读 下载PDF
Networked Evolutionary Model of Snow-Drift Game Based on Semi-Tensor Product 被引量:1
19
作者 Lv Chen 《Journal of Applied Mathematics and Physics》 2019年第3期726-737,共12页
This paper investigates the networked evolutionary model based on snow-drift game with the strategy of rewards and penalty. Firstly, by using the semi-tensor product of matrices approach, the mathematical model of the... This paper investigates the networked evolutionary model based on snow-drift game with the strategy of rewards and penalty. Firstly, by using the semi-tensor product of matrices approach, the mathematical model of the networked evolutionary game is built. Secondly, combined with the matrix expression of logic, the mathematical model is expressed as a dynamic logical system and next converted into its evolutionary dynamic algebraic form. Thirdly, the dynamic evolution process is analyzed and the final level of cooperation is discussed. Finally, the effects of the changes in the rewarding and penalty factors on the level of cooperation in the model are studied separately, and the conclusions are verified by examples. 展开更多
关键词 Snow-Drift GAME Semi-Tensor Product networkED EVOLUTIONARY Games rewarding and PENALTY Strategy
在线阅读 下载PDF
直播平台内观众与主播间法律关系的性质研究 被引量:7
20
作者 朱晓娟 卢世际 《河南财经政法大学学报》 CSSCI 2024年第4期57-67,共11页
直播打赏关系的性质界定对消费者权益保护与纠纷预防具有重大意义。直播打赏关系中虚拟货币的转移作为实质上的财产转移值得法律评价和规范,该关系完全符合合同成立的要件,应被认定为独立的合同关系。直播打赏基本运行模式为“非强制性... 直播打赏关系的性质界定对消费者权益保护与纠纷预防具有重大意义。直播打赏关系中虚拟货币的转移作为实质上的财产转移值得法律评价和规范,该关系完全符合合同成立的要件,应被认定为独立的合同关系。直播打赏基本运行模式为“非强制性付费”商业模式,基于对主播与观众之间真实意思表示的尊重,直播打赏合同不宜被认定为赠与合同,而应是网络服务合同。相较于平台和观众之间的网络服务合同,直播打赏网络服务合同在格式、主体、权利义务、履行等方面具有特殊性,可以考虑引入打赏冷静期作为配套措施,但在其具体规则的设计上应注重规制消费者的“恶意反悔”。同时,直播平台作为网络服务交易平台提供者,在不能提供主播的有效联系方式时,应当依据《消费者权益保护法》规定,承担对消费者的先行赔偿责任,以辅助相关纠纷的妥善化解。 展开更多
关键词 直播打赏 赠与合同 网络服务合同
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部