期刊文献+
共找到102篇文章
< 1 2 6 >
每页显示 20 50 100
Heterogeneous Network Selection Optimization Algorithm Based on a Markov Decision Model 被引量:9
1
作者 Jianli Xie Wenjuan Gao Cuiran Li 《China Communications》 SCIE CSCD 2020年第2期40-53,共14页
A network selection optimization algorithm based on the Markov decision process(MDP)is proposed so that mobile terminals can always connect to the best wireless network in a heterogeneous network environment.Consideri... A network selection optimization algorithm based on the Markov decision process(MDP)is proposed so that mobile terminals can always connect to the best wireless network in a heterogeneous network environment.Considering the different types of service requirements,the MDP model and its reward function are constructed based on the quality of service(QoS)attribute parameters of the mobile users,and the network attribute weights are calculated by using the analytic hierarchy process(AHP).The network handoff decision condition is designed according to the different types of user services and the time-varying characteristics of the network,and the MDP model is solved by using the genetic algorithm and simulated annealing(GA-SA),thus,users can seamlessly switch to the network with the best long-term expected reward value.Simulation results show that the proposed algorithm has good convergence performance,and can guarantee that users with different service types will obtain satisfactory expected total reward values and have low numbers of network handoffs. 展开更多
关键词 heterogeneous wireless networks Markov decision process reward function genetic algorithm simulated annealing
在线阅读 下载PDF
Networked Evolutionary Model of Snow-Drift Game Based on Semi-Tensor Product 被引量:1
2
作者 Lv Chen 《Journal of Applied Mathematics and Physics》 2019年第3期726-737,共12页
This paper investigates the networked evolutionary model based on snow-drift game with the strategy of rewards and penalty. Firstly, by using the semi-tensor product of matrices approach, the mathematical model of the... This paper investigates the networked evolutionary model based on snow-drift game with the strategy of rewards and penalty. Firstly, by using the semi-tensor product of matrices approach, the mathematical model of the networked evolutionary game is built. Secondly, combined with the matrix expression of logic, the mathematical model is expressed as a dynamic logical system and next converted into its evolutionary dynamic algebraic form. Thirdly, the dynamic evolution process is analyzed and the final level of cooperation is discussed. Finally, the effects of the changes in the rewarding and penalty factors on the level of cooperation in the model are studied separately, and the conclusions are verified by examples. 展开更多
关键词 Snow-Drift GAME Semi-Tensor Product networkED EVOLUTIONARY Games rewarding and PENALTY Strategy
在线阅读 下载PDF
基于功能磁共振技术探讨首发抑郁症奖赏网络功能异常研究
3
作者 肖雪 田静 +6 位作者 孙绪 任渝棠 徐辉 余学 李明山 孙继飞 侯小兵 《精神医学杂志》 2025年第2期118-122,共5页
目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两... 目的利用功能磁共振成像(fMRI)技术,探讨首发抑郁症(FED)患者纹状体亚区的脑功能改变情况。方法研究共纳入21例FED患者(FED组)和22名健康对照者(对照组)。两组均接受fMRI扫描,以纹状体亚区作为种子点,采用功能连接(FC)分析方法,比较两组脑网络的差异。同时,收集FED组17项汉密尔顿抑郁量表(HAMD-17)评分,分析异常脑区与临床症状之间的相关性。结果与对照组比较,FED组在左侧腹侧纹状体上部与左侧中央后回的FC减低(P<0.005),右侧腹侧纹状体上部与左侧尾状核的FC增高(P<0.005),左侧背侧尾状核与右侧颞中回的FC增高(P<0.005),右侧背侧尾侧壳核与右侧顶下小叶的FC减低(P<0.005),左侧背侧吻侧壳核与右侧顶下小叶的FC减低(P<0.005),腹侧吻侧壳核与右侧缘上回的FC减低(P<0.005)。相关性分析结果显示,左侧背侧吻侧壳核与右侧顶下小叶的FC值与HAMD-17评分呈正相关(P<0.05)。结论FED患者在纹状体亚区与默认网络及感觉运动皮层的功能连接上存在异常改变,且奖赏网络内部的功能连接也出现异常。本研究为理解FED的神经病理机制及靶向治疗提供了新的视角。 展开更多
关键词 首发抑郁症 功能磁共振成像 功能连接 奖赏网络
暂未订购
An Efficient Billing Scheme for Trusted Nodes Using Fuzzy Logic in Wireless Sensor Networks
4
作者 Mohammad M. Shurman Zaid A. Alomari Khaldoon M. Mhaidat 《Wireless Engineering and Technology》 2014年第3期62-73,共12页
Extending the lifetime of the wireless sensor networks (WSNs), where recharging sensors is not always possible, has been a major concern for researchers for the past decade. In this paper, we study the cooperation bet... Extending the lifetime of the wireless sensor networks (WSNs), where recharging sensors is not always possible, has been a major concern for researchers for the past decade. In this paper, we study the cooperation between nodes in wireless sensor networks in forwarding packets to others, and we propose a new collaboration technique which stimulates intermediate nodes to forward packets toward their destination. Some nodes show selfish behavior by denying the forwarding packets to other nodes in commercial networks in an effort to preserve their own energy. This paper applies a technique which is used to prolong the network lifetime, based on a node’s energy and trust value, and additionally incorporates fuzzy logic, which stimulates nodes to forward packets by rewarding cooperation. According to simulation results, the proposed approach surpasses the Nuglets (virtual currency) approach and the Reputation approach in network energy and thus prolongs the network lifetime. Additionally, our proposed approach demonstrates better results in the number of dropped packets, PDR and forwarded packets to neighboring nodes. 展开更多
关键词 Wireless Sensor network (WSN) CHARGING TRUSTED Node rewarding BILLING Cluster Area PACKET FORWARDING
在线阅读 下载PDF
针刺治疗对原发性痛经患者中枢奖赏网络的影响 被引量:1
5
作者 朱豪 粟孟华 +5 位作者 魏微 余思奕 郭小丽 申治富 王亚楠 杨洁 《中华中医药杂志》 北大核心 2025年第2期969-975,共7页
目的:基于功能磁共振成像(fMRI)技术,探讨针刺治疗对原发性痛经(PDM)患者奖赏网络的中枢调控机制。方法:共纳入PDM患者46例,随机分为等待治疗组和针刺组,每组23例。等待治疗组在试验期间不接受任何治疗,针刺组接受3个月经周期的针刺治... 目的:基于功能磁共振成像(fMRI)技术,探讨针刺治疗对原发性痛经(PDM)患者奖赏网络的中枢调控机制。方法:共纳入PDM患者46例,随机分为等待治疗组和针刺组,每组23例。等待治疗组在试验期间不接受任何治疗,针刺组接受3个月经周期的针刺治疗。两组患者治疗前后分别进行视觉模拟量表(VAS)评分、Cox痛经症状量表(CMSS)评分、疼痛灾难化量表(PCS)评分、血清前列腺素F_(2α)(PGF_(2α))评估以及fMRI扫描。以双侧腹侧被盖区(VTA)为种子点进行功能连接(FC)分析。结果:与治疗前比较,针刺组在治疗后VTA与右侧眶额回(OFC)、双侧背外侧前额叶皮层(DLPFC)、左侧前脑岛(AI)、左侧背侧前扣带回(dACC)以及左侧蓝斑的FC值增高,而VTA与左侧伏隔核(NAc)、双侧尾状核的FC降低;等待治疗组在试验后VTA与右侧中央前回、右侧顶上小叶FC增高;而VTA与右侧舌回、右侧腹外侧前额叶皮层(VLPFC)、右侧海马(HIP)等脑区的FC降低。与等待治疗组比较,针刺组在治疗后VTA与双侧VLPFC、双侧前AI、右侧HIP、右侧舌回、左侧dACC等脑区的FC增高;而VTA与右侧中央前回、右侧尾状核等脑区的FC降低。针刺组患者在针刺治疗后,VTA-dACC的FC变化与PCS改善值呈正相关(P<0.05),VTA-NAc的FC变化与CMSS以及PGF2α的改善值呈正相关(P<0.05,P<0.01)。结论:针刺可能通过靶向调控以中脑边缘系统(VTA-NAc)为核心的奖赏网络,进而起到治疗PDM的作用。 展开更多
关键词 奖赏网络 原发性痛经 针刺 腹侧被盖区 功能磁共振成像
原文传递
基于改进深度强化学习的交通信号灯控制
6
作者 韦敏 蔡常健 《计算机工程与设计》 北大核心 2025年第3期927-933,共7页
为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待... 为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待时间和车道最大队列长度的多任务奖励函数,提高城市交叉口的通行效率。实验结果表明,所提方法能够获得更高奖励,在训练场景对比基线方法平均等待时间和平均队列长度均明显降低,平均速度明显提高,测试结果同样验证所提方法更能提高道路通行效率。 展开更多
关键词 深度强化学习 信号灯控制 对决网络 状态空间 奖励函数 城市交叉口 交通工程
在线阅读 下载PDF
重性抑郁障碍快感缺失的磁共振成像与神经生物学机制研究进展 被引量:1
7
作者 黄佩姗 王克 +2 位作者 张雪琳 苗懿 董强利 《中国神经精神疾病杂志》 北大核心 2025年第3期180-185,共6页
重性抑郁障碍的核心症状之一是快感缺失,表现为个体对愉悦刺激的反应能力下降。伴快感缺失的重性抑郁障碍患者脑影像表现出一定特点,如纹状体、颞叶等脑区体积或皮质厚度减少,脑白质束微观结构改变,额叶、颞叶和边缘系统的神经元活动异... 重性抑郁障碍的核心症状之一是快感缺失,表现为个体对愉悦刺激的反应能力下降。伴快感缺失的重性抑郁障碍患者脑影像表现出一定特点,如纹状体、颞叶等脑区体积或皮质厚度减少,脑白质束微观结构改变,额叶、颞叶和边缘系统的神经元活动异常,默认模式网络、奖赏网络和额顶叶网络的连接性改变等。此外,压力应激、基因表达、谷氨酸系统及生物节律等因素也可能对快感缺失产生影响。快感缺失的神经生物学机制复杂多样,对重性抑郁障碍的诊断、治疗和预后具有重要指导意义。 展开更多
关键词 快感缺失 重性抑郁障碍 磁共振成像 脑结构 脑功能 脑网络 奖赏网络 神经机制
暂未订购
基于改进DQN算法的移动机器人路径规划 被引量:2
8
作者 于效民 王欣 +1 位作者 吴迪 刘雪莲 《计算机应用与软件》 北大核心 2025年第6期335-341,共7页
移动机器人在动态未知复杂环境中进行路径规划时,需要保证机器人的实时性。针对DQN算法在移动机器人路径规划中存在的过估计问题以及收敛速度慢的问题,提出一种C-RD3QN算法(Combination-Residual Dueling Double DQN)。该算法在D3QN算... 移动机器人在动态未知复杂环境中进行路径规划时,需要保证机器人的实时性。针对DQN算法在移动机器人路径规划中存在的过估计问题以及收敛速度慢的问题,提出一种C-RD3QN算法(Combination-Residual Dueling Double DQN)。该算法在D3QN算法基础上,将卷积层修改为残差网络结构,使用竞争网络结构中的动作优势函数来估计动作值函数,将状态值函数与奖励值结合,使机器人达到更快的收敛速度。经过仿真实验对比分析,表明C-RD3QN算法能够进行更优的路径规划。 展开更多
关键词 深度强化学习 机器人路径规划 残差网络结构 奖励值重构
在线阅读 下载PDF
洋流干扰下低速欠驱动AUV的三维路径规划
9
作者 陈世同 鲁子瑜 《智能系统学报》 北大核心 2025年第2期425-434,共10页
海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,... 海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,由于传统的强化Q网络(deep Q-network,DQN)路径规划算法在复杂环境下存在过估计的问题,提出了基于优先经验回放方法的改进DQN路径规划算法,同时对动作设计和奖励函数进行优化。在基于S57海图数据建立的三维海洋环境下,利用地球与空间研究机构(earth&space research,ESR)提供的洋流数据进行路径规划仿真。实验结果表明,在充分考虑洋流干扰的情况下,改进后的DQN算法能够规划出较优的全局路径规划,提供一条时间最短且能耗最低的航行路线,为AUV水下航行提供参考。 展开更多
关键词 自主水下运载器 强化学习 洋流干扰 路径规划 三维海洋环境 强化Q网络 S57海图 奖励函数
在线阅读 下载PDF
基于PD3PG的无人驾驶行为决策仿真 被引量:2
10
作者 曹克让 王涵 +2 位作者 刘亚茹 范慧杰 梁琳琦 《计算机工程与设计》 北大核心 2025年第4期1149-1156,共8页
为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG... 为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG算法,提高重要经验的利用率以及加快神经网络的训练速度。通过仿真平台TORCS,验证了PD3PG算法相比于DDPG算法拥有更快的收敛速度,更高的回合奖励,以及更加稳定的偏移量,行为决策控制效果更加优秀。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法 无人驾驶 行为决策 奖励函数 经验回放 决斗网络
在线阅读 下载PDF
基于深度多智能体强化学习的机床混流装配线调度优化
11
作者 姜兴宇 陈嘉淇 +1 位作者 王立权 徐伟宏 《工业工程》 2025年第4期15-23,共9页
为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应... 为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应用去中心化分散执行的双重深度Q网络(double deep Q network,DDQN)的智能体来学习生产信息与调度目标的关系。该框架采用集中训练与分散执行的策略,并使用参数共享技术,能处理多智能体强化学习中的非稳态问题。在此基础上,采用递归神经网络来管理可变长度的状态和行动表示,使智能体具有处理任意规模问题的能力。同时引入全局/局部奖励函数,以解决训练过程中的奖励稀疏问题。通过消融实验,确定了最优的参数组合。数值实验结果表明,与标准测试方案相比,本算法在目标达成度方面,平均总延迟工件数较改善前提升了24.1%~32.3%,训练速度提高了8.3%。 展开更多
关键词 机床混流装配线 深度多智能体强化学习 递归神经网络 全局/局部奖励函数
在线阅读 下载PDF
基于深度强化学习的空间捕获自主决策
12
作者 黄成 殷振凯 +1 位作者 邢爱佳 于智龙 《仪器仪表学报》 北大核心 2025年第9期198-211,共14页
针对航天器机械臂在复杂空间环境下执行旋转目标捕获任务时的自主决策问题,提出了一种改进的分布式深度确定性策略梯度的决策方法,以进一步增强捕获任务的自主决策能力,其中捕获航天器装备有三自由度的机械臂用于执行捕获操作,而目标航... 针对航天器机械臂在复杂空间环境下执行旋转目标捕获任务时的自主决策问题,提出了一种改进的分布式深度确定性策略梯度的决策方法,以进一步增强捕获任务的自主决策能力,其中捕获航天器装备有三自由度的机械臂用于执行捕获操作,而目标航天器则处于固定位置并以恒定角速度进行旋转。为了提升空间捕获系统在复杂环境下的探索能力,设计了一种基于状态熵最大化的内部奖励探索机制:该机制通过计算当前状态与最小批量样本中各状态之间的欧氏距离,选取其中最小距离并通过熵计算将其转化为内部奖励,再与外部奖励进行线性叠加,构成最终的总奖励值,进而提升算法的收敛速度。与此同时,进一步构造了一种双网络结构:即通过两个价值网络分别对候选动作进行并行评估,并由两个策略网络选择价值更优的动作并输出执行,同时引入奖励重塑函数对奖励信号进行重塑,以降低算法估计的偏差,同时提高样本效率。最后,通过与多种主流强化学习算法进行仿真对比,验证了所提方法的有效性和优越性。具体实验结果表明:改进后的D4PG算法在奖励值方面提升了32.25%,在收敛速度方面提升了3.08%,显著提高了航天器机械臂执行空间捕获任务的自主决策能力。 展开更多
关键词 空间捕获 D4PG算法 内部奖励探索 奖励重塑 双网络结构
原文传递
基于改进DDQN船舶自动靠泊路径规划方法 被引量:3
13
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度Q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
14
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
基于分层多智能体强化学习的多无人机视距内空战 被引量:2
15
作者 雍宇晨 李子豫 董琦 《智能系统学报》 北大核心 2025年第3期548-556,共9页
为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强... 为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强化学习算法,研究了多无人机空战缠斗场景。复杂的空战任务被分解为上层导弹打击任务和下层飞行跟踪任务,有效地减少了战术行动的模糊性,并提高了多无人机空战场景中的自主机动决策能力。此外,通过设计新颖的奖励函数和采用自博弈方法,减少了大型战场环境导致的无意义探索。仿真结果表明,该算法不仅有助于智能体学习基本的飞行战术和高级的作战战术,而且在防御和进攻能力上优于其他多智能体空战算法。 展开更多
关键词 视距内空战 缠斗 自主机动决策 自博弈 分层强化学习 多智能体博弈 分层决策网络 奖励函数设计
在线阅读 下载PDF
社交媒体互动反馈对食物奖赏加工的影响机制
16
作者 张雪萌 刘永 +1 位作者 韩茵 陈红 《心理科学进展》 北大核心 2025年第5期753-765,共13页
食物奖赏反应的增强和环境中食物线索的诱惑可能是肥胖流行的重要因素。研究发现社交媒体曝光是导致过度进食的风险因素,但其潜在影响机制还未见探究。本研究从社交媒体互动的新视角切入,第一部分从理论层面探究社交媒体互动反馈对肥胖... 食物奖赏反应的增强和环境中食物线索的诱惑可能是肥胖流行的重要因素。研究发现社交媒体曝光是导致过度进食的风险因素,但其潜在影响机制还未见探究。本研究从社交媒体互动的新视角切入,第一部分从理论层面探究社交媒体互动反馈对肥胖者食物奖赏加工的影响机制;模拟社交媒体互动,利用ERP技术(研究1)、fMRI技术(研究2)探究社交媒体“点赞”与评论对肥胖者食物奖赏“想要”“喜欢”成分以及奖赏神经机制的影响。第二部分从应用层面,关注如何构建健全的社会网络文化体系,引导肥胖者建立健康饮食行为;训练社交媒体行为,利用ERP技术(研究3)、fMRI技术(研究4)考察社交媒体互动行为训练对肥胖者健康食物“想要”“喜欢”以及奖赏神经机制的影响。本研究进一步从社交媒体互动的视角丰富了食物奖赏理论,同时为健全公共文化服务体系,引导健康饮食提出干预策略。 展开更多
关键词 社交网络 网络行为 食物奖赏 肥胖 社交媒体互动
在线阅读 下载PDF
多智能体强化学习驱动的主动声呐发射参数联合优化
17
作者 生雪莉 穆梦飞 +2 位作者 毕耀 高远 石冰玉 《哈尔滨工程大学学报》 北大核心 2025年第8期1557-1565,共9页
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为... 针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络(double deep q-network),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。 展开更多
关键词 主动声呐 水下探测 信道适配 发射参数联合优化 多智能体 强化学习 奖励塑形 双深度Q网络
在线阅读 下载PDF
面向无人机多状态模糊推理的Q学习路由机制研究 被引量:2
18
作者 刘星宇 强楠楠 付银娟 《信息技术》 2025年第6期17-22,29,共7页
针对无人机网络拓扑高动态变化,路由空洞等问题,设计一种基于多状态模糊推理的Q学习(State Fuzzy Reasoning Q-learing Routing Algorithm,SFR-QR)路由机制。该机制首先利用无人机本身相对距离、相对方向、相对角度特点进行模糊推理,形... 针对无人机网络拓扑高动态变化,路由空洞等问题,设计一种基于多状态模糊推理的Q学习(State Fuzzy Reasoning Q-learing Routing Algorithm,SFR-QR)路由机制。该机制首先利用无人机本身相对距离、相对方向、相对角度特点进行模糊推理,形成Q学习的运动反馈奖励,接着结合无人机网络的链路质量以及转发消耗的能量来修正最优路由策略,并实现相应的仿真。仿真结果表明,该SFR-QR路由算法不仅比只考虑一个状态约束的DQR、LQR在平均网络时延方面提高了0.03秒,分组传送成功率提高了1%,以及链路的稳定性方面提高了0.005,而且更适用于3维无人机网络的通信需求。 展开更多
关键词 无人机自组网 强化学习 奖励函数 学习率 路由算法
在线阅读 下载PDF
改进MADDPG算法的未知环境下多智能体单目标协同探索
19
作者 韩慧妍 石树熙 +2 位作者 况立群 韩燮 熊风光 《计算机工程与应用》 北大核心 2025年第22期320-328,共9页
针对多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG)在未知环境下探索效率低下的问题,提出多智能体深度强化学习算法RE-MADDPG-C。利用残差网络(residual network,ResNet)缓解网络中的梯度消... 针对多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG)在未知环境下探索效率低下的问题,提出多智能体深度强化学习算法RE-MADDPG-C。利用残差网络(residual network,ResNet)缓解网络中的梯度消失和梯度爆炸问题,提高算法的收敛速度。为解决未知环境下单目标探索中奖励稀疏导致的收敛困难问题,引入多智能体内在好奇心模块(intrinsic curiosity module,ICM),将好奇心奖励作为智能体的内在奖励,为其提供额外的探索动机。通过设计合理的探索奖励函数,使得多智能体能够在未知环境下完成单目标探索任务。仿真实验结果表明,该算法在训练阶段获得的奖励提升更快,能够快速完成探索任务,相比MADDPG及其他算法训练时间缩短,且获得的全局平均奖励更高。 展开更多
关键词 深度强化学习 RE-MADDPG-C 残差网络 内在好奇心模块(ICM) 奖励稀疏
在线阅读 下载PDF
基于节点信任特征和非合作博弈的恶意节点检测 被引量:1
20
作者 王欢 杜永文 +1 位作者 王春芳 黄腾飞 《传感器与微系统》 北大核心 2025年第4期123-127,共5页
针对无线传感器网络(WSNs)中恶意节点检测存在复杂度高和检测精度低等问题,提出一种基于节点信任特征和非合作博弈(NTC-NCG)的恶意节点检测方法。首先,该方法通过设置独立监督网络确保监督节点安全,采用分簇优化机制改进簇头选取策略;其... 针对无线传感器网络(WSNs)中恶意节点检测存在复杂度高和检测精度低等问题,提出一种基于节点信任特征和非合作博弈(NTC-NCG)的恶意节点检测方法。首先,该方法通过设置独立监督网络确保监督节点安全,采用分簇优化机制改进簇头选取策略;其次,构建信任评估模型,比较节点可信度和相异系数,将节点分为恶意节点和可疑节点;最后,建立非合作博弈模型,引入奖惩机制,迫使可疑节点转发数据包,激励监督节点持续监听并及时检测出网络中的恶意节点。实验结果表明:该方法对恶意节点入侵检测具有有效性,提高了网络检测率,降低了误检率,从而延长了网络生命周期。 展开更多
关键词 无线传感器网络 恶意节点 信任评估模型 非合作博弈 奖惩机制
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部