期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于Markov game模型的装备保障信息网络安全态势感知方法研究 被引量:18
1
作者 李玺 卢昱 +1 位作者 刘森 刘锋 《计算机应用研究》 CSCD 北大核心 2017年第11期3441-3445,共5页
为了提升装备保障信息网络的安全态势感知能力,根据装备保障信息网络的特点,提出了基于Markov决策过程和博弈论思想的网络安全态势评估方法。该方法以Markov game模型为核心,通过求解纳什均衡点确定攻守双方的博弈对网络安全造成的影响... 为了提升装备保障信息网络的安全态势感知能力,根据装备保障信息网络的特点,提出了基于Markov决策过程和博弈论思想的网络安全态势评估方法。该方法以Markov game模型为核心,通过求解纳什均衡点确定攻守双方的博弈对网络安全造成的影响,并利用4级数据融合实现对装备保障信息网络安全态势的评估。实验证明,该方法能够综合各类基础信息,准确给出装备保障信息网络的安全态势值。 展开更多
关键词 装备保障信息网络 安全态势评估 markov决策过程 博弈论
在线阅读 下载PDF
A Competitive Markov Approach to the Optimal Combat Strategies of On-Line Action Role-Playing Game Using Evolutionary Algorithms
2
作者 Haoyang Chen Yasukuni Mori Ikuo Matsuba 《Journal of Intelligent Learning Systems and Applications》 2012年第3期176-187,共12页
In the case of on-line action role-playing game, the combat strategies can be divided into three distinct classes, Strategy of Motion(SM), Strategy of Attacking Occasion (SAO) and Strategy of Using Skill (SUS). In thi... In the case of on-line action role-playing game, the combat strategies can be divided into three distinct classes, Strategy of Motion(SM), Strategy of Attacking Occasion (SAO) and Strategy of Using Skill (SUS). In this paper, we analyze such strategies of a basic game model in which the combat is modeled by the discrete competitive Markov decision process. By introducing the chase model and the combat assistant technology, we identify the optimal SM and the optimal SAO, successfully. Also, we propose an evolutionary framework, including integration with competitive coevolution and cooperative coevolution, to search the optimal SUS pair which is regarded as the Nash equilibrium point of the strategy space. Moreover, some experiments are made to demonstrate that the proposed framework has the ability to find the optimal SUS pair. Furthermore, from the results, it is shown that using cooperative coevolutionary algorithm is much more efficient than using simple evolutionary algorithm. 展开更多
关键词 game Design game BALANCE COMPETITIVE markov DECISION process Cooperative Coevolutionary Algorithm COMPETITIVE Coevolution
暂未订购
基于Markov演化博弈的移动目标防御策略优选方法 被引量:1
3
作者 高鼎策 金肖玲 +3 位作者 李嘉明 樊莹 张际焱 谭晶磊 《智能安全》 2025年第3期82-93,共12页
为寻找最优防御策略,面向典型的电网攻击事件,提出一种基于Markov智能演化博弈的多阶段移动目标防御策略优选方法。以移动目标防御为视角,研究网络攻防对抗行为,引入Markov决策过程刻画网络攻防的多阶段特性,利用智能演化博弈描述攻防... 为寻找最优防御策略,面向典型的电网攻击事件,提出一种基于Markov智能演化博弈的多阶段移动目标防御策略优选方法。以移动目标防御为视角,研究网络攻防对抗行为,引入Markov决策过程刻画网络攻防的多阶段特性,利用智能演化博弈描述攻防对抗的有限理性,通过Q学习算法优化攻防策略并设计最优防御策略选取算法。采用数据仿真进行模型验证,验证结果表明,所提方法生成的策略在防御效果上显著优于传统方法,同时大幅提升了策略生成效率并降低了策略生成成本。该方法具有较好的可靠性和扩展性,可进一步应用于其他领域。 展开更多
关键词 markov决策过程 Q学习 移动目标防御 演化博弈 数据仿真
在线阅读 下载PDF
基于Markov随机过程的动态合作博弈的模糊稳定集 被引量:1
4
作者 刘天虎 许维胜 吴启迪 《计算机工程与应用》 CSCD 北大核心 2009年第12期15-19,共5页
利用模糊数学相关理论,对具有可转移效用的动态合作博弈的区间模糊稳定集进行了研究。首先利用Markov随机过程对动态合作联盟的结构转移进行描述,并考虑到支付函数是三角模糊数的情形,构造了在不同置信度α下的合作博弈的截集取值区域,... 利用模糊数学相关理论,对具有可转移效用的动态合作博弈的区间模糊稳定集进行了研究。首先利用Markov随机过程对动态合作联盟的结构转移进行描述,并考虑到支付函数是三角模糊数的情形,构造了在不同置信度α下的合作博弈的截集取值区域,进而结合动态联盟状态转移矩阵计算出不同时刻点的区间模糊稳定集。考虑到盟友在合作结束后需要对具体的联盟收益进行分配,利用构造的区间模糊稳定集给出了盟友可行的收益分配势值区间。最后利用实例对该方法的有效性和可行性进行了说明。 展开更多
关键词 markov随机过程 动态合作博弈 区间模糊稳定集
在线阅读 下载PDF
考虑综合需求响应的电-气综合能源系统低碳经济运行研究
5
作者 沈阳 穆桂英 +3 位作者 胡强 党伟 杨旭 徐芹芹 《电力需求侧管理》 2026年第1期33-40,共8页
面向碳中和战略目标,多能耦合协同驱动下综合能源系统(integrated energy system,IES)的低碳运行优化成为能源转型的关键路径。针对多能耦合协同运行框架,提出了一种考虑负荷需求响应的多时间尺度多维优化调度策略。首先,构建了燃气轮机... 面向碳中和战略目标,多能耦合协同驱动下综合能源系统(integrated energy system,IES)的低碳运行优化成为能源转型的关键路径。针对多能耦合协同运行框架,提出了一种考虑负荷需求响应的多时间尺度多维优化调度策略。首先,构建了燃气轮机-碳捕集与存储-电转气(gas turbine-carbon capture and storage-power to gas,GT-CCS-P2G)多层次耦合架构,并基于此构建了考虑综合需求响应的电-气综合能源系统(integrated electricity-gas system,IEGS)。其次,将电网和气网分别构建为一个智能体,并将IEGS调度方案转化为一个马尔科夫博弈过程。最后,通过基于通信机制的多智能体柔性动作-评价(communication mechanism-enabled multi-agent soft actor-critic,CM-MASAC)方法获得了最终调度决策。通过多种算法对比分析,探讨所提算法的先进性及综合需求响应与GT-CCS-P2G相结合的有效性。实验结果表明,所提方法相较于对比方法,最大降低10.29%运行成本和16.07%碳排放量。 展开更多
关键词 燃气轮机-碳捕集与存储-电转气 综合需求响应 马尔科夫博弈过程 多智能体柔性动作-评价
在线阅读 下载PDF
基于深度强化学习的边缘辅助视频分析任务卸载
6
作者 沈奕菲 阮黎翔 +2 位作者 李心宇 程方文 张胜 《计算机应用与软件》 北大核心 2025年第9期350-358,375,共10页
随着深度学习的发展,人工智能相关的服务和应用大规模出现,包括推荐系统、视频分析等,它们对高算力、高带宽、低时延都提出了更高的要求,边缘计算目前被认为是最合适的计算方式。该文研究了多用户边缘辅助视频分析任务卸载(Multi-user E... 随着深度学习的发展,人工智能相关的服务和应用大规模出现,包括推荐系统、视频分析等,它们对高算力、高带宽、低时延都提出了更高的要求,边缘计算目前被认为是最合适的计算方式。该文研究了多用户边缘辅助视频分析任务卸载(Multi-user Edge-assisted Video Analytics task Offloading,MEVAO)问题,其中不同视频分析任务的用户将独立选择满足自身需求的准确度决策,并将视频数据卸载到边缘服务器上。针对此问题,提出一种基于深度强化学习的算法。根据视频分析特点设计效用函数,将MEVAO建模为博弈论问题并求解纳什均衡;然后应用深度强化学习方法提高了在不同场景下做出准确度决策的灵活性。实验结果表明,所提算法相较现有算法具有更好的性能表现。 展开更多
关键词 边缘计算 视频分析 任务卸载 博弈论 马尔可夫决策 深度强化学习
在线阅读 下载PDF
基于回溯和启发式的全局约束满足扫雷算法
7
作者 陈琳 陈兴国 +2 位作者 闫凡宇 戴芮昊 陈钰浩 《中央民族大学学报(自然科学版)》 2025年第1期80-89,共10页
扫雷游戏是一款规则简单但复杂度是NP⁃complete的单人小游戏,研究扫雷游戏算法不但是针对算法本身的研究,更是对计算复杂度理论的研究。本文通过马尔可夫决策过程对游戏进行建模,并在规则算法的基础上实现了基于约束满足的二元决策图算... 扫雷游戏是一款规则简单但复杂度是NP⁃complete的单人小游戏,研究扫雷游戏算法不但是针对算法本身的研究,更是对计算复杂度理论的研究。本文通过马尔可夫决策过程对游戏进行建模,并在规则算法的基础上实现了基于约束满足的二元决策图算法,当无法确定可操作位置时,提出了全局约束满足回溯算法,重新计算含雷概率并打开概率最小的方格。当同时计算出多个概率最小的方格时,提出启发式累加值算法对多个概率最小的方格进行预判,得出最优的可操作方格。在游戏的简单、中等和困难模式下达到了目前最佳水平,分别为91.697%、78.741%和40.459%。扫雷游戏算法的发展为计算复杂度理论的研究提供了新的思路和方法。 展开更多
关键词 人工智能游戏 扫雷游戏 马尔可夫决策过程 二元决策图 约束满足 启发式
在线阅读 下载PDF
面向多机器人系统的增强学习研究进展综述 被引量:22
8
作者 吴军 徐昕 +1 位作者 王健 贺汉根 《控制与决策》 EI CSCD 北大核心 2011年第11期1601-1610,1615,共11页
基于增强学习的多机器人系统优化控制是近年来机器人学与分布式人工智能的前沿研究领域.多机器人系统具有分布、异构和高维连续空间等特性,使得面向多机器人系统的增强学习的研究面临着一系列挑战,为此,对其相关理论和算法的研究进展进... 基于增强学习的多机器人系统优化控制是近年来机器人学与分布式人工智能的前沿研究领域.多机器人系统具有分布、异构和高维连续空间等特性,使得面向多机器人系统的增强学习的研究面临着一系列挑战,为此,对其相关理论和算法的研究进展进行了系统综述.首先,阐述了多机器人增强学习的基本理论模型和优化目标;然后,在对已有学习算法进行对比分析的基础上,重点探讨了多机器人增强学习理论与应用研究中的困难和求解思路,给出了若干典型问题和应用实例;最后,对相关研究进行了总结和展望. 展开更多
关键词 多机器人系统 多智能体 增强学习 随机对策 马氏决策过程
原文传递
WSN中基于MDP与博弈论的入侵检测系统 被引量:2
9
作者 陈明 文颖 谭涛 《计算机工程与应用》 CSCD 北大核心 2015年第9期117-121,184,共6页
针对无线传感器网络(WSNs)中容易遭受多种攻击的问题,提出一种融合马尔可夫决策过程(MDP)和博弈论的WSN入侵检测系统(IDS),称为马尔可夫博弈入侵检测系统(MG-IDS)。MG-IDS采用博弈论和MDP的异常、误用检测技术来确定最佳的防御策略,同... 针对无线传感器网络(WSNs)中容易遭受多种攻击的问题,提出一种融合马尔可夫决策过程(MDP)和博弈论的WSN入侵检测系统(IDS),称为马尔可夫博弈入侵检测系统(MG-IDS)。MG-IDS采用博弈论和MDP的异常、误用检测技术来确定最佳的防御策略,同时利用MDP和攻击模式挖掘算法,根据攻击记录来预测未来攻击模式。通过仿真实验,比较了MG-IDS、仅博弈论和仅MDP三种方案,在不同攻击频率下,对多类型混合攻击的防御性能进行了比较,实验结果表明,所提出的MG-IDS具有较高的防御成功率。 展开更多
关键词 无线传感器网络 入侵检测系统 马尔可夫决策过程 博弈论
在线阅读 下载PDF
计算机系统与计算机网络中的动态优化:模型、求解与应用 被引量:27
10
作者 林闯 万剑雄 +2 位作者 向旭东 孟坤 王元卓 《计算机学报》 EI CSCD 北大核心 2012年第7期1339-1357,共19页
动态优化是计算机系统与计算机网络中进行资源分配与任务调度等方面研究所采用的主要理论工具之一.目前,国内外已开展大量研究,致力于深化动态优化的理论研究与工程应用.文中从模型、求解与应用3个角度,对马尔可夫决策过程动态优化理论... 动态优化是计算机系统与计算机网络中进行资源分配与任务调度等方面研究所采用的主要理论工具之一.目前,国内外已开展大量研究,致力于深化动态优化的理论研究与工程应用.文中从模型、求解与应用3个角度,对马尔可夫决策过程动态优化理论模型进行了综述,并重点介绍了将动态优化理论与随机Petri网理论相结合的马尔可夫决策Petri网和随机博弈网模型,详细讨论了这些模型的建模方法、求解算法与一些应用实例.最后,对全文进行了总结,并对未来可能的研究方向进行了展望. 展开更多
关键词 动态优化 马尔可夫决策过程 随机PETRI网 马尔可夫决策Petri网 随机博弈网
在线阅读 下载PDF
强化学习算法在供应链环境下的库存控制中的应用 被引量:5
11
作者 汤大为 王红卫 《管理学报》 2005年第3期358-361,共4页
以两级库存为例,提出了一种优化库存管理的方法。该方法包含3种技术:马尔可夫决策过程、马尔可夫博弈和一种用于求解马尔可夫博弈的强化学习算法。具体操作过程是,将一个两级的库存系统通过马尔可夫博弈建模,再用马尔可夫博弈和强化学... 以两级库存为例,提出了一种优化库存管理的方法。该方法包含3种技术:马尔可夫决策过程、马尔可夫博弈和一种用于求解马尔可夫博弈的强化学习算法。具体操作过程是,将一个两级的库存系统通过马尔可夫博弈建模,再用马尔可夫博弈和强化学习的知识求解该模型,并得出该系统的优化解。 展开更多
关键词 多级库存 马尔可夫决策过程 马尔可夫博弈 强化学习算法 供应链管理 库存控制
在线阅读 下载PDF
政府监督下单群体行为的博弈分析 被引量:3
12
作者 郝海 顾培亮 《哈尔滨工业大学学报(社会科学版)》 2003年第2期100-102,共3页
基于马尔可夫和博弈理论探讨一类群体的学习与行动过程。在政府监督下某类被监督个体行为是随机的 ,概率转移矩阵被使用描述个体行为的选择 ;又由于群体的行为是大量个体行为的聚集 ,马尔可夫—生灭过程理论被用来阐述群体行为的形成和... 基于马尔可夫和博弈理论探讨一类群体的学习与行动过程。在政府监督下某类被监督个体行为是随机的 ,概率转移矩阵被使用描述个体行为的选择 ;又由于群体的行为是大量个体行为的聚集 ,马尔可夫—生灭过程理论被用来阐述群体行为的形成和学习过程。博弈论被应用解释个体行为的选择过程 ,确定出个体的转移概率。政府管理者应当关注和了解群体信息 。 展开更多
关键词 群体行为 马尔可夫过程 博弈理论
在线阅读 下载PDF
基于合作博弈理论和马尔可夫过程融合的逆变器故障率动态分析
13
作者 赵峰 周正龙 +1 位作者 高锋阳 刘宇轩 《太阳能学报》 EI CAS CSCD 北大核心 2021年第3期353-357,共5页
以光伏并网系统中三相电压型PWM逆变器为例,采用合作博弈理论和马尔可夫过程融合的故障率分析方法。首先,根据逆变器的基本工作原理,通过引入马尔可夫过程,得到逆变器工作状态转移概率图和转移概率矩阵,并设定转移概率矩阵的初始表达形... 以光伏并网系统中三相电压型PWM逆变器为例,采用合作博弈理论和马尔可夫过程融合的故障率分析方法。首先,根据逆变器的基本工作原理,通过引入马尔可夫过程,得到逆变器工作状态转移概率图和转移概率矩阵,并设定转移概率矩阵的初始表达形式;然后,获得转移概率矩阵中关键元素m、n的3组常规不同值,并采用合作博弈理论确定m、n的最优值,结合m、n的4组不同值,构建4种不同子模型进行电路故障率对比分析;最后,用Matlab软件对4种子模型下的电路故障率进行动态仿真,并使用相关统计数据验证仿真过程。结果表明,所采用的方法能够准确反映逆变器故障率的动态变化情况,对实现逆变器状态修具有积极意义。 展开更多
关键词 逆变器 马尔可夫过程 故障率 动态分析 合作博弈
原文传递
马尔可夫过程及其控制的理论和应用 被引量:3
14
作者 陈娴 王文元 周达 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期1045-1051,共7页
马尔可夫过程,也称作马氏过程,是在理论和应用上都非常重要的一类随机过程.本文综述了厦门大学数学科学学院概率论研究团队近10年来在马氏过程以及控制的相关理论和应用方面的研究成果.
关键词 马氏过程 保正型 随机博弈 风险灵敏性准则 列维过程 生物数学
在线阅读 下载PDF
基于距离信息的追逃策略:信念状态连续随机博弈 被引量:1
15
作者 陈灵敏 冯宇 李永强 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期828-840,共13页
追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对... 追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对距离,而逃逸者具有全局视野.追逃策略求解被分为追博弈与马尔科夫决策两个过程.在求解追捕策略时,通过分割环境引入信念区域状态以估计逃逸者位置,同时使用测量距离对信念区域状态进行修正,构建起基于信念区域状态的连续随机追博弈,并借助不动点定理证明了博弈平稳纳什均衡策略的存在性.在求解逃逸策略时,逃逸者根据全局信息建立混合状态下的马尔科夫决策过程及相应的最优贝尔曼方程.同时给出了基于强化学习的平稳追逃策略求解算法,并通过案例验证了该算法的有效性. 展开更多
关键词 追逃问题 信念区域状态 连续随机博弈 马尔科夫决策过程 强化学习
在线阅读 下载PDF
博弈论在网络安全态势感知中的应用 被引量:14
16
作者 刘景玮 刘京菊 +1 位作者 陆余良 杨斌 《计算机应用》 CSCD 北大核心 2017年第A02期48-51,64,共5页
博弈论是研究具有斗争或竞争性质现象的数学理论和方法,将博弈论运用到网络安全态势感知研究中已成为当前网络安全研究热点。阐述了网络安全态势感知常规研究方法及其不足,分析了网络安全的博弈特征并给出了网络安全态势博弈模型,论述... 博弈论是研究具有斗争或竞争性质现象的数学理论和方法,将博弈论运用到网络安全态势感知研究中已成为当前网络安全研究热点。阐述了网络安全态势感知常规研究方法及其不足,分析了网络安全的博弈特征并给出了网络安全态势博弈模型,论述了博弈论在网络安全态势感知中的应用进展并分析了其优缺点,展望了下一步的研究和发展方向。 展开更多
关键词 网络安全态势感知 博弈论 网络攻击图 马尔可夫决策过程
在线阅读 下载PDF
杂波和干扰条件下基于强化学习的机载雷达波形设计
17
作者 郑泽新 李伟 +1 位作者 邹鲲 李艳福 《火力与指挥控制》 CSCD 北大核心 2023年第5期39-45,52,共8页
针对复杂电磁环境机载雷达智能抗干扰问题,提出一种基于马尔可夫决策过程(markov decision processes,MDP)的机载雷达波形设计方法。为实现最优决策,建立雷达和干扰MDP博弈模型,融合利用目标、杂波、噪声、雷达和干扰信号等多维度电磁信... 针对复杂电磁环境机载雷达智能抗干扰问题,提出一种基于马尔可夫决策过程(markov decision processes,MDP)的机载雷达波形设计方法。为实现最优决策,建立雷达和干扰MDP博弈模型,融合利用目标、杂波、噪声、雷达和干扰信号等多维度电磁信息,设置信号和干扰噪声比为奖励函数;基于贝尔曼方程和策略迭代法计算信号频域最优策略,通过迭代变换法设计时域最优波形,并采用目标检测概率衡量算法性能。仿真结果表明,和线性调频信号、跳频信号相比,该方法设计波形具有更好的环境适应性和抗干扰能力,在此基础上提高了机载雷达目标检测概率。 展开更多
关键词 雷达波形设计 抗干扰 博弈 马尔可夫决策过程
在线阅读 下载PDF
函数值差的正和 被引量:3
18
作者 王小舟 《数学理论与应用》 2011年第4期106-108,共3页
本文给出了用有限的步骤做出有下界的振动函数的一个函数值差的正和的方法.
关键词 振动函数 马尔科夫过程 博弈 定积分 股票
在线阅读 下载PDF
EVOLUTIONARY DYNAMICS ON ONE-DIMENSIONAL CYCLE WITH SHIFTING MECHANISM AND TINY MUTATION RATE 被引量:1
19
作者 王先甲 兰军 +1 位作者 董前进 雷国梁 《Acta Mathematica Scientia》 SCIE CSCD 2015年第1期95-104,共10页
In this paper we study the impact of tiny mutation on the evolutionary dynamics on one-dimensional cycle with shifting mechanism. The evolutionary success is evaluated by investigating the stationary distribution of t... In this paper we study the impact of tiny mutation on the evolutionary dynamics on one-dimensional cycle with shifting mechanism. The evolutionary success is evaluated by investigating the stationary distribution of the ergodic process with the idea of viscosity solutions. The cooperative behaviors in ecosystem and social system are briefly discussed by applying the results to the prisoner's dilemma game. 展开更多
关键词 evolutionary games Moran process markov chain prisoner's dilemma game
在线阅读 下载PDF
线性时序逻辑引导的安全强化学习 被引量:6
20
作者 李保罗 蔡明钰 阚震 《控制与决策》 EI CSCD 北大核心 2023年第7期1835-1844,共10页
针对动态不确定环境下机器人执行复杂任务的需求,提出一种线性时序逻辑(linear temporal logic,LTL)引导的无模型安全强化学习算法,能在最大化任务完成概率的同时保证学习过程的安全性.首先,综合考虑环境中的不确定因素,构建马尔可夫决... 针对动态不确定环境下机器人执行复杂任务的需求,提出一种线性时序逻辑(linear temporal logic,LTL)引导的无模型安全强化学习算法,能在最大化任务完成概率的同时保证学习过程的安全性.首先,综合考虑环境中的不确定因素,构建马尔可夫决策过程(Markov decision process,MDP),再用LTL刻画智能体的复杂任务,将其转化为有多接受集的基于转移的有限确定性广义布奇自动机(transition-based limit deterministic generalized Büchi automaton,tLDGBA),并通过接受边界函数构建可记录当前待访问接受集的约束型tLDGBA(constrained tLDGBA,ctLDGBA);其次,构建乘积MDP用于强化学习搜索最优策略;最后,基于LTL对安全性的描述和MDP的观测函数构建安全博弈,并根据安全博弈设计安全盾机制保证系统在学习过程中的安全性.严格的分析证明了所提出的算法能获得最大化LTL任务完成概率的最优策略.仿真结果验证了LTL引导的安全强化学习算法的有效性. 展开更多
关键词 线性时序逻辑 自动机 马尔可夫决策过程 强化学习 安全博弈 运动规划
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部