期刊文献+
共找到388篇文章
< 1 2 20 >
每页显示 20 50 100
Distributed projection subgradient algorithm for two-network zero-sum game with random sleep scheme 被引量:1
1
作者 Hongyun Xiong Jiangxiong Han +1 位作者 Xiaohong Nian Shiling Li 《Control Theory and Technology》 EI CSCD 2021年第3期405-417,共13页
In this paper,a zero-sum game Nash equilibrium computation problem with a common constraint set is investigated under two time-varying multi-agent subnetworks,where the two subnetworks have opposite payoff function.A ... In this paper,a zero-sum game Nash equilibrium computation problem with a common constraint set is investigated under two time-varying multi-agent subnetworks,where the two subnetworks have opposite payoff function.A novel distributed projection subgradient algorithm with random sleep scheme is developed to reduce the calculation amount of agents in the process of computing Nash equilibrium.In our algorithm,each agent is determined by an independent identically distributed Bernoulli decision to compute the subgradient and perform the projection operation or to keep the previous consensus estimate,it effectively reduces the amount of computation and calculation time.Moreover,the traditional assumption of stepsize adopted in the existing methods is removed,and the stepsizes in our algorithm are randomized diminishing.Besides,we prove that all agents converge to Nash equilibrium with probability 1 by our algorithm.Finally,a simulation example verifies the validity of our algorithm. 展开更多
关键词 zero-sum game Nash equilibrium Time-varying multi-agent network Projection subgradient algorithm Random sleep scheme
原文传递
Interactive Fuzzy Approaches for Solving Multiobjective Two-Person Zero-Sum Games
2
作者 Hitoshi Yano Ichiro Nishizaki 《Applied Mathematics》 2016年第5期387-398,共12页
In this paper, we consider multiobjective two-person zero-sum games with vector payoffs and vector fuzzy payoffs. We translate such games into the corresponding multiobjective programming problems and introduce the pe... In this paper, we consider multiobjective two-person zero-sum games with vector payoffs and vector fuzzy payoffs. We translate such games into the corresponding multiobjective programming problems and introduce the pessimistic Pareto optimal solution concept by assuming that a player supposes the opponent adopts the most disadvantage strategy for the self. It is shown that any pessimistic Pareto optimal solution can be obtained on the basis of linear programming techniques even if the membership functions for the objective functions are nonlinear. Moreover, we propose interactive algorithms based on the bisection method to obtain a pessimistic compromise solution from among the set of all pessimistic Pareto optimal solutions. In order to show the efficiency of the proposed method, we illustrate interactive processes of an application to a vegetable shipment problem. 展开更多
关键词 Multiobjective Two-Person zero-sum Games LR Fuzzy Numbers Fuzzy Payoff Matrices Fuzzy Goals Possibility Measure Pareto Optimal Solutions Linear Programming
在线阅读 下载PDF
It Is Not A Zero-Sum Game
3
作者 Liu Xinwei 《China's Foreign Trade》 2018年第6期46-47,共2页
Nowadays,China is the largest developing country in the world,and the US is the largest developed country in the world.Sino-US economic and trade relations are of great significance to the two nations and may have apr... Nowadays,China is the largest developing country in the world,and the US is the largest developed country in the world.Sino-US economic and trade relations are of great significance to the two nations and may have aprominent impact on the stability and development of the global economy. 展开更多
关键词 US It Is Not A zero-sum Game WTO
在线阅读 下载PDF
Polynomial Time Method for Solving Nash Equilibria of Zero-Sum Games
4
作者 Yoshihiro Tanaka Mitsuru Togashi 《American Journal of Computational Mathematics》 2021年第1期23-30,共8页
There are a few studies that focus on solution methods for finding a Nash equilibrium of zero-sum games. We discuss the use of Karmarkar’s interior point method to solve the Nash equilibrium problems of a zero-sum ga... There are a few studies that focus on solution methods for finding a Nash equilibrium of zero-sum games. We discuss the use of Karmarkar’s interior point method to solve the Nash equilibrium problems of a zero-sum game, and prove that it is theoretically a polynomial time algorithm. We implement the Karmarkar method, and a preliminary computational result shows that it performs well for zero-sum games. We also mention an affine scaling method that would help us compute Nash equilibria of general zero-sum games effectively. 展开更多
关键词 zero-sum Games Nash Equilibria Karmarkar’s Method Polynomial Time
在线阅读 下载PDF
Data-based Optimal Control for Discrete-time Zero-sum Games of 2-D Systems Using Adaptive Critic Designs 被引量:8
5
作者 WEI Qing-Lai ZHANG Hua-Guang CUI Li-Li 《自动化学报》 EI CSCD 北大核心 2009年第6期682-692,共11页
关键词 自适应系统 最优控制 离散时间 自动化系统
在线阅读 下载PDF
On-Policy and Off-Policy Value Iteration Algorithms for Stochastic Zero-Sum Dynamic Games
6
作者 GUO Liangyuan WANG Bing-Chang ZHANG Ji-Feng 《Journal of Systems Science & Complexity》 2025年第1期421-435,共15页
This paper considers the value iteration algorithms of stochastic zero-sum linear quadratic games with unkown dynamics.On-policy and off-policy learning algorithms are developed to solve the stochastic zero-sum games,... This paper considers the value iteration algorithms of stochastic zero-sum linear quadratic games with unkown dynamics.On-policy and off-policy learning algorithms are developed to solve the stochastic zero-sum games,where the system dynamics is not required.By analyzing the value function iterations,the convergence of the model-based algorithm is shown.The equivalence of several types of value iteration algorithms is established.The effectiveness of model-free algorithms is demonstrated by a numerical example. 展开更多
关键词 Approximate dynamic programming on-policy off-policy stochastic zero-sum games valueiteration
原文传递
Accelerated Value Iteration for Nonlinear Zero-Sum Games with Convergence Guarantee
7
作者 Yuan Wang Mingming Zhao +1 位作者 Nan Liu Ding Wang 《Guidance, Navigation and Control》 2024年第1期121-148,共28页
In this paper,an accelerated value iteration(VI)algorithm is established to solve the zero-sum game problem with convergence guarantee.First,inspired by the successive over relaxation theory,the convergence rate of th... In this paper,an accelerated value iteration(VI)algorithm is established to solve the zero-sum game problem with convergence guarantee.First,inspired by the successive over relaxation theory,the convergence rate of the iterative value function sequence is accelerated significantly with the relaxation factor.Second,the convergence and monotonicity of the value function sequence are analyzed under different ranges of the relaxation factor.Third,two practical approaches,namely the integrated scheme and the relaxation function,are introduced into the accelerated VI algorithm to guarantee the convergence of the iterative value function sequence for zero-sum games.The integrated scheme consists of the accelerated stage and the convergence stage,and the relaxation function can adjust the value of the relaxation factor.Finally,including the autopilot controller,the fantastic performance of the accelerated VI algorithm is verified through two examples with practical physical backgrounds. 展开更多
关键词 Adaptive dynamic programming convergence rate value iteration zero-sum games
在线阅读 下载PDF
Convex and Nonconvex Optimization Based on Neurodynamic Method with Zero-Sum Initial Constraint
8
作者 Yiyang Ge Zhanshan Wang Bibo Zheng 《The International Journal of Intelligent Control and Systems》 2024年第4期184-194,共11页
A neurodynamic method(NdM)for convex optimization is proposed in this paper with an equality constraint.The method utilizes a neurodynamic system(NdS)that converges to the optimal solution of a convex optimization pro... A neurodynamic method(NdM)for convex optimization is proposed in this paper with an equality constraint.The method utilizes a neurodynamic system(NdS)that converges to the optimal solution of a convex optimization problem in a fixed time.Due to its mathematical simplicity,it can also be combined with reinforcement learning(RL)to solve a class of nonconvex optimization problems.To maintain the mathematical simplicity of NdS,zero-sum initial constraints are introduced to reduce the number of auxiliary multipliers.First,the initial sum of the state variables must satisfy the equality constraint.Second,the sum of their derivatives is designed to remain zero.In order to apply the proposed convex optimization algorithm to nonconvex optimization with mixed constraints,the virtual actions in RL are redefined to avoid the use of NdS inequality constrained multipliers.The proposed NdM plays an effective search tool in constrained nonconvex optimization algorithms.Numerical examples demonstrate the effectiveness of the proposed algorithm. 展开更多
关键词 Neurodynamic method(NdM) zero-sum initial constraint distribued optimization convex and nonconvex optimization reinforcement learning(RL)
在线阅读 下载PDF
A Parallel Control Method for Zero-Sum Game with Unknown Time-Varying System
9
作者 Qinglai Wei Zhenhua Zhu +1 位作者 Jie Zhang Fei-Yue Wang 《The International Journal of Intelligent Control and Systems》 2024年第1期37-41,共5页
In this paper,based on ACP(ACP:artificial societies,computational experiments,and parallel execution)approach,a parallel control method is proposed for zero-sum games of unknown time-varying systems.The process of con... In this paper,based on ACP(ACP:artificial societies,computational experiments,and parallel execution)approach,a parallel control method is proposed for zero-sum games of unknown time-varying systems.The process of constructing a sequence of artificial systems,implementing the computational experiments,and conducting the parallel execution is presented.The artificial systems are constructed to model the real system.Computational experiments adopting adaptive dynamic programming(ADP)are shown to derive control laws for a sequence of artificial systems.The purpose of the parallel execution step is to derive the control laws for the real system.Finally,simulation experiments are provided to show the effectiveness of the proposed method. 展开更多
关键词 zero-sum games parallel control ACP(ACP:artificial societies computational experiments and parallel execution) adaptive dynamic programming(ADP)
在线阅读 下载PDF
4/2随机波动率模型下的非零和投资与风险控制博弈
10
作者 朱怀念 詹志嘉 宾宁 《运筹与管理》 北大核心 2025年第5期149-155,I0051,I0052,共9页
近年,GRASSELLI(2017)提出的4/2随机波动率模型构建了一种新型波动动态框架,其扩散项系Heston模型与3/2模型扩散项的线性组合。该混合结构不仅具有Heston模型和3/2模型的基本特征,还有一些它们所不具备的新特性,因此能够更好地描述金融... 近年,GRASSELLI(2017)提出的4/2随机波动率模型构建了一种新型波动动态框架,其扩散项系Heston模型与3/2模型扩散项的线性组合。该混合结构不仅具有Heston模型和3/2模型的基本特征,还有一些它们所不具备的新特性,因此能够更好地描述金融市场中风险资产价格的动态变化。本文基于4/2随机波动率模型的优势,研究了两个处于竞争关系的保险公司之间的最优投资和风险控制问题。具体来说,在保险风险建模方面,采用扩散近似风险模型刻画保单赔付动态过程。金融市场环境设定为混合波动率框架,包含无风险资产与符合4/2随机波动特征的风险资产。保险公司通过双重策略实现风险管理:一方面动态调整承保规模控制保险风险暴露,另一方面优化金融资产配置结构,最终达成公司价值稳健增长的战略目标。同时考虑到市场竞争,基于相对财富视角刻画保险公司间竞争行为,构建双主体非零和投资—风险控制动态博弈模型,以实现终端时刻相对财富期望效用最大化。运用动态规划方法推导得到Hamilton-Jacobi-Bellman(HJB)方程,并通过求解获取了博弈均衡策略,进一步讨论了本文模型的两种特殊情形。最后,通过数值算例给出了参数的敏感性分析,并进行了经济意义解释。 展开更多
关键词 投资与风险控制 非零和博弈 纳什均衡 HAMILTON-JACOBI-BELLMAN方程
在线阅读 下载PDF
模型暧昧下基于CRRA效用准则的非零和投资博弈
11
作者 朱怀念 莫仕茵 《应用概率统计》 北大核心 2025年第1期101-115,共15页
随着社会的不断发展,我们所需要求解模型的复杂度不断上升,模型的不确定性(也称为模型暧昧性,model ambiguity)也在不断扩大.为了更准确地在考虑模型暧昧性下做出投资决策,本文研究了两个具有竞争关系的暧昧厌恶投资者之间的鲁棒非零和... 随着社会的不断发展,我们所需要求解模型的复杂度不断上升,模型的不确定性(也称为模型暧昧性,model ambiguity)也在不断扩大.为了更准确地在考虑模型暧昧性下做出投资决策,本文研究了两个具有竞争关系的暧昧厌恶投资者之间的鲁棒非零和投资博弈问题.假设两个投资者均可将财富投资于由一种无风险资产和一种风险资产构成的金融市场中,用相对绩效描述两个投资者之间的竞争关系,构建了鲁棒非零和随机微分投资博弈模型.利用动态规划原理给出了博弈问题对应的HJB(Hamilton-Jacobi-Bellman)方程,通过求解HJB方程得到了均衡投资策略与相应值函数的解析表达.研究发现:(1)与不考虑模型暧昧性情形相比,考虑模型暧昧性能够显著增加投资者的效用水平;(2)激烈的市场竞争环境会使投资者之间产生羊群效应,相互模仿对手的投资决策,采取风险冒进的投资策略,从而增加金融市场的系统风险;(3)相比于传统(即不考虑博弈)的投资策略,当考虑竞争对手的相对绩效时,Nash均衡策略下的投资者更愿意冒高风险去追求高收益,进而拉大自身与对手之间的财富差距,并且投资者的反应敏感系数(也可反映市场竞争的激烈程度)越大,其对风险的偏好程度也越高. 展开更多
关键词 非零和投资博弈 暧昧 NASH均衡 HJB方程
在线阅读 下载PDF
基于混合变动专家权重的模糊零和博弈多目标规划模型
12
作者 丁雪枫 杨育豆 《同济大学学报(自然科学版)》 北大核心 2025年第2期306-315,共10页
针对现有模糊零和博弈难以适应环境复杂度变化及忽视收益矩阵构造的不足,提出了一种基于混合动态专家集成权重确定模型的T阶球形模糊零和博弈多目标求解方法,以帮助博弈方在资源总量保持相对恒定且局中各方追求自身利益最大化的情境下... 针对现有模糊零和博弈难以适应环境复杂度变化及忽视收益矩阵构造的不足,提出了一种基于混合动态专家集成权重确定模型的T阶球形模糊零和博弈多目标求解方法,以帮助博弈方在资源总量保持相对恒定且局中各方追求自身利益最大化的情境下选择最优竞争策略。首先,提出了一种同时考虑客观个体和主观评价信息的混合变动专家集成权重计算模型,该机制下得到的专家权重会随专家的主观评价信息而变化,更接近实际情况。其次,利用加权平均法搭建了T阶球形模糊零和博弈多目标规划模型,该方法不受策略数量的影响,且求得的最优混合策略能反映博弈各方竞争策略的具体可行性和分歧程度。最后,通过实例计算和对比分析,验证了所提出方法的实用性和优越性。结果表明,所提出的模型具有决策效率高、计算复杂度低、受方案数量影响小的特点,且得到的概率形式的混合解可以有效地反映策略间的差异程度,当最优策略失效时可提供替代建议,有助于避免重复决策,浪费决策资源。 展开更多
关键词 零和博弈 T阶球形模糊集 专家可信度量表 HAUSDORFF距离 混合变动专家集成权重
在线阅读 下载PDF
基于零和博弈的终端区飞机进场排序优化
13
作者 廖勇 赵世昌 +1 位作者 吴煜昕 张丹 《航空计算技术》 2025年第1期93-97,107,共6页
随着航空需求增长,中国推进多机场终端区的构建,如“一市两场”计划。然而,多机场终端区的扩展带来了进场排序混乱和拥堵问题。为解决该问题,提出了一种多机场终端区飞机进场排序模型。为减少权重确定的主观性,通过零和博弈理论平衡机... 随着航空需求增长,中国推进多机场终端区的构建,如“一市两场”计划。然而,多机场终端区的扩展带来了进场排序混乱和拥堵问题。为解决该问题,提出了一种多机场终端区飞机进场排序模型。为减少权重确定的主观性,通过零和博弈理论平衡机场、航空公司和空中交通管制部门的目标,将零和博弈模型转化为线性规划问题,选择最优目标函数和解,并结合多个目标函数及其权重,实现混合策略Nash均衡,得到客观权重。最终通过精英保留遗传算法求解模型,并在某终端区进行实例验证。结果显示,相比传统多目标优化方法,零和博弈模型有效减少了权重确定的主观性,实现了三方的Nash均衡,优化了排序过程,提高了终端区域的运行效率。 展开更多
关键词 多机场终端区 飞机进场排序 零和博弈 精英保留遗传算法
在线阅读 下载PDF
合作共赢:人类命运共同体构建的价值基础
14
作者 吴宏政 《延边大学学报(社会科学版)》 2025年第4期5-16,139,F0003,共14页
构建人类命运共同体需要践行全人类共同价值,而合作共赢交往关系为构建人类命运共同体提供了唯物史观的价值基础。在历史完全转变为世界历史的条件下,各民族国家之间形成了两种交往关系:一是美西方倡导的零和博弈的交往关系;二是中国倡... 构建人类命运共同体需要践行全人类共同价值,而合作共赢交往关系为构建人类命运共同体提供了唯物史观的价值基础。在历史完全转变为世界历史的条件下,各民族国家之间形成了两种交往关系:一是美西方倡导的零和博弈的交往关系;二是中国倡导的合作共赢的交往关系。两种交往关系分别是由各自对世界历史持有的根本价值观所决定的。零和博弈的交往关系坚持“个体本位”的价值优先原则,在全人类共同价值空场的背景下,把“丛林法则”作为处理不同民族国家之间关系的原则,因而无法构建人类命运共同体。与此不同,合作共赢交往关系基于“两个结合”,传承了中华优秀传统文化和马克思主义的“共同体本位”的价值优先原则,倡导全人类共同价值,并且把构建人类命运共同体作为处理不同民族国家之间关系的目的。这种合作共赢的交往关系扬弃了零和博弈的资本逻辑,基于各个民族国家生产体系差异和个性化需求差异,推动世界历史形成“物—物”交换原则,从而为实质性地建成人类命运共同体奠定了坚实的价值基础。 展开更多
关键词 合作共赢 零和博弈 交往关系 全人类共同价值 人类命运共同体
在线阅读 下载PDF
出租车碳排放时空分布特征及减排潜力评估
15
作者 王明智 金敬东 +3 位作者 董春娇 李鹏辉 王菁 王君悦 《交通运输系统工程与信息》 北大核心 2025年第1期311-318,共8页
为揭示出租车碳排放时空分布特征,本文基于出租车GPS(Global Positioning System)轨迹数据提取轨迹点间的平均速度和行驶里程等参数,构建COPERT(Computer Programme to Calculate Emissions from Road Transport)微观排放模型量化出租... 为揭示出租车碳排放时空分布特征,本文基于出租车GPS(Global Positioning System)轨迹数据提取轨迹点间的平均速度和行驶里程等参数,构建COPERT(Computer Programme to Calculate Emissions from Road Transport)微观排放模型量化出租车排放。在此基础上,采用分布拟合分析排放在时间、空间和车辆上的分布特征。最后,基于分析结果提出出租车限行和速度管控两项交通管理措施,并通过数值模拟对措施的减排潜力进行评估。以长治市为例进行实证研究,结果表明,出租车行业存在零和博弈现象,排放更加均匀分布于8:00-13:00和14:00-22:00之间。节点和路段上集聚的排放量服从截断幂律分布,排放量最高的前10%的节点和路段分别汇集了95.59%和74.71%的排放量。评估结果表明,出租车限行政策最高能减少约20.35%的排放量;出租车行驶速度为15 m·s-1左右时,排放因子最低,且将速度保持在15 m·s-1时,最高能减少21.43%的排放量;选取排放量最高的前10%的路段进行速度管控能减少16.23%的排放,而随机选取相同数量的路段仅能减少2.37%的排放。结果可为城市交通制定精细化的碳排放管控策略和节能减排措施提供支持。 展开更多
关键词 城市交通 时空特征 幂律分布 出租车 零和博弈 CO_(2)
在线阅读 下载PDF
基于零和微分博弈的航天器编队通信链路故障容错控制
16
作者 任好 马亚杰 +1 位作者 姜斌 刘成瑞 《自动化学报》 北大核心 2025年第1期174-185,共12页
针对可能由不确定干扰和网络攻击引起的通信链路故障的航天器编队控制系统,提出一种基于零和微分博弈的最优容错控制方法.该方法通过构建描述编队协同控制的性能函数,将通信链路故障容错控制问题等效转换为零和微分博弈模型.采用Hamilto... 针对可能由不确定干扰和网络攻击引起的通信链路故障的航天器编队控制系统,提出一种基于零和微分博弈的最优容错控制方法.该方法通过构建描述编队协同控制的性能函数,将通信链路故障容错控制问题等效转换为零和微分博弈模型.采用Hamilton-Jacobi-Isaacs(HJI)方程和极小极大原则设计博弈中的优化解,并利用自适应动态规划算法对其进行在线逼近,以获得编队的最优容错控制策略,保证航天器通信链路故障下的在轨稳定性和最优性能.仿真结果表明了本文设计的分布式最优容错控制律的有效性. 展开更多
关键词 自适应动态规划 通信链路故障 容错控制 航天器编队控制系统 零和微分博弈
在线阅读 下载PDF
基于V2G模式下电动汽车参与的微电网优化调度仿真研究 被引量:3
17
作者 于仲安 肖宏亮 +1 位作者 夏强威 刘佳伟 《系统仿真学报》 北大核心 2025年第6期1412-1426,共15页
为解决源荷不确定性对电网稳定运行产生的负面影响,提出了一种基于vehicle-to-grid(V2G)模式下电动汽车参与的微电网两阶段优化调度策略。在第一阶段建立了计及电池损耗的电动汽车充放电成本与负荷波动目标,并通过零和博弈确定车主与微... 为解决源荷不确定性对电网稳定运行产生的负面影响,提出了一种基于vehicle-to-grid(V2G)模式下电动汽车参与的微电网两阶段优化调度策略。在第一阶段建立了计及电池损耗的电动汽车充放电成本与负荷波动目标,并通过零和博弈确定车主与微网两主体利益目标间客观权重,利用电动汽车移动储能特性实现了负荷曲线优化与可再生能源消纳;在第二阶段以微电网运营成本与联络线交互功率标准差最低为目标,优化微电网内部可控单元出力和与上级电网交互功率;通过CPLEX求解器与改进的多目标灰狼算法对模型联合求解。仿真实验结果表明:该策略能有效降低车主成本,减少负荷波动,实现微电网经济、稳定运行。 展开更多
关键词 微电网 V2G(vehicle-to-grid) 两阶段优化 零和博弈 改进多目标灰狼
原文传递
零和竞争视角下国际科研合作收益测度及其效用研究
18
作者 侯磊 惠妤洁 +1 位作者 祝建华 胡泽文 《现代情报》 北大核心 2025年第7期123-133,共11页
[目的/意义]国际科研合作中的收益测度问题对各国家(地区)科技发展策略至关重要。[方法/过程]基于学术论文被引情况,一方面提出“泛化收益”刻画国际合作对各国家(地区)学术影响力的提升,另一方面从零和竞争视角出发,提出“零和收益”... [目的/意义]国际科研合作中的收益测度问题对各国家(地区)科技发展策略至关重要。[方法/过程]基于学术论文被引情况,一方面提出“泛化收益”刻画国际合作对各国家(地区)学术影响力的提升,另一方面从零和竞争视角出发,提出“零和收益”刻画国家科研竞争力的提升。[结果/结论]虽然国际合作为多数国家(地区)带来影响力上的泛化收益,但对自身科研实力较强的国家(地区)却会带来负向的零和收益,最终将削弱这些国家的科研竞争力。本文透过零和竞争的视角,为国家科研系统国际化相关策略的制定提供新的视角和宏观指标的参考。 展开更多
关键词 国际科研合作 零和收益 泛化收益 竞争力发展 零和竞争
在线阅读 下载PDF
基于输出反馈的随机自适应线性二次零和博弈
19
作者 田秀芹 杨雪 刘淑君 《四川大学学报(自然科学版)》 北大核心 2025年第3期569-583,共15页
本文研究了一类具有过程和量测噪声且系数矩阵未知的离散时间线性系统在二次遍历代价指标下的自适应零和博弈问题.本文设计了一种仅依赖于系统的输入输出而不需要系统的系数矩阵信息的自适应输出反馈控制策略.在该策略中,每个参与者首... 本文研究了一类具有过程和量测噪声且系数矩阵未知的离散时间线性系统在二次遍历代价指标下的自适应零和博弈问题.本文设计了一种仅依赖于系统的输入输出而不需要系统的系数矩阵信息的自适应输出反馈控制策略.在该策略中,每个参与者首先基于系统的输入输出数据,结合加权最小二乘法、随机正则化方法及衰减激励法对未知的系数矩阵及系统状态进行估计,然后根据这些估计值利用必然等价原则为各参与者设计各自的自适应输出反馈控制策略.在一定条件下本文证明,该反馈控制策略是鞍点策略,能够使闭环博弈系统全局稳定.数值仿真验证了控制策略的有效性. 展开更多
关键词 输出反馈 零和博弈 加权最小二乘法 衰减激励 鞍点策略
在线阅读 下载PDF
基于非策略Q-learning的欺骗攻击下未知线性离散系统最优跟踪控制
20
作者 宋星星 储昭碧 《控制与决策》 北大核心 2025年第5期1641-1650,共10页
针对多重欺骗攻击下动力学信息未知的线性离散系统,提出一种非策略Q-learning算法解决系统的最优跟踪控制问题.首先,考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型,并结合参考命令生成器构建增广跟踪系统.在线性... 针对多重欺骗攻击下动力学信息未知的线性离散系统,提出一种非策略Q-learning算法解决系统的最优跟踪控制问题.首先,考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型,并结合参考命令生成器构建增广跟踪系统.在线性二次跟踪框架内将系统的最优跟踪控制表达为欺骗攻击与控制输入同时参与的零和博弈问题.其次,设计一种基于状态数据的非策略Q-learning算法学习系统最优跟踪控制增益,解决应用中控制增益不能按照给定要求更新的问题,并证明在满足持续激励条件的探测噪声下该算法的求解不存在偏差.同时考虑系统状态不可测的情况,设计基于输出数据的非策略Q-learning算法.最后,通过对F-16飞机自动驾驶仪的跟踪控制仿真,验证所设计非策略Q-learning算法的有效性以及对探测噪声影响的无偏性. 展开更多
关键词 欺骗攻击 最优跟踪 非策略Q-learning 零和博弈
原文传递
上一页 1 2 20 下一页 到第
使用帮助 返回顶部