连续时间Markov控制过程的平均代价最优鲁棒控制策略被引量：4

Optimal Robust Control Policy for Continuous-time Markov Control Processes With Average-Cost Criteria

下载PDF

导出

摘要在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选择一个平稳策略使得系统在参数最坏取值下能获得最小无穷水平平均代价 ,据此论文给出了求解最优鲁棒控制策略的策略迭代 (PI)算法 ,并详细讨论了算法的收敛性 . Motivated by the needs of optimization and control of practical engineering systems with uncertain parameters, we considered, through the Markov performance potential theory, the robust control problems for a class of continuous time Markov control processes with uncertain transition rates that are constrained on compact sets. By ergodic property of the processes, the solution of the average cost Poisson equation can be viewed as a definition for the concept of Markov performance potential. Under average cost criteria, our goal is to obtain a stationary policy that generates the minimal infinite horizon average cost under the worst choice of the system parameters. Therefore, we developed a policy iteration algorithm for generating an optimal robust control policy, and discussed in detail the convergence of the proposed algorithm.

作者唐昊韩江洪高隽

机构地区合肥工业大学计算机与信息学院

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2004年第2期219-225,共7页 JUSTC

基金合肥工业大学中青年科技创新群体计划安徽省优秀青年科技基金 (0 4 0 4 2 0 4 4 )

关键词 Markov性能势连续时间Markov控制过程鲁棒控制策略策略迭代最优控制 Markov performance potentials continuous time Markov control processes robust control policy policy iteration

分类号 TP13 [自动化与计算机技术—控制理论与控制工程] O232 [理学—运筹学与控制论]

引文网络
相关文献

参考文献3

1唐昊,奚宏生,殷保群.Markov控制过程在紧致行动集上的迭代优化算法[J].控制与决策,2003,18(3):267-271. 被引量：5
2奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12
3唐昊,奚宏生,殷保群.Markov控制过程基于单个样本轨道的在线优化算法[J].控制理论与应用,2002,19(6):865-871. 被引量：5

二级参考文献2

1殷保群,周亚平,杨孝先,奚宏生,孙德敏.状态相关闭排队网络中的性能指标灵敏度公式[J].控制理论与应用,1999,16(2):255-257. 被引量：15
2周亚平,殷保群,奚宏生,谭小彬,孙德敏.一类闭排队网络基于性能势的优化算法[J].中国科学技术大学学报,2000,30(2):151-157. 被引量：8

共引文献15

1殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在折扣代价准则下的最优平稳策略[J].控制与决策,2004,19(6):691-694. 被引量：1
2李衍杰,殷保群,奚宏生,周亚平,代桂平.半Markov过程基于性能势的灵敏度分析和性能优化[J].控制理论与应用,2004,21(6):1032-1035. 被引量：1
3李衍杰,殷保群,奚宏生,代桂平.一类连续时间Markov链的灵敏度分析和性能优化[J].中国科学技术大学学报,2004,34(6):704-709.
4殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
5代桂平,殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在平均准则下的优化算法[J].中国科学技术大学学报,2005,35(2):202-207. 被引量：1
6唐昊 ,奚宏生 ,韩江洪 ,袁继彬 .具有不确定性路径概率的闭排队网络鲁棒控制策略[J].自动化学报,2005,31(3):446-450. 被引量：2
7TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
8唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：3
9代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
10唐昊,周雷,袁继彬.平均和折扣准则MDP基于TD(0)学习的统一NDP方法[J].控制理论与应用,2006,23(2):292-296. 被引量：5

同被引文献14

1殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
2韩江洪,郑淑丽,陆阳,魏振春,于筑国.离散事件控制系统规则化描述方法的研究[J].合肥工业大学学报（自然科学版）,2005,28(9):1081-1084. 被引量：11
3Cao X R.Semi-Markov decision problems and performance sensitivity analysis[J].IEEE Trans on Automatic Control,2003,48(5): 758-769.
4Ramadge P J,Wonham W M.The control of discret event system[C]//Proc IEEE on Discrete Event Systems, 1989,77(1 ):81-98.
5Cao X R. Semi-Markov decision problems and performance sensitivity analysis[J]. IEEE Trans. on Automatic Control, 2003,48(5): 758-769.
6Kalyanasundaram S, Chong E K P, Shroff N B. Markov decision processes with uncertain transition rates: sensitivity and robust control[A]. Proceedings of the 41th IEEE Conference on Decision and Control[C]. Las Vegas, Nevada USA: 2002, 4: 3799-3804.
7Tang H, Liang X J, Gao J, and Liu C. Robust control policy for semi-Markov decision processes with dependent uncertain parameters[A]. The 5th World Congress on Intelligent Control and AutomationfC]. Hangzhou. China: June, 2004, 1: 515-518.
8Tang H, Yuan J B, Lu Y, Cheng W J. Performance potential-based Neuro-dynamic programming for SMDPs. Acta Automatic Sinica (toapocar) [Z].
9王兴富,谷红伟,戴学丰.马尔可夫链在离散事件系统中的应用[J].自动化技术与应用,2000,19(3):35-36. 被引量：2
10唐昊,奚宏生,殷保群.Markov控制过程基于单个样本轨道的在线优化算法[J].控制理论与应用,2002,19(6):865-871. 被引量：5

引证文献4

1唐昊 ,奚宏生 ,韩江洪 ,袁继彬 .具有不确定性路径概率的闭排队网络鲁棒控制策略[J].自动化学报,2005,31(3):446-450. 被引量：2
2TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
3刘春,唐昊,程文娟.不确定SMDP基于全局优化的鲁棒决策问题[J].系统仿真学报,2005,17(11):2704-2707. 被引量：4
4汪一亭,魏臻.基于Markov模型的离散事件系统稳态与暂态的分析[J].计算机工程与应用,2009,45(3):226-228. 被引量：2

二级引证文献15

1唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：3
2唐昊,周雷,袁继彬.平均和折扣准则MDP基于TD(0)学习的统一NDP方法[J].控制理论与应用,2006,23(2):292-296. 被引量：5
3吴玉华,唐昊,周雷.SMDP基于性能势的M步向前策略迭代[J].吉林大学学报（工学版）,2006,36(6):958-962.
4修保新,张维明,刘忠,阳东升.基于粒度计算的鲁棒性组织设计方法[J].系统仿真学报,2007,19(18):4221-4225. 被引量：4
5程燕,唐昊,马学森.基于策略迭代和遗传算法的SMDP鲁棒控制策略求解[J].合肥工业大学学报（自然科学版）,2007,30(11):1404-1407. 被引量：1
6唐昊,陈栋,周雷,吴玉华.SMDP基于Actor网络的统一NDP方法[J].控制与决策,2007,22(2):155-159.
7洪晔,王宏健,边信黔.基于分层马尔可夫决策过程的AUV全局路径规划研究[J].系统仿真学报,2008,20(9):2361-2363. 被引量：4
8周雷,唐昊,程燕.多链MDP的鲁棒控制策略求解[J].系统仿真学报,2008,20(24):6754-6758.
9唐昊,丁丽洁,程文娟,周雷.搬运系统作业分配问题的小脑模型关节控制器Q学习算法[J].控制理论与应用,2009,26(8):884-888. 被引量：3
10WEI Qing-Lai,ZHANG Hua-Guang,LIU De-Rong,ZHAO Yan.An Optimal Control Scheme for a Class of Discrete-time Nonlinear Systems with Time Delays Using Adaptive Dynamic Programming[J].自动化学报,2010,36(1):121-129. 被引量：17

1奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12
2高旭东,殷保群,唐昊,奚宏生.Markov控制过程基于性能势仿真的并行优化[J].系统仿真学报,2003,15(11):1574-1576. 被引量：1
3朱林富,张三同.基于改进粒子滤波和平均代价的故障诊断方法研究[J].电子测量与仪器学报,2010,24(1):66-71. 被引量：3
4刘哲,孙哲,黄晓梅.求解美式期权定价问题的两类新的迭代算法[J].江西师范大学学报（自然科学版）,2013,37(4):416-420. 被引量：1
5曾庆宁.DMOMDP及其П_m^d与П_S^d优势[J].桂林电子工业学院学报,1989,9(1):18-23.
6曾庆宁.平稳策略类上DMOMDP的求解法[J].桂林电子工业学院学报,1989,9(2):84-89.
7唐昊,奚宏生,殷保群.Markov控制过程在紧致行动集上的迭代优化算法[J].控制与决策,2003,18(3):267-271. 被引量：5
8周亚平,奚宏生,殷保群,孙德敏.Markov控制过程基于性能势的平均代价最优策略[J].自动化学报,2002,28(6):904-910. 被引量：4
9毛北行,王东晓,卜春霞.一类复杂动力学网络的滑模控制混沌同步[J].重庆师范大学学报（自然科学版）,2013,30(5):56-58. 被引量：1
10江琦,路改香,唐昊,谭琦.智能电网弹性响应时间业务需求的接入控制[J].控制与决策,2014,29(7):1311-1315. 被引量：7

中国科学技术大学学报

2004年第2期

浏览历史

内容加载中请稍等...

连续时间Markov控制过程的平均代价最优鲁棒控制策略被引量：4

参考文献3

二级参考文献2

共引文献15

同被引文献14

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

连续时间Markov控制过程的平均代价最优鲁棒控制策略 被引量：4

参考文献3

二级参考文献2

共引文献15

同被引文献14

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

连续时间Markov控制过程的平均代价最优鲁棒控制策略被引量：4