期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1) 被引量:4
1
作者 TANGHao XIHong-Sheng YINBao-Qun 《自动化学报》 EI CSCD 北大核心 2004年第2期229-234,共6页
Based on the theory of Markov performance potentials and neuro-dynamic programming(NDP) methodology, we study simulation optimization algorithm for a class of continuous timeMarkov decision processes (CTMDPs) under ra... Based on the theory of Markov performance potentials and neuro-dynamic programming(NDP) methodology, we study simulation optimization algorithm for a class of continuous timeMarkov decision processes (CTMDPs) under randomized stationary policies. The proposed algo-rithm will estimate the gradient of average cost performance measure with respect to policy param-eters by transforming a continuous time Markov process into a uniform Markov chain and simula-ting a single sample path of the chain. The goal is to look for a suboptimal randomized stationarypolicy. The algorithm derived here can meet the needs of performance optimization of many diffi-cult systems with large-scale state space. Finally, a numerical example for a controlled Markovprocess is provided. 展开更多
关键词 仿真优化算法 随机平稳策略 ctmdp Markov性能势理论
在线阅读 下载PDF
CTMDP AND ITS RELATIONSHIP WITH DTMDP
2
作者 胡奇英 《Chinese Science Bulletin》 SCIE EI CAS 1990年第8期687-691,共5页
Continuous time Markov decision programming (shortly, CTMDP) with discount return criterion investigated in this note is {S,[(A(i), (i)), i∈S], q, r, α}. In this model the state set S is countable; the action set A(... Continuous time Markov decision programming (shortly, CTMDP) with discount return criterion investigated in this note is {S,[(A(i), (i)), i∈S], q, r, α}. In this model the state set S is countable; the action set A(i)is non-empty, (i)is a σ-algebra on A(i) which contains all single point sets of A(i); the family of the transition rate q(j|i, a) 展开更多
关键词 ctmdp DTMDP OPTIMALITY equation.
在线阅读 下载PDF
报酬无界的连续时间折扣马氏决策规划 被引量:2
3
作者 伍从斌 张继红 《应用概率统计》 CSCD 北大核心 1997年第1期1-10,共10页
本文讨论报酬函数无界,转移速率族一致有界,状态空间和行动集均可数的连续时间折扣马氏决策规划(CTMDP).文中引入了一类新的无界报酬函数,并在一新的马氏策略类中,证明了有界报酬下成立的所有结果;讨论了最优策略的结构,得到... 本文讨论报酬函数无界,转移速率族一致有界,状态空间和行动集均可数的连续时间折扣马氏决策规划(CTMDP).文中引入了一类新的无界报酬函数,并在一新的马氏策略类中,证明了有界报酬下成立的所有结果;讨论了最优策略的结构,得到了该模型策略为最优的一个充要条件. 展开更多
关键词 马氏决策规划 无界报酬 折扣准则 ctmdp
在线阅读 下载PDF
马尔科夫决策过程在电子商务中的一个应用
4
作者 刘明华 张峥嵘 《科技资讯》 2007年第32期251-254,共4页
着眼于电子商务的长期运作,基于有限的服务台,分析了运营商的运作规律,建立了连续时间的马尔科夫决策过程(CTMDP)模型,给出了如何作出最优决策的简洁方法。决策最大化了运营商的长期折扣利润的同时提高了可带来高利润的客户群的服务水... 着眼于电子商务的长期运作,基于有限的服务台,分析了运营商的运作规律,建立了连续时间的马尔科夫决策过程(CTMDP)模型,给出了如何作出最优决策的简洁方法。决策最大化了运营商的长期折扣利润的同时提高了可带来高利润的客户群的服务水平。最后给出了有意义的结果以及数值实例。 展开更多
关键词 有限服务台 长期折扣报酬 ctmdp 最优决策
在线阅读 下载PDF
事件驱动Q学习在呼叫接入控制中的应用
5
作者 任付彪 周雷 +1 位作者 马学森 魏振春 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第1期76-79,共4页
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学... 文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。 展开更多
关键词 连续时间Markov决策过程 事件驱动Q学习 呼叫接入控制
在线阅读 下载PDF
基于马尔科夫过程的网络交易单积分声誉系统 被引量:2
6
作者 李家齐 惠雷 李博威 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第9期1468-1471,1475,共5页
基于鼓励商家在交易中选择守信策略,考虑对商家利益的保护,该文提出电子商务的单积分声誉机制的理念。分析电子商务平台上声誉与顾客到达之间的函数关系;建立基于连续时间Markov决策过程(CTMDP)的电子商务交易模型,给出不同策略下的收... 基于鼓励商家在交易中选择守信策略,考虑对商家利益的保护,该文提出电子商务的单积分声誉机制的理念。分析电子商务平台上声誉与顾客到达之间的函数关系;建立基于连续时间Markov决策过程(CTMDP)的电子商务交易模型,给出不同策略下的收益函数;基于上述交易模型对单积分声誉机制提供设计方法,提出了合理惩罚强度的概念并论证了最优策略随惩罚强度的增大而收敛。研究表明:利用合理惩罚强度对电子商务的单积分声誉进行加权运算,既可以激励商家选择守信策略,又确保商家的利益不会受到意外事件的严重威胁。 展开更多
关键词 电子商务 单积分声誉机制 MARKOV过程 连续时间Markov决策过程(ctmdp) 收益函数 惩罚强度
原文传递
报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划 被引量:2
7
作者 伍从斌 《应用数学学报》 CSCD 北大核心 1997年第2期196-208,共13页
本文首次在报酬函数及转移速率族均非一致有界的条件下,对可数状态空间,可数行动集的连续时间折扣马氏决策规划进行研究.文中引入了一类新的无界报酬函数,在一类新的马氏策略中,讨论了最优策略的存在性及其结构,除证明了在有界报... 本文首次在报酬函数及转移速率族均非一致有界的条件下,对可数状态空间,可数行动集的连续时间折扣马氏决策规划进行研究.文中引入了一类新的无界报酬函数,在一类新的马氏策略中,讨论了最优策略的存在性及其结构,除证明了在有界报酬和一致有界转移速率族下成立的主要结果外,本文还得到一些重要结论. 展开更多
关键词 马氏决策规划 转移速率族 ctmdp 报酬函数
原文传递
CONTINUOUS TIME MARKOV DECISION PROGRAMMING WITH AVERAGE REWARD CRITERION AND UNBOUNDED REWARD RATE
8
作者 郑少慧 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 1991年第1期6-16,共11页
This paper deals with the continuous time Markov decision programming (briefly CTMDP) withunbounded reward rate.The economic criterion is the long-run average reward. To the models withcountable state space,and compac... This paper deals with the continuous time Markov decision programming (briefly CTMDP) withunbounded reward rate.The economic criterion is the long-run average reward. To the models withcountable state space,and compact metric action sets,we present a set of sufficient conditions to ensurethe existence of the stationary optimal policies. 展开更多
关键词 CONTINUOUS TIME MARKOV DECISION PROGRAMMING WITH AVERAGE REWARD CRITERION AND UNBOUNDED REWARD RATE ctmdp
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部