期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
随机环境SMDP的弱收敛逼近
1
作者 陈茂海 《天津理工学院学报》 2002年第4期49-51,共3页
在随机环境半马氏决策过程的计算方法中,直接从最优方程求最优策略或求ε最优值函数都会遇到困难。
关键词 随机环境 smdp 半马氏决策过程 环境状态 最优策略 弱收敛逼近 近似计算
在线阅读 下载PDF
Performance Potential-based Neuro-dynamic Programming for SMDPs 被引量:10
2
作者 TANGHao YUANJi-Bin LUYang CHENGWen-Juan 《自动化学报》 EI CSCD 北大核心 2005年第4期642-645,共4页
An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their... An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their performance measures and performance potentials, the optimiza-tion of an SMDP can be realized by simulating the chain. For the critic model of neuro-dynamicprogramming (NDP), a neuro-policy iteration (NPI) algorithm is presented, and the performanceerror bound is shown as there are approximate error and improvement error in each iteration step.The obtained results may be extended to Markov systems, and have much applicability. Finally, anumerical example is provided. 展开更多
关键词 决议过程 smdp 执行电位 神经动力学 MARKOV链 优化设计
在线阅读 下载PDF
基于SMDP强化学习的太阳能供电信息容侵控制方法 被引量:2
3
作者 段玉玮 赵婉茹 +2 位作者 陆萍 张云飞 张娟 《电网与清洁能源》 CSCD 北大核心 2023年第2期69-74,共6页
针对目前方法未能使用小波去噪法处理太阳能供电信息而导致对其进行容侵控制时,存在控制正确率低、控制时间长以及控制的误报率高的问题,提出基于SMDP强化学习的太阳能供电信息容侵控制方法。寻找数据中的缺失值并对其进行插补处理,通... 针对目前方法未能使用小波去噪法处理太阳能供电信息而导致对其进行容侵控制时,存在控制正确率低、控制时间长以及控制的误报率高的问题,提出基于SMDP强化学习的太阳能供电信息容侵控制方法。寻找数据中的缺失值并对其进行插补处理,通过插补结果,使用小波去噪算法完成数据的去噪;使用SMDP强化学习算法强化数据,建立太阳能供电信息的容侵控制模型;将去噪后的供电信息数据输入模型中,依据输出结果实现太阳能供电信息数据的容侵控制。实验结果表明,运用该方法进行数据容侵控制的正确率高、控制时长短、误报率低。 展开更多
关键词 smdp强化学习算法 太阳能供电系统 供电信息 容侵控制 控制方法
在线阅读 下载PDF
基于SMDP的异构无线网络联合接纳控制策略研究
4
作者 张媛媛 肖创柏 王坚 《北京工业大学学报》 CAS CSCD 北大核心 2015年第9期1355-1364,共10页
为了异构无线网络中不同无线技术的融合协同工作可以为终端接人提供随时随地的高质量的网络服务,联合呼叫接纳控制机制是适用于异构无线网络的判决呼叫准入的机制.提出一种优化的联合呼叫接纳控制机制用于异构无线网络,将新的呼叫和切... 为了异构无线网络中不同无线技术的融合协同工作可以为终端接人提供随时随地的高质量的网络服务,联合呼叫接纳控制机制是适用于异构无线网络的判决呼叫准入的机制.提出一种优化的联合呼叫接纳控制机制用于异构无线网络,将新的呼叫和切换呼叫作为触发接纳控制的事件,对影响服务质量的参数和接纳控制开销进行网络效用建模分析,使用改进的值迭代算法来降低计算复杂度,将阈值函数分成多个域,来获得最优决策策略.提出的联合接入控制策略可提供优化服务质量保证,节约整个网络的能耗成本,并且有效降低呼叫阻塞率和切换掉线率.实验结果表明:算法具有较高的求解有效性,而且求解速度快,具有较高的推广应用价值. 展开更多
关键词 异构无线网络 接纳控制 半马尔科夫决策过程
在线阅读 下载PDF
基于SMDP的光柴储独立微网能量控制策略优化 被引量:4
5
作者 周康 唐昊 +2 位作者 江琦 吕凯 蒋兰海 《电力系统自动化》 EI CSCD 北大核心 2016年第21期154-160,共7页
考虑含光伏发电装置、储能装置和柴油发电机组的独立微网系统,以提高微网长期运行经济性为目标,研究微网能量管理优化问题。首先对系统的随机动态特性进行建模,即针对光伏发电和负荷变化的随机特性,将微网系统的能量控制建模为半马尔可... 考虑含光伏发电装置、储能装置和柴油发电机组的独立微网系统,以提高微网长期运行经济性为目标,研究微网能量管理优化问题。首先对系统的随机动态特性进行建模,即针对光伏发电和负荷变化的随机特性,将微网系统的能量控制建模为半马尔可夫决策过程(SMDP);然后采用随机动态规划算法对最优策略进行求解,得到微网在不同的光伏发电功率、负荷需求、储能荷电状态等级和柴油发电机组运行数量下对柴油发电机组和储能装置的最优控制行动。仿真结果说明了所建随机模型的合理性和优化方法的有效性。 展开更多
关键词 微网(微电网) 光伏发电 储能 半马尔可夫决策过程
在线阅读 下载PDF
基于SMDP模型的Web服务组合优化方法 被引量:4
6
作者 柴雪霞 马学森 +1 位作者 周雷 唐昊 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第10期1496-1500,共5页
针对Internet环境的动态性和Web服务的不确定性,文章使用有限状态连续时间半马尔可夫决策过程(Semi-Markov Decision Process,简称SMDP)对服务组合进行建模,并给出了服务组合的Q学习优化算法,以获得最优的服务组合策略。通过仿真实验验... 针对Internet环境的动态性和Web服务的不确定性,文章使用有限状态连续时间半马尔可夫决策过程(Semi-Markov Decision Process,简称SMDP)对服务组合进行建模,并给出了服务组合的Q学习优化算法,以获得最优的服务组合策略。通过仿真实验验证了该算法的有效性,仿真结果表明,使用动态的控制方法具有较高的服务组合成功率。 展开更多
关键词 WEB服务组合 半马尔可夫决策过程 服务质量(QoS) Q学习
在线阅读 下载PDF
基于SMDP强化学习的电力信息网络入侵检测研究 被引量:4
7
作者 李帅 王先培 +1 位作者 王泉德 牛胜巍 《电力自动化设备》 EI CSCD 北大核心 2006年第12期75-78,共4页
介绍了电力信息网络总体防护体系结构及安全现状,阐述了在电力信息网中常用的防火墙、入侵检测系统(IDS)等防护手段,分析了当前入侵检测方法及难以确定正常与异常的阀值、误报率和漏报率高的不足。提出了基于半马尔可夫决策过程(SMDP)... 介绍了电力信息网络总体防护体系结构及安全现状,阐述了在电力信息网中常用的防火墙、入侵检测系统(IDS)等防护手段,分析了当前入侵检测方法及难以确定正常与异常的阀值、误报率和漏报率高的不足。提出了基于半马尔可夫决策过程(SMDP)强化学习的IDS模型。论述了强化学习的理论、算法及衡量标准,马尔可夫决策过程,SMDP在电力信息网络中的应用。改进后的SMDP学习算法,使系统的误报率降低、检测率提高。 展开更多
关键词 电力系统 强化学习 半马尔可夫过程 入侵检测
在线阅读 下载PDF
SMDP基于性能势的M步向前策略迭代
8
作者 吴玉华 唐昊 周雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2006年第6期958-962,共5页
运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在... 运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。 展开更多
关键词 计算机应用 半MARKOV决策过程 性能势 M步向前策略迭代 即时差分学习
在线阅读 下载PDF
基于安全强化学习的月球着陆器控制
9
作者 杨敏 刘关俊 周子渊 《航空学报》 北大核心 2025年第3期118-131,共14页
在月球着陆任务中,着陆器必须在极端环境下进行精确操作,并且通常面临着通信延迟的挑战,这些因素严重限制了地面控制的实时操作能力。针对这些挑战,研究提出了一种基于半马尔可夫决策过程(SMDP)的深度强化学习安全性提升框架,旨在提高... 在月球着陆任务中,着陆器必须在极端环境下进行精确操作,并且通常面临着通信延迟的挑战,这些因素严重限制了地面控制的实时操作能力。针对这些挑战,研究提出了一种基于半马尔可夫决策过程(SMDP)的深度强化学习安全性提升框架,旨在提高航天器自主着陆的操作安全性。为了实现状态空间的压缩并保持决策过程的关键特征,该框架通过对历史轨迹的马尔可夫决策过程(MDP)压缩成SMDP,并根据压缩后的轨迹数据构建抽象SMDP状态转移图,然后识别潜在风险的关键状态-动作对,并实施实时监控及干预,有效提高了航天器的自主着陆安全性。采用了反向广度优先搜索方法,搜索出对任务结果有决定性影响的状态-动作对,并通过搭建的状态-动作监控器实现对模型的实时调整。实验结果显示,该框架在不需增加额外传感器或显著改变现有系统配置的条件下,能够在预训练的深度Q网络(DQN)、Dueling DQN、DDQN模型上,提升月球着陆器在模拟环境中的任务成功率高达22%,在预设的安全性评价标准下,该框架能提升最高42%的安全性。此外,虚拟环境中的模拟结果展示了该框架在月球着陆等复杂航天任务中的实际应用潜力,可以有效提升操作安全性和效率。 展开更多
关键词 深度强化学习 自主着陆 抽象smdp状态转移图 安全性提升 实时监控 反向广度优先搜索
原文传递
基于CP341的AL600低温制冷机状态监控 被引量:3
10
作者 张大义 田祥 黄阿娟 《低温与超导》 CAS 北大核心 2015年第9期15-19,共5页
基于对制冷机远程监控的实践,通过西门子CP341模块与AL600低温制冷机的CP1000压缩机进行通讯,实时获取运行参数和状态信息,从而极大提高了制冷系统稳定性。
关键词 CP341 AL600 低温制冷机 smdp协议
原文传递
V2X异构车载网络下智能任务卸载策略研究 被引量:4
11
作者 胡峰 王文轩 顾红 《控制与决策》 EI CSCD 北大核心 2022年第11期3003-3011,共9页
随着自动驾驶技术的迅速发展,车辆日益增长的处理需求与资源受限的车载处理器之间的矛盾日渐突出.车载边缘计算的出现解决了车载资源的物理限制,增强了单个车辆的计算能力.然而,由于车载服务通常具有时延敏感性,如何选择合适的通信接入... 随着自动驾驶技术的迅速发展,车辆日益增长的处理需求与资源受限的车载处理器之间的矛盾日渐突出.车载边缘计算的出现解决了车载资源的物理限制,增强了单个车辆的计算能力.然而,由于车载服务通常具有时延敏感性,如何选择合适的通信接入技术,更好地满足自动驾驶场景中时延要求便成为一个挑战性难题.鉴于此,综合考虑两种V2X通信接入技术,即短距通信(DSRC)和基于蜂窝网的车载通信(C-V2X),提出一种V2X异构车载网络任务卸载模型.首先分析车辆移动性特征,并对车载资源进行虚拟化处理;然后基于半马尔科夫决策过程原理对任务卸载问题进行建模,分别制定状态、动作、奖励和转移概率;最后基于强化学习智能算法获取最优任务卸载策略,并通过大量数值仿真实验验证其任务卸载性能优于贪婪算法. 展开更多
关键词 车与万物互联 车载边缘计算 短距通信 基于蜂窝网的车载通信 任务卸载 半马尔科夫决策过程 强化学习
原文传递
基于连续时间半马尔可夫决策过程的Option算法 被引量:3
12
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间半Markov决策过程 分层强化学习 Q学习
在线阅读 下载PDF
分层强化学习研究进展 被引量:7
13
作者 彭志平 李绍平 《计算机应用研究》 CSCD 北大核心 2008年第4期974-978,共5页
首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强... 首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强化学习的研究现状;最后指出分层强化学习未来的发展方向。 展开更多
关键词 分层强化学习 半马尔可夫决策过程 抽象
在线阅读 下载PDF
基于半马尔科夫决策过程的虚拟传感网络资源分配策略 被引量:2
14
作者 王汝言 李宏娟 +1 位作者 吴大鹏 李红霞 《电子与信息学报》 EI CSCD 北大核心 2019年第12期3014-3021,共8页
针对传统无线传感网络(WSN)中资源部署与特定任务的耦合关系密切,造成较低的资源利用率,进而给资源提供者带来较低的收益问题,根据虚拟传感网络请求(VSNR)的动态变化情况,该文提出虚拟传感网络(VSN)中基于半马尔科夫决策过程(SMDP)的资... 针对传统无线传感网络(WSN)中资源部署与特定任务的耦合关系密切,造成较低的资源利用率,进而给资源提供者带来较低的收益问题,根据虚拟传感网络请求(VSNR)的动态变化情况,该文提出虚拟传感网络(VSN)中基于半马尔科夫决策过程(SMDP)的资源分配策略。定义VSN的状态集、行为集、状态转移概率,考虑传感网能量受限以及完成VSNR的时间,给出奖赏函数的表达式,并使用免模型强化学习算法求解特定状态下的行为,从而最大化网络资源提供者的长期收益。数值结果表明,该文的资源分配策略能有效提高传感网资源提供者的收益。 展开更多
关键词 虚拟传感网络 资源分配 半马尔科夫决策过程
在线阅读 下载PDF
一种基于HAMs体系的层次分解方法
15
作者 杜小勤 李庆华 韩建军 《小型微型计算机系统》 CSCD 北大核心 2008年第4期653-658,共6页
在HAMs框架中引入策略耦合SMDPs的观点,定义了HAM-可分解概念,并明确了HAM机、HAM-可分解及策略耦合SMDPs这三者之间的关系,证明了HAM框架适合解决策略耦合SMDPs问题.在此基础上,针对一类具有有向无环图形式的策略耦合SMDPs问题,提出一... 在HAMs框架中引入策略耦合SMDPs的观点,定义了HAM-可分解概念,并明确了HAM机、HAM-可分解及策略耦合SMDPs这三者之间的关系,证明了HAM框架适合解决策略耦合SMDPs问题.在此基础上,针对一类具有有向无环图形式的策略耦合SMDPs问题,提出一种层次分解方法,并给出一个判断层次分解有效性的条件.最后使用一个典型的实验来说明该方法的特点. 展开更多
关键词 层次强化学习 层次抽象机 策略耦合smdps
在线阅读 下载PDF
一阶非线性随机系统的学习优化控制 被引量:2
16
作者 岳峰 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期679-682,共4页
文章研究了一阶连续时间非线性随机系统的优化控制问题,通过勒贝格采样方法将其建模为半Markov决策过程,采用基于事件驱动和Q学习方法,给出了折扣和平均优化准则下统一的优化算法;仿真实验表明,该算法处理一阶非线性随机系统的最优控制... 文章研究了一阶连续时间非线性随机系统的优化控制问题,通过勒贝格采样方法将其建模为半Markov决策过程,采用基于事件驱动和Q学习方法,给出了折扣和平均优化准则下统一的优化算法;仿真实验表明,该算法处理一阶非线性随机系统的最优控制问题,可以获得较好的优化效果。 展开更多
关键词 随机系统 半MARKOV决策过程 事件驱动思想 Q学习
在线阅读 下载PDF
设备修理更新的半马氏决策过程模型及在平均费用准则下的最优策略
17
作者 张瑜 刘期怡 《工程数学学报》 CSCD 1992年第2期31-38,共8页
本文对一类设备修理更新问题,用半马氏决策过程(SMDP)建立了一个比较接近实际情况的数学模型。在平均费用准则下,证明了最优平稳策略的存在性。
关键词 设备 修理 更新 smdp 最优策略
在线阅读 下载PDF
基于决策理论的CDMA网络中多类业务的准入控制策略
18
作者 殷志明 谢剑英 《电子与信息学报》 EI CSCD 北大核心 2003年第9期1250-1254,共5页
准入控制是码分多址(CDMA)蜂窝网络中服务质量保证的一个关键技术。该文提出了一个基于半马尔可夫决策过程理论的最优准入控制策略来支持有服务质量要求的多类业务的无线CDMA网络。用线性规划方法求解最优策略,从而在满足服务质量约束... 准入控制是码分多址(CDMA)蜂窝网络中服务质量保证的一个关键技术。该文提出了一个基于半马尔可夫决策过程理论的最优准入控制策略来支持有服务质量要求的多类业务的无线CDMA网络。用线性规划方法求解最优策略,从而在满足服务质量约束要求的同时最大化信道利用率。另外,还使用了加权公平阻塞约束来灵活地实现服务质量要求。数值结果表明此最优策略可以获得比基于阈值的准入控制方案更好的性能。 展开更多
关键词 决策理论 CDMA网络 准入控制 蜂窝网络 半马尔可夫决策过程 服务质量 码分多址
在线阅读 下载PDF
异构无线网络多网资源优化管理研究
19
作者 张媛媛 王坚 《计算机科学》 CSCD 北大核心 2016年第4期76-80,91,共6页
针对异构无线网络多网协同的特点,从分析多个无线网络共存的资源管理优化体制构建思想出发,建立了新的异构无线网络资源统一管理优化模型,实现了协同信息的控制和管理,同时保证了异构数据呼叫业务的服务质量,解决了多网间资源管理优化... 针对异构无线网络多网协同的特点,从分析多个无线网络共存的资源管理优化体制构建思想出发,建立了新的异构无线网络资源统一管理优化模型,实现了协同信息的控制和管理,同时保证了异构数据呼叫业务的服务质量,解决了多网间资源管理优化问题。首先,该模型在对呼叫服务请求做优化决策时,不仅考虑了本网络服务域的可用资源、服务请求的速率以及本系统的长期收益,同时也考虑了其他网络服务域的整体长期收益;其次,通过对所提出的基于异构无线网络多网资源优化管理模型的性能进行理论分析,得到其重要服务质量参数——新呼叫阻塞率;最后,通过仿真比较可以看出,通过该模型获得的优化决策策略能充分利用异构无线网络中各个网络域的资源,不仅提高了资源的利用率,而且在提高网络整体长期收益的同时,也保证了移动服务的服务质量。与资源完全共享算法相比,本方法降低了新呼叫阻塞率。理论分析和实验证明了异构无线网络资源域间资源优化管理方法的有效性、适应性。 展开更多
关键词 异构无线网络 资源管理 半马尔科夫决策
在线阅读 下载PDF
分层强化学习原理研究
20
作者 柯文德 陈珂 余凤燕 《广东石油化工学院学报》 2013年第4期30-33,52,共5页
首先介绍了强化学习基本原理,分析了马尔科夫决策过程与半马尔科夫决策过程的理论基础及其在强化学习中的应用,其次阐述了分层强化学习中分层与抽象的思想,分析了HAM、Options与MaxQ等方法,并从分层与抽象角度进行了比较,最后指出了分... 首先介绍了强化学习基本原理,分析了马尔科夫决策过程与半马尔科夫决策过程的理论基础及其在强化学习中的应用,其次阐述了分层强化学习中分层与抽象的思想,分析了HAM、Options与MaxQ等方法,并从分层与抽象角度进行了比较,最后指出了分层强化学习的研究发展方向。 展开更多
关键词 分层强化学习 半马尔科夫决策过程 抽象 收敛 学习
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部