期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
SP-POMDP:堆叠物体抓取场景中的任务规划方法
1
作者 陈奕好 刘金鑫 +1 位作者 库涛 邵鑫喆 《计算机应用研究》 北大核心 2025年第7期2064-2071,共8页
在机器人抓取堆叠物体的工作场景中,由于环境中受杂波影响的传感器采样以及物体相互遮挡导致的部分可观测性,机器人无法实现准确、完整的建模,难以高效完成作业。针对以上问题,设计了一种基于状态修正的部分可观测马尔可夫决策过程(SP-P... 在机器人抓取堆叠物体的工作场景中,由于环境中受杂波影响的传感器采样以及物体相互遮挡导致的部分可观测性,机器人无法实现准确、完整的建模,难以高效完成作业。针对以上问题,设计了一种基于状态修正的部分可观测马尔可夫决策过程(SP-POMDP)模型,并基于该模型提出了一种机器人抓取任务规划方法。该方法基于采样结果抽象提取出离散的状态、动作以及观测空间,通过一种状态空间修正方法,根据当前堆叠场景的固有特性,添加环境中由于部分可观测性导致无法被采样识别的状态信息到状态空间中,并构建信念树对模型进行求解。实验结果表明,在堆叠物体的抓取任务中,本方法能够在保证成功率的情况下,显著减少运算时间,提高工作效率。 展开更多
关键词 机器人抓取 堆叠场景 pomdp 任务规划 状态空间修正
在线阅读 下载PDF
基于POMDP模型的检修与备件库存联合优化
2
作者 汪凯 顾刘栋 周一帆 《中国机械工程》 北大核心 2025年第8期1853-1863,共11页
在维修与备件库存联合优化时,已有的研究大多假设系统状态监测是完美的,忽略了实际应用中的误差。为了解决该问题,以包含不完美状态监测和固定检修周期的单部件系统为研究对象,考虑该系统的视情维修(CBM)与备件库存管理问题,采用部分可... 在维修与备件库存联合优化时,已有的研究大多假设系统状态监测是完美的,忽略了实际应用中的误差。为了解决该问题,以包含不完美状态监测和固定检修周期的单部件系统为研究对象,考虑该系统的视情维修(CBM)与备件库存管理问题,采用部分可观测的马尔可夫决策过程(POMDP)对系统进行建模,并推导系统状态转移概率。为了处理复杂的信念状态空间,提高算法求解效率,采用了一种改进的Perseus算法。在数值案例部分验证了该算法的有效性,并对最优策略结构进行分析,结果表明:信念状态相比于观测值能相对合理地表示状态信息,同时也对比了有无备件库存的情况,证明了备件库存的有效性。 展开更多
关键词 不完美状态监测 部分可观测的马尔可夫决策过程 信念状态 维修与备件库存联合优化
在线阅读 下载PDF
一种基于独立任务的POMDP问题的解决方法
3
作者 房俊恒 朱斐 +2 位作者 刘全 伏玉琛 凌兴宏 《计算机应用研究》 CSCD 北大核心 2016年第1期147-152,共6页
通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,以获得值函数,并将这些受限制的POMDPs的值函数结合起来以便获... 通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,以获得值函数,并将这些受限制的POMDPs的值函数结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程,以及如何构造被限制在单独任务上的模型。将该方法应用到两个不同规模的岩石采样问题中,实验结果表明,该方法能够获得很好的策略。 展开更多
关键词 pomdp 基于点的算法 相互独立的任务 多元pomdp 受限制的pomdps
在线阅读 下载PDF
预测行人运动的服务机器人POMDP导航 被引量:6
4
作者 钱堃 马旭东 +1 位作者 戴先中 房芳 《机器人》 EI CSCD 北大核心 2010年第1期18-24,33,共8页
为提高室内动态环境下服务机器人对行人的自然避让能力,对人的运动轨迹模式进行建模,在此基础上引入了将行人运动长、短期预测结合起来的方法.为适应传感器噪声及网络延迟等因素所造成的感知—控制回路中的多源不确定性,将人与机器人的... 为提高室内动态环境下服务机器人对行人的自然避让能力,对人的运动轨迹模式进行建模,在此基础上引入了将行人运动长、短期预测结合起来的方法.为适应传感器噪声及网络延迟等因素所造成的感知—控制回路中的多源不确定性,将人与机器人的相对位置关系建模为部分可观的马尔可夫状态.采用部分可观的马尔可夫决策过程(POMDP)进行多源不确定性下的概率决策,协调控制机器人全局路径规划、反应式运动及速度控制等行为模块.实验结果验证,它能够实现提前避碰的安全导航,因避免反复的曲折与徘徊运动而提高了机器人导航效率. 展开更多
关键词 预测导航 运动估计 不确定性 pomdp
在线阅读 下载PDF
口语对话系统的POMDP模型及求解 被引量:7
5
作者 张波 蔡庆生 郭百宁 《计算机研究与发展》 EI CSCD 北大核心 2002年第2期217-224,共8页
许多口语对话系统已进入实用阶段 ,但一直没有很好的对话管理模型 .把对话管理看做随机优化问题 ,用马尔科夫决策过程 (MDP)来建模是最近出现的方向 ,但是对话状态的不确定性使 MDP不能很好地反映对话模型 .提出了一种新的基于部分可观... 许多口语对话系统已进入实用阶段 ,但一直没有很好的对话管理模型 .把对话管理看做随机优化问题 ,用马尔科夫决策过程 (MDP)来建模是最近出现的方向 ,但是对话状态的不确定性使 MDP不能很好地反映对话模型 .提出了一种新的基于部分可观察 MDP(POMDP)的口语对话系统模型 ,用部分可观察特性来处理不确定问题 .由于精确求解算法的局限性 ,考察了许多启发式近似算法在该模型中的适用性 ,并改进了部分算法 ,如对于格点近似算法 。 展开更多
关键词 口语对话系统 马尔科夫决策过程 近似求解算法 pomdp模型 语音识别
在线阅读 下载PDF
POMDP基于点的值迭代算法中一种信念选择方法 被引量:3
6
作者 冯奇 周雪忠 +1 位作者 黄厚宽 张小平 《北京交通大学学报》 CAS CSCD 北大核心 2009年第5期77-80,共4页
部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基于点的算法中信念选择这一关键问题,提出了一种基于熵的信念选择方法(EBBS).EBBS算法通过计算可以转... 部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基于点的算法中信念选择这一关键问题,提出了一种基于熵的信念选择方法(EBBS).EBBS算法通过计算可以转移到的信念点的不确定性,选择熵较小且到当前信念点集距离大于一定阈值的信念点扩充信念点集合.实验结果表明,通过熵选择信念点的值迭代算法只需要在较少数量的信念点上进行值迭代操作就能得到预期的折扣报酬. 展开更多
关键词 pomdp 值迭代 基于点的算法 信念选择 不确定性
在线阅读 下载PDF
基于分层POMDP的智能轮椅行为控制方法 被引量:3
7
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观测马尔可夫决策过程(pomdp)模型
在线阅读 下载PDF
基于POMDP模型的分布式机会频谱接入算法 被引量:2
8
作者 张士兵 王惠建 邹丽 《南京邮电大学学报(自然科学版)》 北大核心 2014年第1期10-16,共7页
针对认知无线电(cognitive radio,CR)信道的动态特性,以部分可观测马尔科夫决策过程(POMDP)为模型对认知无线电网络用户的频谱感知和频谱接入过程进行研究,提出了基于POMDP模型的分布式机会频谱接入算法。该算法利用网络信道的历史频谱... 针对认知无线电(cognitive radio,CR)信道的动态特性,以部分可观测马尔科夫决策过程(POMDP)为模型对认知无线电网络用户的频谱感知和频谱接入过程进行研究,提出了基于POMDP模型的分布式机会频谱接入算法。该算法利用网络信道的历史频谱感知信息对主用户接入信道的状况作出估计,以认知用户吞吐量最大化为目标进行频谱接入。同时,通过贪心算法得到此优化策略的次优解,降低了最优策略的计算复杂度。论文分析了认知用户接入吞吐量与网络中信道数目以及信道状态转移概率之间的关系,将贪心算法与随机检测接入算法进行了仿真比较。仿真结果显示,该算法获得的吞吐量比随机检测接入算法提高了约25%,能够更有效地做出接入策略。 展开更多
关键词 认知无线电 机会频谱接入 吞吐量 pomdp
在线阅读 下载PDF
基于信念点裁剪策略树的POMDP求解算法 被引量:1
9
作者 郑红燕 仵博 +1 位作者 冯延蓬 孟宪军 《信息与控制》 CSCD 北大核心 2013年第1期53-57,共5页
针对大规模部分可观察马尔可夫决策过程(POMDP)算法中策略树规模指数级增长、已证信念点(witness point,WP)求解困难的问题,根据策略树值函数是分段线性凸函数的特点,提出一种基于信念点的策略树增量裁剪和值迭代求解算法.在策略树生成... 针对大规模部分可观察马尔可夫决策过程(POMDP)算法中策略树规模指数级增长、已证信念点(witness point,WP)求解困难的问题,根据策略树值函数是分段线性凸函数的特点,提出一种基于信念点的策略树增量裁剪和值迭代求解算法.在策略树生成过程中,利用边界点进行无损裁剪,利用中间点进行有损裁剪,并利用实时信念状态分布求取近似最优解.对比实验结果表明,该算法能快速收敛,以更少的时间获得相当精度的奖赏值. 展开更多
关键词 部分可观察马尔科夫决策过程(pomdp) 策略树 信念状态 基于点 增量裁剪
原文传递
基于POMDP的信道感知接入算法 被引量:2
10
作者 郭文慧 王亚林 韩迎鸽 《计算机工程与应用》 CSCD 2014年第5期203-207,共5页
在认知无线电中,为了最大化次用户的吞吐量,同时对主用户的干扰低于预定值,提出一种基于POMDP的信道感知接入算法。次用户将主用户信道在时间轴上细分成等间隔的时隙,在每个时隙开始时,次用户从频谱感知、以较高的功率接入信道和以较低... 在认知无线电中,为了最大化次用户的吞吐量,同时对主用户的干扰低于预定值,提出一种基于POMDP的信道感知接入算法。次用户将主用户信道在时间轴上细分成等间隔的时隙,在每个时隙开始时,次用户从频谱感知、以较高的功率接入信道和以较低的功率接入信道三种可选策略中选择最优的策略。将次用户的选择过程建模成一个POMDP问题,并采用一些相应的最优策略求解。计算机仿真结果验证了算法的有效性。 展开更多
关键词 认知无线电 频谱感知 吞吐量 半马尔科夫链 PARTIALLY OBSERVABLE MARKOV Decision Process(pomdp)
在线阅读 下载PDF
基于观测的POMDP优化算法及其仿真 被引量:1
11
作者 黄静 殷保群 李俊 《信息与控制》 CSCD 北大核心 2008年第3期346-351,376,共7页
在分析马尔可夫决策过程(Markov Decision Process,MDP)性能灵敏度的基础上,讨论了部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)的性能优化问题.给出了POMDP性能灵敏度分析公式,并以此为基础提出... 在分析马尔可夫决策过程(Markov Decision Process,MDP)性能灵敏度的基础上,讨论了部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)的性能优化问题.给出了POMDP性能灵敏度分析公式,并以此为基础提出了两种基于观测的POMDP优化算法:策略梯度优化算法和策略迭代优化算法.最后以准许控制问题为仿真实例,验证了这两个算法的有效性. 展开更多
关键词 部分可观测马尔可夫决策过程(pomdp) 灵敏度分析 优化 仿真
在线阅读 下载PDF
POMDP环境下交通信号自适应控制的策略梯度学习方法 被引量:2
12
作者 夏新海 《武汉理工大学学报》 CAS CSCD 北大核心 2012年第7期51-56,共6页
将交通自适应控制看成是POMDP(Partially Observable Markov Decision Process)问题,建立交叉口POMDP环境模型,结合值函数法的优点设计解决此问题的策略梯度学习算法。仿真实验与传统方法比较表明,在局部交通较少及高度饱和交通条件下... 将交通自适应控制看成是POMDP(Partially Observable Markov Decision Process)问题,建立交叉口POMDP环境模型,结合值函数法的优点设计解决此问题的策略梯度学习算法。仿真实验与传统方法比较表明,在局部交通较少及高度饱和交通条件下此学习方法具有一定的收敛性和有效性,并对解决自适应交通控制问题具有一定的适用性。 展开更多
关键词 pomdp 强化学习 策略梯度 交通信号控制
原文传递
FO-POMDP中一阶信念状态的研究
13
作者 陈丽娜 黄宏斌 邓苏 《电子设计工程》 2011年第23期19-22,25,共5页
抽象层次上FO-POMDP的引入,使得人们可简洁地、陈述地表达复杂的POMDP,解决常规POMDP在实际中所无法解决的大规模决策问题。介绍了FO-POMDP的基础,包括状况表达式、行动、观察值和观察函数。提出了一阶信念状态的概念,并分别针对随机转... 抽象层次上FO-POMDP的引入,使得人们可简洁地、陈述地表达复杂的POMDP,解决常规POMDP在实际中所无法解决的大规模决策问题。介绍了FO-POMDP的基础,包括状况表达式、行动、观察值和观察函数。提出了一阶信念状态的概念,并分别针对随机转移行动和随机观察行动给出一阶信念状态的更新方法。最后用FO-Tiger-Grid模型对一阶信念状态的概念和更新方法进行了实例分析验证。 展开更多
关键词 pomdp FO—pomdp 信念状态 一阶信念状态
在线阅读 下载PDF
基于杂合标准的POMDP值迭代求解算法 被引量:1
14
作者 刘峰 《模式识别与人工智能》 EI CSCD 北大核心 2016年第11期961-968,共8页
基于点的值迭代方法是求解部分可观测马尔科夫决策过程(POMDP)问题的一类有效算法.目前基于点的值迭代算法大都基于单一启发式标准探索信念点集,从而限制算法效果.基于此种情况,文中提出基于杂合标准探索信念点集的值迭代算法(HHVI),可... 基于点的值迭代方法是求解部分可观测马尔科夫决策过程(POMDP)问题的一类有效算法.目前基于点的值迭代算法大都基于单一启发式标准探索信念点集,从而限制算法效果.基于此种情况,文中提出基于杂合标准探索信念点集的值迭代算法(HHVI),可以同时维持值函数的上界和下界.在扩展探索点集时,选取值函数上下界差值大于阈值的信念点进行扩展,并且在值函数上下界差值大于阈值的后继信念点中选择与已探索点集距离最远的信念点进行探索,保证探索点集尽量有效分布于可达信念空间内.在4个基准问题上的实验表明,HHVI能保证收敛效率,并能收敛到更好的全局最优解. 展开更多
关键词 部分可观测马尔科夫决策过程(pomdp) 杂合启发式值迭代 可达信念空间 探索价值
在线阅读 下载PDF
基于部分可观察马尔科夫决策过程(POMDP)的贪婪算法次优频谱接入 被引量:1
15
作者 张娟 《科学技术与工程》 北大核心 2014年第15期193-196,218,共5页
在ad hoc网络中,由于受硬件和能量的限制,在没有数据发送的情况下,次用户无法监控到频谱,不能执行全频谱的感知,因此,针对现有的机会频谱接入(OSA)算法大都基于信道状态具有完全知识的马尔科夫建模的情况,提出了基于部分可观察的马尔科... 在ad hoc网络中,由于受硬件和能量的限制,在没有数据发送的情况下,次用户无法监控到频谱,不能执行全频谱的感知,因此,针对现有的机会频谱接入(OSA)算法大都基于信道状态具有完全知识的马尔科夫建模的情况,提出了基于部分可观察的马尔科夫(POMDP)的决策论方法,该方法综合考虑了机会频谱共享系统的感知和接入优化策略。由于受维数灾难的影响,设计了一种基于贪婪算法次优的频谱接入方法,并从理想感知和感知错误存在两方面进行仿真分析。结果表明,在POMDP模型下该方法能有效地避免主次用户之间的资源使用冲突,实现对频谱的有效利用。 展开更多
关键词 pomdp 机会频谱接入 贪婪算法 AD HOC网络
在线阅读 下载PDF
基于POMDP的次用户多时隙信道选择算法
16
作者 张红霞 孟东霞 姜志旺 《电视技术》 北大核心 2014年第13期162-167,共6页
为了最大化次用户系统吞吐量,同时减少信道选择过程中的计算量,在多条主用户信道的次用户多时隙系统中,用半马尔科夫链(Partially Observable Markov Decision Process,POMDP)理论刻画次用户信道选择过程,并提出了对应的信道选择算法。... 为了最大化次用户系统吞吐量,同时减少信道选择过程中的计算量,在多条主用户信道的次用户多时隙系统中,用半马尔科夫链(Partially Observable Markov Decision Process,POMDP)理论刻画次用户信道选择过程,并提出了对应的信道选择算法。在每一个时隙开始时,次用户选择部分信道进行感知,之后根据感知结果选择不同的传输功率接入信道,对于没有被感知的信道,次用户可以直接接入。对POMDP问题求解采用了最优策略、次优策略以及任意策略,并通过在不同仿真环境下的数值分析比较,论证了所提算法的实用有效。 展开更多
关键词 信道选择 频谱接入 吞吐量 pomdp策略
在线阅读 下载PDF
基于POMDP的认知无线网络次用户多时隙信道选择算法
17
作者 岳晓红 《计算机应用与软件》 CSCD 北大核心 2014年第10期111-115,共5页
为了最大化认知无线网络次用户系统的吞吐量,同时减少信道选择过程中的计算量,在多条主用户信道的次用户多时隙系统中,用半马尔科夫链POMDP(Partially Observable Markov Decision Process)理论刻画次用户信道选择过程,并提出对应的认... 为了最大化认知无线网络次用户系统的吞吐量,同时减少信道选择过程中的计算量,在多条主用户信道的次用户多时隙系统中,用半马尔科夫链POMDP(Partially Observable Markov Decision Process)理论刻画次用户信道选择过程,并提出对应的认知无线网络信道选择算法。在每一个时隙开始时,次用户选择部分信道进行感知,之后根据感知结果选择不同的传输功率接入信道,对于没有被感知的信道,次用户可以直接接入。对POMDP问题求解给出最优策略、次优策略。通过在不同仿真环境下对最优策略、次优策略以及任意策略进行数值分析比较,论证了该设计算法的有效性。 展开更多
关键词 认知无线网络 信道选择 pomdp 策略
在线阅读 下载PDF
基于点的POMDP算法的预处理方法 被引量:6
18
作者 卞爱华 王崇骏 陈世福 《软件学报》 EI CSCD 北大核心 2008年第6期1309-1316,共8页
基于点的算法是部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDP)的一类近似算法.它们只在一个信念点集上进行Backup操作,避免了线性规划并使用了更少的中间变量,从而将计算瓶颈由选择向量转向... 基于点的算法是部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDP)的一类近似算法.它们只在一个信念点集上进行Backup操作,避免了线性规划并使用了更少的中间变量,从而将计算瓶颈由选择向量转向了生成向量.但这类算法在生成向量时含有大量重复和无意义计算,针对于此,提出了基于点的POMDP算法的预处理方法(preprocessing method for point-based algorithms,简称PPBA).该方法对每个样本信念点作预处理,并且在生成α-向量之前首先计算出该选取哪个动作和哪些α-向量,从而消除了重复计算.PPBA还提出了基向量的概念,利用问题的稀疏性避免了无意义计算.通过在Perseus上的实验,表明PPBA很大地提高了算法的执行速度. 展开更多
关键词 pomdp 值迭代 基于点的算法 预处理 基向量
在线阅读 下载PDF
基于POMDP的流媒体网络数据调度建模与仿真 被引量:1
19
作者 汪耒 林福寿 殷保群 《中国科学技术大学学报》 CAS CSCD 北大核心 2013年第4期295-299,339,共6页
针对P2P流媒体网络的数据调度问题,提出了一种新的调度算法,即将节点的数据请求作为随机事件,运用基于事件的方法,对P2P流媒体网络的数据调度问题,建立基于部分可观Markov决策过程(POMDP)的数学模型,并运用梯度算法仿真求解模型的最优策... 针对P2P流媒体网络的数据调度问题,提出了一种新的调度算法,即将节点的数据请求作为随机事件,运用基于事件的方法,对P2P流媒体网络的数据调度问题,建立基于部分可观Markov决策过程(POMDP)的数学模型,并运用梯度算法仿真求解模型的最优策略.仿真结果表明了所提方法的有效性. 展开更多
关键词 流媒体网络 数据调度 pomdp 梯度优化
在线阅读 下载PDF
基于POMDP的VOD接入控制建模与仿真 被引量:1
20
作者 芦珊 黄静 殷保群 《中国科学技术大学学报》 CAS CSCD 北大核心 2009年第9期984-989,共6页
为分布式视频点播(video on demand,VOD)接入控制建立了基于POMDP(部分可观Markov决策过程)的数学模型,应用策略梯度优化算法仿真求解模型的最优策略.仿真结果表明,基于POMDP模型的仿真有效地缩短了仿真时间;与传统分布式系统的接入控... 为分布式视频点播(video on demand,VOD)接入控制建立了基于POMDP(部分可观Markov决策过程)的数学模型,应用策略梯度优化算法仿真求解模型的最优策略.仿真结果表明,基于POMDP模型的仿真有效地缩短了仿真时间;与传统分布式系统的接入控制方法相比,更合理地利用了系统的资源,可以给运营商带来更大的效益. 展开更多
关键词 pomdp 视频点播 接入控制 策略梯度优化算法
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部