期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
对新产品开发的最优价值分析——基于Bandit过程的模型研究 被引量:6
1
作者 谢武 陈晓剑 巩国顺 《预测》 CSSCI 2003年第4期75-77,80,共4页
新产品开发的成败直接关系到企业的生存和发展,因而有效的新产品开发始终是企业追求的目标。本文运用备择Bandit过程的原理对新产品开发的最优价值进行了一定程度的探讨。本文的最后结论认为新产品开发的最优价值取决于Gittins指标法则... 新产品开发的成败直接关系到企业的生存和发展,因而有效的新产品开发始终是企业追求的目标。本文运用备择Bandit过程的原理对新产品开发的最优价值进行了一定程度的探讨。本文的最后结论认为新产品开发的最优价值取决于Gittins指标法则的有效性,即最终取决于市场占有率,对新产品需求预测的准确性,对消费者认知价值预测的准确性以及新产品投放市场的有效性,对这些变量的预测越精确,最优规则越有效,新产品开发成功的价值越大。 展开更多
关键词 新产品开发 顺序 bandit过程 Gittins定理 最优价值
在线阅读 下载PDF
单臂Erlang(k) Bandit报酬过程 被引量:1
2
作者 邹捷中 邓倩 梁友 《长沙电力学院学报(自然科学版)》 2006年第4期69-71,77,共4页
应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负... 应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负指数分布推广至目前在实际中应用更为广泛的分布,是对Band it报酬过程的补充和推广.使用本算法通过数值计算可以得到G ittins指数的近似解. 展开更多
关键词 贝叶斯方法 多臂bandit过程 单臂bandit过程 Gittins指数 平衡值 bandit报酬过程 分布
在线阅读 下载PDF
考虑抽样时间间隔的特殊单臂Bandit报酬过程
3
作者 邹捷中 梁友 《铁道科学与工程学报》 CAS CSCD 北大核心 2006年第6期87-90,共4页
应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit... 应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit报酬过程Gittins指数的单调性质,并在此基础上将包含这类过程的单臂Bandit报酬过程的最优决策问题简化为一个最优停止问题,构造了计算过程最优停止时间的算法。 展开更多
关键词 贝叶斯方法 特殊单臂bandit报酬过程 Gittins指灵敏 Erlang(2)布
在线阅读 下载PDF
Bandit过程及其应用(英文)
4
作者 王熙逵 《经济数学》 2001年第4期39-48,共10页
本文有两个目的 .第一 ,对 Bandit过程这一学科的主要概念及结果作一次系统性的介绍 .第二 ,综述Bandit过程的模型 ,计算与应用的最新发展 .本文刻画了 Bandit过程与马氏决策规划的关系 .通过考虑理论上或方法论上的局限 ,实际中或计算... 本文有两个目的 .第一 ,对 Bandit过程这一学科的主要概念及结果作一次系统性的介绍 .第二 ,综述Bandit过程的模型 ,计算与应用的最新发展 .本文刻画了 Bandit过程与马氏决策规划的关系 .通过考虑理论上或方法论上的局限 ,实际中或计算上的困难 ,以及应用中的限制 . 展开更多
关键词 应用 bandit过程 动态规划 马氏决策过程 最优决策 近视决策
在线阅读 下载PDF
基于强化学习的推荐研究综述 被引量:11
5
作者 余力 杜启翰 +3 位作者 岳博妍 向君瑶 徐冠宇 冷友方 《计算机科学》 CSCD 北大核心 2021年第10期1-18,共18页
推荐系统致力于从海量数据中为用户寻找并自动推荐有价值的信息和服务,可有效解决信息过载问题,成为大数据时代一种重要的信息技术。但推荐系统的数据稀疏性、冷启动和可解释性等问题,仍是制约推荐系统广泛应用的关键技术难点。强化学... 推荐系统致力于从海量数据中为用户寻找并自动推荐有价值的信息和服务,可有效解决信息过载问题,成为大数据时代一种重要的信息技术。但推荐系统的数据稀疏性、冷启动和可解释性等问题,仍是制约推荐系统广泛应用的关键技术难点。强化学习是一种交互学习技术,该方法通过与用户交互并获得反馈来实时捕捉其兴趣漂移,从而动态地建模用户偏好,可以较好地解决传统推荐系统面临的经典关键问题。强化学习已成为近年来推荐系统领域的研究热点。文中从综述的角度,首先在简要回顾推荐系统和强化学习的基础上,分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。 展开更多
关键词 推荐系统 强化学习 深度强化学习 马尔可夫决策过程 多臂老虎机
在线阅读 下载PDF
基于多臂赌博机在线学习的频谱共享方法 被引量:2
6
作者 张娟 蒋和松 《计算机工程与设计》 CSCD 北大核心 2014年第7期2515-2519,共5页
针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部... 针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部分可观测马尔科夫决策过程。将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真结果表明,在信道不完全可知情况下的多臂赌博机在线学习算法能获得最优K步策略,并通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。 展开更多
关键词 频谱共享 多臂赌博机 在线学习 部分可观察的马尔科夫 最优传输
在线阅读 下载PDF
认知无线电中实现最优传输的在线学习方法
7
作者 张娟 蒋和松 +1 位作者 江虹 陈春梅 《电视技术》 北大核心 2014年第15期193-197,226,共6页
在认知无线电中,对频谱共享的典型研究具有以下两方面的缺点:第一,目前的研究大都基于信道状态完全已知的马尔科夫建模,使得这类模型的应用受到很大的限制;第二,大部分研究都是基于信道感知的在线学习,没有考虑不同信道状态下的最优传... 在认知无线电中,对频谱共享的典型研究具有以下两方面的缺点:第一,目前的研究大都基于信道状态完全已知的马尔科夫建模,使得这类模型的应用受到很大的限制;第二,大部分研究都是基于信道感知的在线学习,没有考虑不同信道状态下的最优传输的在线学习。针对以上问题,提出了一种新的算法:将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真分析表明:在信道不完全可知情况下的多臂赌博机在线学习算法和单门限最优离线传输策略相比,同样能获得最优K步策略。同时,本文通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。 展开更多
关键词 频谱共享 多臂赌博机 在线学习 部分可观察的马尔科夫
在线阅读 下载PDF
无线传感器网络中基于信息年龄的状态更新策略 被引量:10
8
作者 赵悦超 杨涛 胡波 《微电子学与计算机》 北大核心 2020年第11期29-34,共6页
针对具有能量收集的无线传感器网络(WSN)场景,传感器定期向基站发送状态更新信息,但受频谱资源限制,在给定时隙仅允许有限数量传感器进行发送。同时,发射功率受限于剩余能量的约束。围绕上述问题,提出了基于信息年龄(AoI)的马尔可夫决... 针对具有能量收集的无线传感器网络(WSN)场景,传感器定期向基站发送状态更新信息,但受频谱资源限制,在给定时隙仅允许有限数量传感器进行发送。同时,发射功率受限于剩余能量的约束。围绕上述问题,提出了基于信息年龄(AoI)的马尔可夫决策过程(MDP)来构建状态的更新策略方案。模型刻画了WSN中频谱、能量及发送时隙三者之间的内在关系,同时,针对大规模传感网络下高计算复杂度问题,提出了基于Whittle Index的调度算法。该算法通过迭代得到了渐近最优性能,计算复杂度较之大规模MDP求解显著降低,兼顾了调度的实时性和准确性。 展开更多
关键词 无线传感器网络 信息年龄 马尔可夫决策过程 多臂赌博机
在线阅读 下载PDF
衰减信道下具有严格时延的P2P实时通信传输策略 被引量:8
9
作者 田世坤 唐胜达 《广西师范大学学报(自然科学版)》 CAS 北大核心 2022年第6期122-130,共9页
本文考虑衰减信道下点对点(P2P)的实时通信问题,具体地,设大小已知的传输任务随机到达系统,每个传输任务具有严格时延,考虑系统在随机衰减信道下的实时最优传输策略,使系统贴现总期望收益达到最大。将通信模型转换成Markov决策过程(MDP)... 本文考虑衰减信道下点对点(P2P)的实时通信问题,具体地,设大小已知的传输任务随机到达系统,每个传输任务具有严格时延,考虑系统在随机衰减信道下的实时最优传输策略,使系统贴现总期望收益达到最大。将通信模型转换成Markov决策过程(MDP),考虑到基于MDP架构下的维数灾难,基于无休止赌博机模型(RBP)分析P2P实时传输问题,证明衰减信道下P2P实时通信系统的可索引性,同时给出传输策略的Whittle索引封闭解。本文理论上保证衰减信道下P2P实时传输策略Whittle索引的存在性,并可由Whittle索引封闭解设计低时间复杂度的传输调度算法,对衰减信道下P2P实时通信的设计与优化具有指导意义。 展开更多
关键词 点对点通信 传输策略 无休止赌博机模型 Whittle索引
在线阅读 下载PDF
Optimal index shooting policy for layered missile defense system 被引量:2
10
作者 LI Longyue FAN Chengli +2 位作者 XING Qinghua XU Hailong ZHAO Huizhen 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2020年第1期118-129,共12页
In order to cope with the increasing threat of the ballistic missile(BM)in a shorter reaction time,the shooting policy of the layered defense system needs to be optimized.The main decisionmaking problem of shooting op... In order to cope with the increasing threat of the ballistic missile(BM)in a shorter reaction time,the shooting policy of the layered defense system needs to be optimized.The main decisionmaking problem of shooting optimization is how to choose the next BM which needs to be shot according to the previous engagements and results,thus maximizing the expected return of BMs killed or minimizing the cost of BMs penetration.Motivated by this,this study aims to determine an optimal shooting policy for a two-layer missile defense(TLMD)system.This paper considers a scenario in which the TLMD system wishes to shoot at a collection of BMs one at a time,and to maximize the return obtained from BMs killed before the system demise.To provide a policy analysis tool,this paper develops a general model for shooting decision-making,the shooting engagements can be described as a discounted reward Markov decision process.The index shooting policy is a strategy that can effectively balance the shooting returns and the risk that the defense mission fails,and the goal is to maximize the return obtained from BMs killed before the system demise.The numerical results show that the index policy is better than a range of competitors,especially the mean returns and the mean killing BM number. 展开更多
关键词 Gittins index shooting policy layered missile defense multi-armed bandits problem Markov decision process
在线阅读 下载PDF
基于在线学习的数据中心节能方案设计
11
作者 张乾 徐欢乐 刘敬民 《东莞理工学院学报》 2022年第5期86-94,共9页
近年来,随着计算机互联网等技术的迅速发展,与之对应的数据中心等基础设施的功耗也在持续增长。在数据中心耗能中,冷却系统的耗能占比甚至达到了30%。为了对数据中心冷却控制系统进行优化,提出一种基于在线学习的优化方案,采用基于高斯... 近年来,随着计算机互联网等技术的迅速发展,与之对应的数据中心等基础设施的功耗也在持续增长。在数据中心耗能中,冷却系统的耗能占比甚至达到了30%。为了对数据中心冷却控制系统进行优化,提出一种基于在线学习的优化方案,采用基于高斯过程的多摇臂赌博机模型在线决策数据中心的空调开启台数以及采用XGBoost回归模型实时决策空调的设置温度。合适的空调设置可提升冷却系统效率,从而降低冷却系统的能源消耗。这一方案使用两个机器学习模型将空调设置的决策空间解耦,将决策空间缩小近十倍,加快收敛速度,并能根据环境的变化自动调整决策。 展开更多
关键词 数据中心 多摇臂赌博机 高斯过程 置信上界(UCB) 电能利用效率(PUE)
在线阅读 下载PDF
AN ALGORITHM ON THE GITTINS INDEX 
12
作者 LIU Jianyong LIU Ke(Institute of Applied Mathematics, Academic Sinica, Beijing 100080, China) 《Systems Science and Mathematical Sciences》 SCIE EI CSCD 1994年第2期106-114,共9页
ANALGORITHMONTHEGITTINSINDEX¥LIUJianyong;LIUKe(InstituteofAppliedMathematics,AcademicSinica,Beijing100080,Ch... ANALGORITHMONTHEGITTINSINDEX¥LIUJianyong;LIUKe(InstituteofAppliedMathematics,AcademicSinica,Beijing100080,China)Abstract:Mult... 展开更多
关键词 Multiproject bandit processES Gittins INDEX MARKOV DECISION programming.
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部