期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
分布式在线鞍点问题的Bandit反馈优化算法 被引量:1
1
作者 张文韬 张保勇 +1 位作者 袁德明 徐胜元 《自动化学报》 北大核心 2025年第4期857-874,共18页
本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在Bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其... 本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在Bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其附近产生的函数值.为此,结合单点梯度估计方法和预测映射技术,提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法.以动态鞍点遗憾作为性能指标,对于一般的凸−凹损失函数,建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛.此外,考虑到在迭代优化中计算优化子程序的精确解通常较为困难,进一步扩展一种基于近似计算方法的算法变种,并严格分析精确度设置对扩展算法遗憾上界的影响.最后,通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证. 展开更多
关键词 bandit 反馈 分布式优化 在线鞍点问题 镜面下降 动态鞍点遗憾
在线阅读 下载PDF
基于边缘动态事件触发的在线分布式复合Bandit优化算法
2
作者 熊梦辉 杨春雨 +2 位作者 赵建国 张保勇 袁德明 《自动化学报》 北大核心 2025年第8期1811-1828,共18页
研究带宽受限的非平衡有向多智能体网络环境下的在线分布式复合Bandit优化问题.该问题中每个智能体的局部目标函数具有复合结构:其一为梯度信息不可获取的时变损失函数,其二为具有特定结构的正则化项.为应对网络带宽的受限,设计具有控... 研究带宽受限的非平衡有向多智能体网络环境下的在线分布式复合Bandit优化问题.该问题中每个智能体的局部目标函数具有复合结构:其一为梯度信息不可获取的时变损失函数,其二为具有特定结构的正则化项.为应对网络带宽的受限,设计具有控制因子的边缘动态事件触发通信协议,以降低通信开销.同时,针对局部损失函数梯度信息难以获取的挑战,分别引入单点和两点梯度估计方法,以支撑损失函数梯度信息的获取.基于此,结合近端算子,分别设计仅要求加权邻接矩阵满足行随机性质的在线分布式复合单点和两点Bandit优化算法,并使用动态遗憾指标分析两种算法的收敛性.结果表明,在合理的假设和参数设定下,两种算法在期望意义下分别可获得O(K^(3/4)(1+P_(K)))和O(K^(1/2)(1+P_(K)))的动态遗憾上界,其中K是总迭代次数,P_(K)是路径变差度量.进一步,当P_(K)能够被提前估计时,两种算法分别可获得O(K^(3/4)√1+P_(K))和O(K^(1/2)√1+P_(K))的期望动态遗憾上界.最后,通过对在线分布式岭回归问题的仿真实验,验证了算法的收敛性以及理论结果的正确性. 展开更多
关键词 在线分布式优化 复合优化 动态事件触发通信 bandit反馈 动态遗憾
在线阅读 下载PDF
考虑隐私保护的在线单点反馈无投影去中心化联邦学习算法
3
作者 王燕 邓志良 赵中原 《山东理工大学学报(自然科学版)》 2026年第3期50-58,共9页
研究一类考虑客户端隐私保护的去中心化联邦学习算法,目标是保护各客户端隐私信息不被暴露,且保证模型收敛至全局最优解。提出一种基于差分隐私的Frank-Wolfe无投影去中心化联邦学习算法,结合在线单点反馈技术,避免了高维约束集下的复... 研究一类考虑客户端隐私保护的去中心化联邦学习算法,目标是保护各客户端隐私信息不被暴露,且保证模型收敛至全局最优解。提出一种基于差分隐私的Frank-Wolfe无投影去中心化联邦学习算法,结合在线单点反馈技术,避免了高维约束集下的复杂投影计算,并通过函数值近似梯度,解决了梯度信息不可访问的问题。在无中心服务器的场景下,算法可实现客户端隐私保护,同时理论分析表明算法可收敛至全局最优解。最后,通过数据集仿真实验验证了算法的有效性。 展开更多
关键词 去中心化联邦学习 Frank-Wolfe 差分隐私 单点反馈
在线阅读 下载PDF
基于Bandit反馈的自适应量化分布式在线镜像下降算法 被引量:2
4
作者 谢俊如 高文华 谢奕彬 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第10期1774-1782,共9页
多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降... 多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降算法在处理高维数据和大规模在线学习上的优势,本文使用个体目标函数在两点处的函数值信息对缺失的梯度信息进行估计,并且根据镜像下降算法的性质设计自适应量化器,提出基于Bandit反馈的自适应量化分布式在线镜像下降算法.然后分析了量化误差界和Regret界的关系,适当选择参数可得所提算法的Regret界为O(√T).最后,通过数值仿真验证了算法和理论结果的有效性. 展开更多
关键词 镜像下降算法 多智能体系统 优化 量化 bandit反馈
在线阅读 下载PDF
基于Bandit反馈的在线分布式镜面下降算法
5
作者 朱小梅 李觉友 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第1期99-107,共9页
针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方... 针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果表明算法的收敛速度为O(T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题. 展开更多
关键词 在线学习 分布式优化 镜面下降算法 bandit反馈 Regret界
原文传递
基于Bandit反馈的分布式在线对偶平均算法
6
作者 朱小梅 《四川轻化工大学学报(自然科学版)》 CAS 2020年第3期87-93,共7页
为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于Bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即Bandit反馈,利用函数值信息去近似原损失函数的梯度信息... 为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于Bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即Bandit反馈,利用函数值信息去近似原损失函数的梯度信息,克服了求解复杂函数梯度存在的计算量大等问题。然后,给出了该算法的收敛性分析,结果表明,Regret界的收敛速度为O(Tmax{k,1-k}),其中T是最大迭代次数。最后,利用传感器网络的一个特例进行了数值模拟计算,计算结果表明,所提算法的收敛速度与现有的分布式在线对偶平均(DODA)算法的收敛速度接近。与DODA算法相比,所提出算法的优点在于只考虑了函数值信息,使其更适用于梯度信息获取困难的实际问题。 展开更多
关键词 分布式在线优化 对偶平均算法 bandit反馈 Regret界
在线阅读 下载PDF
具有反馈延迟分布式在线复合优化的动态遗憾性能 被引量:1
7
作者 侯瑞捷 李修贤 +2 位作者 易新蕾 洪奕光 谢立华 《自动化学报》 北大核心 2025年第4期835-856,共22页
研究分布式在线复合优化场景中的几种反馈延迟,包括梯度反馈、单点Bandit反馈和两点Bandit反馈.其中,每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成.在分布式场景下,研究每个智能体具有不同时变延迟的场景.基... 研究分布式在线复合优化场景中的几种反馈延迟,包括梯度反馈、单点Bandit反馈和两点Bandit反馈.其中,每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成.在分布式场景下,研究每个智能体具有不同时变延迟的场景.基于近端梯度下降算法,分别设计这三种延迟反馈的分布式在线复合优化算法,并且对动态遗憾上界进行分析.分析结果表示,延迟梯度反馈和延迟两点Bandit反馈的动态遗憾上界阶数在期望意义下相同,而延迟单点Bandit反馈的动态遗憾上界稍差于前两者.这表明,存在延迟时,两点Bandit反馈可以在期望意义下达到与梯度反馈相同阶数的动态遗憾上界,且在步长选择合适的情况下,三种反馈类型的平均延迟在动态遗憾上具有相同的阶数.最后通过仿真实验验证了算法的性能和理论分析结果. 展开更多
关键词 分布式在线凸优化 复合优化 反馈延迟 bandit 反馈 动态遗憾
在线阅读 下载PDF
针对新用户冷启动问题的改进Epsilon-greedy算法 被引量:2
8
作者 王素琴 张洋 +1 位作者 蒋浩 朱登明 《计算机工程》 CAS CSCD 北大核心 2018年第11期172-177,共6页
在解决新用户冷启动问题时,固定不变的Epsilon参数会使传统Epsilon-greedy算法收敛缓慢。为此,提出一种改进的Epsilon-greedy算法。利用免疫反馈模型动态调整Epsilon参数,从而使算法快速收敛。使用蒙特卡罗模拟方法对算法进行实验验证,... 在解决新用户冷启动问题时,固定不变的Epsilon参数会使传统Epsilon-greedy算法收敛缓慢。为此,提出一种改进的Epsilon-greedy算法。利用免疫反馈模型动态调整Epsilon参数,从而使算法快速收敛。使用蒙特卡罗模拟方法对算法进行实验验证,结果表明,该算法能够在用户与推荐系统交互较少的情况下为用户进行有效推荐,且推荐效果优于传统的Epsilon-greedy、Softmax和UCB算法。 展开更多
关键词 推荐系统 冷启动 Epsilon-greedy算法 免疫反馈模型 bandit算法
在线阅读 下载PDF
Distributed online bandit tracking for Nash equilibrium under partial-decision information setting
9
作者 FENG ZhangCheng XU WenYing +2 位作者 CAO JinDe YANG ShaoFu RUTKOWSKI Leszek 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2023年第11期3129-3138,共10页
This paper is concerned with a Nash equilibrium(NE)tracking issue in online games with bandit feedback,where cost functions vary with time and agents only have access to the values of these functions at two points dur... This paper is concerned with a Nash equilibrium(NE)tracking issue in online games with bandit feedback,where cost functions vary with time and agents only have access to the values of these functions at two points during each round.A partial-decision information setting is considered,in which agents have only access to the decisions of their neighbors.The primary objective of this paper is to develop a distributed online NE tracking algorithm that ensures sublinear growth of regret with respect to the total round T,under both the bandit feedback and partial-decision information setting.By utilizing a two-point estimator together with the leader-following consensus method,a new distributed online NE tracking algorithm is established with the estimated gradient and local estimated decisions based on the projection gradient-descent method.Moreover,sufficient conditions are derived to guarantee an improved upper bound of dynamic regret compared to existing bandit algorithms.Finally,a simulation example is presented to demonstrate the effectiveness of the proposed algorithm. 展开更多
关键词 online game bandit feedback partial-decision two-point gradient estimator
原文传递
通信受限的双网络零和博弈分布式在线优化
10
作者 廖岚 于湛 +2 位作者 袁德明 张保勇 徐胜元 《自动化学报》 2026年第1期108-120,共13页
研究双网络零和博弈中的分布式优化问题,其中两个网络代表两个对立的玩家.每个网络由一组具有时变损失函数的智能体组成,智能体通过通信和协作来优化己方网络在博弈中的收益.考虑到现实优化场景中通信资源受限和信息反馈受限两种通信受... 研究双网络零和博弈中的分布式优化问题,其中两个网络代表两个对立的玩家.每个网络由一组具有时变损失函数的智能体组成,智能体通过通信和协作来优化己方网络在博弈中的收益.考虑到现实优化场景中通信资源受限和信息反馈受限两种通信受限情形,设计基于事件触发通信和两点Bandit反馈的分布式在线优化算法,并采用动态纳什均衡遗憾评估算法的性能.在某些假设条件下,建立相对于总博弈次数为次线性的动态纳什均衡遗憾界,从而验证了算法的有效性.此外,将设计的算法拓展为多周期版本并建立次线性的动态纳什均衡遗憾界.最后,通过双线性矩阵博弈的仿真算例进一步验证了所设计的两个算法的性能. 展开更多
关键词 零和博弈 分布式在线优化 动态纳什均衡遗憾 bandit反馈 事件触发通信
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部