期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于高斯回归的连续空间多智能体跟踪学习 被引量:2
1
作者 陈鑫 魏海军 +1 位作者 吴敏 曹卫华 《自动化学报》 EI CSCD 北大核心 2013年第12期2021-2031,共11页
提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟... 提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点. 展开更多
关键词 连续状态空间 多智能体系统 基于模型的强化学习 高斯回归
在线阅读 下载PDF
台湾选择RT2000发射架
2
作者 臧晓京 《飞航导弹简讯》 2002年第3期4-4,共1页
关键词 台湾省 陆军 RT2000 多管火箭发射架 mbrl
在线阅读 下载PDF
Adaptive layer splitting forwireless large language model inference in edge computing:amodel-based reinforcement learning approach
3
作者 Yuxuan CHEN Rongpeng LI +2 位作者 Xiaoxue YU Zhifeng ZHAO Honggang ZHANG 《Frontiers of Information Technology & Electronic Engineering》 2025年第2期278-292,共15页
Optimizing the deployment of large language models(LLMs)in edge computing environments is critical for enhancing privacy and computational efficiency.In the path toward efficient wireless LLM inference in edge computi... Optimizing the deployment of large language models(LLMs)in edge computing environments is critical for enhancing privacy and computational efficiency.In the path toward efficient wireless LLM inference in edge computing,this study comprehensively analyzes the impact of different splitting points in mainstream open-source LLMs.Accordingly,this study introduces a framework taking inspiration from model-based reinforcement learning to determine the optimal splitting point across the edge and user equipment.By incorporating a reward surrogate model,our approach significantly reduces the computational cost of frequent performance evaluations.Extensive simulations demonstrate that this method effectively balances inference performance and computational load under varying network conditions,providing a robust solution for LLM deployment in decentralized settings. 展开更多
关键词 Large language models(LLMs) Edge computing Model-based reinforcement learning(mbrl) Split inference Transformer
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部