期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于强化学习的超高层建筑非法入侵情景推演方法
1
作者 胡今鸣 胡啸峰 +2 位作者 石磊 石拓 滕腾 《智能系统学报》 北大核心 2025年第4期958-968,共11页
为计算超高层建筑潜在非法入侵者的“最优”入侵路径,本文提出了一种基于强化学习的情景推演方法。该方法将建筑公共走廊抽象为拓扑结构,利用贝叶斯网络计算入侵者通过每个拓扑节点的概率,结合强化学习算法获得外部人员的最优入侵路径,... 为计算超高层建筑潜在非法入侵者的“最优”入侵路径,本文提出了一种基于强化学习的情景推演方法。该方法将建筑公共走廊抽象为拓扑结构,利用贝叶斯网络计算入侵者通过每个拓扑节点的概率,结合强化学习算法获得外部人员的最优入侵路径,为超高层建筑非法入侵的高效防范提供精准依据。为验证方法的有效性,以北京市CBD地区某超高层建筑为例,将入侵终点设置为顶层,设计了3种不同的入侵情景。情景推演结果表明:在初始状态下(未进行任何优化措施),SARSA模型的训练性能最佳。优化安防系统后发现,在建筑内的层间节点增加安防系统投入最有效。该优化情景下,安防系统投入与风险值的非线性拟合结果显示,随着安防系统投入的增加,入侵风险显著降低。 展开更多
关键词 非法入侵 情景推演 超高层建筑 强化学习 贝叶斯网络 安防系统 sarsa模型 非线性回归
在线阅读 下载PDF
一种用于机器人电池电量预测的Sarsa强化学习混合集成方法 被引量:3
2
作者 彭飞 刘辉 郑力 《Journal of Central South University》 SCIE EI CAS CSCD 2023年第11期3867-3880,共14页
建设数据高效互联的轨道交通车间已成为当前轨道交通装备行业转型发展的必然趋势。越来越多样化的移动运输机器人设备成为智能工厂数字化转型过程中的关键。准确预测机器人的电池电量可以指导控制中心提前采取科学合理的指令,确保物流... 建设数据高效互联的轨道交通车间已成为当前轨道交通装备行业转型发展的必然趋势。越来越多样化的移动运输机器人设备成为智能工厂数字化转型过程中的关键。准确预测机器人的电池电量可以指导控制中心提前采取科学合理的指令,确保物流运输链高效稳定运行。在本研究中,我们提出了一种基于状态-动作-奖励-状态-动作(Sarsa)强化学习算法的多学习器混合集成方法。首先,采用最大重叠离散小波变换(MODWT)对所测量的机器人原始电源电压数据进行预处理,可以显著降低时间序列数据的非平稳性和波动性。其次,利用门控循环单元(GRU)、深度置信网络(DBN)和长短期记忆(LSTM)对分解后得到的子序列进行预测建模。最后,使用Sarsa强化学习集成策略对上述三个基础预测器进行加权组合。所提出的Sarsa混合集成模型的性能在三个真实移动机器人功率数据集上得到验证。实验结果表明,运输机器人电池动力混合预测模型在鲁棒性、准确性和适应性方面具有竞争力。 展开更多
关键词 机器人电源管理 运输机器人 时间序列预测 深度学习 sarsa强化学习 集成模型
在线阅读 下载PDF
基于动态调整的弹性片上网络路由算法
3
作者 李悦瑶 胡海洋 +2 位作者 王奇 安鑫 李建华 《智能计算机与应用》 2022年第10期1-8,14,共9页
片上网络具有良好的可拓展性和并行性,能够应对多核处理器的各种通信需求。路由算法对片上网络的性能和效率有较大的影响。网络流量不均衡可导致拥塞和热点,严重影响整个网络的性能。当前学界已提出了本地感知、区域感知和全局感知的自... 片上网络具有良好的可拓展性和并行性,能够应对多核处理器的各种通信需求。路由算法对片上网络的性能和效率有较大的影响。网络流量不均衡可导致拥塞和热点,严重影响整个网络的性能。当前学界已提出了本地感知、区域感知和全局感知的自适应路由算法来缓解拥塞问题。然而,这些算法依然存在一些问题,如近视、非全局最优、开销高。本文提出了基于强化学习中sarsa奖惩机制思想的路由算法,简称TCRA。TCRA针对Mesh网络中无死锁的路由限制来确定每一跳的可选输出端口,并基于sarsa模型进行非最短路由的策略选择和拥塞值更新。此外,TCRA中还引入了基于延迟的阈值更新机制,通过增加一些阈值的限制来动态调整拥塞值,从而平衡网络中的流量分布。实验结果表明,与传统的区域感知路由算法相比,TCRA能够将网络延迟平均减少30%,并降低13%的功耗。与传统的基于强化学习的路由算法相比,TCRA也能够平均降低20%的延迟,并具有较低的路由器面积开销。 展开更多
关键词 片上网络 无拥塞路由 自适应路由算法 强化学习 sarsa模型
在线阅读 下载PDF
基于DE-SARSA(TS)的跳频系统智能抗干扰决策算法
4
作者 袁泽 赵知劲 《杭州电子科技大学学报(自然科学版)》 2024年第1期6-13,共8页
为了提高跳频通信系统在复杂电磁环境下的抗干扰性能,提出一种基于结合汤普森采样(Thompson Sampling)、Dyna模型和期望SARSA学习(Expected Sarsa)的智能抗干扰决策算法。在期望SARSA学习中,引入Dyna模型,将模型学习与强化学习结合,提... 为了提高跳频通信系统在复杂电磁环境下的抗干扰性能,提出一种基于结合汤普森采样(Thompson Sampling)、Dyna模型和期望SARSA学习(Expected Sarsa)的智能抗干扰决策算法。在期望SARSA学习中,引入Dyna模型,将模型学习与强化学习结合,提升了算法收敛速度和稳态性能;采用汤普森采样和Tanh函数改进动作选择机制,提高了算法对环境的探索和利用;以时隙对应的干扰环境为状态,以跳频速率、信号瞬时带宽、频率序列等为动作构造状态动作空间,设计了相应的跳频系统模型和奖励函数。在高斯白噪声、窄带干扰、宽带干扰和扫频干扰并存的复杂干扰环境中的仿真结果表明,此算法兼顾了对环境的探索与利用,比对比算法有更快的收敛速度和更强的抗干扰能力。 展开更多
关键词 复杂电磁环境 跳频系统 期望sarsa学习 汤普森采样 Dyna模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部