期刊文献+
共找到247篇文章
< 1 2 13 >
每页显示 20 50 100
面向高比例新能源并网的多智能体协同自动发电控制算法 被引量:1
1
作者 苏寅生 刘蔚 +3 位作者 张野 赵利刚 马骞 任建宇 《高压电器》 北大核心 2025年第5期80-92,共13页
具有强随机性的新能源大规模接入电网,给电网带来愈来愈差的控制性能。具有马尔可夫随机过程特性的强化学习对解决随机性问题具有优势,而面向新能源规模化接入时,其仍面临着无法获取最优解的问题,控制性能并不理想。因此,提出一种价值... 具有强随机性的新能源大规模接入电网,给电网带来愈来愈差的控制性能。具有马尔可夫随机过程特性的强化学习对解决随机性问题具有优势,而面向新能源规模化接入时,其仍面临着无法获取最优解的问题,控制性能并不理想。因此,提出一种价值估计矫正的软演员—评论家多智能体协同深度强化学习算法来获取多区域协同最优解。通过状态—动作的分布值函数减轻价值的过估计问题,从而获取全局最优解。对改进的IEEE标准两区域模型和西南三区域电网模型进行仿真,验证了所提算法的有效性,且与多种控制方法相比,具有更优的控制性及频率稳定性。 展开更多
关键词 自动发电控制 价值估计 软演员—评论家 分布值函数
在线阅读 下载PDF
缓存辅助的移动边缘计算任务卸载与资源分配 被引量:1
2
作者 李致远 陈品润 《计算机工程与设计》 北大核心 2025年第5期1248-1255,共8页
针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,... 针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,上层使用软动作评价算法进行计算任务卸载与资源分配决策。仿真实验结果表明,HRLJCORA算法与现有基线算法相比,有效降低了总开销,相较于联合优化计算任务卸载与资源分配(JORA)算法,卸载决策奖励值提高了13.11%,为用户提供了更优质的服务。 展开更多
关键词 移动边缘计算 缓存辅助 卸载决策 资源分配 分层强化学习 深度Q-learning网络算法 软动作评价算法
在线阅读 下载PDF
基于SAC的桥式起重机智能防摇控制
3
作者 唐伟强 王伟 +1 位作者 马瑞 许天鹏 《中国工程机械学报》 北大核心 2025年第3期438-443,共6页
针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输... 针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输入,驱动力作为动作网络的输出。为了提高训练过程中的稳定性,采用4个价值网络,并在价值网络中引入熵正则项和熵加权系数,用于平衡训练过程中探索和利用之间的关系。价值网络通过软更新的方式得到目标网络,从而减少了训练过程中局部最优和发散的情况。最后通过模型训练,得到用于控制的动作网络。结果表明:所提出的智能防摇控制系统对载荷摆角具有很好的抑制作用,而且对载荷质量变化、绳长参数摄动以及外部干扰具有很好的鲁棒性。与基于末端执行器广义运动方法相比,所提出的方法在起重机系统动态性能和抗干扰方面展现出一定的优势。 展开更多
关键词 桥式起重机 摆角控制 软演员评论家算法 强化学习
在线阅读 下载PDF
基于自适应强化学习的智能机器人容错控制
4
作者 易熙琼 谢亚兰 舒雨锋 《控制工程》 北大核心 2025年第8期1499-1507,共9页
智能水下机器人易出现故障,影响水下作业,进而提出一种基于自适应强化学习的容错控制方法。该方法引入Actor-Critic算法,通过Actor网络学习制定行动策略,而Critic网络则评估行动的价值,根据外部环境变化自适应地调整策略。同时,设计了... 智能水下机器人易出现故障,影响水下作业,进而提出一种基于自适应强化学习的容错控制方法。该方法引入Actor-Critic算法,通过Actor网络学习制定行动策略,而Critic网络则评估行动的价值,根据外部环境变化自适应地调整策略。同时,设计了基于积分机制的改进扩张状态观测器,并采用抗积分饱和算法避免积分饱和。仿真结果显示,当智能水下机器人推进器发生故障时,研究所提容错控制器在x轴、y轴方向上的误差值均15 s后逐渐趋近于0,证明了所设计的容错控制器具有优异的容错性能及稳定性,可为水下智能机器人的安全运行提供有效的技术支持。 展开更多
关键词 强化学习 Actor-Critic 容错控制 扩张状态观测器 积分机制
原文传递
基于图深度强化学习的有源配电网故障恢复方法
5
作者 何小龙 高红均 +4 位作者 王仁浚 罗龙波 叶萌 黄媛 刘俊勇 《电网技术》 北大核心 2025年第10期4342-4352,I0090-I0094,共16页
配电网的拓扑结构变动频繁,负荷水平和分布式电源(distributed generator,DG)出力的不确定性使得运行场景愈加复杂多变。基于此,提出了一种基于图深度强化学习的有源配电网故障恢复方法。首先,考虑DG与负荷的时变性,构建起基于图注意力... 配电网的拓扑结构变动频繁,负荷水平和分布式电源(distributed generator,DG)出力的不确定性使得运行场景愈加复杂多变。基于此,提出了一种基于图深度强化学习的有源配电网故障恢复方法。首先,考虑DG与负荷的时变性,构建起基于图注意力网络(graph attention network,GAT)与柔性策略-评价(soft actor-critic,SAC)算法相结合的配电网故障恢复框架,介绍故障恢复方法及其算法原理。然后,建立面向配电网故障恢复的图深度强化学习模型,通过将GAT嵌入到SAC算法的前置神经网络来提高智能体对配电网运行状态和拓扑结构的感知能力,并创新性地引入无效动作掩盖机制以规避非法动作,通过智能体与环境进行交互,寻找最优开关动作控制策略,实现高渗透率DG接入下的故障恢复趋优学习。最后,在IEEE33节点和148节点算例进行验证,并与多种基线方法进行对比测试,所提方法可以实现最快毫秒级故障恢复,具有更加高效优越的恢复效果,在拓扑变动下的负荷供电率相较于基准模型提升了4%~5%。 展开更多
关键词 有源配电网 分布式电源 故障恢复 图注意力网络 柔性策略-评价 无效动作掩盖
原文传递
基于优先经验回放的生成式SAC算法及其应用
6
作者 张伟 李玉俊 +2 位作者 谢雯雯 许耘嘉 孙庚 《吉林大学学报(理学版)》 北大核心 2025年第6期1713-1722,共10页
针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升... 针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升学习效率;其次,该算法将生成式Transformer架构集成到演员网络中以增强对状态特征的动态捕捉能力,从而显著提升其在复杂优化任务中的性能;最后,在高校后勤人员动态调度优化问题上进行应用实验.实验结果表明,与原始柔性演员-评论家算法及经典深度Q网络算法相比,改进的柔性演员-评论家算法在人力需求动态拟合方面误差更小,从而有效验证了其在实际应用中的优势和实用性. 展开更多
关键词 深度强化学习 柔性演员-评论家算法 优先经验回放 Transformer架构 后勤管理
在线阅读 下载PDF
考虑多换电站的多无人机应急电力巡检路径规划方法 被引量:2
7
作者 秦文龙 罗贺 +3 位作者 李晓多 阴酉龙 林世忠 王国强 《控制与决策》 北大核心 2025年第8期2391-2399,共9页
多无人机应急电力巡检的时间十分有限,在选择关键巡检目标时需要考虑各目标的故障概率差异,同时为提升巡检效率,可以引进换电站降低无人机续航能力不足的影响.针对上述特点,将考虑多换电站的多无人机应急电力巡检路径规划问题建模为多... 多无人机应急电力巡检的时间十分有限,在选择关键巡检目标时需要考虑各目标的故障概率差异,同时为提升巡检效率,可以引进换电站降低无人机续航能力不足的影响.针对上述特点,将考虑多换电站的多无人机应急电力巡检路径规划问题建模为多站点多航次团队定向问题,并设计一种融合软演员-评论家模型的遗传算法(SAC-GA).首先,在遗传算法中加入两类局部搜索算子,以优化多无人机访问目标的选择和缩短无人机飞行路径距离.其次,提出一种基于SAC模型的参数调优机制,利用SAC模型基于最大熵学习策略的优势,在遗传算法迭代过程中,根据历史学习经验和种群的状态动态生成合适的交叉、变异概率以及染色体再插入中的权距比.实验结果表明,算法在小规模实验和大规模实验上均具有明显优势,并通过消融实验验证SAC-GA中局部搜索算子的有效性和参数调整方法的优越性.最后,通过案例分析验证算法在不同应急场景下的有效性. 展开更多
关键词 团队定向问题 多无人机 路径规划 遗传算法 SAC模型
原文传递
考虑进站策略的网联电动公交车节能驾驶优化研究 被引量:1
8
作者 南斯睿 于谦 +2 位作者 李铁柱 尚赞娣 陈海波 《交通运输系统工程与信息》 北大核心 2025年第2期82-94,共13页
针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。 展开更多
关键词 智能交通 节能驾驶优化 深度强化学习 纯电动公交 柔性演员-评论家算法
在线阅读 下载PDF
舰船防空反导的目标分配方法研究 被引量:1
9
作者 费帅迪 蔡长龙 +2 位作者 刘飞 陈明晖 刘晓明 《系统仿真学报》 北大核心 2025年第2期508-516,共9页
为了解决动态武器目标分配问题中遇到的状态信息多类型、时间序列相关的问题,提出一种基于改进的深度强化学习算法的动态武器目标分配方法。构建了目标导弹-拦截单元的多输入分配模型;设计一个多输入的状态空间,并结合问题模型建立马尔... 为了解决动态武器目标分配问题中遇到的状态信息多类型、时间序列相关的问题,提出一种基于改进的深度强化学习算法的动态武器目标分配方法。构建了目标导弹-拦截单元的多输入分配模型;设计一个多输入的状态空间,并结合问题模型建立马尔可夫决策过程;设计一个结合多输入信息处理和门控循环网络的特征提取网络,提高对状态信息的提取能力,保留所需要的状态信息并遗忘不重要的状态信息;在策略网络中引入多头注意力机制,提高模型的表现能力和收敛速度。实验结果表明:该动态武器目标分配方法有较好的收敛速度和拦截收益。 展开更多
关键词 防空反导 目标分配 武器目标分配 深度强化学习 注意力机制 Advantage Actor-Critic
原文传递
基于高维协同软演员-评论家的多智能体自动发电控制 被引量:1
10
作者 柳丹 任建宇 +3 位作者 席磊 刘治洪 全悦 施宇 《南方电网技术》 北大核心 2025年第4期93-106,共14页
随着新能源渗透率不断提高,风光等新能源出力的强随机性导致电网频率不稳定及控制性能变差。为此,从自动发电控制角度探索一种多智能体强化学习方法,即高维协同软演员-评论家算法。所提算法通过在最大熵框架下鼓励智能体进行随机探索,... 随着新能源渗透率不断提高,风光等新能源出力的强随机性导致电网频率不稳定及控制性能变差。为此,从自动发电控制角度探索一种多智能体强化学习方法,即高维协同软演员-评论家算法。所提算法通过在最大熵框架下鼓励智能体进行随机探索,以解决Q学习及其衍生算法无法快速更新Q表以适应环境变化的问题。同时利用高斯分布策略生成连续动作值,使算法可在高维连续状态空间中寻找协同最优解,以解决传统强化学习高维“状态-动作”的维数灾问题,从而来有效应对新能源出力强随机性所导致的频率不稳定及控制性能变差的问题。通过在改进的IEEE标准两区域负荷频率控制模型及华中三区域负荷频率控制模型上的仿真实验,验证了该算法的有效性,且相较于其他算法,具有更优的控制性能及频率稳定性。 展开更多
关键词 自动发电控制 高维协同 软演员-评论家 多智能体 高斯分布
在线阅读 下载PDF
空天地一体化网络中基于联邦深度强化学习的边缘协作缓存策略 被引量:1
11
作者 刘亮 荆腾祥 +3 位作者 段洁 毛武平 燕洪成 马文杰 《通信学报》 北大核心 2025年第1期93-107,共15页
针对偏远地区网络覆盖范围有限的问题,将空天地一体化网络与移动边缘计算相结合,可以实现这些地区用户请求的低时延和高可靠传输,并能及时提供缓存服务。考虑到空天地一体化网络拓扑的动态变化和内容流行度不断更新的特点,首先提出了一... 针对偏远地区网络覆盖范围有限的问题,将空天地一体化网络与移动边缘计算相结合,可以实现这些地区用户请求的低时延和高可靠传输,并能及时提供缓存服务。考虑到空天地一体化网络拓扑的动态变化和内容流行度不断更新的特点,首先提出了一种空天地一体化边缘协作缓存的网络架构。然后,将边缘服务器的缓存替换问题建模为马尔可夫决策过程。最后,提出了一种联邦离散柔性演员评论家(FDSAC)算法,其核心思想是将加权注意力机制融入联邦学习框架中,并将双向长短期记忆网络集成到DSAC模型。以重构后的奖励函数为优化目标,通过最大化长期负奖励的期望来学习最优的缓存替换策略。仿真结果表明,与其他算法相比,所提算法可以在保护用户隐私的前提下,将用户请求的缓存命中率提高18%,内容的访问时延降低25%。 展开更多
关键词 空天地一体化网络 移动边缘计算 缓存 离散柔性演员评论家 联邦学习
在线阅读 下载PDF
基于多智能体强化学习的差异化产销者参与社区能源交易方法
12
作者 梁泽庭 郑杰辉 +2 位作者 方家琨 李志刚 吴青华 《电网技术》 北大核心 2025年第5期1826-1836,I0016,I0017,共13页
考虑到新型电力系统中产消者特征各异,产消者对能源交易中的隐私性高度重视以及传统基于模型的优化方法在多重不确定性环境下的局限性,该文提出一种面向社区能源交易考虑特征差异和隐私保护的多智能体强化学习方法。首先,分析不同产消... 考虑到新型电力系统中产消者特征各异,产消者对能源交易中的隐私性高度重视以及传统基于模型的优化方法在多重不确定性环境下的局限性,该文提出一种面向社区能源交易考虑特征差异和隐私保护的多智能体强化学习方法。首先,分析不同产消者的地理位置、分布式资源种类和主体类型等特征差异,建立相应的典型产消者模型;其次,以社区型市场结构为基础,构建基于市场中端费率定价的社区能源交易模型;最后,以市场收益和运行成本为优化目标,将产消者参与社区能源交易的能源交易优化问题构建成部分可观测马尔可夫决策过程。针对储能的荷电状态循环约束引入的稀疏奖励问题,该文提出采用基于余弦距离的动态奖励整形对奖励函数进行改进。针对其中的多智能体环境非平稳性问题,该文提出采用平均场近似机制对柔性策略-评价算法的Q函数进行近似,并采用该算法求解得到产消者的能量管理决策。通过算例验证,所提算法解决考虑特征差异和隐私保护的能源交易问题能够提高1.39%~54.32%的训练效率和降低0.46%~50.34%的平均累积日成本。 展开更多
关键词 社区能源交易 特征差异 隐私保护 强化学习 柔性策略-评价算法
原文传递
模块化自重构卫星智能变构规划
13
作者 贾晓冷 叶东 +1 位作者 王博 孙兆伟 《哈尔滨工业大学学报》 北大核心 2025年第4期1-9,共9页
为解决航天任务复杂化与传统定构型卫星设计之间的矛盾,航天机构着眼于研究具有灵活构型变化能力的模块化自重构卫星,其中变构规划是一个具有挑战性的研究领域。针对模块化卫星变构问题,以立方体晶格型卫星作为研究对象,基于图论提出了... 为解决航天任务复杂化与传统定构型卫星设计之间的矛盾,航天机构着眼于研究具有灵活构型变化能力的模块化自重构卫星,其中变构规划是一个具有挑战性的研究领域。针对模块化卫星变构问题,以立方体晶格型卫星作为研究对象,基于图论提出了描述卫星拓扑结构的构型矩阵和拓展矩阵。通过对卫星模块运动特点的研究,给出了求解模块运动可达空间的算法。将卫星的变构问题视为序列决策问题,基于深度强化学习理论,将变构过程建模为马尔可夫决策过程,设计了基于演员-评论家(actor-critic)模型的智能变构规划方法,建立多层神经网络以近似演员与评论家函数,通过训练神经网络,逐步改进卫星变构策略性能。仿真实验结果表明,所提出的变构方法对于给定的卫星算例,可以得到逐步改进的卫星变构策略,针对不同模块数的卫星构型具有通用性,同时相比于传统基于启发式搜索的变构方法,在变构步数、计算时间和变构成功率上具有优势,验证了所提出的智能规划方法在未来模块化卫星设计工作中具有潜在的价值。 展开更多
关键词 模块化自重构卫星 变构规划 深度强化学习 神经网络 演员-评论家模型
在线阅读 下载PDF
网络攻击下异构网联系统的分布式自适应动态规划控制
14
作者 张龙杰 陈勇 +1 位作者 刘越智 潘成伟 《控制理论与应用》 北大核心 2025年第4期669-678,共10页
本文考虑了节点注入攻击下异构网联系统的安全状态估计与控制问题,通过设计一种基于分布式远程状态安全估计器的有限时间自适应动态规划控制策略,抑制节点注入攻击对分布式系统协同跟踪效果的影响,实现对异构网联系统的安全控制.首先,... 本文考虑了节点注入攻击下异构网联系统的安全状态估计与控制问题,通过设计一种基于分布式远程状态安全估计器的有限时间自适应动态规划控制策略,抑制节点注入攻击对分布式系统协同跟踪效果的影响,实现对异构网联系统的安全控制.首先,为了实现对节点注入攻击下异构网联系统状态信息的重塑,融合最优攻击补偿策略设计,设计基于无迹卡尔曼滤波的分布式远程状态安全估计器;然后,融合远程状态估计器的安全优化目标和协同优化目标,基于哈密尔顿方程的最优控制理论,提出分布式安全优化控制策略;在此基础上,基于有限时间优化理论,提出基于策略迭代算法的有限时间评价–执行网络权重更新算法,实现对最优控制策略和值函数的有限时间趋近;最后,利用仿真研究和对比分析验证了所提控制策略的有效性. 展开更多
关键词 最优控制 网络攻击 异构网联系统 分布式控制 自适应动态规划 有限时间评价–执行网络算法
在线阅读 下载PDF
基于动态任务图的机场停机位智能分配研究
15
作者 侯谨毅 李博昱 +2 位作者 李海丰 范龙飞 陈宇航 《重庆交通大学学报(自然科学版)》 北大核心 2025年第11期68-75,共8页
航空运输中,机场航班和停机位经常会发生变化,需要对停机位进行高效的动态分配。提出一种基于动态任务图和优势演员-评论家算法(A2C)的机位智能分配方案,构建基于图结构方法的航班-机位动态任务图模型,提取图特征向量构成任务状态空间,... 航空运输中,机场航班和停机位经常会发生变化,需要对停机位进行高效的动态分配。提出一种基于动态任务图和优势演员-评论家算法(A2C)的机位智能分配方案,构建基于图结构方法的航班-机位动态任务图模型,提取图特征向量构成任务状态空间,构造机位分配智能体模型,设计基于优势演员-评论家算法的求解方法。利用北京大兴国际机场数据进行实验研究,结果表明:提出的机位分配方案使停机位预分配靠桥率提升5.6%,停机位动态分配靠桥率提升6.4%。该分配方案实现高效的机位动态智能分配,为繁忙机场停机位资源调度提供决策支持。 展开更多
关键词 交通运输工程 停机位分配 优势演员-评论家算法 图模型 多目标优化 深度强化学习
在线阅读 下载PDF
基于融合状态预测的深度强化学习A2C的交通信号控制
16
作者 叶宝林 孙瑞涛 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第5期33-42,共10页
现有基于强化学习的交通信号控制方法主要使用历史交通状态和当前时间步的实时交通状态来确定下一个时间步的控制策略,造成控制策略始终滞后于交通状态一个时间步。为了解决该问题,提出一种基于融合交通状态预测的深度强化学习优势演员... 现有基于强化学习的交通信号控制方法主要使用历史交通状态和当前时间步的实时交通状态来确定下一个时间步的控制策略,造成控制策略始终滞后于交通状态一个时间步。为了解决该问题,提出一种基于融合交通状态预测的深度强化学习优势演员评论家(A2C)的交通信号控制方法。首先,为了获取未来时间步的交通状态,以确保制定的控制策略能够更精准地响应实时交通状态下的决策需求,设计一个长短时记忆(LSTM)网络预测路网未来时间步的交通状态。然后,为了提高输入深度强化学习模型中数据的准确性和鲁棒性,设计一个卡尔曼滤波器对采集的历史交通状态数据和LSTM网络预测的未来交通状态数据进行融合。其次,为了使深度强化学习模型能够更全面地理解交通流量中包含的时间依赖关系,并实现更高效和稳定的交通信号控制决策,提出一种融合双向LSTM网络的A2C算法。最后,基于微观交通仿真(SUMO)平台的仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习A2C的交通信号控制方法相比,该方法在低峰、平峰和高峰两种不同交通流量状态下均能够取得更好的交通信号控制效益。 展开更多
关键词 交通信号控制 优势演员评论家 交通状态预测 双向长短时记忆网络
在线阅读 下载PDF
基于无模型深度强化学习的煤泥浮选智能控制研究
17
作者 秦新凯 王然风 +2 位作者 付翔 窦治衡 李品钰 《工矿自动化》 北大核心 2025年第8期25-33,58,共10页
在煤泥浮选工业现场中,传统基于机理模型的控制方法因其依赖近似模型,存在控制精度受限与泛化能力不足的问题。而经典无模型深度强化学习算法如深度确定性策略梯度(DDPG),在处理高维时变状态时易受无关变量干扰,难以精准捕捉核心特征,... 在煤泥浮选工业现场中,传统基于机理模型的控制方法因其依赖近似模型,存在控制精度受限与泛化能力不足的问题。而经典无模型深度强化学习算法如深度确定性策略梯度(DDPG),在处理高维时变状态时易受无关变量干扰,难以精准捕捉核心特征,导致策略稳定性下降。针对上述问题,提出一种基于融合注意力机制(AS)的无模型深度强化学习(AS−DDPG)的煤泥浮选智能控制方法。该方法采用AS−DDPG算法构建浮选智能控制器:以尾煤灰分为控制目标,在Actor−Critic网络基础上引入AS以精准捕捉核心特征,通过在线学习优化控制策略,建立了包含矿浆浓度、灰分、流量等关键参数的多维状态空间,设计了兼顾产品质量与药剂回收率的多目标奖励函数,直接通过智能体与环境的实时交互学习控制策略,能自适应捕捉过程动态特性,在实际浮选过程中保持稳定的控制效果。采集浮选工业现场的实时数据,经预处理后进行仿真实验,结果表明:相较于DDPG算法,AS−DDPG算法的训练误差降低27%,其奖励曲线收敛更快且波动幅度更小,有效策略比例提升2倍以上,表明其对高效药剂组合的探索更具方向性。工业性试验结果表明:相较于模糊PID与DDPG算法,AS−DDPG算法控制下的灰分标准差降至0.66,有效降低了浮选产品质量波动;捕收剂与起泡剂消耗分别优化至0.56,0.25 kg/t,表明基于AS−DDPG算法的智能控制器能以更低的药剂投入达到稳定分选的效果。 展开更多
关键词 煤泥浮选过程控制 无模型深度强化学习 深度确定性策略梯度 注意力机制 Actor−Critic AS−DDPG
在线阅读 下载PDF
面向长序列自主作业的非对称Actor-Critic强化学习方法
18
作者 任君凯 瞿宇珂 +3 位作者 罗嘉威 倪子淇 卢惠民 叶益聪 《国防科技大学学报》 北大核心 2025年第4期111-122,共12页
长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑... 长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑战。通过整合多个Critic网络协同训练单一Actor网络,并引入生成对抗模仿学习为Critic网络生成内在奖励,从而降低长序列任务学习难度。在此基础上,设计两阶段学习方法,利用模仿学习为强化学习提供高质量预训练行为策略,在进一步提高学习效率的同时,增强策略的泛化性能。面向化学实验室长序列自主作业的仿真结果表明,该方法显著提高了机器人长序列操作技能的学习效率与行为策略的鲁棒性。 展开更多
关键词 自主作业机器人 强化学习 Actor-Critic 长序列操作
在线阅读 下载PDF
基于LSTM和CNN的对抗性跨站脚本攻击分析和检测方法研究 被引量:2
19
作者 宋雨濛 龚元丽 任艳 《信息安全研究》 北大核心 2025年第8期761-767,共7页
随着互联网的发展,XSS(cross-site scripting)成为一大网络安全威胁.研究者们将机器学习与深度学习技术应用于XSS检测,并取得了显著成果,但存在无法应对对抗性攻击的问题.为了解决这一问题,提出一种基于强化学习SAC(soft actor-critic)... 随着互联网的发展,XSS(cross-site scripting)成为一大网络安全威胁.研究者们将机器学习与深度学习技术应用于XSS检测,并取得了显著成果,但存在无法应对对抗性攻击的问题.为了解决这一问题,提出一种基于强化学习SAC(soft actor-critic)与LSTM(long short-term memory),CNN(convolutional neural network)相结合的方法.首先训练LSTM-CNN为XSS攻击检测模型,然后利用SAC与LSTM-CNN检测模型生成对抗性攻击样本以模拟攻击者策略,将这些样本用于检测模型的增量训练,以逐步缩小对抗性数据生成空间,提高模型鲁棒性和检测精度.实验结果表明,生成的对抗性数据能在多种检测工具上实现超过90%的成功逃逸率,通过增量训练后,检测模型对对抗性XSS攻击的防御能力得到显著提升,逃逸率持续下降. 展开更多
关键词 跨站脚本攻击 SAC 长短期记忆网络 卷积神经网络 对抗性攻击
在线阅读 下载PDF
融合强化学习的分阶段策略求解旅行背包问题 被引量:1
20
作者 章政 夏小云 +1 位作者 陈泽丰 向毅 《计算机工程与科学》 北大核心 2025年第1期140-149,共10页
旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。... 旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。为了提高TTP的求解性能,提出了融合强化学习的算法,采用分阶段策略。第1阶段根据物品的属性生成物品选择计划,第2阶段利用强化学习演员-评论家(Actor-Critic)算法求解旅行路径,第3阶段引入邻域搜索策略优化所得解。实验结果表明,所提算法在大部分算例上都取得了较好的结果,并且在部分算例上,解的质量超越了其他对比算法,表明了所提算法具有较优的性能。 展开更多
关键词 强化学习 旅行背包问题 演员-评论家算法 组合优化
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部