期刊文献+
共找到264篇文章
< 1 2 14 >
每页显示 20 50 100
基于深度强化学习的原油短期调度优化
1
作者 侯艳 杨佳佳 +1 位作者 滕少华 朱清华 《工业工程》 2026年第1期155-163,共9页
针对原油短期调度中原油转运速率优化不足的问题,采用分解的思路,将管道转运速率从离散值转换为连续实数值范围,同时提出一种新的决策生成方法,避免对管道转运速率这一连续实数值域的搜索,从而防止算法性能下降。在此基础上,通过合理设... 针对原油短期调度中原油转运速率优化不足的问题,采用分解的思路,将管道转运速率从离散值转换为连续实数值范围,同时提出一种新的决策生成方法,避免对管道转运速率这一连续实数值域的搜索,从而防止算法性能下降。在此基础上,通过合理设计状态特征、动作空间和奖励函数,提出一种基于SAC(soft actor-critic)算法的原油调度方法。该方法综合考虑了原油短期详细调度中所产生的管道混合成本、罐底混合成本、蒸馏塔的换罐成本、供油罐使用成本以及能耗成本共5个炼油调度目标。最后通过实例分析表明,利用SAC算法所得的调度与已有文献结果对比,单个目标优化效果提升了1.2%~77.8%不等。 展开更多
关键词 原油短期调度 深度强化学习 组合优化 软演员-评论家(SAC)
在线阅读 下载PDF
基于强化学习算法的闸控河网工程水位控制方法
2
作者 陈珠亮 孔令仲 +4 位作者 肖洋 张涛涛 冯仲恺 王晓颖 刘子涵 《南水北调与水利科技(中英文)》 北大核心 2026年第1期31-41,共11页
为保障河道网络工程景观功能发挥与供水安全、实现水位稳定控制,传统水位控制方法中基于经验的手动调节和比例-积分(proportional-integral,PI)自动控制算法存在明显局限性,易导致水位调节精度不足、动态过程中振荡现象明显等问题,难以... 为保障河道网络工程景观功能发挥与供水安全、实现水位稳定控制,传统水位控制方法中基于经验的手动调节和比例-积分(proportional-integral,PI)自动控制算法存在明显局限性,易导致水位调节精度不足、动态过程中振荡现象明显等问题,难以满足工程对水位稳定的核心需求。通过构建河道水闸群强化学习训练框架,采用软演员评论家(soft actor-critic,SAC)算法训练水闸控制智能体,以实现水闸群实时高效联合调控。结果表明:经充分训练收敛后,该智能体水力控制性能优异,随机流量扰动引发水位波动时,可快速将水位精准调控至目标值(偏差严格控制在±0.2 m内),调控误差范围较传统PI算法缩小48.8%。相较于PI算法,其核心优势为:水位稳定速度显著提升,动态调节收敛速度加快40%;水闸操作次数大幅减少,闸门动作频次降低32%;环境适应性更强,可在不同水流条件下稳定维持期望水位(PI算法对部分渠池如闸4的水位调控偏差达0.332 m,超出目标范围)。研究证实,基于SAC的强化学习方法为河道网络水位稳定调控提供了创新解决方案,能有效应对随机流量扰动,提升水位调节稳定性与精准度,为河网智能化管理控制提供重要技术支撑,在工程中应用前景广阔。 展开更多
关键词 河网 水位控制 强化学习 SAC算法 闸门调控
在线阅读 下载PDF
一种基于改进型SAC的蜂甲一体协同作战仿真算法
3
作者 付泽建 魏洁英 +3 位作者 罗浩 魏国强 王杰 张华 《火力与指挥控制》 北大核心 2026年第1期148-155,共8页
基于强化学习的多智能体算法在作战仿真领域具有重要意义,针对传统算法在模拟蜂甲一体作战等高扩展性、高灵活性的复杂场景中的问题,引入集中计算的评论家注意力共享机制和多智能体优势函数,提出了一种基于改进型SAC的蜂甲一体协同作战... 基于强化学习的多智能体算法在作战仿真领域具有重要意义,针对传统算法在模拟蜂甲一体作战等高扩展性、高灵活性的复杂场景中的问题,引入集中计算的评论家注意力共享机制和多智能体优势函数,提出了一种基于改进型SAC的蜂甲一体协同作战仿真算法。结合作战场景与改进后的算法,设计两种蜂甲一体仿真作战环境进行对比研究。结果表明,相较于MADDPG算法和SAC算法,改进型SAC算法进一步提高了算法的回报率和收敛速度。 展开更多
关键词 蜂甲一体 作战仿真 强化学习 注意力机制 优势函数 软演员-评论家算法
在线阅读 下载PDF
数据驱动的GNSS定位误差修正方法研究
4
作者 李静怡 庄忱 赵洪博 《信息对抗技术》 2026年第1期75-89,共15页
由于多路径效应和非视距干扰,全球导航卫星系统(global navigation satellite system, GNSS)在复杂的城市地区的定位精度受到严重影响,导致误差显著增加。传统的定位方法对复杂非线性误差处理能力有限,为此,提出了一种基于强化学习Actor... 由于多路径效应和非视距干扰,全球导航卫星系统(global navigation satellite system, GNSS)在复杂的城市地区的定位精度受到严重影响,导致误差显著增加。传统的定位方法对复杂非线性误差处理能力有限,为此,提出了一种基于强化学习Actor-Critic的GNSS定位误差修正方法。搭建了基于强化学习环境的定位误差修正系统,通过从输出高斯分布参数的策略中采样,设计了动作空间实现三维定位误差修正与补偿,兼顾定位误差修正与动作幅度约束引入了奖惩机制,并将多源特征融合形成多输入的观测状态空间,确保方法的可靠运行。为了验证所提算法误差修正的有效性,选取城市复杂环境下的实测数据进行验证,实验结果表明,该方法能够在训练集与测试集上均表现出良好的误差修正能力,测试集上模型实现了平均50.62%的误差修正,提升了GNSS定位精度。 展开更多
关键词 GNSS定位 误差修正 强化学习 城市复杂环境 Actor-Critic算法
在线阅读 下载PDF
基于软演员-评论家的移动边缘计算任务卸载策略
5
作者 郭阳 江晓明 《通信技术》 2026年第1期70-77,共8页
无人机凭借部署灵活、覆盖范围广以及无线通信可靠等特点,已在移动边缘计算中得到广泛应用。考虑到无人机在能耗和计算能力方面的局限性,构建了任务卸载与飞行轨迹的联合优化问题,并以任务处理时延与能耗的加权和最小化为优化目标,提出... 无人机凭借部署灵活、覆盖范围广以及无线通信可靠等特点,已在移动边缘计算中得到广泛应用。考虑到无人机在能耗和计算能力方面的局限性,构建了任务卸载与飞行轨迹的联合优化问题,并以任务处理时延与能耗的加权和最小化为优化目标,提出了一种改进型软演员-评论家算法。该算法通过引入长短期记忆网络增强模型对时序特征的建模能力,同时结合优先经验回放机制提升训练收敛效率。仿真结果表明,所提出的算法在降低系统开销方面表现出显著优势。 展开更多
关键词 移动边缘计算 任务卸载 无人机 软演员-评论家算法
在线阅读 下载PDF
动态博弈下变后掠翼飞行器智能决策规避方法
6
作者 张景辉 张秀云 +1 位作者 刘达 宗群 《哈尔滨工业大学学报》 北大核心 2026年第1期35-46,共12页
为解决变后掠翼飞行器在动态拦截环境下的自主规避问题,本文提出一种智能变形决策算法,通过实时调节后掠角,将动态变形作为规避的核心手段。首先,针对后掠角可变的变体飞行器模型,基于最小二乘法拟合气动系数,并分析了气动参数对飞行器... 为解决变后掠翼飞行器在动态拦截环境下的自主规避问题,本文提出一种智能变形决策算法,通过实时调节后掠角,将动态变形作为规避的核心手段。首先,针对后掠角可变的变体飞行器模型,基于最小二乘法拟合气动系数,并分析了气动参数对飞行器气动性能的影响,从而为智能变形决策提供依据。其次,考虑变后掠翼飞行器飞行速度、飞行区域边界等实际物理约束条件,构建面向突防任务的变体飞行器-双拦截器动态博弈场景,结合飞行器状态、拦截器状态及目标信息的状态空间,设计以规避效果、气动性能为优化目标的决策模型。仿真实验验证结果表明,本文算法能够在完成自主变形决策规避的同时,兼顾机动性和敏捷性,克服了传统变形策略依赖离线优化计算和根据预设任务切换,难以自适应应对高动态博弈环境的局限性。 展开更多
关键词 变体飞行器 强化学习 自主变形决策 柔性动作-评价 规避
在线阅读 下载PDF
基于深度强化学习的高速公路合流区可变限速控制
7
作者 黄德栋 侯亚利 +3 位作者 史鸿儒 于欣海 陈凌志 丁恒 《现代交通与冶金材料》 2026年第1期42-49,共8页
高速公路多条车道之间交通流存在显著的差异性,尤其在合流区域。为了提升高速公路合流区交通效率,基于深度强化学习理论,本文提出一种软行动者-评论家(Soft Actor-Critc, SAC)与差分可变限速(Differential Variable Speed Limit,DVSL)... 高速公路多条车道之间交通流存在显著的差异性,尤其在合流区域。为了提升高速公路合流区交通效率,基于深度强化学习理论,本文提出一种软行动者-评论家(Soft Actor-Critc, SAC)与差分可变限速(Differential Variable Speed Limit,DVSL)联合控制方法。该方法使用深度强化学习(Deep Reinforcement Learning,DRL)模型用于DVSL,将SAC算法与VSL结合,实现高速公路车道间施加动态且不同的限速措施。所提出的SAC-DVSL模型使用考虑安全和效率的混合奖励函数来训练DVSL智能体,并对训练过程进行了分析。通过SUMO仿真平台的实验测试表明,该控制策略能够提高高速公路合流区的安全性和通行效率。 展开更多
关键词 高速公路 合流区 可变限速控制 强化学习 软行动者-评论家(SAC)
在线阅读 下载PDF
基于EDNN模型的高等教育个性化学习路径优化研究
8
作者 王振 《黑河学院学报》 2026年第1期91-95,共5页
在高等教育领域,推荐个性化学习路径时,构建一种基于增强型深度神经网络(Enhanced Deep Neural Network,EDNN)的优化模型。该模型的目标是通过结合学习者的行为数据和认知风格,来实现学习路径的动态调整和优化,并且使用了演员—评论家(A... 在高等教育领域,推荐个性化学习路径时,构建一种基于增强型深度神经网络(Enhanced Deep Neural Network,EDNN)的优化模型。该模型的目标是通过结合学习者的行为数据和认知风格,来实现学习路径的动态调整和优化,并且使用了演员—评论家(Actor-Critic)框架。其中,Actor部分通过多层感知器(Multilayer Perceptron,MLP)技术,将学习时间、学习频率、成绩等行为特征与视觉型、听觉型等认知风格进行加权整合;Critic部分引入长短期记忆网络(Long Short-Term Memory,LSTM)处理时间序列数据,并分别以策略梯度和时差分算法更新Actor与Critic参数。实验结果表明,与深度Q学习(Q-learning)和深度Q网络(Deep Q-Network,DQN)相比,所提模型在40次迭代后损失值迅速降至0.1以下,实现更快收敛;在500次重复测试中,平均反馈响应时间最低为1.123秒,平均路径调整计算时间最低为2.010秒;个性化路径推荐准确率最高达0.93。表明该优化模型能够高效整合多源学习数据,实时优化学习路径,为高等教育个性化教学提供了可行且高效的技术方案。 展开更多
关键词 个性化学习路径 增强型深度神经网络 演员—评论家框架 行为数据与认知风格 长短期记忆
在线阅读 下载PDF
基于SC-SAC算法的REHMIS-IES优化调度策略
9
作者 潘雷 丁云飞 +4 位作者 庞毅 王宇璇 陈建伟 高瑞 张立阳 《综合智慧能源》 2026年第1期43-58,共16页
可再生能源-制氢-制甲醇一体站(REHMIS)通过利用可再生能源发电制取绿氢,并进一步将绿氢与二氧化碳合成甲醇,从而实现绿氢对传统化石能源制氢的替代。为了同时满足REHMIS的甲醇负荷需求及其配套建筑的多能源需求,设计了新型综合能源系统... 可再生能源-制氢-制甲醇一体站(REHMIS)通过利用可再生能源发电制取绿氢,并进一步将绿氢与二氧化碳合成甲醇,从而实现绿氢对传统化石能源制氢的替代。为了同时满足REHMIS的甲醇负荷需求及其配套建筑的多能源需求,设计了新型综合能源系统(IES)拓扑结构REHMIS-IES。为获得REHMIS-IES高效运行策略,提出了一种基于严格约束的软演员-评论家(SC-SAC)算法执行框架。将所建数学模型转化为马尔可夫决策过程,同时引入状态约束机制(SCM)以避免储能系统状态出现剧烈波动。在SC-SAC算法的执行阶段,将训练后的Q网络与动作约束转化成混合整数线性规划(MILP)模型,以保证调度决策能够满足各项运行约束。多场景仿真结果表明:所提系统在保障多能需求的同时可有效降低运行成本;与其他深度强化学习算法相比,SC-SAC算法可使系统能量不平衡度降低约16.2%,运行成本至少下降11.7%。 展开更多
关键词 可再生能源-制氢-制甲醇一体化站 绿氢 储能 综合能源系统 深度强化学习 状态约束机制 软演员-评论家算法 混合整数线性规划
在线阅读 下载PDF
面向高比例新能源并网的多智能体协同自动发电控制算法 被引量:3
10
作者 苏寅生 刘蔚 +3 位作者 张野 赵利刚 马骞 任建宇 《高压电器》 北大核心 2025年第5期80-92,共13页
具有强随机性的新能源大规模接入电网,给电网带来愈来愈差的控制性能。具有马尔可夫随机过程特性的强化学习对解决随机性问题具有优势,而面向新能源规模化接入时,其仍面临着无法获取最优解的问题,控制性能并不理想。因此,提出一种价值... 具有强随机性的新能源大规模接入电网,给电网带来愈来愈差的控制性能。具有马尔可夫随机过程特性的强化学习对解决随机性问题具有优势,而面向新能源规模化接入时,其仍面临着无法获取最优解的问题,控制性能并不理想。因此,提出一种价值估计矫正的软演员—评论家多智能体协同深度强化学习算法来获取多区域协同最优解。通过状态—动作的分布值函数减轻价值的过估计问题,从而获取全局最优解。对改进的IEEE标准两区域模型和西南三区域电网模型进行仿真,验证了所提算法的有效性,且与多种控制方法相比,具有更优的控制性及频率稳定性。 展开更多
关键词 自动发电控制 价值估计 软演员—评论家 分布值函数
在线阅读 下载PDF
基于图深度强化学习的有源配电网故障恢复方法 被引量:2
11
作者 何小龙 高红均 +4 位作者 王仁浚 罗龙波 叶萌 黄媛 刘俊勇 《电网技术》 北大核心 2025年第10期4342-4352,I0090-I0094,共16页
配电网的拓扑结构变动频繁,负荷水平和分布式电源(distributed generator,DG)出力的不确定性使得运行场景愈加复杂多变。基于此,提出了一种基于图深度强化学习的有源配电网故障恢复方法。首先,考虑DG与负荷的时变性,构建起基于图注意力... 配电网的拓扑结构变动频繁,负荷水平和分布式电源(distributed generator,DG)出力的不确定性使得运行场景愈加复杂多变。基于此,提出了一种基于图深度强化学习的有源配电网故障恢复方法。首先,考虑DG与负荷的时变性,构建起基于图注意力网络(graph attention network,GAT)与柔性策略-评价(soft actor-critic,SAC)算法相结合的配电网故障恢复框架,介绍故障恢复方法及其算法原理。然后,建立面向配电网故障恢复的图深度强化学习模型,通过将GAT嵌入到SAC算法的前置神经网络来提高智能体对配电网运行状态和拓扑结构的感知能力,并创新性地引入无效动作掩盖机制以规避非法动作,通过智能体与环境进行交互,寻找最优开关动作控制策略,实现高渗透率DG接入下的故障恢复趋优学习。最后,在IEEE33节点和148节点算例进行验证,并与多种基线方法进行对比测试,所提方法可以实现最快毫秒级故障恢复,具有更加高效优越的恢复效果,在拓扑变动下的负荷供电率相较于基准模型提升了4%~5%。 展开更多
关键词 有源配电网 分布式电源 故障恢复 图注意力网络 柔性策略-评价 无效动作掩盖
原文传递
基于SAC的桥式起重机智能防摇控制 被引量:1
12
作者 唐伟强 王伟 +1 位作者 马瑞 许天鹏 《中国工程机械学报》 北大核心 2025年第3期438-443,共6页
针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输... 针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输入,驱动力作为动作网络的输出。为了提高训练过程中的稳定性,采用4个价值网络,并在价值网络中引入熵正则项和熵加权系数,用于平衡训练过程中探索和利用之间的关系。价值网络通过软更新的方式得到目标网络,从而减少了训练过程中局部最优和发散的情况。最后通过模型训练,得到用于控制的动作网络。结果表明:所提出的智能防摇控制系统对载荷摆角具有很好的抑制作用,而且对载荷质量变化、绳长参数摄动以及外部干扰具有很好的鲁棒性。与基于末端执行器广义运动方法相比,所提出的方法在起重机系统动态性能和抗干扰方面展现出一定的优势。 展开更多
关键词 桥式起重机 摆角控制 软演员评论家算法 强化学习
在线阅读 下载PDF
缓存辅助的移动边缘计算任务卸载与资源分配 被引量:1
13
作者 李致远 陈品润 《计算机工程与设计》 北大核心 2025年第5期1248-1255,共8页
针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,... 针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,上层使用软动作评价算法进行计算任务卸载与资源分配决策。仿真实验结果表明,HRLJCORA算法与现有基线算法相比,有效降低了总开销,相较于联合优化计算任务卸载与资源分配(JORA)算法,卸载决策奖励值提高了13.11%,为用户提供了更优质的服务。 展开更多
关键词 移动边缘计算 缓存辅助 卸载决策 资源分配 分层强化学习 深度Q-learning网络算法 软动作评价算法
在线阅读 下载PDF
基于自适应强化学习的智能机器人容错控制
14
作者 易熙琼 谢亚兰 舒雨锋 《控制工程》 北大核心 2025年第8期1499-1507,共9页
智能水下机器人易出现故障,影响水下作业,进而提出一种基于自适应强化学习的容错控制方法。该方法引入Actor-Critic算法,通过Actor网络学习制定行动策略,而Critic网络则评估行动的价值,根据外部环境变化自适应地调整策略。同时,设计了... 智能水下机器人易出现故障,影响水下作业,进而提出一种基于自适应强化学习的容错控制方法。该方法引入Actor-Critic算法,通过Actor网络学习制定行动策略,而Critic网络则评估行动的价值,根据外部环境变化自适应地调整策略。同时,设计了基于积分机制的改进扩张状态观测器,并采用抗积分饱和算法避免积分饱和。仿真结果显示,当智能水下机器人推进器发生故障时,研究所提容错控制器在x轴、y轴方向上的误差值均15 s后逐渐趋近于0,证明了所设计的容错控制器具有优异的容错性能及稳定性,可为水下智能机器人的安全运行提供有效的技术支持。 展开更多
关键词 强化学习 Actor-Critic 容错控制 扩张状态观测器 积分机制
原文传递
基于优先经验回放的生成式SAC算法及其应用
15
作者 张伟 李玉俊 +2 位作者 谢雯雯 许耘嘉 孙庚 《吉林大学学报(理学版)》 北大核心 2025年第6期1713-1722,共10页
针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升... 针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升学习效率;其次,该算法将生成式Transformer架构集成到演员网络中以增强对状态特征的动态捕捉能力,从而显著提升其在复杂优化任务中的性能;最后,在高校后勤人员动态调度优化问题上进行应用实验.实验结果表明,与原始柔性演员-评论家算法及经典深度Q网络算法相比,改进的柔性演员-评论家算法在人力需求动态拟合方面误差更小,从而有效验证了其在实际应用中的优势和实用性. 展开更多
关键词 深度强化学习 柔性演员-评论家算法 优先经验回放 Transformer架构 后勤管理
在线阅读 下载PDF
基于分层柔性演员-评论家强化学习的交叉口信号配时-车辆轨迹联合优化方法
16
作者 马莹莹 李腾 +1 位作者 梁韵逸 唐蒙 《华南理工大学学报(自然科学版)》 北大核心 2025年第12期1-16,共16页
该文提出了基于分层柔性演员-评论家(SAC)强化学习的交叉口信号配时-车辆轨迹联合优化方法。模型包括信号配时优化层和车辆轨迹优化层,两者的状态空间均包含车辆位置、速度和信号配时状态,奖励函数均为交通效率、安全指标和油耗的加权... 该文提出了基于分层柔性演员-评论家(SAC)强化学习的交叉口信号配时-车辆轨迹联合优化方法。模型包括信号配时优化层和车辆轨迹优化层,两者的状态空间均包含车辆位置、速度和信号配时状态,奖励函数均为交通效率、安全指标和油耗的加权和。信号配时优化层的动作为信号相位持续时间,车辆轨迹优化层的动作为车辆加速度。两个优化层分别具有独立的价值网络和策略网络。价值网络根据当前状态和动作输出当前状态-动作价值,评估策略网络性能;策略网络基于当前状态生成高斯分布的均值和标准差,并从参数化的高斯分布中采样动作。在策略网络损失函数中引入熵系数和温度系数,自动调节策略探索的广度和深度,降低模型训练性能对超参数变化的敏感度。针对信号配时优化和车辆轨迹优化间隔不一致的问题,设计信号配时层-车辆轨迹优化层异步训练算法,通过反向传播算法,同时对同一层的价值网络和策略网络进行训练。此外,利用SUMO对模型进行训练和评估,实验结果表明,与数学规划模型、仅优化信号配时和仅优化车辆轨迹的模型相比,提出的模型可使车辆油耗分别平均降低24.24%、5.39%和22.23%,在基本不降低平均速度的情况下实现能耗优化,且在状态观测扰动下仍能保持5%以内的性能偏差,具有鲁棒性。 展开更多
关键词 网联自动驾驶汽车 信控交叉口 信号配时-车辆轨迹联合优化 分层强化学习 柔性演员-评论家强化学习
在线阅读 下载PDF
基于柔性行动器-竞争评判器算法的微电网优化调度方法
17
作者 鲍刚 周冉冉 +1 位作者 袁豪 李勇 《湖北电力》 2025年第2期1-10,共10页
针对含源荷不确定性的微电网优化调度问题,提出了一种基于柔性行动器-竞争评判器(soft actor dueling critic,SADC)算法的微电网优化调度方法。首先,以微电网系统的运行成本最小化为优化目标,以系统的功率平衡、设备的运行特性等为约束... 针对含源荷不确定性的微电网优化调度问题,提出了一种基于柔性行动器-竞争评判器(soft actor dueling critic,SADC)算法的微电网优化调度方法。首先,以微电网系统的运行成本最小化为优化目标,以系统的功率平衡、设备的运行特性等为约束条件,建立微电网优化调度模型。其次,采用竞争网络机制改进SAC算法的评判器结构,进而采用改进后的SADC算法求解含源荷不确定性的微电网优化调度模型。最后,基于微电网算例应用SADC算法确定优化调度策略,验证SADC算法的有效性与优越性。仿真结果表明,与现有的DQN、DDPG和SAC算法相比,SADC算法在运行成本上分别降低了19.75%、10.18%和3.59%,在微电网优化调度的鲁棒性方面表现更优。 展开更多
关键词 可再生能源 微电网 深度强化学习 柔性行动器-评判器 竞争网络 优化调度
在线阅读 下载PDF
考虑多换电站的多无人机应急电力巡检路径规划方法 被引量:4
18
作者 秦文龙 罗贺 +3 位作者 李晓多 阴酉龙 林世忠 王国强 《控制与决策》 北大核心 2025年第8期2391-2399,共9页
多无人机应急电力巡检的时间十分有限,在选择关键巡检目标时需要考虑各目标的故障概率差异,同时为提升巡检效率,可以引进换电站降低无人机续航能力不足的影响.针对上述特点,将考虑多换电站的多无人机应急电力巡检路径规划问题建模为多... 多无人机应急电力巡检的时间十分有限,在选择关键巡检目标时需要考虑各目标的故障概率差异,同时为提升巡检效率,可以引进换电站降低无人机续航能力不足的影响.针对上述特点,将考虑多换电站的多无人机应急电力巡检路径规划问题建模为多站点多航次团队定向问题,并设计一种融合软演员-评论家模型的遗传算法(SAC-GA).首先,在遗传算法中加入两类局部搜索算子,以优化多无人机访问目标的选择和缩短无人机飞行路径距离.其次,提出一种基于SAC模型的参数调优机制,利用SAC模型基于最大熵学习策略的优势,在遗传算法迭代过程中,根据历史学习经验和种群的状态动态生成合适的交叉、变异概率以及染色体再插入中的权距比.实验结果表明,算法在小规模实验和大规模实验上均具有明显优势,并通过消融实验验证SAC-GA中局部搜索算子的有效性和参数调整方法的优越性.最后,通过案例分析验证算法在不同应急场景下的有效性. 展开更多
关键词 团队定向问题 多无人机 路径规划 遗传算法 SAC模型
原文传递
考虑进站策略的网联电动公交车节能驾驶优化研究 被引量:1
19
作者 南斯睿 于谦 +2 位作者 李铁柱 尚赞娣 陈海波 《交通运输系统工程与信息》 北大核心 2025年第2期82-94,共13页
针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。 展开更多
关键词 智能交通 节能驾驶优化 深度强化学习 纯电动公交 柔性演员-评论家算法
在线阅读 下载PDF
基于无模型深度强化学习的煤泥浮选智能控制研究 被引量:2
20
作者 秦新凯 王然风 +2 位作者 付翔 窦治衡 李品钰 《工矿自动化》 北大核心 2025年第8期25-33,58,共10页
在煤泥浮选工业现场中,传统基于机理模型的控制方法因其依赖近似模型,存在控制精度受限与泛化能力不足的问题。而经典无模型深度强化学习算法如深度确定性策略梯度(DDPG),在处理高维时变状态时易受无关变量干扰,难以精准捕捉核心特征,... 在煤泥浮选工业现场中,传统基于机理模型的控制方法因其依赖近似模型,存在控制精度受限与泛化能力不足的问题。而经典无模型深度强化学习算法如深度确定性策略梯度(DDPG),在处理高维时变状态时易受无关变量干扰,难以精准捕捉核心特征,导致策略稳定性下降。针对上述问题,提出一种基于融合注意力机制(AS)的无模型深度强化学习(AS−DDPG)的煤泥浮选智能控制方法。该方法采用AS−DDPG算法构建浮选智能控制器:以尾煤灰分为控制目标,在Actor−Critic网络基础上引入AS以精准捕捉核心特征,通过在线学习优化控制策略,建立了包含矿浆浓度、灰分、流量等关键参数的多维状态空间,设计了兼顾产品质量与药剂回收率的多目标奖励函数,直接通过智能体与环境的实时交互学习控制策略,能自适应捕捉过程动态特性,在实际浮选过程中保持稳定的控制效果。采集浮选工业现场的实时数据,经预处理后进行仿真实验,结果表明:相较于DDPG算法,AS−DDPG算法的训练误差降低27%,其奖励曲线收敛更快且波动幅度更小,有效策略比例提升2倍以上,表明其对高效药剂组合的探索更具方向性。工业性试验结果表明:相较于模糊PID与DDPG算法,AS−DDPG算法控制下的灰分标准差降至0.66,有效降低了浮选产品质量波动;捕收剂与起泡剂消耗分别优化至0.56,0.25 kg/t,表明基于AS−DDPG算法的智能控制器能以更低的药剂投入达到稳定分选的效果。 展开更多
关键词 煤泥浮选过程控制 无模型深度强化学习 深度确定性策略梯度 注意力机制 Actor−Critic AS−DDPG
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部