虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难...虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。展开更多
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固...为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。展开更多
针对经典提前合流和延迟合流对动态流量适应性差,以及上游速度差导致合流车辆“错位”问题,研究了基于深度强化学习方法的作业区智能网联车(connected and autonomous vehicle,CAV)分段控制合流模型。通过依次进行车速引导、间距创建和...针对经典提前合流和延迟合流对动态流量适应性差,以及上游速度差导致合流车辆“错位”问题,研究了基于深度强化学习方法的作业区智能网联车(connected and autonomous vehicle,CAV)分段控制合流模型。通过依次进行车速引导、间距创建和位置对齐,解决换道期多辆封闭车道合流车辆同时申请汇入1个开放车道间距而导致的汇入冲突和效率降低问题。模型将基于柔性演员-评论家算法的纵向轨迹控制与规则的换道决策相结合,共同优化合流轨迹。其中纵向轨迹优化首先选取自车速度与加速度、前车速度与到其距离、相邻车道前后车速度与到其距离、到合流点距离9个特征作为智能体状态,用以刻画自车所处的局部和全局交通状态;其次以降低加速度幅值及其变化率、避免碰撞、创建合流间距、对齐开放车道间距中心、抑制前后车速度差、按推荐速度引导、增加后车让行为目标,分别从舒适、安全、效率角度构建了作业区分段式奖励函数。特别地,基于目标车道后车速度差构建的效率惩罚性函数,解决了混行交通流合流点停车延误多的问题。仿真结果表明:在中、高流量下,与提前合流、延迟合流和新英格兰合流方法相比,本文模型平均车速和最小碰撞时间分别提升了约4.76%和19.71%,进一步加强了作业区行车效率及安全;此外,在含异质人工驾驶车辆的混行交通下,随着CAV市场渗透率的提高,平均车速、最小碰撞时间和合流成功率均呈增大趋势,且均能实现不停车合流。展开更多
针对无人机在空战过程中的自主决策问题,以无人机1v1攻防为背景提出了无人机近距空战模型。采用Markov决策过程建立了无人机自主机动模型,提出基于Soft Actor Critic (SAC)算法的无人机自主空战决策算法,以无人机空战态势数据作为输入,...针对无人机在空战过程中的自主决策问题,以无人机1v1攻防为背景提出了无人机近距空战模型。采用Markov决策过程建立了无人机自主机动模型,提出基于Soft Actor Critic (SAC)算法的无人机自主空战决策算法,以无人机空战态势数据作为输入,输出无人机机动指令,使得无人机通过完成指定指令,率先锁定敌方无人机并抢先攻击。最后,设计仿真实验,通过对比双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient Algorithm, TD3)算法,验证了基于SAC算法的无人机空战决策算法在增强策略探索的情况下,学习速度大幅度提高,使无人机在任意初始态势下主动占据优势,并成功打击目标,有效提高了无人机在空战决策过程中的自主性。展开更多
文摘虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。
文摘为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。
文摘针对经典提前合流和延迟合流对动态流量适应性差,以及上游速度差导致合流车辆“错位”问题,研究了基于深度强化学习方法的作业区智能网联车(connected and autonomous vehicle,CAV)分段控制合流模型。通过依次进行车速引导、间距创建和位置对齐,解决换道期多辆封闭车道合流车辆同时申请汇入1个开放车道间距而导致的汇入冲突和效率降低问题。模型将基于柔性演员-评论家算法的纵向轨迹控制与规则的换道决策相结合,共同优化合流轨迹。其中纵向轨迹优化首先选取自车速度与加速度、前车速度与到其距离、相邻车道前后车速度与到其距离、到合流点距离9个特征作为智能体状态,用以刻画自车所处的局部和全局交通状态;其次以降低加速度幅值及其变化率、避免碰撞、创建合流间距、对齐开放车道间距中心、抑制前后车速度差、按推荐速度引导、增加后车让行为目标,分别从舒适、安全、效率角度构建了作业区分段式奖励函数。特别地,基于目标车道后车速度差构建的效率惩罚性函数,解决了混行交通流合流点停车延误多的问题。仿真结果表明:在中、高流量下,与提前合流、延迟合流和新英格兰合流方法相比,本文模型平均车速和最小碰撞时间分别提升了约4.76%和19.71%,进一步加强了作业区行车效率及安全;此外,在含异质人工驾驶车辆的混行交通下,随着CAV市场渗透率的提高,平均车速、最小碰撞时间和合流成功率均呈增大趋势,且均能实现不停车合流。