针对时变速度下的低碳配送需求,本文以配送总成本最小化为目标,构建考虑三维装载和时间窗约束的绿色车辆路径优化模型。模型考虑时变速度和实时载重对车辆燃油消耗量的影响。为准确计算行驶时间和油耗,采用二分K-means聚类算法对时段进...针对时变速度下的低碳配送需求,本文以配送总成本最小化为目标,构建考虑三维装载和时间窗约束的绿色车辆路径优化模型。模型考虑时变速度和实时载重对车辆燃油消耗量的影响。为准确计算行驶时间和油耗,采用二分K-means聚类算法对时段进行合理划分。设计两阶段算法求解模型:第一阶段采用自适应大规模邻域搜索(adaptive large neighborhood search,ALNS)算法以确定车辆配送路径;第二阶段采用遗传算法(genetic algorithm,GA)对货物进行三维装载顺序的可行性校验。算例结果表明,基于二分K-means聚类算法的时段划分方法能更精确地计算总成本,从而验证了本文所构建的模型和所设计的算法具有可行性和有效性。展开更多
针对深度强化学习在多智能体环境中普遍存在的特征与奖励机制难以匹配、从而导致算法有效性与适用性不足的问题,提出了一种架构–特征–奖励协同设计框架(AFRD),用于系统性地指导单智能体方法向多智能体场景扩展。该框架依托CTDE(centra...针对深度强化学习在多智能体环境中普遍存在的特征与奖励机制难以匹配、从而导致算法有效性与适用性不足的问题,提出了一种架构–特征–奖励协同设计框架(AFRD),用于系统性地指导单智能体方法向多智能体场景扩展。该框架依托CTDE(centralized training with decentralized execution),在特征层面引入关键的本地与全局信息,在奖励层面对齐个体目标与系统整体目标,从而形成具有可迁移性的设计思路。接着以边缘计算任务卸载为应用背景,基于AFRD框架在PPO算法上实现了AFRD-PPO,并在三种典型卸载模式下开展实验,对比不同特征与奖励机制组合的收敛性能表现,并进一步分析其对收敛平稳性的影响。实验结果表明,AFRD框架能够有效提升深度强化学习在多智能体环境中的收敛稳定性与适用性。研究为相关领域的研究与应用提供了有益的参考与借鉴。展开更多
文摘针对时变速度下的低碳配送需求,本文以配送总成本最小化为目标,构建考虑三维装载和时间窗约束的绿色车辆路径优化模型。模型考虑时变速度和实时载重对车辆燃油消耗量的影响。为准确计算行驶时间和油耗,采用二分K-means聚类算法对时段进行合理划分。设计两阶段算法求解模型:第一阶段采用自适应大规模邻域搜索(adaptive large neighborhood search,ALNS)算法以确定车辆配送路径;第二阶段采用遗传算法(genetic algorithm,GA)对货物进行三维装载顺序的可行性校验。算例结果表明,基于二分K-means聚类算法的时段划分方法能更精确地计算总成本,从而验证了本文所构建的模型和所设计的算法具有可行性和有效性。
文摘针对深度强化学习在多智能体环境中普遍存在的特征与奖励机制难以匹配、从而导致算法有效性与适用性不足的问题,提出了一种架构–特征–奖励协同设计框架(AFRD),用于系统性地指导单智能体方法向多智能体场景扩展。该框架依托CTDE(centralized training with decentralized execution),在特征层面引入关键的本地与全局信息,在奖励层面对齐个体目标与系统整体目标,从而形成具有可迁移性的设计思路。接着以边缘计算任务卸载为应用背景,基于AFRD框架在PPO算法上实现了AFRD-PPO,并在三种典型卸载模式下开展实验,对比不同特征与奖励机制组合的收敛性能表现,并进一步分析其对收敛平稳性的影响。实验结果表明,AFRD框架能够有效提升深度强化学习在多智能体环境中的收敛稳定性与适用性。研究为相关领域的研究与应用提供了有益的参考与借鉴。