期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
AI-Curling:一种冰壶现场分析与决策方法 被引量:2
1
作者 孙浩淼 李宗民 +2 位作者 肖倩 孙文洁 张雯欣 《计算机工程》 北大核心 2025年第2期102-110,共9页
为满足冰壶智能训练的需求,结合计算机视觉与深度强化学习(RL)技术,提出一种新的现场冰壶决策方法AI-Curling。AI-Curling包含冰壶检测(SR-Yolo)以及策略生成(GSP-MCTS)2个部分。SR-Yolo模块负责感知关键时刻冰壶状态,提取实景冰壶的位... 为满足冰壶智能训练的需求,结合计算机视觉与深度强化学习(RL)技术,提出一种新的现场冰壶决策方法AI-Curling。AI-Curling包含冰壶检测(SR-Yolo)以及策略生成(GSP-MCTS)2个部分。SR-Yolo模块负责感知关键时刻冰壶状态,提取实景冰壶的位置与种类信息。为提高大场景下的小目标检测精度,防止不恰当下采样造成的特征损失,引入浅层细化骨干网络(SRNet),通过在网络初级阶段增加层级,捕获更丰富的特征信息。此外,在多尺度融合网络中,引入自适应特征优化融合(AFOF)模块,以增加各层网络有效样本,避免小尺度目标淹没在复杂背景和噪声中。GSP-MCTS模块通过蒙特卡洛树搜索(MCTS)算法结合策略价值网络的方式,实现冰壶比赛决策分析。该模块通过引入核函数处理动作空间连续性和执行不确定性,并在策略价值网络中嵌入全局策略感知模块(GSP),增强了网络空间感知能力。在实验中,SR-Yolo在常规冰壶数据集Curling上平均精度均值(mAP@0.5)为0.974,在遮挡较多的复杂冰壶数据集Curling_hard上mAP@0.5为0.723。同时,GSP-MCTS与最新实景冰壶模型Curling MCTS对战获得62%的胜率。实验结果表明,GSP-MCTS具有更好的性能。 展开更多
关键词 强化学习 深度学习 冰壶检测 小目标检测 蒙特卡洛树搜索
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
2
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃rl 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
Double Deep Q-Network Decoder Based on EEG Brain-Computer Interface 被引量:1
3
作者 REN Min XU Renyu ZHU Ting 《ZTE Communications》 2023年第3期3-10,共8页
Brain-computer interfaces(BCI)use neural activity as a control signal to enable direct communication between the human brain and external devices.The electrical signals generated by the brain are captured through elec... Brain-computer interfaces(BCI)use neural activity as a control signal to enable direct communication between the human brain and external devices.The electrical signals generated by the brain are captured through electroencephalogram(EEG)and translated into neural intentions reflecting the user’s behavior.Correct decoding of the neural intentions then facilitates the control of external devices.Reinforcement learning-based BCIs enhance decoders to complete tasks based only on feedback signals(rewards)from the environment,building a general framework for dynamic mapping from neural intentions to actions that adapt to changing environments.However,using traditional reinforcement learning methods can have challenges such as the curse of dimensionality and poor generalization.Therefore,in this paper,we use deep reinforcement learning to construct decoders for the correct decoding of EEG signals,demonstrate its feasibility through experiments,and demonstrate its stronger generalization on motion imaging(MI)EEG data signals with high dynamic characteristics. 展开更多
关键词 brain-computer interface(BCI) electroencephalogram(EEG) deep reinforcement learning(deep rl) motion imaging(MI)generalizability
在线阅读 下载PDF
基于深度强化学习的多能流建筑综合能源系统优化调度
4
作者 夏旭华 杨建迪 施永涛 《浙江电力》 2025年第5期101-111,共11页
建筑综合能源系统在满足用户侧多元负荷需求的同时,能够有效提升能效比,降低建筑的碳排放量。为进一步提高建筑综合能源系统的能源调度能力,提出一种基于深度强化学习的多能流建筑综合能源系统低碳经济优化调度方法。首先,建立可充分表... 建筑综合能源系统在满足用户侧多元负荷需求的同时,能够有效提升能效比,降低建筑的碳排放量。为进一步提高建筑综合能源系统的能源调度能力,提出一种基于深度强化学习的多能流建筑综合能源系统低碳经济优化调度方法。首先,建立可充分表征能源互动耦合特性的光储一体多能流建筑综合能源系统数学模型。其次,结合深度强化学习设计建筑综合能源系统运行调度策略的状态空间、动作空间和奖励函数,运用“柔性行动器-评判器”算法搭建低碳经济优化调度框架。最后,将所提方法应用到实际夏冬季典型日负荷场景中进行验证,结果表明:与同类方法相比,所提方法收敛速度更快、优化效果更稳定,能有效降低综合能源系统日内运行的能源成本及碳排放成本。 展开更多
关键词 深度强化学习 综合能源系统 调度优化 碳排放
在线阅读 下载PDF
基于强化学习的新型电力系统优化策略应用综述 被引量:1
5
作者 闫正义 赵康 王凯 《发电技术》 2025年第3期508-520,共13页
【目的】随着电力系统向更高程度的智能化和自动化演进,强化学习(reinforcement learning,RL)作为人工智能领域的一项关键技术,在电力领域的智能化发展方向上展现出广阔前景。完善RL在电力领域的应用研究方案,对于深入挖掘其在电力系统... 【目的】随着电力系统向更高程度的智能化和自动化演进,强化学习(reinforcement learning,RL)作为人工智能领域的一项关键技术,在电力领域的智能化发展方向上展现出广阔前景。完善RL在电力领域的应用研究方案,对于深入挖掘其在电力系统运行、控制和优化等方面的潜力至关重要。为此,分析了RL在实际电气应用中的效能表现,并展望了未来可能的研究方向,以期为电力系统智能化进程提供助力。【方法】对RL在各类电气领域的关键应用进行了综述。系统性地介绍了RL的基本原理和标志性算法,详细探讨这些算法如何被应用于新型电力系统领域的实际问题中。对各研究中主流的RL算法进行归类,并对在这些算法中进行的结构化改进进行优缺点分析。【结果】相比于传统算法,RL显著提升了新型电力系统的智能化水平,并在多个应用场景中取得了显著成效,特别是在应对系统复杂性和不确定性方面表现出色。然而,尽管有诸多成功案例,但目前该领域仍存在一些亟待解决的问题,比如计算成本高、训练时间长、泛化能力不足等。【结论】RL为新型电力系统的智能化提供了新的解决方案,然而,要实现大规模应用,还需要克服一系列技术和实践上的挑战。研究成果可为电气工程领域的研究者和实践者提供参考和启示。 展开更多
关键词 新型电力系统 强化学习(rl) 深度强化学习(Drl) 智能电网 优化策略 能源管理 态势感知 优化调度 人工智能(AI)
在线阅读 下载PDF
考虑储能调控优化的配电网分布式电源选址定容 被引量:8
6
作者 李童宇 武浩然 +2 位作者 陈衡 刘涛 李国亮 《浙江电力》 2024年第6期41-51,共11页
稳定配电网潮流分布、明确分布式电源的接入位置和容量是含分布式电源配电网优化运行的重要问题。提出一种基于深度强化学习算法的储能调控优化模型,实现分布式电源配置与用电负荷需求关系的匹配,从而稳定高渗透率下配电网的潮流分布。... 稳定配电网潮流分布、明确分布式电源的接入位置和容量是含分布式电源配电网优化运行的重要问题。提出一种基于深度强化学习算法的储能调控优化模型,实现分布式电源配置与用电负荷需求关系的匹配,从而稳定高渗透率下配电网的潮流分布。以线路损耗与电压波动性为损失函数,提出基于多目标遗传算法的分布式电源选址定容决策模型。在IEEE 14节点系统进行测试,结果表明该算法能够有效选择分布式电源的最佳接入位置和容量,在保证电压幅值不产生过大波动的同时,进一步降低了整体网络的线路损耗。 展开更多
关键词 分布式电源 深度强化学习 储能优化 多目标遗传算法 选址定容
在线阅读 下载PDF
基于深度强化学习的多能流楼宇低碳调度方法 被引量:5
7
作者 胥栋 李逸超 +2 位作者 李赟 徐刚 杜佳玮 《浙江电力》 2024年第2期126-136,共11页
建筑减排已成为中国达到“双碳”目标的重要途径,智慧楼宇作为多能流网络耦合的综合能源主体,面临碳排放量较多、多能流网络耦合程度高、负荷用能行为动态特性明显等问题。针对这一问题,提出基于深度强化学习的多能流楼宇低碳调度方法... 建筑减排已成为中国达到“双碳”目标的重要途径,智慧楼宇作为多能流网络耦合的综合能源主体,面临碳排放量较多、多能流网络耦合程度高、负荷用能行为动态特性明显等问题。针对这一问题,提出基于深度强化学习的多能流楼宇低碳调度方法。首先,根据智慧楼宇的实际碳排放量,建立了一种奖惩阶梯型碳排放权交易机制。其次,面向碳市场和多能流耦合网络,以最小化运行成本为目标函数,建立多能流低碳楼宇调度模型,并将该调度问题转换为马尔可夫决策过程。然后,利用Rainbow算法进行优化调度问题的求解。最后,通过仿真分析验证了优化调度模型的可行性及有效性。 展开更多
关键词 “双碳”目标 多能流 低碳调度 深度强化学习
在线阅读 下载PDF
逆强化学习算法、理论与应用研究综述 被引量:6
8
作者 宋莉 李大字 徐昕 《自动化学报》 EI CAS CSCD 北大核心 2024年第9期1704-1723,共20页
随着高维特征表示与逼近能力的提高,强化学习(Reinforcement learning,RL)在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展.然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题,因此研究者提出了逆强化学习(... 随着高维特征表示与逼近能力的提高,强化学习(Reinforcement learning,RL)在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展.然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题,因此研究者提出了逆强化学习(Inverse reinforcement learning,IRL)这一研究方向.如何从专家演示中学习奖励函数和进行策略优化是一个重要的研究课题,在人工智能领域具有十分重要的研究意义.本文综合介绍了逆强化学习算法的最新进展,首先介绍了逆强化学习在理论方面的新进展,然后分析了逆强化学习面临的挑战以及未来的发展趋势,最后讨论了逆强化学习的应用进展和应用前景. 展开更多
关键词 强化学习 逆强化学习 线性逆强化学习 深度逆强化学习 对抗逆强化学习
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
9
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(rl) 能源交易市场 双深度Q网络(DDQN)算法
在线阅读 下载PDF
一种最大置信上界经验采样的深度Q网络方法 被引量:14
10
作者 朱斐 吴文 +1 位作者 刘全 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1694-1705,共12页
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破... 由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性. 展开更多
关键词 强化学习 深度强化学习 最大置信上界 经验回放 深度Q网络
在线阅读 下载PDF
强化学习控制方法及在类火箭飞行器上的应用 被引量:4
11
作者 黄旭 柳嘉润 +3 位作者 贾晨辉 骆无意 巩庆海 冯明涛 《宇航学报》 EI CAS CSCD 北大核心 2023年第5期708-718,共11页
针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究,完成了算法设计和智能体训练,并进行了仿真与飞行试验。基于飞行器六自由度模型搭建飞行模拟器,针对悬停模式,以多拍姿态角跟踪误差以及姿态角速度作为智能体可... 针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究,完成了算法设计和智能体训练,并进行了仿真与飞行试验。基于飞行器六自由度模型搭建飞行模拟器,针对悬停模式,以多拍姿态角跟踪误差以及姿态角速度作为智能体可观测的状态,控制指令作为智能体动作,设计了含有跟踪误差、控制指令变化量以及一次性奖励的回报函数,在模拟器中训练智能体并完成了从仿真环境到真实系统的迁移。研究中未按传统设计流程对飞行器模型进行通道分解等简化,轻量化神经网络形式的智能体仅通过与模拟器交互的形式学习姿态控制策略,智能体在仿真和飞行试验中都展现出了良好性能。 展开更多
关键词 强化学习(rl) 深度确定性策略梯度算法(DDPG) 姿态控制 飞行试验
在线阅读 下载PDF
强化学习求解组合最优化问题的研究综述 被引量:25
12
作者 王扬 陈智斌 +1 位作者 吴兆蕊 高远 《计算机科学与探索》 CSCD 北大核心 2022年第2期261-279,共19页
组合最优化问题(COP)的求解方法已经渗透到人工智能、运筹学等众多领域。随着数据规模的不断增大、问题更新速度的变快,运用传统方法求解COP问题在速度、精度、泛化能力等方面受到很大冲击。近年来,强化学习(RL)在无人驾驶、工业自动化... 组合最优化问题(COP)的求解方法已经渗透到人工智能、运筹学等众多领域。随着数据规模的不断增大、问题更新速度的变快,运用传统方法求解COP问题在速度、精度、泛化能力等方面受到很大冲击。近年来,强化学习(RL)在无人驾驶、工业自动化等领域的广泛应用,显示出强大的决策力和学习能力,故而诸多研究者尝试使用RL求解COP问题,为求解此类问题提供了一种全新的方法。首先简要梳理常见的COP问题及其RL的基本原理;其次阐述RL求解COP问题的难点,分析RL应用于组合最优化(CO)领域的优势,对RL与COP问题结合的原理进行研究;然后总结近年来采用RL求解COP问题的理论方法和应用研究,对各类代表性研究所解决COP问题的关键要点、算法逻辑、优化效果进行对比分析,以突出RL模型的优越性,并对不同方法的局限性及其使用场景进行归纳总结;最后提出了四个RL求解COP问题的潜在研究方向。 展开更多
关键词 强化学习(rl) 深度强化学习(Drl) 组合最优化问题(COP)
在线阅读 下载PDF
基于DQN的超密集网络能效资源管理 被引量:7
13
作者 郑冰原 孙彦赞 +2 位作者 吴雅婷 王涛 方勇 《计算机工程》 CAS CSCD 北大核心 2021年第5期169-175,共7页
小基站的密集随机部署会产生严重干扰和较高能耗问题,为降低网络干扰、保证用户网络服务质量(QoS)并提高网络能效,构建一种基于深度强化学习(DRL)的资源分配和功率控制联合优化框架。综合考虑超密集异构网络中的同层干扰和跨层干扰,提... 小基站的密集随机部署会产生严重干扰和较高能耗问题,为降低网络干扰、保证用户网络服务质量(QoS)并提高网络能效,构建一种基于深度强化学习(DRL)的资源分配和功率控制联合优化框架。综合考虑超密集异构网络中的同层干扰和跨层干扰,提出对频谱与功率资源联合控制能效以及用户QoS的联合优化问题。针对该联合优化问题的NP-Hard特性,提出基于DRL框架的资源分配和功率控制联合优化算法,并定义联合频谱和功率分配的状态、动作以及回报函数。利用强化学习、在线学习和深度神经网络线下训练对网络资源进行控制,从而找到最佳资源和功率控制策略。仿真结果表明,与枚举算法、Q-学习算法和两阶段算法相比,该算法可在保证用户QoS的同时有效提升网络能效。 展开更多
关键词 超密集网络 能效 资源分配 强化学习 功率控制 深度学习
在线阅读 下载PDF
深度强化学习研究综述 被引量:71
14
作者 杨思明 单征 +1 位作者 丁煜 李刚伟 《计算机工程》 CAS CSCD 北大核心 2021年第12期19-29,共11页
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究... 深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。 展开更多
关键词 深度学习 强化学习 深度强化学习 逆向强化学习 基于模型的元学习
在线阅读 下载PDF
基于强化学习的路径规划技术综述 被引量:58
15
作者 闫皎洁 张锲石 胡希平 《计算机工程》 CAS CSCD 北大核心 2021年第10期16-25,共10页
路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learn... 路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learning等基于值的代表方法与策略梯度、模仿学习等基于策略的代表方法,并分析其融合策略和深度强化学习方法方法的发展现状。在此基础上,总结各种强化学习方法的优缺点及适用场合,同时对基于强化学习的路径规划技术的未来发展方向进行展望。 展开更多
关键词 路径规划 强化学习 深度强化学习 移动机器人 自主导航
在线阅读 下载PDF
使用增强学习训练多焦点聚焦模型 被引量:2
16
作者 刘畅 刘勤让 《自动化学报》 EI CSCD 北大核心 2017年第9期1563-1570,共8页
聚焦模型(Attention model,AM)将计算资源集中于输入数据特定区域,相比卷积神经网络,AM具有参数少、计算量独立输入和高噪声下正确率较高等优点.相对于输入图像和识别目标,聚焦区域通常较小;如果聚焦区域过小,就会导致过多的迭代次数,... 聚焦模型(Attention model,AM)将计算资源集中于输入数据特定区域,相比卷积神经网络,AM具有参数少、计算量独立输入和高噪声下正确率较高等优点.相对于输入图像和识别目标,聚焦区域通常较小;如果聚焦区域过小,就会导致过多的迭代次数,降低了效率,也难以在同一输入中寻找多个目标.因此本文提出多焦点聚焦模型,同时对多处并行聚焦.使用增强学习(Reinforce learning,RL)进行训练,将所有焦点的行为统一评分训练.与单焦点聚焦模型相比,训练速度和识别速度提高了25%.同时本模型具有较高的通用性. 展开更多
关键词 深度学习 聚焦模型 增强学习 多焦点
在线阅读 下载PDF
递归最小二乘循环神经网络 被引量:2
17
作者 赵杰 张春元 +3 位作者 刘超 周辉 欧宜贵 宋淇 《自动化学报》 EI CAS CSCD 北大核心 2022年第8期2050-2061,共12页
针对循环神经网络(Recurrent neural networks,RNNs)一阶优化算法学习效率不高和二阶优化算法时空开销过大,提出一种新的迷你批递归最小二乘优化算法.所提算法采用非激活线性输出误差替代传统的激活输出误差反向传播,并结合加权线性最... 针对循环神经网络(Recurrent neural networks,RNNs)一阶优化算法学习效率不高和二阶优化算法时空开销过大,提出一种新的迷你批递归最小二乘优化算法.所提算法采用非激活线性输出误差替代传统的激活输出误差反向传播,并结合加权线性最小二乘目标函数关于隐藏层线性输出的等效梯度,逐层导出RNNs参数的迷你批递归最小二乘解.相较随机梯度下降算法,所提算法只在RNNs的隐藏层和输出层分别增加了一个协方差矩阵,其时间复杂度和空间复杂度仅为随机梯度下降算法的3倍左右.此外,本文还就所提算法的遗忘因子自适应问题和过拟合问题分别给出一种解决办法.仿真结果表明,无论是对序列数据的分类问题还是预测问题,所提算法的收敛速度要优于现有主流一阶优化算法,而且在超参数的设置上具有较好的鲁棒性. 展开更多
关键词 深度学习 循环神经网络 递归最小二乘 迷你批学习 优化算法
在线阅读 下载PDF
Multi-level objective control of AVs at a saturated signalized intersection with multi-agent deep reinforcement learning approach
18
作者 Wenfeng Lin Xiaowei Hu Jian Wang 《Journal of Intelligent and Connected Vehicles》 EI 2023年第4期250-263,共14页
Reinforcement learning(RL)can free automated vehicles(AVs)from the car-following constraints and provide more possible explorations for mixed behavior.This study uses deep RL as AVs’longitudinal control and designs a... Reinforcement learning(RL)can free automated vehicles(AVs)from the car-following constraints and provide more possible explorations for mixed behavior.This study uses deep RL as AVs’longitudinal control and designs a multi-level objectives framework for AVs’trajectory decision-making based on multi-agent DRL.The saturated signalized intersection is taken as the research object to seek the upper limit of traffic efficiency and realize the specific target control.The simulation results demonstrate the convergence of the proposed framework in complex scenarios.When prioritizing throughputs as the primary objective and emissions as the secondary objective,both indicators exhibit a linear growth pattern with increasing market penetration rate(MPR).Compared with MPR is 0%,the throughputs can be increased by 69.2%when MPR is 100%.Compared with linear adaptive cruise control(LACC)under the same MPR,the emissions can also be reduced by up to 78.8%.Under the control of the fixed throughputs,compared with LACC,the emission benefits grow nearly linearly as MPR increases,it can reach 79.4%at 80%MPR.This study employs experimental results to analyze the behavioral changes of mixed flow and the mechanism of mixed autonomy to improve traffic efficiency.The proposed method is flexible and serves as a valuable tool for exploring and studying the behavior of mixed flow behavior and the patterns of mixed autonomy. 展开更多
关键词 autonomous vehicles(AVs) mixed autonomy traffic efficiency deep reinforcement learning(rl) saturated signalized intersection
在线阅读 下载PDF
Learning Playing Piano with Bionic-Constrained Diffusion Policy for Anthropomorphic Hand
19
作者 Yiming Yang Zechang Wang +1 位作者 Dengpeng Xing Peng Wang 《Cyborg and Bionic Systems》 2024年第1期400-409,共10页
Anthropomorphic hand manipulation is a quintessential example of embodied intelligence in robotics,presenting a notable challenge due to its high degrees of freedom and complex inter-joint coupling.Though recent advan... Anthropomorphic hand manipulation is a quintessential example of embodied intelligence in robotics,presenting a notable challenge due to its high degrees of freedom and complex inter-joint coupling.Though recent advancements in reinforcement learning(RL)have led to substantial progress in this field,existing methods often overlook the detailed structural properties of anthropomorphic hands.To address this,we propose a novel deep RL approach,Bionic-Constrained Diffusion Policy(Bio-CDP),which integrates knowledge of human hand control with a powerful diffusion policy representation.Our bionic constraint modifies the action space of anthropomorphic hand control,while the diffusion policy enhances the expressibility of the policy in high-dimensional continuous control tasks.Bio-CDP has been evaluated in the simulation environment,where it has shown superior performance and data efficiency compared to state-of-the-art RL approaches.Furthermore,our method is resilient to task complexity and robust in performance,making it a promising tool for advanced control in robotics. 展开更多
关键词 integrates knowled piano playing deep rl bionic constrained diffusion policy reinforcement learning rl embodied intelligence anthropomorphic hand manipulation
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部