期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于专家知识与深度强化学习的双层自主决策方法
1
作者 肖文文 蔡乾亚 +3 位作者 毛立夫 林源 赵媛 王绵进 《水下无人系统学报》 2026年第1期182-189,共8页
水下环境复杂多变,水下无人系统面临感知信息不完备与环境不确定性的双重挑战,传统决策方法依赖完备的感知数据与地图信息,在动态复杂场景中自适应能力不足,难以高效完成自主导航、避障等任务。针对此,文中提出一种基于专家知识与深度... 水下环境复杂多变,水下无人系统面临感知信息不完备与环境不确定性的双重挑战,传统决策方法依赖完备的感知数据与地图信息,在动态复杂场景中自适应能力不足,难以高效完成自主导航、避障等任务。针对此,文中提出一种基于专家知识与深度强化学习的双层自主决策方法,旨在提升水下无人系统的智能决策自适应能力与任务执行效率。具体而言,首先设计包含七大功能模块的双层自主决策架构,通过强化系统鲁棒性切实保障航行安全;然后,提出融合专家知识与深度强化学习的自主决策策略生成方法,提升水下无人系统在未知场景中的自适应能力:最后,提出多模块设计方法实现各功能模块的解耦,有效提升水下无人系统的研发效率。以水下无人系统为研究对象,在Unity虚拟仿真平台开展自主导航与避障实验,结果表明,文中所提方法的任务成功率与平均奖励值收敛速度均优于近端策略优化、软演员-评论家等基准方法,为真实场景下的自主决策优化研究提供了坚实的理论支撑。 展开更多
关键词 水下无人系统 深度强化学习 专家知识 双层自主决策
在线阅读 下载PDF
Recent Advances in Interactive Driving of Autonomous Vehicles:Comprehensive Review of Approaches
2
作者 Yanwen Yang Natnael M.Negash James Yang 《Automotive Innovation》 2025年第2期304-334,共31页
Interactive autonomous driving is an evolving research domain that demands an autonomous vehicle(AV)to exhibit adaptability to new environments,cognizance of surrounding traffic conditions,and proficient decision-maki... Interactive autonomous driving is an evolving research domain that demands an autonomous vehicle(AV)to exhibit adaptability to new environments,cognizance of surrounding traffic conditions,and proficient decision-making ability in complex human-dominated scenarios to guarantee safe navigation and promote social compatibility.This paper reviews the diverse methodologies utilized in interactive driving for AVs.Various techniques will be investigated for their unique contributions and capabilities in developing AV systems,such as long short-term memory(LSTM),transformer,artificial potential field(APF),game theory,reinforcement learning(RL)/deep reinforcement learning(DRL),and partially observable Markov decision processes(POMDP),among others.Recent advancements based on these methodologies are summarized to elucidate their application rationale in interactive driving scenarios.The strengths and challenges inherent to each approach within the context of interactive driving are further assessed.Additionally,the resolution of these challenges is explored through integrating different methods.Therefore,a comparative analysis offers crucial perspectives for advancing autonomous driving technologies.This review exclusively focuses on the interactions between AVs and human-driven vehicles(HDVs). 展开更多
关键词 Interactive driving autonomous vehicle Inter-vehicle interactions Trajectories prediction decisionmaking Behavior planning
原文传递
自动驾驶拟人智能化决策的发展及应用
3
作者 孙天骏 杨惠喆 +4 位作者 王建斌 曾小松 王涵 冉锐 刘斌 《汽车工程学报》 2025年第S1期17-26,共10页
决策是智能网联汽车自动驾驶技术的核心关键环节。概述了国内外政策引领下的自动驾驶发展历程,分别以基于规则的决策方法和基于学习的决策方法为例,分析了传统决策方法的优势和弊端,在此基础上,重点研究了考虑驾驶员社会属性的决策方法... 决策是智能网联汽车自动驾驶技术的核心关键环节。概述了国内外政策引领下的自动驾驶发展历程,分别以基于规则的决策方法和基于学习的决策方法为例,分析了传统决策方法的优势和弊端,在此基础上,重点研究了考虑驾驶员社会属性的决策方法与基于大模型系统的决策方法。从仿生学背景、数学建模、强化学习、问题挑战与应用现状5个方面总结自动驾驶拟人智能化决策的发展及应用,为进一步推进自动驾驶“端到端”技术落地提供理论支撑与措施建议。 展开更多
关键词 智能网联汽车 自动驾驶 拟人智能化决策 类脑智能 强化学习
在线阅读 下载PDF
智能船舶靠泊技术研究热点与趋势 被引量:13
4
作者 李国帅 张显库 张安超 《中国舰船研究》 CSCD 北大核心 2024年第1期3-14,共12页
在梳理近年来国内外智能船舶靠泊技术研究现状的基础上,首先从靠泊方式、数学模型和控制算法3个方面分别归纳靠泊技术的研究热点与应用情况,分析智能船舶靠泊技术在自主性、建模精度、路径规划、控制算法、节能效果和系统测试等方面尚... 在梳理近年来国内外智能船舶靠泊技术研究现状的基础上,首先从靠泊方式、数学模型和控制算法3个方面分别归纳靠泊技术的研究热点与应用情况,分析智能船舶靠泊技术在自主性、建模精度、路径规划、控制算法、节能效果和系统测试等方面尚待解决的问题。然后,从航海实际需求出发,提出下一步需要突破的有关信息融合、在线建模、智能决策、算法优化、绿色节能和测试技术等方面的核心理论和关键技术问题,努力提升靠泊技术的自主性、鲁棒性、快速性和“韧性”,助力实现安全、绿色、高效的智能航运目标。 展开更多
关键词 智能船舶 自动靠泊 船舶运动模型 智能决策
在线阅读 下载PDF
Multi-agent reinforcement learning with layered autonomy and collaboration for enhanced collaborative confrontation
5
作者 Xiaoyu XING Haoxiang XIA 《Chinese Journal of Aeronautics》 2026年第2期370-388,共19页
Addressing optimal confrontation methods in multi-agent attack-defense scenarios is a complex challenge.Multi-Agent Reinforcement Learning(MARL)provides an effective framework for tackling sequential decision-making p... Addressing optimal confrontation methods in multi-agent attack-defense scenarios is a complex challenge.Multi-Agent Reinforcement Learning(MARL)provides an effective framework for tackling sequential decision-making problems,significantly enhancing swarm intelligence in maneuvering.However,applying MARL to unmanned swarms presents two primary challenges.First,defensive agents must balance autonomy with collaboration under limited perception while coordinating against adversaries.Second,current algorithms aim to maximize global or individual rewards,making them sensitive to fluctuations in enemy strategies and environmental changes,especially when rewards are sparse.To tackle these issues,we propose an algorithm of MultiAgent Reinforcement Learning with Layered Autonomy and Collaboration(MARL-LAC)for collaborative confrontations.This algorithm integrates dual twin Critics to mitigate the high variance associated with policy gradients.Furthermore,MARL-LAC employs layered autonomy and collaboration to address multi-objective problems,specifically learning a global reward function for the swarm alongside local reward functions for individual defensive agents.Experimental results demonstrate that MARL-LAC enhances decision-making and collaborative behaviors among agents,outperforming the existing algorithms and emphasizing the importance of layered autonomy and collaboration in multi-agent systems.The observed adversarial behaviors demonstrate that agents using MARL-LAC effectively maintain cohesive formations that conceal their intentions by confusing the offensive agent while successfully encircling the target. 展开更多
关键词 Attack-defense confrontation Collaborative confrontation autonomous agents Multi-agent systems Reinforcement learning Maneuvering decisionmaking
原文传递
基于强化学习的挖掘机时间最优轨迹规划 被引量:4
6
作者 张韵悦 孙志毅 +1 位作者 孙前来 王银 《控制与决策》 EI CSCD 北大核心 2024年第5期1433-1440,共8页
针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算... 针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算法的交互;然后,设计以动臂、斗杆和铲斗关节运动是否超出允许范围、完成任务总时间和目标相对距离为奖励函数对策略网络参数进行训练;最后,利用改进的近端策略优化算法(proximal policy optimization, PPO)实现挖掘机的时间最优轨迹规划.与此同时,与不同连续动作空间的强化学习算法进行对比,实验结果表明:所提出优化算法效率更高,收敛速度更快,作业轨迹更平滑,可有效避免各关节受到较大冲击,有助于挖掘机高效、平稳地作业. 展开更多
关键词 挖掘机 自主作业 轨迹规划 多智能体 PPO算法 智能决策
原文传递
小型模块化反应堆自主控制技术的现状与发展 被引量:3
7
作者 龚琳 刘勇 冯伟伟 《自动化仪表》 CAS 2023年第6期147-151,共5页
介绍了小型模块化反应堆的技术特点,并由此分析了其对于自主化反应堆控制系统的需求。总结了自主控制与传统自动控制的不同,提出了集成性、智能性、容错性三大特点,并给出了自主化程度的分级标准。同时,对自主控制的主要关键技术进行了... 介绍了小型模块化反应堆的技术特点,并由此分析了其对于自主化反应堆控制系统的需求。总结了自主控制与传统自动控制的不同,提出了集成性、智能性、容错性三大特点,并给出了自主化程度的分级标准。同时,对自主控制的主要关键技术进行了识别,并介绍了自主控制架构技术、自主决策技术、容错控制技术、故障诊断技术的发展现状。提出了现有方法中亟待解决的问题。结合整个行业的发展趋势,对自主控制技术的发展进行了分析。 展开更多
关键词 核能 小型模块化反应堆 自主控制架构技术 自主决策 容错控制 故障诊断
在线阅读 下载PDF
基于群体智能的分布式柔性资源有功平衡调度架构及策略 被引量:14
8
作者 李亚平 杨胜春 +3 位作者 毛文博 高冠中 陆亚楠 黄展鸿 《电力自动化设备》 EI CSCD 北大核心 2022年第7期174-182,共9页
针对电力系统中分布式柔性资源数量众多、分散分布、不确定性强给调度运行带来的挑战,引入新一代人工智能中的群体智能思想,提出了基于群体智能的分布式柔性资源有功平衡调度架构。按照分层分布集群控制模式将海量柔性资源的组织与调控... 针对电力系统中分布式柔性资源数量众多、分散分布、不确定性强给调度运行带来的挑战,引入新一代人工智能中的群体智能思想,提出了基于群体智能的分布式柔性资源有功平衡调度架构。按照分层分布集群控制模式将海量柔性资源的组织与调控运行分为终端→用户→子群→群体4层。在该架构下,用户、子群、群体每层看作是不同的智能体,分别提出了群体的外特性建模、群内自治决策和群间交互协同策略,实现了“弱中心化”的群体自律运行。仿真结果验证了分布式架构的合理性和智能策略的有效性。借助分布式调控架构和新一代人工智能技术是实现海量分布式柔性资源“群调群控”的有效手段。 展开更多
关键词 海量柔性资源 分布式架构 群体智能 自治决策 交互协同
在线阅读 下载PDF
面向人机序贯决策实现共享控制下的仲裁优化
9
作者 张倩倩 赵云波 +1 位作者 吕文君 陈谋 《中国科学:信息科学》 CSCD 北大核心 2023年第9期1768-1783,共16页
共享控制存在于众多由人类智能和机器智能共同参与的序贯决策场景.由于人的决策范围和智能机器的决策范围尚未予以明确划分,需要加以实时仲裁从而达到人机共存并且共享决策权限.为此本文提出了一种仲裁优化方法,该方法的独特之处在于引... 共享控制存在于众多由人类智能和机器智能共同参与的序贯决策场景.由于人的决策范围和智能机器的决策范围尚未予以明确划分,需要加以实时仲裁从而达到人机共存并且共享决策权限.为此本文提出了一种仲裁优化方法,该方法的独特之处在于引入自主性边界概念,优化了共享控制中人机决策动作的仲裁机制.本文为自主性边界的计算和更新维护提供了思路,能够基于贝叶斯规则的意图推理分析人机共享系统可能要实现的目标,从而确定仲裁参数.此外,本文还分析了自主性边界的不确定性以促进边界信息对共享控制中决策质量的优化效果.实验结果表明,所提出的方法在累积奖励、成功率、撞击率方面表现出色,这些说明了本文提出的共享控制中的仲裁优化方法在求解人机序贯决策问题时的有效性和价值. 展开更多
关键词 共享控制 仲裁优化 自主性边界 人机序贯决策 强化学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部