期刊文献+
共找到391篇文章
< 1 2 20 >
每页显示 20 50 100
Day-ahead scheduling based on reinforcement learning with hybrid action space
1
作者 CAO Jingyu DONG Lu SUN Changyin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第3期693-705,共13页
Driven by the improvement of the smart grid,the active distribution network(ADN)has attracted much attention due to its characteristic of active management.By making full use of electricity price signals for optimal s... Driven by the improvement of the smart grid,the active distribution network(ADN)has attracted much attention due to its characteristic of active management.By making full use of electricity price signals for optimal scheduling,the total cost of the ADN can be reduced.However,the optimal dayahead scheduling problem is challenging since the future electricity price is unknown.Moreover,in ADN,some schedulable variables are continuous while some schedulable variables are discrete,which increases the difficulty of determining the optimal scheduling scheme.In this paper,the day-ahead scheduling problem of the ADN is formulated as a Markov decision process(MDP)with continuous-discrete hybrid action space.Then,an algorithm based on multi-agent hybrid reinforcement learning(HRL)is proposed to obtain the optimal scheduling scheme.The proposed algorithm adopts the structure of centralized training and decentralized execution,and different methods are applied to determine the selection policy of continuous scheduling variables and discrete scheduling variables.The simulation experiment results demonstrate the effectiveness of the algorithm. 展开更多
关键词 day-ahead scheduling active distribution network(ADN) reinforcement learning hybrid action space
在线阅读 下载PDF
Two-timescale Volt/var Control Based on Reinforcement Learning with Hybrid Action Space for Distribution Networks
2
作者 Yuan Zhou Yizhou Peng +3 位作者 Leijiao Ge Luyang Hou Ying Wang Hongxia Niu 《Journal of Modern Power Systems and Clean Energy》 2025年第4期1261-1273,共13页
In volt/var control(VVC)for active distribution networks,it is essential to integrate traditional voltage regulation devices with modern smart photovoltaic inverters to prevent voltage violations.However,model-based m... In volt/var control(VVC)for active distribution networks,it is essential to integrate traditional voltage regulation devices with modern smart photovoltaic inverters to prevent voltage violations.However,model-based multi-device VVC methods rely on accurate system models for decision-making,which can be challenging due to the extensive modeling workload.To tackle the complexities of multi-device cooperation in VVC,this paper proposes a two-timescale VVC method based on reinforcement learning with hybrid action space,termed the hybrid action representation twin delayed deep deterministic policy gradient(HAR-TD3)method.This method simultaneously manages traditional discrete voltage regulation devices,which operate on a slower timescale,and smart continuous voltage regulation devices,which function on a faster timescale.To enable effective collaboration between the different action spaces of these devices,we propose a variational auto-encoder based hybrid action reconstruction network.This network captures the interdependencies of hybrid actions by embedding both discrete and continuous actions into the latent representation space and subsequently decoding them for action reconstruction.The proposed method is validated on IEEE 33-bus,69-bus,and 123-bus distribution networks.Numerical results indicate that the proposed method successfully coordinates discrete and continuous voltage regulation devices,achieving fewer voltage violations compared with stateof-the-art reinforcement learning methods. 展开更多
关键词 Voltage/var control reinforcement learning hybrid action space two-timescale active distribution network
原文传递
Mixed Deep Reinforcement Learning Considering Discrete-continuous Hybrid Action Space for Smart Home Energy Management 被引量:5
3
作者 Chao Huang Hongcai Zhang +2 位作者 Long Wang Xiong Luo Yonghua Song 《Journal of Modern Power Systems and Clean Energy》 SCIE EI CSCD 2022年第3期743-754,共12页
This paper develops deep reinforcement learning(DRL)algorithms for optimizing the operation of home energy system which consists of photovoltaic(PV)panels,battery energy storage system,and household appliances.Model-f... This paper develops deep reinforcement learning(DRL)algorithms for optimizing the operation of home energy system which consists of photovoltaic(PV)panels,battery energy storage system,and household appliances.Model-free DRL algorithms can efficiently handle the difficulty of energy system modeling and uncertainty of PV generation.However,discretecontinuous hybrid action space of the considered home energy system challenges existing DRL algorithms for either discrete actions or continuous actions.Thus,a mixed deep reinforcement learning(MDRL)algorithm is proposed,which integrates deep Q-learning(DQL)algorithm and deep deterministic policy gradient(DDPG)algorithm.The DQL algorithm deals with discrete actions,while the DDPG algorithm handles continuous actions.The MDRL algorithm learns optimal strategy by trialand-error interactions with the environment.However,unsafe actions,which violate system constraints,can give rise to great cost.To handle such problem,a safe-MDRL algorithm is further proposed.Simulation studies demonstrate that the proposed MDRL algorithm can efficiently handle the challenge from discrete-continuous hybrid action space for home energy management.The proposed MDRL algorithm reduces the operation cost while maintaining the human thermal comfort by comparing with benchmark algorithms on the test dataset.Moreover,the safe-MDRL algorithm greatly reduces the loss of thermal comfort in the learning stage by the proposed MDRL algorithm. 展开更多
关键词 Demand response deep reinforcement learning discrete-continuous action space home energy management safe reinforcement learning
原文传递
Noise-driven enhancement for exploration:Deep reinforcement learning for UAV autonomous navigation in complex environments
4
作者 Haotian ZHANG Yiyang LI +1 位作者 Lingquan CHENG Jianliang AI 《Chinese Journal of Aeronautics》 2026年第1期454-471,共18页
Unmanned Aerial Vehicle(UAV)plays a prominent role in various fields,and autonomous navigation is a crucial component of UAV intelligence.Deep Reinforcement Learning(DRL)has expanded the research avenues for addressin... Unmanned Aerial Vehicle(UAV)plays a prominent role in various fields,and autonomous navigation is a crucial component of UAV intelligence.Deep Reinforcement Learning(DRL)has expanded the research avenues for addressing challenges in autonomous navigation.Nonetheless,challenges persist,including getting stuck in local optima,consuming excessive computations during action space exploration,and neglecting deterministic experience.This paper proposes a noise-driven enhancement strategy.In accordance with the overall learning phases,a global noise control method is designed,while a differentiated local noise control method is developed by analyzing the exploration demands of four typical situations encountered by UAV during navigation.Both methods are integrated into a dual-model for noise control to regulate action space exploration.Furthermore,noise dual experience replay buffers are designed to optimize the rational utilization of both deterministic and noisy experience.In uncertain environments,based on the Twin Delay Deep Deterministic Policy Gradient(TD3)algorithm with Long Short-Term Memory(LSTM)network and Priority Experience Replay(PER),a Noise-Driven Enhancement Priority Memory TD3(NDE-PMTD3)is developed.We established a simulation environment to compare different algorithms,and the performance of the algorithms is analyzed in various scenarios.The training results indicate that the proposed algorithm accelerates the convergence speed and enhances the convergence stability.In test experiments,the proposed algorithm successfully and efficiently performs autonomous navigation tasks in diverse environments,demonstrating superior generalization results. 展开更多
关键词 action space exploration Autonomous navigation Deep reinforcement learning Twin delay deep deterministic policy gradient Unmanned aerial vehicle
原文传递
基于图神经网络与混合近端策略优化的无功优化方法
5
作者 李瑞 武志刚 许丹阳 《电力系统及其自动化学报》 北大核心 2026年第2期47-58,共12页
针对电力系统动态无功优化中混合动作变量协同决策难题,提出一种融合图卷积网络与动作时序解耦的深度强化学习框架,以解决传统方法因高维混合变量耦合导致的建模困难,以及现有深度强化学习算法难以满足“先投切后调节”等工程约束的问... 针对电力系统动态无功优化中混合动作变量协同决策难题,提出一种融合图卷积网络与动作时序解耦的深度强化学习框架,以解决传统方法因高维混合变量耦合导致的建模困难,以及现有深度强化学习算法难以满足“先投切后调节”等工程约束的问题。通过构建自回归依赖的Actor-Critic网络架构,设计拓扑特征编码模块解析电网结构特性,并设计条件动作生成器实现离散设备投切与连续调节动作的时序解耦;进一步集成图卷积网络动态聚合节点-支路拓扑信息,增强策略网络的物理可解释性。在经适应性改造的IEEE 39节点系统上所做的实验结果表明:相较传统混合近端策略优化方法,所提算法训练效率提升43.2%,电压越限率降低34.5%。研究验证了图神经网络在耦合时空特征提取与动态动作策略生成方面的技术优势,并为电力系统动态无功优化问题提供了高效可扩展的智能化解决方案。 展开更多
关键词 动态无功优化 混合动作空间 深度强化学习 图神经网络
在线阅读 下载PDF
社会动缘:镜像神经元能告诉我们什么?
6
作者 陈巍 薛少华 《自然辩证法通讯》 北大核心 2026年第2期37-45,共9页
吉布森传统下的生态心理学依托动缘概念,旨在建立一种消解“感知-运动”二分对立的本体论。社会动缘概念强调了由社会实践和规范塑造的社会互动或行动的可能性,有助于为生态心理学积极容纳社会现象并且拓展本体论外延。过去二十多年来,... 吉布森传统下的生态心理学依托动缘概念,旨在建立一种消解“感知-运动”二分对立的本体论。社会动缘概念强调了由社会实践和规范塑造的社会互动或行动的可能性,有助于为生态心理学积极容纳社会现象并且拓展本体论外延。过去二十多年来,镜像神经元领域的研究一直致力于探索感觉运动过程如何成为有意行动选择和社会认知各个方面的基础。根据“社会动缘”假说,工具使用、身体空间、主观价值和道德规范均可以调控镜像神经元的活动。这些神经元不仅支持行动选择过程,同时也帮助我们了解自己和他人在动缘空间中的选择和行动潜力。未来的研究还需要关注社会动缘与物体动缘差异的神经特异性表征,以及由持续社会文化实践塑造的行动可能性所具有的“生态脑-社会脑”基础。 展开更多
关键词 社会动缘 镜像神经元 生态脑 近身空间 动作理解
原文传递
面向空间机器人的多模态大模型研究现状及应用前景
7
作者 罗涛 张亚航 王耀兵 《航天器工程》 北大核心 2026年第1期128-136,共9页
随着载人航天、深空探测和在轨服务等航天任务的快速推进,空间智能机器人的高自主性、强鲁棒性与复杂环境适应性需求日益凸显。文章系统梳理视觉-语言-动作模型关键技术,总结国内外主要研究进展,从任务规划策略和端到端控制策略两个维... 随着载人航天、深空探测和在轨服务等航天任务的快速推进,空间智能机器人的高自主性、强鲁棒性与复杂环境适应性需求日益凸显。文章系统梳理视觉-语言-动作模型关键技术,总结国内外主要研究进展,从任务规划策略和端到端控制策略两个维度分析其代表性工作,并结合空间机器人作业场景,深入分析其在空间机器人环境感知、语义理解、任务规划和操作执行等场景的突出应用潜力,重点探讨了空间机器人对多模态大模型的应用需求。在此基础上,结合我国空间机器人技术的发展现状,研究着重提出了从软硬件设计、模型应用能力与智能生态建设等多角度的面向未来空间智能机器人的多模态大模型技术发展策略,为后续空间机器人在载人航天、深空探测、在轨服务等领域的复杂作业任务中智能化应用提供参考。 展开更多
关键词 空间机器人 具身智能 视觉-语言-动作模型
在线阅读 下载PDF
筑牢档案可信数据空间基石——解读《可信数据空间发展行动计划(2024—2028年)》
8
作者 尹鑫 李知圯 汪书路 《北京档案》 北大核心 2026年第1期44-49,共6页
2024年11月21日,国家数据局印发《可信数据空间发展行动计划(2024—2028年)》,为推进档案数据的可信治理提供了重要方向指引和行动指南,是档案数智化转型进程中的重要里程碑。本文基于对“新一代人工智能技术+档案数据治理”的思考,结... 2024年11月21日,国家数据局印发《可信数据空间发展行动计划(2024—2028年)》,为推进档案数据的可信治理提供了重要方向指引和行动指南,是档案数智化转型进程中的重要里程碑。本文基于对“新一代人工智能技术+档案数据治理”的思考,结合我国档案数据治理现状,分析了该计划在档案领域的适用性及影响,并重点探讨了通过完善档案可信数据空间基础设施建设、建立多方协作的网络布局、推进核心技术攻关、构建健康且可持续的数字生态系统等行动举措,筑牢档案可信数据空间基石,为构造可信的“AI+档案数据治理”新业态提供参考。 展开更多
关键词 可信数据空间发展行动计划(2024—2028年) 档案可信数据空间 档案信息化 档案数据治理
在线阅读 下载PDF
Action Origin of the Cosmos 被引量:1
9
作者 Hans Joachim Dudek 《Journal of High Energy Physics, Gravitation and Cosmology》 2023年第3期850-887,共38页
In physical information theory elementary objects are represented as correlation structures with oscillator properties and characterized by action. The procedure makes it possible to describe the photons of positive a... In physical information theory elementary objects are represented as correlation structures with oscillator properties and characterized by action. The procedure makes it possible to describe the photons of positive and negative charges by positive and negative real action;gravitons are represented in equal amounts by positive and negative real, i.e., virtual action, and the components of the vacuum are characterized by deactivated virtual action. An analysis of the currents in the correlation structures of photons of static Maxwell fields with wave and particle properties, of the Maxwell vacuum and of the gravitons leads to a uniform three-dimensional representation of the structure of the action. Based on these results, a basic structure consisting of a system of oscillators is proposed, which describe the properties of charges and masses and interact with the photons of static Maxwell fields and with gravitons. All properties of the elemental components of nature can thus be traced back to a basic structure of action. It follows that nature can be derived from a uniform structure and this structure of action must therefore also be the basis of the origin of the cosmos. 展开更多
关键词 Hamilton Principle as Global Law in Physics Physical Information Generated by action Correlation space Charge- and Matter-Oscillators
在线阅读 下载PDF
混合动作表示强化学习下的城市交叉口智慧信控方法 被引量:1
10
作者 王庞伟 王思淼 +3 位作者 雷方舒 徐京辉 王子鹏 王力 《交通运输系统工程与信息》 北大核心 2025年第4期73-83,共11页
针对城市交叉口环境下单一离散或连续信号控制动作难以充分应对交通流量时空变化,以及现有强化学习方法无法同时解决混合动作空间中的可扩展性和动作依赖性问题,本文提出一种基于混合动作表示强化学习的城市交叉口智慧信控方法。首先,... 针对城市交叉口环境下单一离散或连续信号控制动作难以充分应对交通流量时空变化,以及现有强化学习方法无法同时解决混合动作空间中的可扩展性和动作依赖性问题,本文提出一种基于混合动作表示强化学习的城市交叉口智慧信控方法。首先,将交叉口智能体的动作空间设置为离散化信号相位选择及其相对应的连续性绿灯持续时间,并进行状态空间与奖励函数的一致性设计;其次,应用离散动作嵌入表和条件变分自编码器构建连续可解码的表示空间,将原始混合动作策略学习问题转化为隐式动作表示空间中的连续策略学习问题;再次,使用近端策略优化方法进行隐式动作表示空间策略训练,并通过解码器将输出动作解码为原始混合动作,与环境进行实时交互;最后,基于北京市高级别自动驾驶示范区实际数据开展测试验证。通过不同时段对比测试结果表明,本文所提方法相比于最优基准模型平均延误时间、平均排队长度和平均停车次数分别降低了2.57%~14.84%,4.00%~9.15%和7.25%~20.69%,达到了良好的城市交叉口信控优化效果。 展开更多
关键词 智能交通 交通信号控制 表示学习 混合动作空间 近端策略优化
在线阅读 下载PDF
基于DR-DT的视觉SLAM参数自适应调整
11
作者 黄鑫 黄初华 +2 位作者 杨明旭 秦进 马旭博 《计算机应用研究》 北大核心 2025年第11期3512-3520,共9页
针对传统视觉SLAM系统依赖固定参数且需手动调整的问题,提出了一种基于离散化奖励Decision Transformer的自适应参数调整方法——DR-DT。该方法将参数自适应过程转换为序列建模任务,通过选择SLAM关键参数定义连续动作空间,基于位姿不确... 针对传统视觉SLAM系统依赖固定参数且需手动调整的问题,提出了一种基于离散化奖励Decision Transformer的自适应参数调整方法——DR-DT。该方法将参数自适应过程转换为序列建模任务,通过选择SLAM关键参数定义连续动作空间,基于位姿不确定性构建奖励函数,结合离散化奖励机制提升学习稳定性。以ORB-SLAM3为测试系统,在EuRoC MAV和TUM-VI数据集上的实验结果表明,所提方法能有效提升视觉SLAM系统在复杂场景中的位姿估计精度,同时简化了参数调整过程。该方法为视觉SLAM系统的参数自适应优化提供了新思路。 展开更多
关键词 视觉SLAM 参数自适应 Decision Transformer 连续动作空间 离散化奖励
在线阅读 下载PDF
具身认知视野中的合作:对“何以必要”与“如何可能”的新认知 被引量:2
12
作者 郑旭东 王昕玮 《现代教育技术》 2025年第3期5-14,共10页
“合作”是教育领域的一个基本概念和范畴。合作的主体是人,对合作的科学理解必然建立在对人类认知进行把握的基础之上。文章从认知的具身观点出发,对合作“何以必要”与“如何可能”这两个基本问题进行了新探索;同时,对合作过程中“共... “合作”是教育领域的一个基本概念和范畴。合作的主体是人,对合作的科学理解必然建立在对人类认知进行把握的基础之上。文章从认知的具身观点出发,对合作“何以必要”与“如何可能”这两个基本问题进行了新探索;同时,对合作过程中“共同理解”和“共同行动”的心理机制做出了新解释,即学习者自身的内部前向模型之间发生碰撞后产生“共鸣”,以“共同理解”作为粘合剂形成联合行动空间,进而达成“共同行动”。在此基础上,文章基于认知的具身观点,结合维果茨基的社会历史文化观,探讨了技术作为工具中介在这一心理机制中的作用;同时,通过揭示合作过程中的双向建构,回答了“如何以技术的具身实现具身的合作与合作的具身”此问题,这为理解和实现在教育中以认知的具身观点为基础、通过技术的具身走向更好的合作提供了指南。 展开更多
关键词 具身认知 内部前向模型 联合行动空间 经典认知科学 工具中介
在线阅读 下载PDF
基于深度强化学习的未知移动目标轨迹预测方法
13
作者 朱峰 孙袁星 +1 位作者 毛亿 施晓东 《黑龙江大学自然科学学报》 2025年第5期590-602,共13页
针对城市建筑群中未知移动目标的轨迹预测难题,提出一种基于柔性动作-评价(Soft actor-critic,SAC)算法改进的轨迹预测方法。构建了无线传感器网络(Wireless sensor network,WSN)模型以监测环境中未知移动目标的位置、速度与加速度等信... 针对城市建筑群中未知移动目标的轨迹预测难题,提出一种基于柔性动作-评价(Soft actor-critic,SAC)算法改进的轨迹预测方法。构建了无线传感器网络(Wireless sensor network,WSN)模型以监测环境中未知移动目标的位置、速度与加速度等信息,并通过动态激活无线传感网节点的方式降低能量损失。接着优化SAC算法模型,通过在Actor网络中增加长短期记忆(Long short-term memory,LSTM)网络层使得算法面对复杂城市环境能够更好决策。此外,通过将动作空间解耦为离散动作空间集和连续动作空间集,实现节点动态激活和车辆轨迹预测双重任务需求的满足。最终与三种基线算法SAC、深度Q网络(Deep Q-network,DQN)和深度确定性策略梯度(Deep deterministic policy gradient,DDPG)作性能比较,实验结果表明,本算法在预测误差、收敛步数和学习效率方面均优于基线算法。根据动态激活节点模块绘制能耗对比图,发现相比全部激活的模式能够降低66%的能量损耗,证明了其在实际应用中的可行性和可靠性。 展开更多
关键词 轨迹预测 动作空间解耦 节点激活 SAC算法 长短期记忆网络 无线传感网络
在线阅读 下载PDF
SDWN中基于多智能体图强化学习的多对多通信路由方法 被引量:1
14
作者 文鹏 叶苗 +2 位作者 王勇 何倩 仇洪冰 《电子学报》 北大核心 2025年第6期1885-1905,共21页
多对多通信路由问题是NP(Nondeterministic Polynomial time)难的组合优化问题,构建出高效的多对多通信路由路径还需及时获取全局网络状态信息以适应网络状态高度动态变化的特点.本文在软件定义无线网络(Software-Defined Wireless Netw... 多对多通信路由问题是NP(Nondeterministic Polynomial time)难的组合优化问题,构建出高效的多对多通信路由路径还需及时获取全局网络状态信息以适应网络状态高度动态变化的特点.本文在软件定义无线网络(Software-Defined Wireless Networks,SDWN)场景中针对现有数据驱动的多智能体深度强化学习方法存在计算和部署成本高、难以适应非欧结构特点的网络拓扑的问题,并且训练过程中无效动作过多会增加存储空间和时间开销以及收敛速度慢,本文设计了一种SDN控制平面和数据平面进行协同感知与智能决策的新框架,并针对多对多通信路由问题设计了一种两阶段的多智能体路由方法(基于智能节点部署策略的多智能体图强化学习方法:MAGDS-M2M).为了降低在每个节点上都部署智能体所带来的计算和部署成本,设计了一种基于Q-学习的智能节点部署算法来确定需要部署智能体的网络节点;在完成多智能体部署后,在Actor-Critic(AC)框架下设计了一种基于多智能体图强化学习的多对多路由决策方法,基于图卷积网络(Graph Convolutional Networks,GCN)和图神经网络(Graph Neural Networks,GNN)重新设计Actor和Critic网络,解决了现有多智能体强化学习方法中卷积神经网络(Convolutional Neural Networks,CNN)对拓扑结构数据适应能力比较弱的问题;此外,为解决Actor网络固定长度的动作空间在训练过程中产生大量无效动作的问题,设计了一种新的动作空间局部观测方法.实验结果表明所提出的方法相比于基准实验降低了29.33%任务完成时延,并且验证了可以通过调节参数使任务完成的时延和各节点累计能耗标准差之间达到平衡.本文所做工作源代码已提交至开源平台https://github.com/GuetYe/MAGDS-M2M. 展开更多
关键词 多对多通信 智能节点部署 多智能体图强化学习 动作空间局部观测方法 软件定义无线网络
在线阅读 下载PDF
面向参数化动作空间的多智能体中心化策略梯度分解及其应用 被引量:2
15
作者 田树聪 谢愈 +2 位作者 张远龙 周正春 高阳 《软件学报》 北大核心 2025年第2期590-607,共18页
近年来,多智能体强化学习方法凭借AlphaStar、AlphaDogFight、AlphaMosaic等成功案例展示出卓越的决策能力以及广泛的应用前景.在真实环境的多智能体决策系统中,其任务的决策空间往往是同时具有离散型动作变量和连续型动作变量的参数化... 近年来,多智能体强化学习方法凭借AlphaStar、AlphaDogFight、AlphaMosaic等成功案例展示出卓越的决策能力以及广泛的应用前景.在真实环境的多智能体决策系统中,其任务的决策空间往往是同时具有离散型动作变量和连续型动作变量的参数化动作空间.这类动作空间的复杂性结构使得传统单一针对离散型或连续型的多智能体强化学习算法不在适用,因此研究能用于参数化动作空间的多智能体强化学习算法具有重要的现实意义.提出一种面向参数化动作空间的多智能体中心化策略梯度分解算法,利用中心化策略梯度分解算法保证多智能体的有效协同,结合参数化深度确定性策略梯度算法中双头策略输出实现对参数化动作空间的有效耦合.通过在Hybrid Predator-Prey场景中不同参数设置下的实验结果表明该算法在经典的多智能体参数化动作空间协作任务上具有良好的性能.此外,在多巡航导弹协同突防场景中进行算法效能验证,实验结果表明该算法在多巡航导弹突防这类具有高动态、行为复杂化的协同任务中有效性和可行性. 展开更多
关键词 参数化动作空间 多智能体强化学习 中心化策略梯度分解 多巡航导弹突防
在线阅读 下载PDF
飞行汽车多模态任务路径高效学习规划方法
16
作者 赵靖 杨超 +2 位作者 王伟达 李颖 项昌乐 《汽车工程》 北大核心 2025年第11期2070-2082,共13页
飞行汽车在城市交通、救援运输等领域备受关注。高效的多模态任务路径规划有效提高其在上述领域中的作业效率。为此,本文提出一种用于飞行汽车多模态任务路径规划的高效学习方法。首先,优化了飞行汽车的动作空间,保留起飞、降落及朝向... 飞行汽车在城市交通、救援运输等领域备受关注。高效的多模态任务路径规划有效提高其在上述领域中的作业效率。为此,本文提出一种用于飞行汽车多模态任务路径规划的高效学习方法。首先,优化了飞行汽车的动作空间,保留起飞、降落及朝向目标位置方向的动作,同时设计了一种针对非目标方向动作的概率选择机制。其次,考虑飞行汽车的空地协同特点,设计一种新型的Q-learning奖励函数,并提出一种针对历史最优路径经验的奖励增强机制。最后,提出一种路径平滑方法,获得一条光滑连续的空地协同任务路径。研究结果表明:所提方法规划的多模态路径依次比A*、Q-learning和D*Lite所规划的多模态路径减少了10.35、126.75和162.10 m的运行距离。在学习效率方面,所提方法比Q-learning缩短了45.97%的学习时间。 展开更多
关键词 飞行汽车 多模态任务路径规划 动作空间 奖励函数 路径平滑
在线阅读 下载PDF
A Contribution to the DLF-Theory: On Singularities of the SU(2,2)-Action in U(1,1)
17
作者 Alexander Levichev 《Journal of Modern Physics》 2016年第15期1963-1971,共10页
Segal’s chronometric theory is based on a space-time D, which might be viewed as a Lie group with a causal structure defined by an invariant Lorentzian form on the Lie algebra u(2). Similarly, the space-time F is rea... Segal’s chronometric theory is based on a space-time D, which might be viewed as a Lie group with a causal structure defined by an invariant Lorentzian form on the Lie algebra u(2). Similarly, the space-time F is realized as the Lie group with a causal structure defined by an invariant Lorentzian form on u(1,1). Two Lie groups G, GF are introduced as representations of SU(2,2): they are related via conjugation by a certain matrix Win Gl(4). The linear-fractional action of G on D is well-known to be global, conformal, and it plays a crucial role in the analysis on space-time bundles carried out by Paneitz and Segal in the 1980’s. This analysis was based on the parallelizing group U(2). In the paper, singularities’ general (“geometric”) description of the linear-fractional conformal GF-action on F is given and specific examples are presented. The results call for the analysis of space-time bundles based on U(1,1) as the parallelizing group. Certain key stages of such an analysis are suggested. 展开更多
关键词 Parallelizations of space-Time Bundles Segal’s Cosmos Conformal Group actions in U(2) and in U(1 1)
在线阅读 下载PDF
社区自我解压的策略与空间——以浙北D社区为例 被引量:1
18
作者 陈国强 《天津行政学院学报》 北大核心 2025年第2期50-60,共11页
在我国全面推进治理体系与治理能力现代化的过程中,出现了更多事务向社区下沉的现象。这使得原来社区“负担”过重的问题进一步凸显。相较于多年来主张为社区减负而不得的状况,社区却在这种局面下依然维持着有序运行。针对这一“反常”... 在我国全面推进治理体系与治理能力现代化的过程中,出现了更多事务向社区下沉的现象。这使得原来社区“负担”过重的问题进一步凸显。相较于多年来主张为社区减负而不得的状况,社区却在这种局面下依然维持着有序运行。针对这一“反常”现象,有必要对“社区压力过大”这一问题进行重新审视。从对浙北D社区的案例分析中发现,社区掌握着一套诸如“统筹开展”“压力转移”“罚不责众”等策略,使其较好化解了任务压力;但同时,这些行为的运作空间正在逼近极限,甚至一些社区已出现非常规、非规范的解决方式。这是社区表面有序运行下所发出的警示信号,需要引起更大的重视。 展开更多
关键词 社区 自我解压 社区治理 行动策略 行动空间
在线阅读 下载PDF
基于强化学习的灾区应急无人机网络服务公平性最大化方案
19
作者 李槐城 彭舰 +2 位作者 黄文 沈群力 廖思睿 《计算机应用研究》 北大核心 2025年第8期2452-2459,共8页
现有研究无人机灾区应急通信服务的方法在全局环境信息下优化网络性能,存在组网效率低和资源分配不均衡的问题,在灾区环境下难以维持平衡的通信服务,导致部分用户无法被及时救援。针对上述不足,提出并解决了无人机通信质量最大化问题:... 现有研究无人机灾区应急通信服务的方法在全局环境信息下优化网络性能,存在组网效率低和资源分配不均衡的问题,在灾区环境下难以维持平衡的通信服务,导致部分用户无法被及时救援。针对上述不足,提出并解决了无人机通信质量最大化问题:将问题建模为部分观测马尔可夫决策过程(partially observable Markov decision process,POMDP),设计基于深度强化学习的路径规划和资源分配方法,建立以网络吞吐量为服务质量指标,Jain’s公平性指数为均衡性准则的评估体系。设计基于目标解耦的奖励函数机制,构建参数化深度图强化学习网络,实现无人机轨迹规划与资源分配的联合优化。在16种不同条件的仿真环境下进行对比实验,该方法的性能优于其他四种方法,在公平性指标上较现有方法提升9.6%,并在不同指标上均验证了方法的有效性。 展开更多
关键词 无人机通信控制 公平性指数 深度强化学习 混合动作空间
在线阅读 下载PDF
基于动作空间扩展与奖励塑造的强化学习知识推理
20
作者 李鸿鹏 赵刚 《计算机工程与设计》 北大核心 2025年第7期1898-1904,共7页
为缓解知识图谱中数据稀疏导致推理路径缺失的问题,提出一种基于动作空间扩展和奖励塑造的强化学习知识推理方法。在知识表示模块,将知识图谱中的实体和关系映射到含有三元组语义和结构信息的向量空间中,建立强化学习环境;在强化学习模... 为缓解知识图谱中数据稀疏导致推理路径缺失的问题,提出一种基于动作空间扩展和奖励塑造的强化学习知识推理方法。在知识表示模块,将知识图谱中的实体和关系映射到含有三元组语义和结构信息的向量空间中,建立强化学习环境;在强化学习模块,提出一种动作空间扩展方法,通过引入先验知识,考虑实体间语义信息,寻找关联度最高的关系-实体作为头实体的扩充动作空间,提高路径的连通性。提出奖励塑造方法,设计路径长度奖励和路径重复负向奖励,鼓励智能体选择更加可靠和多样化的关系路径,进一步提升模型效果。实验结果表明,该模型在知识推理的链接预测和事实预测任务中,性能优于大部分现有模型。 展开更多
关键词 知识图谱 知识图谱推理 强化学习 知识表示 动作空间扩展 奖励塑造 K近邻算法
在线阅读 下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部