期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
OSCILLATION AND ASYMPTOTIC BEHAVIOR OF SOME SECOND-ORDER RETARDED DIFFERENTIAL EQUATIONS
1
作者 王明新 张秦 《Acta Mathematica Scientia》 SCIE CSCD 1991年第4期433-441,共9页
In this paper, we consider the following second order retarded differential equations x″(t)+cx′(t)=qx(t-σ)-lx(t-δ) (1) x″(t)+p(t)x(t-τ)=0 (2) We give some sufficient conditions for the oscillation of all solutio... In this paper, we consider the following second order retarded differential equations x″(t)+cx′(t)=qx(t-σ)-lx(t-δ) (1) x″(t)+p(t)x(t-τ)=0 (2) We give some sufficient conditions for the oscillation of all solutions of Eq. (1) in the case where q, ι, σ, δ are positive numbers and c is a real number. And also, we study the asymptotic behavior of the nonoscillatory solutions. If necessary, we give some examples to illustrate our results. At last, we study Eq. (2) with some conditions on p(t). 展开更多
关键词 OSCILLATION AND ASYMPTOTIC behavior OF SOME second-order RETARDED DIFFERENTIAL EQUATIONS
在线阅读 下载PDF
DISCUSSION ON″THE BOUNDEDNESS AND ASYMPTOTIC BEHAVIOR OR SOLUTION DIFFERENTIAL SYSTEM OF SECOND-ORDER WITH VARIABLE COEFFICIENT" (App1ied Mathematics and Mechanics,Vo1.3,No.4,1982)
2
作者 毛士忠 《Applied Mathematics and Mechanics(English Edition)》 SCIE EI 1984年第3期1419-1423,共5页
After reading the article "The Boundedness and Asymptotic Behavior of Solution of Differential System of Second-Order with Variable Coefficient" in "Applied Mathematics and Mechanics", Vol. 3, No. ... After reading the article "The Boundedness and Asymptotic Behavior of Solution of Differential System of Second-Order with Variable Coefficient" in "Applied Mathematics and Mechanics", Vol. 3, No. 4, 1982, we would like to put forward a few points to discuss with the author and the readers. Our opinions are presented as follows: 展开更多
关键词 DISCUSSION ON THE BOUNDEDNESS AND ASYMPTOTIC behavior OR SOLUTION DIFFERENTIAL SYSTEM OF second-order WITH VARIABLE COEFFICIENT App1ied Mathematics and Mechanics Vo1.3 No.4 1982
在线阅读 下载PDF
Oscillation of Second-Order Half-Linear Neutral Advanced Differential Equations
3
作者 Shan Shi Zhenlai Han 《Communications on Applied Mathematics and Computation》 2021年第3期497-508,共12页
The purpose of this paper is to study the oscillation of second-order half-linear neutral differential equations with advanced argument of the form(r(t)((y(t)+p(t)y(τ(t)))')^(α))'+q(t)yα(σ(t))=0,t≥t_(0),w... The purpose of this paper is to study the oscillation of second-order half-linear neutral differential equations with advanced argument of the form(r(t)((y(t)+p(t)y(τ(t)))')^(α))'+q(t)yα(σ(t))=0,t≥t_(0),when∫^(∞)r^(−1/α)(s)ds<∞.We obtain sufficient conditions for the oscillation of the studied equations by the inequality principle and the Riccati transformation.An example is provided to illustrate the results. 展开更多
关键词 Oscillation theory second-order differential equations NEUTRAL Advanced argument Asymptotic behavior
在线阅读 下载PDF
堆叠覆盖环境下的深度强化学习机械臂避障抓取方法
4
作者 禹鑫燚 周晨 +2 位作者 俞俊鑫 曹铭洲 欧林林 《高技术通讯》 北大核心 2025年第3期284-296,共13页
堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop fo... 堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。 展开更多
关键词 堆叠覆盖环境 避障抓取 图像编码器 深度强化学习 二次行为克隆
在线阅读 下载PDF
基于改进行为克隆算法的机器人运动控制策略 被引量:1
5
作者 黄小霞 阳波 +4 位作者 向鑫 陈灵 陈中祥 孙舜尧 肖宏峰 《计算机应用研究》 北大核心 2025年第6期1668-1675,共8页
针对机器人在双臂协同插孔等精细操作中运动控制策略训练复杂、路径规划执行不够高效和精确的问题,提出了一种基于多尺度特征金字塔和注意力机制的改进机器人行为克隆算法。结合残差网络和特征金字塔设计backbone网络以提取并融合多尺... 针对机器人在双臂协同插孔等精细操作中运动控制策略训练复杂、路径规划执行不够高效和精确的问题,提出了一种基于多尺度特征金字塔和注意力机制的改进机器人行为克隆算法。结合残差网络和特征金字塔设计backbone网络以提取并融合多尺度图像特征,加强机器人的环境感知和视觉反馈能力;引入动作分块模块以提升控制策略的准确和平滑,降低行为克隆中的复合误差;基于注意力机制将控制策略训练成为条件变分自编码器(CVAE)以学习示教数据分布和捕获图像特征与动作的相关性,从而提高策略的泛化能力和面对陌生环境的适应性及创造性。仿真结果表明,所提算法在两个精细操作任务中的成功率和轨迹平滑显著优于其他五个基线模型,充分证明了该算法能够通过简单训练精确地执行机器人精细操作任务。 展开更多
关键词 机器人精细操作 运动控制策略 行为克隆 动作序列
在线阅读 下载PDF
基于行为克隆和奖励重构的AGV路径规划算法 被引量:1
6
作者 罗磊 赵宁 任成栋 《计算机集成制造系统》 北大核心 2025年第10期3744-3761,共18页
针对使用强化学习算法解决移动机器人拣选系统(RMFS)中AGV路径规划所存在的数据利用效率低、有效数据采集困难的问题,提出一种结合行为克隆方法和奖励重构方法的新的强化学习训练框架,来提升神经网络的训练效果。行为克隆方法通过监督... 针对使用强化学习算法解决移动机器人拣选系统(RMFS)中AGV路径规划所存在的数据利用效率低、有效数据采集困难的问题,提出一种结合行为克隆方法和奖励重构方法的新的强化学习训练框架,来提升神经网络的训练效果。行为克隆方法通过监督学习的方式,让神经网络直接学习专家经验,来迅速提升神经网络的决策能力;奖励重构方法通过更加精细的奖励值函数设计,来提升强化学习的训练效果。实验表明,同时使用行为克隆方法与奖励重构方法的强化学习过程,其训练效果远优于标准的强化学习算法(既不使用行为克隆方法也不使用奖励重构方法)。 展开更多
关键词 移动机器人拣选系统 自动导引小车 路径规划 策略梯度算法 行为克隆 奖励重构
在线阅读 下载PDF
部分未知环境下基于行为克隆与改进DQN的AUV路径规划
7
作者 邢丽静 李敏 +2 位作者 曾祥光 张萍 彭倍 《系统仿真学报》 北大核心 2025年第11期2754-2767,共14页
针对部分未知环境下单个自主水下航行器(autonomous underwater vehicle,AUV)的DQN动态路径规划算法存在随机性大及收敛慢的问题,提出一种融合行为克隆、A*算法与DQN的路径规划方法(behavior cloning with A*algorithm and DQN,BA_DQN)... 针对部分未知环境下单个自主水下航行器(autonomous underwater vehicle,AUV)的DQN动态路径规划算法存在随机性大及收敛慢的问题,提出一种融合行为克隆、A*算法与DQN的路径规划方法(behavior cloning with A*algorithm and DQN,BA_DQN)。基于已知的环境信息,提出一种结合海洋洋流阻力的改进A*算法来引导DQN,从而减小DQN算法的随机性;考虑到海洋环境复杂,在扩张积极经验池之后再次改进采样概率来提高训练成功率;针对DQN收敛慢的问题,提出一种先强化学习后行为克隆的改进算法。使用BA_DQN算法来控制AUV寻路,并在不同任务场景下开展仿真实验。仿真结果表明:BA_DQN算法比DQN算法的训练时间更短,比A*算法的决策更快,航行用时更短。 展开更多
关键词 自主水下航行器 路径规划 A*算法 强化学习 行为克隆
原文传递
基于行为克隆的机械臂多智能体深度强化学习轨迹跟踪控制 被引量:1
8
作者 易佳豪 王福杰 +3 位作者 胡锦涛 秦毅 郭芳 罗俊轩 《计算机应用研究》 北大核心 2025年第4期1025-1033,共9页
针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性... 针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient algorithm,TD3)为基底算法的比例积分微分智能体(proportional-integral-derivative agent,PID agent)和直接用深度强化学习策略输出扭矩的智能体(direct deep reinforcement learning agent,DDR agent),并采用两个奖励函数来优化两个agent的策略网络。PID agent用于输出PID控制器的参数,再由PID控制器输出力矩控制机械臂以增加控制器的跟踪泛性,DDR agent则直接输出扭矩增加控制器的抗干扰性。为了克服多智能体训练难度高的问题,在训练中引入行为克隆技术,利用PID控制器的专家经验对PID agent进行预训练,形成预策略在训练初期就可以输出较合适的PID参数,增加有效经验来加速训练过程的奖励收敛。为了验证方法的有效性,通过欧拉拉格朗日建模二自由度机械臂,并在具有干扰的多种环境下进行仿真实验对比。实验结果表明,所提算法在具有随机干扰环境以及与训练轨迹不同的跟踪轨迹中都具有最好的跟踪效果,验证了所提算法的有效性。 展开更多
关键词 多智能体 孪生延迟深度确定性策略梯度 深度强化学习 轨迹跟踪 行为克隆
在线阅读 下载PDF
结合动态缓冲池和时间递减约束的离线到在线强化学习
9
作者 闫雷鸣 朱永昕 刘健 《计算机系统应用》 2025年第5期14-23,共10页
离线到在线强化学习中,虽然智能体能够通过预先收集的离线数据进行初步策略学习,但在线微调阶段,早期过程常常表现出不稳定性,且微调结束后,性能提升幅度较小.针对这一问题,提出了两种关键设计:1)模拟退火的动态离线-在线缓冲池;2)模拟... 离线到在线强化学习中,虽然智能体能够通过预先收集的离线数据进行初步策略学习,但在线微调阶段,早期过程常常表现出不稳定性,且微调结束后,性能提升幅度较小.针对这一问题,提出了两种关键设计:1)模拟退火的动态离线-在线缓冲池;2)模拟退火的行为约束衰减.第1种设计在训练过程中利用模拟退火思想动态选择离线数据或者在线交互经验,获得优化的更新策略,动态平衡在线训练的稳定性和微调性能;第2种设计通过带降温机制的行为克隆约束,改善微调早期使用在线经验更新导致的性能突降,在微调后期逐渐放松约束,促进模型性能提升.实验结果表明,所提出的结合动态缓冲池和时间递减约束的离线到在线强化学习(dynamic replay buffer and time decaying constraints,DRB-TDC)算法在Halfcheetah、Hopper、Walker2d这3个经典MuJoCo测试任务中,在线微调训练后性能分别提升45%、65%、21%,所有任务的平均归一化得分比最优基线算法提升10%. 展开更多
关键词 深度强化学习 离线到在线强化学习 模拟退火 动态缓冲池 行为克隆约束
在线阅读 下载PDF
基于混合模仿学习的多智能体追捕决策方法
10
作者 王焱宁 张锋镝 +1 位作者 肖登敏 孙中奇 《计算机科学》 北大核心 2025年第1期323-330,共8页
针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GA... 针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GAIL)方法与时序差分误差行为克隆(Temporal-Difference Error Behavioral Cloning, TD-BC)技术,构建了一种混合模仿学习框架。该框架不仅可以增强模型对复杂多变的专家策略的适应能力,还能够提升模型从低质量数据中提炼有用信息的鲁棒性。框架得到的模型具备直接应用于强化学习的能力,仅需经过细微的调整与优化,即可训练出一个直接可用的、基于专家经验的强化学习模型。在二维动静结合的目标追捕场景中进行了实验验证,该方法展现出良好的性能。结果表明,所提方法可以吸取专家经验,为后续的强化学习训练阶段提供一个起点高、效果佳的初始模型。 展开更多
关键词 智能决策 强化学习 行为克隆 生成对抗模仿学习
在线阅读 下载PDF
基于BC-MAAC算法的高速入口匝道合并类人决策
11
作者 于镝 张昌文 +1 位作者 熊双双 刘朋友 《计算机应用研究》 北大核心 2025年第1期117-124,共8页
针对在自动驾驶复杂环境下多智能体强化学习算法决策缺乏人类表现出的智能性和奖励函数设计难度大的问题,提出基于BC-MAAC算法的高速入口匝道合并类人决策方案。将行为克隆思想与多智能体注意力动作—评价算法相融合,提出BC-MAAC算法,... 针对在自动驾驶复杂环境下多智能体强化学习算法决策缺乏人类表现出的智能性和奖励函数设计难度大的问题,提出基于BC-MAAC算法的高速入口匝道合并类人决策方案。将行为克隆思想与多智能体注意力动作—评价算法相融合,提出BC-MAAC算法,并且从Highway-env平台收集的多智能体专家数据中推导出专家策略,利用推导的专家策略与智能体当前策略的KL散度来塑造奖励函数,指导智能体训练过程。同时,应用动作屏蔽机制,在每一步过滤掉不安全或无效的动作,提高学习效率。两种不同交通密度场景的仿真结果表明所提算法整体性能优于基线算法,提升了车辆的通行效率和安全性。简单模式中,所提算法的成功率达到100%,平均速度和平均奖励分别至少提升0.73%和11.14%;困难模式中,所提算法的成功率达到93.40%,平均速度和平均奖励分别至少提升3.96%和12.23%。可见BC-MAAC算法通过专家奖励函数指导网联自动驾驶车辆,能够通过合作更类人的完成高速入口匝道合并任务。 展开更多
关键词 网联自动驾驶车辆 智能决策 高速入口匝道合并 行为克隆 多智能体强化学习
在线阅读 下载PDF
Multi-agent reinforcement learning behavioral control for nonlinear second-order systems
12
作者 Zhenyi ZHANG Jie HUANG Congjie PAN 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2024年第6期869-886,共18页
Reinforcement learning behavioral control(RLBC)is limited to an individual agent without any swarm mission,because it models the behavior priority learning as a Markov decision process.In this paper,a novel multi-agen... Reinforcement learning behavioral control(RLBC)is limited to an individual agent without any swarm mission,because it models the behavior priority learning as a Markov decision process.In this paper,a novel multi-agent reinforcement learning behavioral control(MARLBC)method is proposed to overcome such limitations by implementing joint learning.Specifically,a multi-agent reinforcement learning mission supervisor(MARLMS)is designed for a group of nonlinear second-order systems to assign the behavior priorities at the decision layer.Through modeling behavior priority switching as a cooperative Markov game,the MARLMS learns an optimal joint behavior priority to reduce dependence on human intelligence and high-performance computing hardware.At the control layer,a group of second-order reinforcement learning controllers are designed to learn the optimal control policies to track position and velocity signals simultaneously.In particular,input saturation constraints are strictly implemented via designing a group of adaptive compensators.Numerical simulation results show that the proposed MARLBC has a lower switching frequency and control cost than finite-time and fixed-time behavioral control and RLBC methods. 展开更多
关键词 Reinforcement learning behavioral control second-order systems Mission supervisor
原文传递
基于行为克隆TD3强化学习的低碳园区柔性资源优化策略
13
作者 舒展 孙旻 +3 位作者 吴越 万子镜 段伟男 彭春华 《电力系统保护与控制》 北大核心 2025年第3期95-107,共13页
园区作为我国产业聚集地,是我国二氧化碳排放的重要来源,优先在园区实现碳中和是助力我国达成“双碳”目标的重要举措。通过对园区综合能源系统供能侧加入电解槽-掺氢燃气轮机碳捕集进行低碳化改造,同时考虑含储能侧、供能侧、用能侧多... 园区作为我国产业聚集地,是我国二氧化碳排放的重要来源,优先在园区实现碳中和是助力我国达成“双碳”目标的重要举措。通过对园区综合能源系统供能侧加入电解槽-掺氢燃气轮机碳捕集进行低碳化改造,同时考虑含储能侧、供能侧、用能侧多类型柔性资源构建低碳园区综合能源系统。为对该园区综合能源系统中各类柔性资源进行高效的在线低碳经济优化调度,提出采用考虑行为克隆的TD3强化学习算法对低碳园区综合能源系统进行离线训练和在线优化求解。最后,通过算例仿真验证了所提优化策略的优越性。 展开更多
关键词 园区综合能源系统 多类型柔性资源 强化学习 行为克隆 低碳经济调度
在线阅读 下载PDF
NUMERICAL METHOD OF MIXED FINITE VOLUME-MODIFIED UPWIND FRACTIONAL STEP DIFFERENCE FOR THREE-DIMENSIONAL SEMICONDUCTOR DEVICE TRANSIENT BEHAVIOR PROBLEMS 被引量:5
14
作者 袁益让 杨青 +1 位作者 李长峰 孙同军 《Acta Mathematica Scientia》 SCIE CSCD 2017年第1期259-279,共21页
Transient behavior of three-dimensional semiconductor device with heat conduc- tion is described by a coupled mathematical system of four quasi-linear partial differential equations with initial-boundary value conditi... Transient behavior of three-dimensional semiconductor device with heat conduc- tion is described by a coupled mathematical system of four quasi-linear partial differential equations with initial-boundary value conditions. The electric potential is defined by an ellip- tic equation and it appears in the following three equations via the electric field intensity. The electron concentration and the hole concentration are determined by convection-dominated diffusion equations and the temperature is interpreted by a heat conduction equation. A mixed finite volume element approximation, keeping physical conservation law, is used to get numerical values of the electric potential and the accuracy is improved one order. Two con- centrations and the heat conduction are computed by a fractional step method combined with second-order upwind differences. This method can overcome numerical oscillation, dispersion and decreases computational complexity. Then a three-dimensional problem is solved by computing three successive one-dimensional problems where the method of speedup is used and the computational work is greatly shortened. An optimal second-order error estimate in L2 norm is derived by using prior estimate theory and other special techniques of partial differential equations. This type of mass-conservative parallel method is important and is most valuable in numerical analysis and application of semiconductor device. 展开更多
关键词 three dimensional transient behavior of heat conduction problem mixed finitevolume element modified upwind fractional step difference second-order error
在线阅读 下载PDF
Bidirectional Clone Node Model of Optimizing Performance of Structured P2P Overlay Network 被引量:1
15
作者 Zhang Yu Hao Ying +1 位作者 Ye Xinxin Li Yongzhen 《China Communications》 SCIE CSCD 2012年第4期123-129,共7页
In order to reduce the maintenance cost of structured Peer-to-Peer (P2P),Clone Node Protocol (CNP) based on user behavior is proposed.CNP considers the regularity of user behavior and uses the method of clone node.A B... In order to reduce the maintenance cost of structured Peer-to-Peer (P2P),Clone Node Protocol (CNP) based on user behavior is proposed.CNP considers the regularity of user behavior and uses the method of clone node.A Bidirectional Clone Node Chord model (BCNChord) based on CNP protocol is designed and realized.In BCNChord,Anticlockwise Searching Algorithm,Difference Push Synchronize Algorithm and Optimal Maintenance Algorithm are put forward to increase the performances.In experiments,according to the frequency of nodes,the maintenance cost of BCNChord can be 3.5%~32.5% lower than that of Chord.In the network of 212 nodes,the logic path hop is steady at 6,which is much more prior to 12 of Chord and 10 of CNChord.Theoretical analysis and experimental results show that BCNChord can effectively reduce the maintenance cost of its structure and simultaneously improve the query efficiency up to (1/4)O(logN).BCNChord is more suitable for highly dynamic environment and higher real-time system. 展开更多
关键词 structured P2P user behavior clone node protocol maintenance cost
在线阅读 下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:3
16
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSSCI CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
在线阅读 下载PDF
基于深度强化学习的无信号灯路口决策研究 被引量:3
17
作者 傅明建 郭福强 《计算机工程》 CAS CSCD 北大核心 2024年第5期91-99,共9页
无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函... 无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAMBC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。 展开更多
关键词 深度强化学习 自动驾驶 模仿学习 行为克隆 驾驶决策
在线阅读 下载PDF
基于行为克隆的高通量卫星通信频谱资源分配 被引量:4
18
作者 秦浩 李双益 +2 位作者 赵迪 孟昊炜 宋彬 《通信学报》 EI CSCD 北大核心 2024年第5期101-114,共14页
为应对在高通量多波束卫星系统中,随着波束数量和用户规模的扩大,频谱资源分配问题的维度急剧增加和求解复杂度呈指数级上升这一挑战,提出了一种结合行为克隆与深度强化学习的两阶段算法。第一阶段基于行为克隆,利用已有卫星资源分配决... 为应对在高通量多波束卫星系统中,随着波束数量和用户规模的扩大,频谱资源分配问题的维度急剧增加和求解复杂度呈指数级上升这一挑战,提出了一种结合行为克隆与深度强化学习的两阶段算法。第一阶段基于行为克隆,利用已有卫星资源分配决策数据对策略网络进行预训练,通过模仿专家行为减少盲目探索,加快算法收敛。第二阶段基于近端策略优化,进一步优化策略网络,并通过引入卷积注意力模块有效地提取用户业务状态特征,以提升算法整体性能。仿真结果表明,所提算法在收敛速度和算法稳定性方面均优于其他基准算法,并在系统时延、系统平均满意度和频谱效率等性能指标上表现更佳。 展开更多
关键词 高通量卫星 行为克隆 深度强化学习 近端策略优化 卷积注意力模块
在线阅读 下载PDF
软件Agent的继承性研究 被引量:3
19
作者 樊晓聪 徐殿祥 +1 位作者 侯建民 郑国梁 《软件学报》 EI CSCD 北大核心 1999年第11期1132-1137,共6页
Agent作为一种受限的智能对象,对Agent的继承权性进行深入研究并将继承机制嵌入到AOP(agent-orientedprogramming)中则具有重要意义.文章基于BDIAgent模型,对软件Agent的继承性和复制行为进行了研究。从单继承和多继承两个方面给... Agent作为一种受限的智能对象,对Agent的继承权性进行深入研究并将继承机制嵌入到AOP(agent-orientedprogramming)中则具有重要意义.文章基于BDIAgent模型,对软件Agent的继承性和复制行为进行了研究。从单继承和多继承两个方面给成了Agent继承的语义,将Agent实例的动态复制机制形式地划分为功能分割、逻辑分割、择优分割和返祖分割这4类,分析了每类分割方式的作用,并基于电子市场系统应用背景给出了相应的实例. 展开更多
关键词 软件 人工智能 继承性 BDI模型
在线阅读 下载PDF
一种用于机械臂拟人化控制的学习框架 被引量:2
20
作者 赵亮 杨铁 +1 位作者 于鹏 杨洋 《机器人》 EI CSCD 北大核心 2023年第5期513-522,共10页
赋予机器人拟人化的动作可以使机器人的行为更具可解释性和可预测性,可以显著提升人机协作任务的质量和安全性。本文提出一个“人在回路”学习框架,从人类遥操作示教中学习拟人化姿态特征,并将学习到的特征模型应用于冗余机械臂的控制... 赋予机器人拟人化的动作可以使机器人的行为更具可解释性和可预测性,可以显著提升人机协作任务的质量和安全性。本文提出一个“人在回路”学习框架,从人类遥操作示教中学习拟人化姿态特征,并将学习到的特征模型应用于冗余机械臂的控制中产生拟人化动作。在模型训练过程中采用“人在回路”的在线再标注方法,克服了协变量偏移问题,将总示教时间缩减至10 min以内。人机姿态对比和动态轨迹跟踪任务实验验证了该框架训练得到的拟人化控制方法的有效性。用户评价测试表明,使用拟人化姿态约束的机械臂在主观体验方面对用户更加友好,作为共同作业的工具更容易被非专业用户所接受。 展开更多
关键词 拟人化控制 行为克隆 人机交互 遥操作 外骨骼
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部