期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
A geospatial service composition approach based on MCTS with temporal-difference learning
1
作者 Zhuang Can Guo Mingqiang Xie Zhong 《High Technology Letters》 EI CAS 2021年第1期17-25,共9页
With the complexity of the composition process and the rapid growth of candidate services,realizing optimal or near-optimal service composition is an urgent problem.Currently,the static service composition chain is ri... With the complexity of the composition process and the rapid growth of candidate services,realizing optimal or near-optimal service composition is an urgent problem.Currently,the static service composition chain is rigid and cannot be easily adapted to the dynamic Web environment.To address these challenges,the geographic information service composition(GISC) problem as a sequential decision-making task is modeled.In addition,the Markov decision process(MDP),as a universal model for the planning problem of agents,is used to describe the GISC problem.Then,to achieve self-adaptivity and optimization in a dynamic environment,a novel approach that integrates Monte Carlo tree search(MCTS) and a temporal-difference(TD) learning algorithm is proposed.The concrete services of abstract services are determined with optimal policies and adaptive capability at runtime,based on the environment and the status of component services.The simulation experiment is performed to demonstrate the effectiveness and efficiency through learning quality and performance. 展开更多
关键词 geospatial service composition reinforcement learning(RL) Markov decision process(MDP) Monte Carlo tree search(MCTS) temporal-difference(td)learning
在线阅读 下载PDF
基于随机森林模型识别浅层地下水TDS异常的方法研究 被引量:4
2
作者 褚宴佳 何宝南 +1 位作者 陈珍 何江涛 《地学前缘》 北大核心 2025年第2期456-468,共13页
准确识别人类活动引起的地下水水化学异常对于确定地下水水化学组分的背景值,合理开展地下水污染评价至关重要。溶解性总固体(TDS)作为地下水水化学的综合指标,其值的高低直接反映了地下水水质的好坏。目前,水化学图法在地下水TDS的异... 准确识别人类活动引起的地下水水化学异常对于确定地下水水化学组分的背景值,合理开展地下水污染评价至关重要。溶解性总固体(TDS)作为地下水水化学的综合指标,其值的高低直接反映了地下水水质的好坏。目前,水化学图法在地下水TDS的异常值识别中取得了较好的效果,但是,其基本原理是基于主要离子组分构成的水化学类型异常必然导致TDS异常的假设,而进行的反向异常识别,可能存在过度识别的情况。为此,本文以沙颍河流域浅层地下水为研究对象,从TDS成因机制出发,提出了采用随机森林模型结合数理统计的正向识别方法,对研究区内浅层地下水TDS的异常值进行识别,并开展了多种方法异常值识别效果的对比研究。结果表明,机器学习法能够有效地识别出地下水TDS异常值,其识别出的地下水TDS阈值与其他方法较为一致。但相比之下,机器学习法从TDS成因机制角度识别异常,能够有效避免水化学图存在的过度识别问题,而且能够区分高、低异常,为TDS异常识别提供了另外一种有效的思路和方法,丰富了地下水环境背景值的研究思路。 展开更多
关键词 地下水环境背景值 tdS 异常值 机器学习法 沙颍河流域
在线阅读 下载PDF
TD learning,PER和Epsilon:深度学习对高等教育教学的启示
3
作者 张慧 《教育教学论坛》 2018年第31期239-241,共3页
本文从研究深度学习出发,提出深度学习在增强学习领域能被高等教育借鉴的三种重要算法:时间差分学习、优先经验回放、创新指数,通过对这些算法的具体分析,总结这些算法如何优势互补,综合运用到高等教育教学实践上,提高高等教育教学效果。
关键词 深度学习 时间差分学习 优先经验回放 创新指数
在线阅读 下载PDF
Self-Play and Using an Expert to Learn to Play Backgammon with Temporal Difference Learning
4
作者 Marco A. Wiering 《Journal of Intelligent Learning Systems and Applications》 2010年第2期57-68,共12页
A promising approach to learn to play board games is to use reinforcement learning algorithms that can learn a game position evaluation function. In this paper we examine and compare three different methods for genera... A promising approach to learn to play board games is to use reinforcement learning algorithms that can learn a game position evaluation function. In this paper we examine and compare three different methods for generating training games: 1) Learning by self-play, 2) Learning by playing against an expert program, and 3) Learning from viewing ex-perts play against each other. Although the third possibility generates high-quality games from the start compared to initial random games generated by self-play, the drawback is that the learning program is never allowed to test moves which it prefers. Since our expert program uses a similar evaluation function as the learning program, we also examine whether it is helpful to learn directly from the board evaluations given by the expert. We compared these methods using temporal difference methods with neural networks to learn the game of backgammon. 展开更多
关键词 Board GAMES Reinforcement learning td(λ) Self-Play learning From Demonstration
暂未订购
基于TD-Mask R-CNN的机械装配体图像实例分割 被引量:3
5
作者 唐若仪 陈成军 +1 位作者 王金磊 代成刚 《组合机床与自动化加工技术》 北大核心 2024年第4期135-140,共6页
在机械产品装配过程中,为了准确识别机械装配体零件信息以减少零件漏装、错装等现象,提出一种改进的机械装配体图像实例分割方法TD-Mask R-CNN。首先,在主干网络ResNet101中引入可变形卷积(deformable convolutional networks, DCN)以... 在机械产品装配过程中,为了准确识别机械装配体零件信息以减少零件漏装、错装等现象,提出一种改进的机械装配体图像实例分割方法TD-Mask R-CNN。首先,在主干网络ResNet101中引入可变形卷积(deformable convolutional networks, DCN)以增加网络模型的泛化能力;其次,使用Transfiner结构作为掩码分支以提高机械零件边缘的分割精度;最后,在Transfiner结构中引入离散余弦变换(discrete cosine transform, DCT)模块以提升模型对机械装配体图像整体的分割能力。实验结果表明,提出的实例分割方法在合成深度图像数据集和真实彩色图像数据集上得到的掩码平均精度(average precision, AP)分别为87.7%和92.0%,与其他主流实例分割算法相比均有所提升。 展开更多
关键词 深度学习 装配监测 实例分割 td-Mask R-CNN
在线阅读 下载PDF
On a novel tracking differentiator design based on iterative learning in a moving window
6
作者 Xiangyang Li Rafal Madonski +1 位作者 Zhiqiang Gao Senping Tian 《Control Theory and Technology》 EI CSCD 2023年第1期46-55,共10页
Differential signals are key in control engineering as they anticipate future behavior of process variables and therefore are critical in formulating control laws such as proportional-integral-derivative(PID).The prac... Differential signals are key in control engineering as they anticipate future behavior of process variables and therefore are critical in formulating control laws such as proportional-integral-derivative(PID).The practical challenge,however,is to extract such signals from noisy measurements and this difficulty is addressed first by J.Han in the form of linear and nonlinear tracking differentiator(TD).While improvements were made,TD did not completely resolve the conflict between the noise sensitivity and the accuracy and timeliness of the differentiation.The two approaches proposed in this paper start with the basic linear TD,but apply iterative learning mechanism to the historical data in a moving window(MW),to form two new iterative learning tracking differentiators(IL-TD):one is a parallel IL-TD using an iterative ladder network structure which is implementable in analog circuits;the other a serial IL-TD which is implementable digitally on any computer platform.Both algorithms are validated in simulations which show that the proposed two IL-TDs have better tracking differentiation and de-noise performance compared to the existing linear TD. 展开更多
关键词 Tracking differentiator(td) Iterative learning Iterative learning tracking differentiator(IL-td) Active disturbance rejection control(ADRC)-Two-dimensional system(2-D system)
原文传递
基于免疫算法的TD-SCDMA网络基站选址优化 被引量:24
7
作者 张英杰 毛赐平 +1 位作者 俎云霄 孙先佑 《通信学报》 EI CSCD 北大核心 2014年第5期44-48,共5页
针对已有3G基站选址优化算法的不足和TD-SCDMA网络的特点,提出了一种基于免疫算法的TD-SCDMA网络基站选址优化方案。建立了基站选址问题的数学模型,设计了基于反学习的种群初始化方案和精英交叉策略,给出了免疫优化算法框架。实验结果表... 针对已有3G基站选址优化算法的不足和TD-SCDMA网络的特点,提出了一种基于免疫算法的TD-SCDMA网络基站选址优化方案。建立了基站选址问题的数学模型,设计了基于反学习的种群初始化方案和精英交叉策略,给出了免疫优化算法框架。实验结果表明,该算法不仅能够以较小的建站代价获得较高的网络覆盖率,而且算法具有较好的收敛性。 展开更多
关键词 免疫算法 反学习 td-SCDMA网络 基站选址
在线阅读 下载PDF
一种二阶TD Error快速Q(λ)算法 被引量:5
8
作者 傅启明 刘全 +3 位作者 孙洪坤 高龙 李瑾 王辉 《模式识别与人工智能》 EI CSCD 北大核心 2013年第3期282-292,共11页
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法... Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 展开更多
关键词 强化学习 马尔科夫决策过程 二阶td ERROR 资格迹 Q(λ)算法
在线阅读 下载PDF
平均和折扣准则MDP基于TD(0)学习的统一NDP方法 被引量:5
9
作者 唐昊 周雷 袁继彬 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第2期292-296,共5页
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行... 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. 展开更多
关键词 MARKOV决策过程 性能势 td(0)学习 神经元动态规划
在线阅读 下载PDF
TD再励学习在卫星姿态控制中的应用 被引量:1
10
作者 刘向东 崔晓婷 +1 位作者 王华 张宇河 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第3期248-250,共3页
随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的... 随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的在线学习.仿真结果表明,这种结合再励学习的控制算法不仅可以满足对姿态控制精度的要求,有效地抵制了外界干扰,并对卫星的不确定性有较强的鲁棒性. 展开更多
关键词 模糊神经网络 再励学习 时差法(td)
在线阅读 下载PDF
基于TD学习的网格资源预测方法 被引量:1
11
作者 张树东 曹元大 廖乐键 《计算机工程》 EI CAS CSCD 北大核心 2005年第21期17-18,68,共3页
提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算... 提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算法是有效的。同时给出了学习速度参数和历史信息相关度参数对预测的影响。 展开更多
关键词 强化学习 瞬时差分学习 网格 资源预测
在线阅读 下载PDF
增强型深度强化学习方法应用于化工过程控制
12
作者 张佳鑫 董立春 《化工进展》 北大核心 2025年第10期5563-5569,共7页
深度强化学习(DRL)算法因其无须依赖历史数据和先验知识,仅通过环境与智能体的互动即可实现策略优化和自主学习,在工业过程控制领域表现出良好的应用前景。其中,基于双延迟深度确定性策略梯度(TD3)算法的控制策略可有效克服深度确定性... 深度强化学习(DRL)算法因其无须依赖历史数据和先验知识,仅通过环境与智能体的互动即可实现策略优化和自主学习,在工业过程控制领域表现出良好的应用前景。其中,基于双延迟深度确定性策略梯度(TD3)算法的控制策略可有效克服深度确定性策略梯度(DDPG)模型中Q值易被高估,导致次优策略和鲁棒性不佳的缺陷,成为目前最领先的基于深度强化学习的控制模型。然而,原始TD3方法在应用于具有较显著策略波动的工业过程控制时仍显示出局限性,特别是其Q值低估问题会导致模型控制性能不佳。为了解决这些限制,本文提出了一种适用于工业过程控制的增强型TD3控制模型(ETD3),该模型首先建立评估指标来判断行动者(Actor)网络参数的高估或低估情况,并根据评估结果调整输入到批评家(Critic)网络的损失函数。然后,通过替换原始TD3中的固定学习率为三角衰减周期学习率,以提升模型的训练收敛性和控制性能。本文最后通过将增强型TD3算法应用于工业天然气脱水过程的控制过程验证了其有效性。 展开更多
关键词 过程控制 深度强化学习 双延时深度确定性策略梯度 三角衰减周期
在线阅读 下载PDF
A Reinforcement Learning Based Approach to Partition Testing
13
作者 Chang-Ai Sun Ming-Jun Xiao +1 位作者 He-Peng Dai Huai Liu 《Journal of Computer Science & Technology》 2025年第1期99-118,共20页
Partition testing is one of the most fundamental and popularly used software testing techniques.It first divides the input domain of the program under test into a set of disjoint partitions,and then creates test cases... Partition testing is one of the most fundamental and popularly used software testing techniques.It first divides the input domain of the program under test into a set of disjoint partitions,and then creates test cases based on these partitions.Motivated by the theory of software cybernetics,some strategies have been proposed to dynamically select partitions based on the feedback information gained during testing.The basic intuition of these strategies is to assign higher probabilities to those partitions with higher fault-detection potentials,which are judged and updated mainly according to the previous test results.Such a feedback-driven mechanism can be considered as a learning processit makes decisions based on the observations acquired in the test execution.Accordingly,advanced learning techniques could be leveraged to empower the smart partition selection,with the purpose of further improving the effectiveness and efficiency of partition testing.In this paper,we particularly leverage reinforcement learning to enhance the state-of-the-art adaptive partition testing techniques.Two algorithms,namely RLAPT_Q and RLAPT_S,have been developed to implement the proposed approach.Empirical studies have been conducted to evaluate the performance of the proposed approach based on seven object programs with 26 faults.The experimental results show that our approach outperforms the existing partition testing techniques in terms of the fault-detection capability as well as the overall testing time.Our study demonstrates the applicability and effectiveness of reinforcement learning in advancing the performance of software testing. 展开更多
关键词 partition testing reinforcement learning temporal-difference learning intelligent software engineering
原文传递
The investigation of reinforcement learning-based end-to-end decision-making algorithms for autonomous driving on the road with consecutive sharp turns
14
作者 Tongyang Li Jiageng Ruan Kaixuan Zhang 《Green Energy and Intelligent Transportation》 2025年第3期87-103,共17页
Learning-based algorithm attracts great attention in the autonomous driving control field,especially for decisionmaking,to meet the challenge in long-tail extreme scenarios,where traditional methods demonstrate poor a... Learning-based algorithm attracts great attention in the autonomous driving control field,especially for decisionmaking,to meet the challenge in long-tail extreme scenarios,where traditional methods demonstrate poor adaptability even with a significant effort.To improve the autonomous driving performance in extreme scenarios,specifically consecutive sharp turns,three deep reinforcement learning algorithms,i.e.Deep Deterministic Policy Gradient(DDPG),Twin Delayed Deep Deterministic policy gradient(TD3),and Soft Actor-Critic(SAC),based decision-making policies are proposed in this study.The role of the observation variable in agent training is discussed by comparing the driving stability,average speed,and consumed computational effort of the proposed algorithms in curves with various curvatures.In addition,a novel reward-setting method that combines the states of the environment and the vehicle is proposed to solve the sparse reward problem in the reward-guided algorithm.Simulation results from the road with consecutive sharp turns show that the DDPG,SAC,and TD3 algorithms-based vehicles take 367.2,359.6,and 302.1 s to finish the task,respectively,which match the training results,and verifies the observation variable role in agent quality improvement. 展开更多
关键词 Autonomous driving DECISION-MAKING Reinforcement learning DDPG td3 SAC
原文传递
Evaluating Domain Randomization Techniques in DRL Agents:A Comparative Study of Normal,Randomized,and Non-Randomized Resets
15
作者 Abubakar Elsafi 《Computer Modeling in Engineering & Sciences》 2025年第8期1749-1766,共18页
Domain randomization is a widely adopted technique in deep reinforcement learning(DRL)to improve agent generalization by exposing policies to diverse environmental conditions.This paper investigates the impact of diff... Domain randomization is a widely adopted technique in deep reinforcement learning(DRL)to improve agent generalization by exposing policies to diverse environmental conditions.This paper investigates the impact of different reset strategies,normal,non-randomized,and randomized,on agent performance using the Deep Deterministic Policy Gradient(DDPG)and Twin Delayed DDPG(TD3)algorithms within the CarRacing-v2 environment.Two experimental setups were conducted:an extended training regime with DDPG for 1000 steps per episode across 1000 episodes,and a fast execution setup comparing DDPG and TD3 for 30 episodes with 50 steps per episode under constrained computational resources.A step-based reward scaling mechanism was applied under the randomized reset condition to promote broader state exploration.Experimental results showthat randomized resets significantly enhance learning efficiency and generalization,with DDPG demonstrating superior performance across all reset strategies.In particular,DDPG combined with randomized resets achieves the highest smoothed rewards(reaching approximately 15),best stability,and fastest convergence.These differences are statistically significant,as confirmed by t-tests:DDPG outperforms TD3 under randomized(t=−101.91,p<0.0001),normal(t=−21.59,p<0.0001),and non-randomized(t=−62.46,p<0.0001)reset conditions.The findings underscore the critical role of reset strategy and reward shaping in enhancing the robustness and adaptability of DRL agents in continuous control tasks,particularly in environments where computational efficiency and training stability are crucial. 展开更多
关键词 DDPG agent td3 agent deep reinforcement learning domain randomization generalization non-randomized reset normal reset randomized reset
在线阅读 下载PDF
基于TD-error自适应校正的深度Q学习主动采样方法 被引量:12
16
作者 白辰甲 刘鹏 +1 位作者 赵巍 唐降龙 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期262-280,共19页
强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-erro... 强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量. 展开更多
关键词 样本优先级 td-error校正 自适应 主动采样 深度Q学习 强化学习
在线阅读 下载PDF
基于Q学习和TD误差的传感器节点任务调度算法 被引量:1
17
作者 徐祥伟 魏振春 +1 位作者 冯琳 张岩 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2017年第4期470-475,521,共7页
针对现有合作学习算法存在频繁通信、能量消耗过大等问题,应用目标跟踪建立任务模型,文章提出一种基于Q学习和TD误差(Q-learning and TD error,QT)的传感器节点任务调度算法。具体包括将传感器节点任务调度问题映射成Q学习可解决的学习... 针对现有合作学习算法存在频繁通信、能量消耗过大等问题,应用目标跟踪建立任务模型,文章提出一种基于Q学习和TD误差(Q-learning and TD error,QT)的传感器节点任务调度算法。具体包括将传感器节点任务调度问题映射成Q学习可解决的学习问题,建立邻居节点间的协作机制以及定义延迟回报、状态空间等基本学习元素。在协作机制中,QT使得传感器节点利用个体和群体的TD误差,通过动态改变自身的学习速度来平衡自身利益和群体利益。此外,QT根据Metropolis准则提高节点学习前期的探索概率,优化任务选择。实验结果表明:QT具备根据当前环境进行动态调度任务的能力;相比其他任务调度算法,QT消耗合理的能量使得单位性能提高了17.26%。 展开更多
关键词 无线传感器网络(WSNs) 传感器节点 任务调度 Q学习 td误差 协作机制
在线阅读 下载PDF
TD-LTE网络中大气波导干扰的分析与预测 被引量:10
18
作者 孙天宇 周婷 杨旸 《中兴通讯技术》 2018年第2期19-24,共6页
使用来自于江苏移动的实时网络侧数据来分析大气波导干扰(ADI)的特征,同时结合网络侧数据与气象数据,使用两种机器学习方法对ADI强度进行预测,并相互比较。仿真结果表明:使用机器学习可以获得不错的ADI预测效果,当训练样本达到40 000条... 使用来自于江苏移动的实时网络侧数据来分析大气波导干扰(ADI)的特征,同时结合网络侧数据与气象数据,使用两种机器学习方法对ADI强度进行预测,并相互比较。仿真结果表明:使用机器学习可以获得不错的ADI预测效果,当训练样本达到40 000条时,准确率与召回率分别可以达到72%与75%以上。 展开更多
关键词 时分复用长期演进(td-LTE) 大气波导 机器学习 干扰预测
在线阅读 下载PDF
基于强化学习TD算法的乒乓游戏击球策略优化
19
作者 陈功 周谊成 王辉 《电脑知识与技术》 2011年第10期6926-6927,共2页
计算机乒乓游戏是出现在个人计算机上最早的游戏之一,该文利用强化学习中的TD算法,将状态的变化与得分的统计规律统计出来,就是研究在当前状态S下,球拍怎样移动获利最大,让机器击球手快速运动并准确击球。
关键词 机器学习 td算法 策略优化
在线阅读 下载PDF
强化学习原理、算法及应用 被引量:19
20
作者 黄炳强 曹广益 王占全 《河北工业大学学报》 CAS 2006年第6期34-38,共5页
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法... 强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题. 展开更多
关键词 强化学习 td算法 Q-学习 R-学习
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部