期刊文献+
共找到373篇文章
< 1 2 19 >
每页显示 20 50 100
折扣与无折扣MDPs:一个基于SARSA(λ)算法的实例分析
1
作者 陈焕文 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2002年第9期86-88,共3页
分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响。
关键词 机器学习 激励学习 SARSA(λ)算法 实例分析 mdps
在线阅读 下载PDF
^99Tc^m-MDPSPECT/CT异机融合骨显像对颈椎及颅骨病变的诊断价值 被引量:2
2
作者 李现军 李广宙 李凤岐 《潍坊医学院学报》 2012年第5期321-323,共3页
目的探讨帅^99Tc^m-亚甲基二膦酸盐(MDP)骨断层显像(SPECT)与诊断cT异机图像融合对头颈部病变的诊断价值。方法^99Tc^m-MDP全身骨显像可疑头颈部异常摄取患者57例,行头颈部SPECT骨显像和诊断CT扫描,实施异机图像融合,分析比较头... 目的探讨帅^99Tc^m-亚甲基二膦酸盐(MDP)骨断层显像(SPECT)与诊断cT异机图像融合对头颈部病变的诊断价值。方法^99Tc^m-MDP全身骨显像可疑头颈部异常摄取患者57例,行头颈部SPECT骨显像和诊断CT扫描,实施异机图像融合,分析比较头颈部SPECT、诊断CT及融合图像对颈椎及颅骨转移灶的诊断符合率。结果57例患者头颈部SPECT共发现放射性浓集灶95处,其中53处放射性浓集灶为骨转移,另42处为非特异性摄取。SPECT/CT诊断颈椎及颅骨转移灶的符合率明显高于SPECT及诊断CT(x^2=6.10,22.03;P均〈0.05)。结论头颈部诊断CT与SPECT异机图像融合方法简单、可行,除可确定异常放射性摄取病灶的部位外,还可依据有无骨质破坏、骨质增生及软组织肿物形成等信息进一步区分良恶性病变,对区分骨质增生及头颈部的非特异性摄取有重要意义。 展开更多
关键词 骨肿瘤 颅骨 颈椎 SPECT CT MDP
暂未订购
浅谈法律服务业的“MDPs” 被引量:2
3
作者 吕德快 《法治研究》 2007年第11期60-65,共6页
MDPs是指律师和其他专业服务者联合执业,为客户提供包含法律服务的多样化专业服务。自MDPs产生以来,它便得到了许多国家的支持,并在实践中发展为多种形式;然而,在当前美国,它并不被美国律师协会所接受,有关MDPs的争论仍然在各州继续存... MDPs是指律师和其他专业服务者联合执业,为客户提供包含法律服务的多样化专业服务。自MDPs产生以来,它便得到了许多国家的支持,并在实践中发展为多种形式;然而,在当前美国,它并不被美国律师协会所接受,有关MDPs的争论仍然在各州继续存在着。在阐述MDPs概念及模式的基础上,结合美国法律服务业的MDPs之争,对MDPs的经济利益和潜在影响作了分析。 展开更多
关键词 法律服务业 多行业联合执业 经济利益 mdps
在线阅读 下载PDF
东风悦达起亚K3轿车电动助力转向系统(MDPS)的设计原理
4
作者 周霞 《科技信息》 2012年第36期417-418,共2页
东风悦达起亚K3轿车电动助力转向系统(Motor Driven Power Steering,简称MDPS)由方向盘、转向扭矩&转向角速度传感器、MDPS ECU、无刷交流电机、转向轴、齿轮&小齿轮组成。介绍K3轿车的电动助力转向系统(MDPS)的设计原理。
关键词 轿车 电动助力转向系统(mdps) 设计原理
在线阅读 下载PDF
因果时空语义驱动的深度强化学习抽象建模方法
5
作者 田丽丽 杜德慧 +2 位作者 聂基辉 陈逸康 李荥达 《软件学报》 北大核心 2025年第8期3637-3654,共18页
随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运... 随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运行环境的开放性和ICPS系统的复杂性,深度强化学习在学习过程中需要对复杂多变的状态空间进行探索,这极易导致决策生成时效率低下和泛化性不足等问题.目前对于该问题的常见解决方法是将大规模的细粒度马尔可夫决策过程(Markov decision process,MDP)抽象为小规模的粗粒度马尔可夫决策过程,从而简化模型的计算复杂度并提高求解效率.但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的系统空间和真实系统空间之间的语义一致性问题.针对以上问题,提出基于因果时空语义的深度强化学习抽象建模方法.首先,提出反映时间和空间价值变化分布的因果时空语义,并在此基础上对状态进行双阶段语义抽象以构建深度强化学习过程的抽象马尔可夫模型;其次,结合抽象优化技术对抽象模型进行调优,以减少抽象状态与相应具体状态之间的语义误差;最后,结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验,并使用验证器PRISM对模型进行评估分析,结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价性方面具有较好的效果. 展开更多
关键词 深度强化学习 抽象建模 因果时空语义 智能信息物理融合系统(ICPS) 马尔可夫决策过程(MDP)
在线阅读 下载PDF
自然场景下轻量化番茄病害检测模型
6
作者 嵇春梅 周鑫志 叶烨华 《南京农业大学学报》 北大核心 2025年第5期1192-1203,共12页
[目的]为解决自然场景下番茄病害检测中存在的挑战,如病害信息多样、尺度不同、叶片遮挡等,提出一种基于改进YOLOv8的轻量化模型。[方法]在主干网络中,使用GhostNetV2模块来代替部分C2f模块,抑制特征传输过程中的信息损失,同时显著减少... [目的]为解决自然场景下番茄病害检测中存在的挑战,如病害信息多样、尺度不同、叶片遮挡等,提出一种基于改进YOLOv8的轻量化模型。[方法]在主干网络中,使用GhostNetV2模块来代替部分C2f模块,抑制特征传输过程中的信息损失,同时显著减少模型参数量和计算复杂度。在颈部网络中,结合加权双向特征金字塔来改进YOLOv8的特征融合能力,通过提取融合多尺度特征,提升模型的检测准确率。提出一种多尺度特征感知模块,降低模型过拟合的风险,减小模型对相似特征的依赖性。引入WiseIoU损失作为边界框回归损失,结合动态非单调聚焦机制,利用异常值信息对模型预测结果进行评估,提高网络的整体性能。[结果]改进YOLOv8能够准确识别绝大多数常见的番茄病害,平均准确率为98.17%,检测速度达到155帧·s^(-1),明显优于YOLOv5、Faster R-CNN、SSD、RetinaNet、CenterNet以及基线YOLOv8六种对比算法。[结论]改进YOLOv8在准确性和实时性方面具有明显优势。嵌入式平台上试验结果表明,改进YOLOv8在计算资源受限的条件下,仍能实现较为准确的实时检测。 展开更多
关键词 番茄 病害检测 YOLOv8 GhostNetV2 Bi-FPN MDP WiseIoU损失
在线阅读 下载PDF
^99Tc^m—MDPSPECT颞颌关节显像对髁突肥大的诊断价值 被引量:2
7
作者 文兵 沈影 汪长银 《中华核医学与分子影像杂志》 CSCD 北大核心 2012年第6期438-441,共4页
目的探讨^99Tc^m-MDPSPECT颞颌关节显像对髁突肥大的诊断价值。方法回顾性分析2009年至2010年行^99Tc^m-MDPSPECT颞颌关节显像的髁突肥大(临床确诊)患者56例(男22例,女34例,平均年龄21.5岁),其中31例接受了髁突高位切除术并有... 目的探讨^99Tc^m-MDPSPECT颞颌关节显像对髁突肥大的诊断价值。方法回顾性分析2009年至2010年行^99Tc^m-MDPSPECT颞颌关节显像的髁突肥大(临床确诊)患者56例(男22例,女34例,平均年龄21.5岁),其中31例接受了髁突高位切除术并有组织病理学结果。另收集10例因恶性肿瘤等其他疾病行骨显像的对照者,男女各5例,平均年龄22.6岁,加做颞颌关节显像。对所有研究对象进行SPECT图像分析及半定量分析,采用独立样本t检验比较髁突肥大组与对照组间患侧髁突/顶骨及患侧髁突/双侧髁突的摄取比差异,髁突肥大组患侧与健侧的摄取差异行配对t检验。对手术治疗患者的SPECT结果与其病理结果进行Pearson相关分析。结果髁突肥大组患侧髁突/顶骨摄取比(1.66±0.63)及患侧髁突/双侧髁突摄取比(0.59±0.44)均明显高于对侧(1.34±0.34、0.41±0.04,t=3.687和6.590,均P〈0.01),并且明显高于对照组左侧髁突相应数据(1.12±0.07和0.50±0.01,t=6.459和4.750,均P〈0.001)。SPECT检查诊断髁突生长活跃的灵敏度为95.2%(20/21),特异性为60.0%(6/10),阳性预测值为83.3%(20/24),阴性预测值为6/7。患侧髁突/双侧髁突摄取比与软骨组织增生的厚度无明显相关[软骨膜、增殖层、肥大层的平均厚度分别为(150.5±94.9)、(185.2±113.6)、(167.7±76.9)μm,r=0.46、0.47、-0.12,均P〉0.05]。结论^99Tc^m-MDPSPECT颞颌关节显像能够有效评估髁突肥大患者的骨质生长活性,为手术方式的选择提供重要依据。 展开更多
关键词 颞下颌关节疾病 下颌骨髁状突 放射性核素显像 MDP
原文传递
有限周期下考虑成本动态变化的视情维修策略研究
8
作者 李婷 戴安舒 何曙光 《控制与决策》 北大核心 2025年第9期2826-2832,共7页
随着信息技术的不断发展,智能运维在工业设备的数字化转型过程中发挥着至关重要的作用.通过设计科学的运维策略,不仅能够保证复杂系统的高可用性和可靠性,还能降低企业运营成本和风险.不同于传统维修策略假设运行周期是无限的,为设计出... 随着信息技术的不断发展,智能运维在工业设备的数字化转型过程中发挥着至关重要的作用.通过设计科学的运维策略,不仅能够保证复杂系统的高可用性和可靠性,还能降低企业运营成本和风险.不同于传统维修策略假设运行周期是无限的,为设计出更加符合实际的运维策略,首先,在有限周期下考虑预防性维修成本随运行时间发生改变的特点,并结合复杂系统在实际作业过程中同时受到退化失效和突发失效的双重影响,建立一个有限周期下基于竞争失效系统的预防性维修优化模型;然后,以期望维修总费用最小化为目标,通过构建马尔可夫决策过程并采用动态规划算法来确定最优的检修间隔和维修策略;最后,通过数值算例结合敏感性分析验证所提出动态运维策略在维修资源合理配置方面的有效性. 展开更多
关键词 竞争失效系统 有限周期 动态运维策略 维修成本 MDP 预防性维修
原文传递
多变量非线性耦合系统在钢铁低碳智能制造中的优化算法 被引量:1
9
作者 刘佳伟 蔡恒君 +3 位作者 王弢 宋速萍 陈百红 伊占博 《中国冶金》 北大核心 2025年第7期237-244,共8页
钢铁工业是能源消耗和碳排放的主要来源之一,在推进低碳智能制造的背景下,如何通过优化算法实现多变量非线性耦合系统的高效控制成为关键问题。为此,基于多变量非线性耦合系统的理论模型,提出了一种基于动态权重的多目标强化学习优化算... 钢铁工业是能源消耗和碳排放的主要来源之一,在推进低碳智能制造的背景下,如何通过优化算法实现多变量非线性耦合系统的高效控制成为关键问题。为此,基于多变量非线性耦合系统的理论模型,提出了一种基于动态权重的多目标强化学习优化算法(DW-MORL),在马尔可夫决策过程(MDP)框架下定义状态、动作与奖励函数,采用策略梯度法进行多目标学习。算法中引入动态权重分配机制,根据各目标的历史表现动态调整奖励融合比例,并在每次更新后进行归一化处理。试验结果表明,所提DW-MORL算法相较传统PID控制和粒子群优化方法,在典型钢铁加热炉多目标调控中表现优异,单位能耗降低8.7%、出口温差波动减小12.3%、产能提升5.4%,验证了所提方法在多目标工业系统智能优化中的有效性与先进性。研究结果可为钢铁低碳智能制造实践提供技术支持和参考。 展开更多
关键词 多目标强化学习 动态权重分配 加热炉优化 马尔可夫决策过程(MDP) 策略梯度
在线阅读 下载PDF
The Study of Long-Term Trading Revenue Distribution Models in Wind-Photovoltaic-Thermal Complementary Systems Based on the Improved Shapley Value Method
10
作者 Dongfeng Yang Ruirui Zhang +1 位作者 Chuang Liu Guoiang Bian 《Energy Engineering》 2025年第7期2673-2694,共22页
Under the current long-term electricity market mechanism,new energy and thermal power face issues such as deviation assessment and compression of generation space.The profitability of market players is limited.Simulta... Under the current long-term electricity market mechanism,new energy and thermal power face issues such as deviation assessment and compression of generation space.The profitability of market players is limited.Simultaneously,the cooperation model among various energy sources will have a direct impact on the alliance’s revenue and the equity of income distribution within the alliance.Therefore,integrating new energy with thermal power units into an integrated multi-energy complementary system to participate in the long-term electricity market holds significant potential.To simulate and evaluate the benefits and internal distribution methods of a multi-energy complementary system participating in long-term market transactions,this paper first constructs a multi-energy complementary system integrated with new energy and thermal power generation units at the same connection point,and participates in the annual bilateral game as a unified market entity to obtain the revenue value under the annual bilateral market.Secondly,based on the entropy weight method,improvements are made to the traditional Shapley value distribution model,and an internal distribution model for multi-energy complementary systems with multiple participants is constructed.Finally,a Markov Decision Process(MDP)evaluation system is constructed for practical case verification.The research results show that the improved Shapley value distribution model achieves higher satisfaction,providing a reasonable allocation scheme for multi-energy complementary cooperation models. 展开更多
关键词 Multi-energy complementary system cooperative game enhancements to the Shapley value MDP indicators
在线阅读 下载PDF
CONSTRAINED DENUMERABLE STATE NON-STATIONARY MDPs WITH EXPECTED TOTAL REWARD CRITERION
11
作者 郭先平 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 2000年第2期205-212,共8页
In this paper, we consider constrained denumerable state non-stationary Markov decision processes (MDPs, for short) with expected total reward criterion. By the mechanics of intro- ducing Lagrange multiplier and using... In this paper, we consider constrained denumerable state non-stationary Markov decision processes (MDPs, for short) with expected total reward criterion. By the mechanics of intro- ducing Lagrange multiplier and using the methods of probability and analytics, we prove the existence of constrained optimal policies. Moreover, we prove that a constrained optimal policy may be a Markov policy, or be a randomized Markov policy that randomizes between two Markov policies, that differ in only one state. 展开更多
关键词 Non-stationary mdps expected total reward criterion constrained optimal policies
全文增补中
基于深度强化学习的综合航电系统安全性优化方法
12
作者 赵长啸 李道俊 +2 位作者 孙亦轩 景鹏 田毅 《中国安全科学学报》 CAS CSCD 北大核心 2024年第7期123-131,共9页
为解决传统基于人工检查的安全性设计方法难以应对航电系统大规模集成带来的可选驻留方案爆炸问题,构建航电系统分区模型、任务模型以及安全关键等级量化模型,将考虑安全性的综合化设计优化问题模型化为马尔可夫决策过程(MDP)问题,并提... 为解决传统基于人工检查的安全性设计方法难以应对航电系统大规模集成带来的可选驻留方案爆炸问题,构建航电系统分区模型、任务模型以及安全关键等级量化模型,将考虑安全性的综合化设计优化问题模型化为马尔可夫决策过程(MDP)问题,并提出一种基于Actor-Critic框架的柔性动作-评价(SAC)算法的优化方法;为得到SAC算法的参数选择和训练结果之间的相关性,针对算法参数灵敏度开展研究;同时,为验证基于SAC算法的优化方法在优化考虑安全性的综合化设计方面的优越性,以深度确定性策略梯度(DDPG)算法和传统分配算法为对象,开展优化对比试验。结果表明:在最佳的参数组合下,使用的SAC算法收敛后的最大奖励相较于其他参数组合提升近8%,同时,收敛时间缩短近16.6%;相较于DDPG算法和传统分配算法,基于SAC算法的优化方法在相同的参数设置下获得的最大奖励、约束累计违背率、分区均衡风险效果、分区资源利用以及求解时间方面最大提升分别为62%、7464%、8370%、2123%和775%。 展开更多
关键词 深度强化学习 综合航电系统 安全性 优化方法 马尔可夫决策过程(MDP) 综合化设计
原文传递
基于MDP的无人机避撞航迹规划研究 被引量:1
13
作者 阚煌 辛长范 +3 位作者 谭哲卿 高鑫 史铭姗 张谦 《计算机测量与控制》 2024年第6期292-298,共7页
无人机(UAV)进行避撞前提下的目标搜索航迹规划是指在复杂且众多的环境障碍约束中通过合理规划飞行路径,以更快、更高效的形式找到目标;研究了无障碍环境条件下有限位置马尔科夫移动的规律,构建了相应的马尔科夫移动分布模型;在借鉴搜... 无人机(UAV)进行避撞前提下的目标搜索航迹规划是指在复杂且众多的环境障碍约束中通过合理规划飞行路径,以更快、更高效的形式找到目标;研究了无障碍环境条件下有限位置马尔科夫移动的规律,构建了相应的马尔科夫移动分布模型;在借鉴搜索系统航迹规划的前沿研究成果之上,结合马尔科夫决策过程理论(MDP),引入了负奖励机制对Q-Learning策略算法迭代;类比“风险井”的可视化方式将障碍威胁区域对无人机的负奖励作用直观地呈现出来,构建了复杂障碍约束环境下单无人机目标搜索航迹规划模型,并进行仿真实验证明该算法可行,对航迹规划算法的设计具有一定的参考意义。 展开更多
关键词 无人机 航迹规划 避撞 静态目标搜索 马尔科夫决策过程(MDP) 风险井
在线阅读 下载PDF
基于蜂巢思维的配电网能源规划理念及模型研究 被引量:3
14
作者 刘方蓝 张璞 +2 位作者 张凯 秦冰 么德飞 《能源与环保》 2024年第3期197-205,238,共10页
“双碳”战略背景下,配电系统形态正面临巨大挑战,随着可再生能源大规模接入,配电系统正朝着“源网荷储”四要素的演变方向发展。针对这一挑战,基于蜂巢思维(hive mind)在配电网规划中的适用性,提出了蜂巢态配电网规划模型。首先,通过... “双碳”战略背景下,配电系统形态正面临巨大挑战,随着可再生能源大规模接入,配电系统正朝着“源网荷储”四要素的演变方向发展。针对这一挑战,基于蜂巢思维(hive mind)在配电网规划中的适用性,提出了蜂巢态配电网规划模型。首先,通过分析“蜂巢态”的物理架构、运行模式、演进和交互,构建了蜂巢思维配电网物理拓扑结构;其次,采用5G切片技术,搭建“5G+自组网”的信息架构进行通信;最后,使用马尔科夫决策模型(MDP)预测理论,将试验结果代入其中进行分析。结果显示,与传统配电网规划相比,提出的规划模型在投资成本、电力损失、负载损失以及可再生能源削减方面均取得了显著降低效果;在IEEE三类总线的配电网络下,分别比传统配电网规划节省68.18%、82.89%和90.81%的计算时间。该规划可满足高比例分布式能源接入电网时的能源自治要求,对于提高配电网灵活性、可靠性、柔性适配度与经济效益的具有积极意义。 展开更多
关键词 蜂巢思维 配电网规划 5G切片技术 MDP
在线阅读 下载PDF
基于MDP的无线传感网络Sybil攻击检测系统设计 被引量:1
15
作者 罗震宇 《电子设计工程》 2024年第17期132-136,共5页
在Sybil攻击下无线传感网络吞吐量会下降,因此,设计了基于MDP的无线传感网络Sybil攻击检测系统。分析无线传感网络Sybil攻击原理,以此设计系统硬件,包括无线传感模块、Sybil攻击嗅探器模块、攻击检测警报器模块。在系统硬件的支持下,构... 在Sybil攻击下无线传感网络吞吐量会下降,因此,设计了基于MDP的无线传感网络Sybil攻击检测系统。分析无线传感网络Sybil攻击原理,以此设计系统硬件,包括无线传感模块、Sybil攻击嗅探器模块、攻击检测警报器模块。在系统硬件的支持下,构建基于MDP的攻击检测模型,即对网络节点的权值进行更新,计算不同节点间的信号传输强度值。依据信号传输强度确定节点位置,以此确定节点受到Sybil攻击情况,实现无线传感网络Sybil攻击检测。由实验结果可知,该系统在单、多Sybil节点攻击下,最大吞吐量分别为380 Mbps、248 Mbps,吞吐量保持在较高的水平,说明Sybil攻击检测效果好。 展开更多
关键词 MDP 无线传感网络 Sybil攻击检测 信号传输强度 节点位置
在线阅读 下载PDF
基于改进DQN算法的自动化码头AGV调度问题研究
16
作者 梁承姬 张石东 +1 位作者 王钰 鲁斌 《系统仿真学报》 CAS CSCD 北大核心 2024年第11期2592-2603,共12页
针对自动化码头AGV(automated guided vehicle)调度问题,提出了一种考虑未来任务的深度Q网络(future tasks considering deep Q-network,F-DQN)算法指导AGV进行实时调度。对系统状态进行了改进,结合实时调度和静态调度的优点,在做出实... 针对自动化码头AGV(automated guided vehicle)调度问题,提出了一种考虑未来任务的深度Q网络(future tasks considering deep Q-network,F-DQN)算法指导AGV进行实时调度。对系统状态进行了改进,结合实时调度和静态调度的优点,在做出实时决策时考虑了静态的未来任务信息,以获得更优的调度方案。以洋山四期自动化码头的真实布局和设备情况为参考,使用仿真软件Plant Simulation进行了一系列仿真实验。实验结果表明:F-DQN算法可以有效解决自动化码头AGV实时调度问题,且F-DQN算法相比于传统DQN算法,能够显著缩短岸桥的等待时间。 展开更多
关键词 自动化码头 AGV调度 DQN MDP 仿真模型
原文传递
Age-Driven Joint Sampling and Non-Slot Based Scheduling for Industrial Internet of Things
17
作者 Cao Yali Teng Yinglei +1 位作者 Song Mei Wang Nan 《China Communications》 SCIE CSCD 2024年第11期190-204,共15页
Effective control of time-sensitive industrial applications depends on the real-time transmission of data from underlying sensors.Quantifying the data freshness through age of information(AoI),in this paper,we jointly... Effective control of time-sensitive industrial applications depends on the real-time transmission of data from underlying sensors.Quantifying the data freshness through age of information(AoI),in this paper,we jointly design sampling and non-slot based scheduling policies to minimize the maximum time-average age of information(MAoI)among sensors with the constraints of average energy cost and finite queue stability.To overcome the intractability involving high couplings of such a complex stochastic process,we first focus on the single-sensor time-average AoI optimization problem and convert the constrained Markov decision process(CMDP)into an unconstrained Markov decision process(MDP)by the Lagrangian method.With the infinite-time average energy and AoI expression expended as the Bellman equation,the singlesensor time-average AoI optimization problem can be approached through the steady-state distribution probability.Further,we propose a low-complexity sub-optimal sampling and semi-distributed scheduling scheme for the multi-sensor scenario.The simulation results show that the proposed scheme reduces the MAoI significantly while achieving a balance between the sampling rate and service rate for multiple sensors. 展开更多
关键词 Age of Information(AoI) Industrial Internet of Things(IIoT) Markov decision process(MDP) time sensitive systems URLLC
在线阅读 下载PDF
深度学习技术在航迹控制系统中的应用
18
作者 于雷 《舰船科学技术》 北大核心 2024年第10期174-177,共4页
研究深度学习技术在航迹控制系统中的应用,实现航迹智能、精确控制,以适应复杂多变环境和任务需求。利用LOS算法确定船舶航行期望航向角、航迹误差,在融合船舶模型采集的船舶状态信息后,得到航迹跟踪控制的状态变量,将其输入到基于MDP... 研究深度学习技术在航迹控制系统中的应用,实现航迹智能、精确控制,以适应复杂多变环境和任务需求。利用LOS算法确定船舶航行期望航向角、航迹误差,在融合船舶模型采集的船舶状态信息后,得到航迹跟踪控制的状态变量,将其输入到基于MDP模型的航迹控制器中,将最高长期累积回报作为目标,利用卷积神经网络对控制器训练,学习给定状态到执行动作之间的映射关系,以获得使船舶按照预定航迹行驶的最优舵角动作值,实现航迹精准跟踪控制。实验结果表明,该系统所用控制器经过150回合训练,即可实现航迹数据规律的精准捕捉,具有突出学习能力;干扰工况下,该系统也可使船舶沿期望航迹航行,航迹控制效果显著。 展开更多
关键词 深度学习 航迹控制 LOS算法 MDP模型 长期累积回报 卷积神经网络
在线阅读 下载PDF
一个因素化SARSA(λ)激励学习算法 被引量:8
19
作者 陈焕文 谢建平 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2001年第1期88-92,共5页
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问... 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 . 展开更多
关键词 激励学习 状态聚类 mdps SARSA(λ)学习
在线阅读 下载PDF
一种状态集结因子化SARSA(λ)强化学习算法 被引量:1
20
作者 李春贵 刘永信 《内蒙古大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第6期675-678,共4页
提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验... 提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验知识 。 展开更多
关键词 强化学习 状态集结 mdps Q(λ)学习 SARSA(λ)学习 机器学习 因子化 Bellman余留数
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部