期刊文献+
共找到601篇文章
< 1 2 31 >
每页显示 20 50 100
微网储能侧DC-DC变换器的强化学习自抗扰控制策略 被引量:1
1
作者 马幼捷 刘熠铭 +3 位作者 周雪松 王博 陶珑 问虎龙 《太阳能学报》 北大核心 2025年第3期63-72,共10页
直流微电网电压稳定性研究是新型电力系统面临的关键问题。针对微电网系统中直流母线电压波动大和抗干扰能力弱等缺陷,该文提出一种由Q-learning算法赋能的DC-DC变换器自抗扰控制策略。通过引入线性扩张状态观测器,实现对模型内部摄动... 直流微电网电压稳定性研究是新型电力系统面临的关键问题。针对微电网系统中直流母线电压波动大和抗干扰能力弱等缺陷,该文提出一种由Q-learning算法赋能的DC-DC变换器自抗扰控制策略。通过引入线性扩张状态观测器,实现对模型内部摄动与外部扰动量的精确估计与补偿,利用Q-learning算法实现控制策略参数自适应优化,从而更高效地维持输出电压稳定。基于理论分析,推导范数意义下的Q-learning算法收敛性,并运用Lyapunov理论判据证明线性自抗扰的稳定性。最后,通过仿真对比该文提出的控制策略、线性自抗扰控制与双闭环PI控制在不同工况下的结果,充分验证该策略在提升DC-DC变换器抗扰能力和鲁棒水平的高效性与优越性。 展开更多
关键词 微电网 DC-DC变换器 自抗扰控制 Q-learning算法 Lyapunov判据
原文传递
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:3
2
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R Q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:2
3
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DQN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于深度Q网络算法的空天地边缘计算网络资源分配方法
4
作者 李新春 孙鹤源 许驰 《吉林大学学报(工学版)》 北大核心 2025年第7期2418-2424,共7页
由于卫星、无人机和地面站位置不断变化,导致空天地边缘计算网络链路不固定,且网络需要快速响应用户请求,对吞吐量与实时性的要求较高,增加了网络资源分配的难度。对此,本文提出基于深度Q网络算法的空天地边缘计算网络资源分配方法。首... 由于卫星、无人机和地面站位置不断变化,导致空天地边缘计算网络链路不固定,且网络需要快速响应用户请求,对吞吐量与实时性的要求较高,增加了网络资源分配的难度。对此,本文提出基于深度Q网络算法的空天地边缘计算网络资源分配方法。首先,考虑网络拓扑的动态性和资源异构性,建立资源间的通信模型,为资源分配提供基础框架;然后,基于最大吞吐量设计资源分配目标函数,并利用马尔科夫决策模型表述目标函数,将资源分配问题转化为序列决策问题,便于在动态变化的网络环境中作出决策;最后,基于深度Q网络算法求解目标函数,通过强化学习的方式,使算法能够通过与环境的交互学习到最优的资源分配策略,适应网络的实时性和动态性。实验结果表明:应用该方法后,网络累计回报较高,资源任务平均能耗降低,说明该方法实际可行。 展开更多
关键词 空天地一体化网络 深度Q网络算法 边缘计算 资源分配 马尔科夫决策模型
原文传递
缓存辅助的移动边缘计算任务卸载与资源分配 被引量:1
5
作者 李致远 陈品润 《计算机工程与设计》 北大核心 2025年第5期1248-1255,共8页
针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,... 针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,上层使用软动作评价算法进行计算任务卸载与资源分配决策。仿真实验结果表明,HRLJCORA算法与现有基线算法相比,有效降低了总开销,相较于联合优化计算任务卸载与资源分配(JORA)算法,卸载决策奖励值提高了13.11%,为用户提供了更优质的服务。 展开更多
关键词 移动边缘计算 缓存辅助 卸载决策 资源分配 分层强化学习 深度Q-learning网络算法 软动作评价算法
在线阅读 下载PDF
一种基于强化学习的信道决策方法
6
作者 侯艳丽 贾怡霈 崔惠敏 《电子信息对抗技术》 2025年第5期60-65,共6页
电磁环境的复杂多变对军用无线通信系统的抗干扰能力提出了更高的要求,传统的扩跳频抗干扰方式缺乏灵活性,难以抵挡动态变化的干扰信号。从抵抗动态干扰的需求出发,提出了基于改进Q-Learning的信道决策方法。在传统Q-Learning算法的基... 电磁环境的复杂多变对军用无线通信系统的抗干扰能力提出了更高的要求,传统的扩跳频抗干扰方式缺乏灵活性,难以抵挡动态变化的干扰信号。从抵抗动态干扰的需求出发,提出了基于改进Q-Learning的信道决策方法。在传统Q-Learning算法的基础上采用动态ε机制的动作选择策略,并设计了一种将误码率和能量消耗相结合的奖励函数。在固定模式干扰、扫频干扰、跟随式干扰下进行验证,仿真结果表明,所提算法能够较快速收敛,降低与干扰发生“碰撞”的可能性,有效地进行了干扰规避,适用于抗干扰动态决策。 展开更多
关键词 信道决策 干扰规避 Q-Learning算法 无线通信
在线阅读 下载PDF
考虑双资源约束多转速的绿色柔性作业车间调度研究
7
作者 王玉芳 章殿清 +2 位作者 华晓麟 张毅 葛师语 《控制理论与应用》 北大核心 2025年第10期2019-2027,共9页
考虑实际生产车间机器不同转速产生能耗差异及精工序的生产需求,构建以最大完工时间和机器总能耗为优化目标的双资源约束多转速绿色柔性作业车间调度模型,并提出一种动态学习人工蜂群算法进行求解.采用混合初始化获取初始种群,提升算法... 考虑实际生产车间机器不同转速产生能耗差异及精工序的生产需求,构建以最大完工时间和机器总能耗为优化目标的双资源约束多转速绿色柔性作业车间调度模型,并提出一种动态学习人工蜂群算法进行求解.采用混合初始化获取初始种群,提升算法的进化起点.在雇佣蜂完成搜索之后,引入新蜂种学习蜂,学习优秀蜜源的基因,降低搜索的随机性,提高搜索精度,并采用Q学习算子对学习概率进行自适应优化,保证蜜源多样性的同时加强算法的全局搜索能力.跟随蜂阶段设计一种动态邻域搜索策略,加入基于变速及平衡工人工作时长的邻域结构,提高跟随蜂的局部搜索能力.通过不同算法对拓展算例的对比验证所提算法的优越性. 展开更多
关键词 双资源约束 多转速 绿色柔性车间调度 多目标优化 人工蜂群算法 Q学习
在线阅读 下载PDF
基于改进Q-learning算法的XGBoost模型智能预测页岩断裂韧性
8
作者 张艳 王宗勇 +3 位作者 张豪 吴建成 祝春波 吴高平 《长江大学学报(自然科学版)》 2025年第5期58-65,共8页
岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断... 岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断裂韧性实验,分析了页岩断裂韧性与其他物理力学参数之间的关系,建立了断裂韧性拟合公式,同时采用XGBoost模型,利用地球物理测井数据,通过改进的Q-learning算法优化XGBoost模型超参数,实现了岩石断裂韧性的预测。研究结果表明,Ⅰ型断裂韧性与抗拉强度、声波速度相关性较高,与密度相关性较低,与纵波速度、横波速度、抗拉强度、岩石密度均成正相关。基于改进的Q-learning优化断裂韧性智能预测的XGBoost模型预测准确性较高,预测断裂韧性与拟合断裂韧性相关度高达0.981,所提出的岩石断裂韧性预测模型是可靠的,可为压裂工程设计提供参考。 展开更多
关键词 断裂韧性 测井数据 智能算法 Q-LEARNING XGBoost 压裂设计
在线阅读 下载PDF
一种零中频I/Q盲校准算法的设计与FPGA实现
9
作者 廖永波 李琅 +6 位作者 李林翰 梁江山 李孟优 陈蕊 陈雄飞 王盟皓 文武 《微电子学与计算机》 2025年第11期120-129,共10页
旨在硬件上验证实现一种基于FastICA算法的数字域校正方法,该算法通过分离混合信号中的独立成分,以补偿零中频的I/Q不平衡,同时引入微分思想,实时调整校正参数,以适应流信号的处理。通过仿真和硬件测试,验证了所提算法的有效性,结果表明... 旨在硬件上验证实现一种基于FastICA算法的数字域校正方法,该算法通过分离混合信号中的独立成分,以补偿零中频的I/Q不平衡,同时引入微分思想,实时调整校正参数,以适应流信号的处理。通过仿真和硬件测试,验证了所提算法的有效性,结果表明:在1MHz单音信号输入以及100MHz采样频率下,算法校正后镜像抑制比从13.5dB提升至55.8dB,硬件测试中提升至51.4dB。可见,该研究中设计的镜像抑制模块能有效抑制直流偏移和镜像干扰,提高零中频收发机的性能,证实了一种有效的I/Q不平衡校正方法。 展开更多
关键词 零中频 I/Q不平衡 FASTICA算法 FPGA实现
在线阅读 下载PDF
基于改进APF-QRRT^(*)策略的移动机器人路径规划 被引量:1
10
作者 刘文浩 余胜东 +4 位作者 吴鸿源 胡文科 李小鹏 蔡博凡 马金玉 《电光与控制》 北大核心 2025年第1期21-26,33,共7页
针对Q-RRT^(*)算法在路径规划过程中无法兼顾可达性和安全性的问题,提出一种改进APF-QRRT^(*)(IAPF-QRRT^(*))路径规划策略。IAPF-QRRT^(*)策略通过Q-RRT^(*)算法获得一组连接起点到终点的离散关键路径点,较传统的快速搜索随机树(RRT^(... 针对Q-RRT^(*)算法在路径规划过程中无法兼顾可达性和安全性的问题,提出一种改进APF-QRRT^(*)(IAPF-QRRT^(*))路径规划策略。IAPF-QRRT^(*)策略通过Q-RRT^(*)算法获得一组连接起点到终点的离散关键路径点,较传统的快速搜索随机树(RRT^(*))算法具备更好的初始解和更快的收敛速度。改进传统人工势场(APF)方法获得一种新的无势正交向量场,在一定条件下使整体排斥向量场与吸引向量场正交,并将其作用于关键路径点,从而提高路径的安全性。将IAPF-QRRT^(*)策略与其他算法比较,通过数值模拟实验证明了所提策略的有效性。 展开更多
关键词 移动机器人 路径规划 人工势场法 Q-RRT^(*)算法 安全性
在线阅读 下载PDF
基于修正q-威布尔分布的矿用卡车可靠性分析
11
作者 刘威 高琪 +2 位作者 刘光伟 白润才 朱乙鑫 《辽宁工程技术大学学报(自然科学版)》 北大核心 2025年第2期237-246,共10页
为了更加准确地描述露天矿矿用卡车的失效规律,提高可靠性分析的准确性,构建了一种新的alpha变换。在此基础上,提出了一种四参数修正q-威布尔分布模型,并采用蜣螂优化算法与极大似然估计相结合的方式对模型的参数进行估计。通过实例对... 为了更加准确地描述露天矿矿用卡车的失效规律,提高可靠性分析的准确性,构建了一种新的alpha变换。在此基础上,提出了一种四参数修正q-威布尔分布模型,并采用蜣螂优化算法与极大似然估计相结合的方式对模型的参数进行估计。通过实例对比验证了使用修正q-威布尔分布模型评估矿用卡车可靠性的合理性和有效性。数值试验结果表明,利用修正q-威布尔分布模型对矿用卡车故障间隔时间进行分析,制定相应的预防性维修周期能够更好地保障矿用卡车安全、稳定运行。 展开更多
关键词 矿用卡车 可靠性分析 修正q-威布尔分布 蜣螂优化算法 预防性维修周期 极大似然估计
原文传递
基于Q学习与粒子群优化算法的工控系统安全防护策略选择模型
12
作者 王靖夫 秦卫丽 《科技创新与应用》 2025年第18期5-8,16,共5页
为提高工控系统的安全程度,降低网络攻击带来的威胁,研究提出结合Q学习和粒子群优化算法的防护策略选择算法。实验结果显示,在未实行防护策略时,攻击可获得的收益高达547.3。而在实行粒子群优化算法和贝叶斯攻击图选择的防护策略后,攻... 为提高工控系统的安全程度,降低网络攻击带来的威胁,研究提出结合Q学习和粒子群优化算法的防护策略选择算法。实验结果显示,在未实行防护策略时,攻击可获得的收益高达547.3。而在实行粒子群优化算法和贝叶斯攻击图选择的防护策略后,攻击可获得的收益分别下降至432.5和398.7。在实行Q学习的改进粒子群优化算法选择的防护策略时,攻击收益下降至325.6。上述结果表明,基于Q学习的改进粒子群优化算法选择的防护策略能显著降低攻击收益,有效保护工控系统不受网络攻击的侵害。 展开更多
关键词 工控系统 安全风险 Q学习 粒子群优化算法 防护策略
在线阅读 下载PDF
基于强化学习的多策略自寻优人工蜂群算法
13
作者 倪红梅 王梅 《吉林大学学报(信息科学版)》 2025年第1期83-89,共7页
针对人工蜂群算法局部搜索能力不足的缺点,借鉴强化学习的寻优思想,提出了一种基于强化学习的多策略自寻优人工蜂群算法。该算法将强化学习中的Q学习方法与人工蜂群算法相融合,利用种群最好值与个体适应值的距离和种群多样性两个指标作... 针对人工蜂群算法局部搜索能力不足的缺点,借鉴强化学习的寻优思想,提出了一种基于强化学习的多策略自寻优人工蜂群算法。该算法将强化学习中的Q学习方法与人工蜂群算法相融合,利用种群最好值与个体适应值的距离和种群多样性两个指标作为划分状态的依据,建立包含多种搜索策略的动作集,采用ε-贪心策略选择最优,产生高质量的后代,实现了ABC(Artificial Bee Colony)算法更新策略的智能选择。通过20个测试函数和在股票预测方面的应用,结果显示所提算法表现出较优性能,能更好地平衡勘探和开发之间的关系,具有较快的收敛速度和较好的自寻优能力。 展开更多
关键词 人工蜂群算法 强化学习 多策略 Q学习 自寻优
在线阅读 下载PDF
基于多目标优化算法的云计算调度任务分配及优化
14
作者 沈建国 《延边大学学报(自然科学版)》 2025年第1期19-24,共6页
为了优化计算机对队列任务的调度效率,将双深度Q网络和改进鲸鱼优化算法相结合提出了一种基于多目标决策优化的任务调度模型.在该模型中,双深度Q网络主要用于拟合计算机的任务调度过程,以实现更加高效的任务分配与优化.改进鲸鱼优化算... 为了优化计算机对队列任务的调度效率,将双深度Q网络和改进鲸鱼优化算法相结合提出了一种基于多目标决策优化的任务调度模型.在该模型中,双深度Q网络主要用于拟合计算机的任务调度过程,以实现更加高效的任务分配与优化.改进鲸鱼优化算法用于协同分配生成的任务队列,以提升任务分配的整体效率,研究结果显示,与蚁群算法、粒子群优化算法、灰狼优化算法相比,该调度模型在迭代过程中的收敛速率最高,最终任务执行时间为182ms,且任务执行效率比其他算法提升了15.71%~31.34%.另外,在低任务量状态下,该模型的调度效果也明显优于其他对比算法,且任务逾期时间范围不超过10ms.上述结果表明,该模型经过优化后能够保持较好的任务调度效果,且可有效提升计算机对服务器资源的利用率,因此该算法可为计算机的任务调度提供良好参考。 展开更多
关键词 多目标决策优化 双深度Q网络 改进鲸鱼优化算法 高斯收敛
在线阅读 下载PDF
基于改进Q学习的复杂环境下AGV路径规划研究 被引量:2
15
作者 刘光印 钱东海 +1 位作者 王志国 肖子鸣 《计量与测试技术》 2025年第3期84-88,94,共6页
针对传统Q-learning算法中存在的搜索效率低、学习速度慢、收敛条件难以有效确定等问题,本文提出一种改进算法,并基于Python tkinter组件,在复杂环境下的栅格地图进行仿真实验。结果表明:该算法能在复杂环境的AGV路径规划条件下找到最... 针对传统Q-learning算法中存在的搜索效率低、学习速度慢、收敛条件难以有效确定等问题,本文提出一种改进算法,并基于Python tkinter组件,在复杂环境下的栅格地图进行仿真实验。结果表明:该算法能在复杂环境的AGV路径规划条件下找到最优或次优路径,提高了学习效率和收敛速度。 展开更多
关键词 Q-learning算法 路径规划 AGV 强化学习 栅格地图
在线阅读 下载PDF
基于深度强化学习的5G-LEO融合网络动态切换方法
16
作者 孙士兵 《空天预警研究学报》 2025年第5期356-359,374,共5页
针对5G-LEO融合网络中传统切换机制导致的系统信息速率劣化与服务质量(QoS)下降问题,提出基于深度Q网络(DQN)的动态切换(DQDH)方法.首先,构建最大化系统信息速率的目标优化问题,将目标优化问题转换成马尔可夫决策过程(MDP).然后,通过设... 针对5G-LEO融合网络中传统切换机制导致的系统信息速率劣化与服务质量(QoS)下降问题,提出基于深度Q网络(DQN)的动态切换(DQDH)方法.首先,构建最大化系统信息速率的目标优化问题,将目标优化问题转换成马尔可夫决策过程(MDP).然后,通过设置状态空间、动作空间以及奖励函数,使智能体能做出有利于优化系统信息速率的决策.仿真结果表明,与基准方法相比,本文提出的DQDH方法提升了系统的信息速率,降低了在LEO卫星与地面基站之间进行接入点切换时延. 展开更多
关键词 低轨卫星 切换方法 信息速率 深度Q网络 切换时延
在线阅读 下载PDF
基于协同优化算法的分布式装配车间调度
17
作者 杜松霖 仵大奎 +2 位作者 余云涛 刘亚 周文举 《计算机工程》 北大核心 2025年第3期274-282,共9页
在分布式调度中,调度策略的协同优化已逐渐成为分布式调度研究者与分布式制造行业决策者的重点关注方向之一。针对带装配机的分布式阻塞流水车间调度问题DBFSP-A,以最大装配完成时间为优化目标,提出一种基于Q-Learning的协同优化算法QLB... 在分布式调度中,调度策略的协同优化已逐渐成为分布式调度研究者与分布式制造行业决策者的重点关注方向之一。针对带装配机的分布式阻塞流水车间调度问题DBFSP-A,以最大装配完成时间为优化目标,提出一种基于Q-Learning的协同优化算法QLBC。首先,建立了以最大装配完成时间为优化目标的数学模型,以增强DBFSP-A的可解释性,在算法构造初始化阶段,QLBC充分利用DBFSP-A的问题特征,分别根据加工任务的总处理时间、前置延迟时间等特定的排序规则,构造式地产生高质量的、多样性的可行调度序列作为算法的初始解;其次,在QLBC的后续迭代中,采用基于Q-Learning的协同搜索策略,自主学习地指导当前解根据其各自状态及先验反馈选择合适的搜索操作,从而实现全局搜索和局部搜索、加工过程与组装过程的协同进化与协同优化;最后,在不同实例中,测试和检验了QLBC算法的性能。实验结果表明,相较于其他6种先进算法,QLBC求解的可行调度序列时间平均节省32.09 h,在提高生产效率、节约生产成本方面更具优势。 展开更多
关键词 协同优化 分布式制造 阻塞约束 产品装配 Q-Learning算法
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划
18
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 DQN算法
原文传递
一种面向博弈场景的PPO-Dueling DQN策略优化方法
19
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度Q网络 PPO算法 网络攻防博弈 效能评估
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
20
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度Q网络算法(MPN-DQN) 路径规划
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部