This study addresses the maneuver evasion problem for medium-to-long-range air-to-air missiles by proposing a KAN-λ-PPO-based evasion algorithm.The algorithm introduces Kolmogorov-Arnold Networks(KAN)to mitigate the ...This study addresses the maneuver evasion problem for medium-to-long-range air-to-air missiles by proposing a KAN-λ-PPO-based evasion algorithm.The algorithm introduces Kolmogorov-Arnold Networks(KAN)to mitigate the catastrophic forgetting issue of Multilayer Perceptrons(MLP)in continual learning,while incorporatingλ-return to resolve sparse reward challenges in evasion scenarios.First,we model the evasion problem withλ-return and present the KAN-λ-PPO algorithm.Subsequently,we establish game environments based on the segmented ballistic characteristics of medium and long range missiles.During training,a joint reward function is designed by combining the miss distance and positional advantages to train the agent.Experiments evaluate four dimensions:(1)Performance comparison between KAN and MLP in value function approximation;(2)Catastrophic forgetting mitigation of KAN-λ-PPO in dual-task scenarios;(3)Continual learning capabilities across multiple evasion scenarios;(4)Quantitative analysis of agent strategy evolution and positional advantages.Empirical results demonstrate that KAN improves value function approximation accuracy by an order of magnitude compared with traditional MLP architectures.In continual learning tasks,the KAN-λ-PPO scheme exhibits significant knowledge retention,achieving performance improvements of 32.7% and 8.6%over MLP baselines in Task1→2 and Task2→3 transitions,respectively.Furthermore,the learned maneuver strategies outperform High-G Barrel Rolls(HGB)and S-maneuver tactics in securing positional advantages while accomplishing evasion.展开更多
[目的/意义]为解决当前作物管理中个性化需求难以捕捉、决策过程缺乏灵活性难题,本研究提出了一种基于大语言模型的个性化作物生产智能决策方法[方法]通过自然语言对话收集用户在蔬菜作物管理过程中的个性化需求,涵盖产量、人力资源消...[目的/意义]为解决当前作物管理中个性化需求难以捕捉、决策过程缺乏灵活性难题,本研究提出了一种基于大语言模型的个性化作物生产智能决策方法[方法]通过自然语言对话收集用户在蔬菜作物管理过程中的个性化需求,涵盖产量、人力资源消耗和水肥消耗等方面。随后,将作物管理过程建模为多目标优化问题,同时考虑用户个性化偏好和作物产量,并采用强化学习算法来学习作物管理策略。水肥管理策略的训练通过与环境的交互持续更新,学习在不同条件下采取何种行动以实现最优决策,从而实现个性化的作物管理。[结果和讨论]在gym-DSSAT(Gym-Decision Support System for Agrotechnology Transfer)仿真平台上进行的实验,结果表明,所提出的个性化作物生产智能决策方法能够有效地根据用户的个性化偏好调整作物管理策略。[结论]通过精准捕捉用户的个性化需求,该方法在保证作物产量的同时,优化了人力资源与水肥资源的消耗。展开更多
煤矿巷道支护装备的自动化与智能化水平较低,制约了煤矿巷道的成形效率,是造成“采掘失衡”的关键原因。为解决煤矿巷道支护装备自动化程度低、支护效率差的问题,针对一种集成悬臂式掘进机和多自由度机械臂的钻锚机器人,提出了一种基于...煤矿巷道支护装备的自动化与智能化水平较低,制约了煤矿巷道的成形效率,是造成“采掘失衡”的关键原因。为解决煤矿巷道支护装备自动化程度低、支护效率差的问题,针对一种集成悬臂式掘进机和多自由度机械臂的钻锚机器人,提出了一种基于深度强化学习的钻锚机器人机械臂路径规划方法。在虚拟环境中构建煤矿巷道环境,并建立机械臂与机身、煤壁以及支护钢带的碰撞检测模型,使用层次包围盒法在虚拟环境进行碰撞检测,形成煤矿巷道边界受限情况下的避障策略。在近端策略优化(Proximal Policy Optimization,PPO)算法的基础上结合多方面因素提出改进。考虑到多自由度机械臂状态空间输入长度不固定的情况,引入长短记忆神经网络(Long Short Term Memory,LSTM)的环境状态输入处理方法,可以提升算法对环境的适应能力。并且在奖惩稀疏的情况下引入了好奇心机制(Intrinsic Curiosity Module,ICM),通过给予内在奖励鼓励智能体更大程度地探索环境。基于奖惩机制建立智能体,根据钻锚机器人的运动特性定义其状态空间与动作空间,在同一场景下分别使用2种算法对智能体进行训练,综合奖励值、回合步数、Actor网络损失值、Critic网络损失值等指标进行对比分析,最后经过仿真消融实验测试对比。实验结果表明,在原始PPO算法不能完成任务的情况下,改进后的算法路径长度比同样能完成任务的PPO-ICM算法缩短了3.98%,所用时间缩短了25.6%。为进一步验证改进后算法的鲁棒性,设计多组实验,改进后的PPO算法均完成路径规划任务,路径终点与目标位置的距离误差在3.88 cm之内,锚杆与竖直方向夹角误差在3°以内,能够有效完成路径规划任务,提升煤矿巷道支护系统的自动化程度。结果验证了所提方法在煤矿井下巷道支护时锚孔位置多变的情况下钻锚机器人多自由度机械臂在路径规划的可行性与有效性。展开更多
为筛选大豆田中对常见杂草鳢肠和马瓟瓜防除效果好的除草剂,通过整株生物测定法测定24种常用除草剂(主要包括乙酰乳酸合成酶ALS类、原卟啉原氧化酶PPO抑制类、光合作用PSⅡ抑制类除草剂)茎叶喷雾处理对鳢肠和马瓟瓜的除草活性及对大豆...为筛选大豆田中对常见杂草鳢肠和马瓟瓜防除效果好的除草剂,通过整株生物测定法测定24种常用除草剂(主要包括乙酰乳酸合成酶ALS类、原卟啉原氧化酶PPO抑制类、光合作用PSⅡ抑制类除草剂)茎叶喷雾处理对鳢肠和马瓟瓜的除草活性及对大豆的安全性。结果表明:ALS抑制类除草剂在药后3、7 d对鳢肠和马瓟瓜的防除效果不佳,药后14 d有所提升,其中噻吩磺隆对2种杂草的鲜重抑制率达88.31%~94.61%。PPO抑制类除草剂苯嘧磺草胺、氟磺胺草醚、乙氧氟草醚和PSⅡ抑制类除草剂灭草松、辛酰溴苯腈、氨唑草酮处理后对鳢肠的防除效果在药后3、7、14 d整体均表现为良好,其中70%苯嘧磺草胺水分散粒剂(WDG)26.25~78.75 g a.i./hm^(2)、480 g/L灭草松水剂(AS)540~1440 g a.i./hm^(2)、30%辛酰溴苯腈乳油(EC)168.75~405 g a.i./hm^(2)处理的鲜重抑制率均达100.00%,防除效果理想。PPO抑制类除草剂28%三氟羧草醚微乳剂(ME)225~450 g a.i./hm^(2)、10%乙羧氟草醚EC 60~90 g a.i./hm^(2)、250 g/L氟磺胺草醚AS 225~450 g a.i./hm^(2)处理在施用后7、14 d,其对马瓟瓜的株数抑制率和鲜重抑制率达86.50%~100.00%;PSⅡ抑制类除草剂38%莠去津悬浮剂(SC)225~450 g a.i./hm^(2)和40%氰草津SC 150~300 g a.i./hm^(2)处理虽在药后3 d对马瓟瓜的防除效果较差,但药后7、14 d的株抑制率和鲜重抑制率达94.58%~100.00%。安全性试验结果表明,PPO抑制类苯嘧磺草胺、三氟羧草醚、乙羧氟草醚、氟磺胺草醚和PSⅡ抑制类除草剂灭草松、辛酰溴苯腈对大豆安全,但莠去津和氰草津对大豆会产生严重的药害。综上所述,PPO抑制类苯嘧磺草胺和PSⅡ抑制类除草剂灭草松、辛酰溴苯腈可以作为防除大豆田鳢肠的候选药剂,PPO抑制类三氟羧草醚、乙羧氟草醚、氟磺胺草醚可以作为马瓟瓜的候选防除药剂。展开更多
文摘This study addresses the maneuver evasion problem for medium-to-long-range air-to-air missiles by proposing a KAN-λ-PPO-based evasion algorithm.The algorithm introduces Kolmogorov-Arnold Networks(KAN)to mitigate the catastrophic forgetting issue of Multilayer Perceptrons(MLP)in continual learning,while incorporatingλ-return to resolve sparse reward challenges in evasion scenarios.First,we model the evasion problem withλ-return and present the KAN-λ-PPO algorithm.Subsequently,we establish game environments based on the segmented ballistic characteristics of medium and long range missiles.During training,a joint reward function is designed by combining the miss distance and positional advantages to train the agent.Experiments evaluate four dimensions:(1)Performance comparison between KAN and MLP in value function approximation;(2)Catastrophic forgetting mitigation of KAN-λ-PPO in dual-task scenarios;(3)Continual learning capabilities across multiple evasion scenarios;(4)Quantitative analysis of agent strategy evolution and positional advantages.Empirical results demonstrate that KAN improves value function approximation accuracy by an order of magnitude compared with traditional MLP architectures.In continual learning tasks,the KAN-λ-PPO scheme exhibits significant knowledge retention,achieving performance improvements of 32.7% and 8.6%over MLP baselines in Task1→2 and Task2→3 transitions,respectively.Furthermore,the learned maneuver strategies outperform High-G Barrel Rolls(HGB)and S-maneuver tactics in securing positional advantages while accomplishing evasion.
文摘[目的/意义]为解决当前作物管理中个性化需求难以捕捉、决策过程缺乏灵活性难题,本研究提出了一种基于大语言模型的个性化作物生产智能决策方法[方法]通过自然语言对话收集用户在蔬菜作物管理过程中的个性化需求,涵盖产量、人力资源消耗和水肥消耗等方面。随后,将作物管理过程建模为多目标优化问题,同时考虑用户个性化偏好和作物产量,并采用强化学习算法来学习作物管理策略。水肥管理策略的训练通过与环境的交互持续更新,学习在不同条件下采取何种行动以实现最优决策,从而实现个性化的作物管理。[结果和讨论]在gym-DSSAT(Gym-Decision Support System for Agrotechnology Transfer)仿真平台上进行的实验,结果表明,所提出的个性化作物生产智能决策方法能够有效地根据用户的个性化偏好调整作物管理策略。[结论]通过精准捕捉用户的个性化需求,该方法在保证作物产量的同时,优化了人力资源与水肥资源的消耗。
文摘煤矿巷道支护装备的自动化与智能化水平较低,制约了煤矿巷道的成形效率,是造成“采掘失衡”的关键原因。为解决煤矿巷道支护装备自动化程度低、支护效率差的问题,针对一种集成悬臂式掘进机和多自由度机械臂的钻锚机器人,提出了一种基于深度强化学习的钻锚机器人机械臂路径规划方法。在虚拟环境中构建煤矿巷道环境,并建立机械臂与机身、煤壁以及支护钢带的碰撞检测模型,使用层次包围盒法在虚拟环境进行碰撞检测,形成煤矿巷道边界受限情况下的避障策略。在近端策略优化(Proximal Policy Optimization,PPO)算法的基础上结合多方面因素提出改进。考虑到多自由度机械臂状态空间输入长度不固定的情况,引入长短记忆神经网络(Long Short Term Memory,LSTM)的环境状态输入处理方法,可以提升算法对环境的适应能力。并且在奖惩稀疏的情况下引入了好奇心机制(Intrinsic Curiosity Module,ICM),通过给予内在奖励鼓励智能体更大程度地探索环境。基于奖惩机制建立智能体,根据钻锚机器人的运动特性定义其状态空间与动作空间,在同一场景下分别使用2种算法对智能体进行训练,综合奖励值、回合步数、Actor网络损失值、Critic网络损失值等指标进行对比分析,最后经过仿真消融实验测试对比。实验结果表明,在原始PPO算法不能完成任务的情况下,改进后的算法路径长度比同样能完成任务的PPO-ICM算法缩短了3.98%,所用时间缩短了25.6%。为进一步验证改进后算法的鲁棒性,设计多组实验,改进后的PPO算法均完成路径规划任务,路径终点与目标位置的距离误差在3.88 cm之内,锚杆与竖直方向夹角误差在3°以内,能够有效完成路径规划任务,提升煤矿巷道支护系统的自动化程度。结果验证了所提方法在煤矿井下巷道支护时锚孔位置多变的情况下钻锚机器人多自由度机械臂在路径规划的可行性与有效性。
文摘为筛选大豆田中对常见杂草鳢肠和马瓟瓜防除效果好的除草剂,通过整株生物测定法测定24种常用除草剂(主要包括乙酰乳酸合成酶ALS类、原卟啉原氧化酶PPO抑制类、光合作用PSⅡ抑制类除草剂)茎叶喷雾处理对鳢肠和马瓟瓜的除草活性及对大豆的安全性。结果表明:ALS抑制类除草剂在药后3、7 d对鳢肠和马瓟瓜的防除效果不佳,药后14 d有所提升,其中噻吩磺隆对2种杂草的鲜重抑制率达88.31%~94.61%。PPO抑制类除草剂苯嘧磺草胺、氟磺胺草醚、乙氧氟草醚和PSⅡ抑制类除草剂灭草松、辛酰溴苯腈、氨唑草酮处理后对鳢肠的防除效果在药后3、7、14 d整体均表现为良好,其中70%苯嘧磺草胺水分散粒剂(WDG)26.25~78.75 g a.i./hm^(2)、480 g/L灭草松水剂(AS)540~1440 g a.i./hm^(2)、30%辛酰溴苯腈乳油(EC)168.75~405 g a.i./hm^(2)处理的鲜重抑制率均达100.00%,防除效果理想。PPO抑制类除草剂28%三氟羧草醚微乳剂(ME)225~450 g a.i./hm^(2)、10%乙羧氟草醚EC 60~90 g a.i./hm^(2)、250 g/L氟磺胺草醚AS 225~450 g a.i./hm^(2)处理在施用后7、14 d,其对马瓟瓜的株数抑制率和鲜重抑制率达86.50%~100.00%;PSⅡ抑制类除草剂38%莠去津悬浮剂(SC)225~450 g a.i./hm^(2)和40%氰草津SC 150~300 g a.i./hm^(2)处理虽在药后3 d对马瓟瓜的防除效果较差,但药后7、14 d的株抑制率和鲜重抑制率达94.58%~100.00%。安全性试验结果表明,PPO抑制类苯嘧磺草胺、三氟羧草醚、乙羧氟草醚、氟磺胺草醚和PSⅡ抑制类除草剂灭草松、辛酰溴苯腈对大豆安全,但莠去津和氰草津对大豆会产生严重的药害。综上所述,PPO抑制类苯嘧磺草胺和PSⅡ抑制类除草剂灭草松、辛酰溴苯腈可以作为防除大豆田鳢肠的候选药剂,PPO抑制类三氟羧草醚、乙羧氟草醚、氟磺胺草醚可以作为马瓟瓜的候选防除药剂。