期刊文献+
共找到1,335篇文章
< 1 2 67 >
每页显示 20 50 100
基于改进PPO算法的机械臂动态路径规划 被引量:1
1
作者 万宇航 朱子璐 +3 位作者 钟春富 刘永奎 林廷宇 张霖 《系统仿真学报》 北大核心 2025年第6期1462-1473,共12页
针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出... 针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出了基于LSTM网络的环境状态输入处理方法,并对PPO算法的网络结构进行了改进;基于人工势场法设计了奖励函数,并建立机械臂碰撞检测模型。实验结果表明:改进算法能够适应场景中障碍物数量和位置的变化,具有更快的收敛速度和稳定性。 展开更多
关键词 动态路径规划 改进ppo算法 LSTM网络 人工势场法 ML-Agents
原文传递
一种面向博弈场景的PPO-Dueling DQN策略优化方法
2
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度Q网络 ppo算法 网络攻防博弈 效能评估
在线阅读 下载PDF
局部风信息启发的AVW-PPO室内气源定位算法
3
作者 李世钰 袁杰 +2 位作者 谢霖伟 郭旭 张宁宁 《哈尔滨工业大学学报》 北大核心 2025年第8期57-68,共12页
为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始... 为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始PPO算法的基础上引入辅助价值网络,以减少单一值网络的估计偏差,从而提升策略更新的稳定性与预测精度。其次,设计了一种风导向策略,将局部环境风场信息融入强化学习框架中的状态空间与奖励函数,使机器人能够更敏锐地感知羽流环境的动态变化,优化其决策路径,从而有效提高气源定位的效率。最后,通过构建二维环境中的气体扩散模型,在3种不同的湍流条件下对所提算法进行了测试。结果表明:相同环境条件下,AVW-PPO算法在平均搜索步数和成功率两个指标上均优于其他同类算法,且定位成功率超过99%。其中,风导向策略在提升搜索效率方面表现尤为突出,有助于减少机器人完成任务所需的时间。本研究为解决室内复杂湍流环境下的气源定位问题提供了新思路和新方法。 展开更多
关键词 气源定位 深度强化学习 近端策略优化(ppo) 辅助价值网络 风导向策略
在线阅读 下载PDF
结合PPO和蒙特卡洛树搜索的斗地主博弈模型
4
作者 王世鹏 王亚杰 +2 位作者 吴燕燕 郭其龙 赵甜宇 《重庆理工大学学报(自然科学)》 北大核心 2025年第8期126-133,共8页
斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy... 斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization,PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提供动作概率的策略模型,为蒙特卡洛树搜索的选择和模拟阶段提供策略指导。在选择阶段,通过PPO策略模型输出的动作概率优化策略选择公式,指导高质量动作节点的选择。在模拟阶段,PPO替代了随机模拟过程,使模拟更加符合策略,减少低效路径的探索。实验结果表明:结合PPO优化后的蒙特卡洛树搜索不仅提高了决策的效率,还提升了模型的胜率,表现出较强的斗地主博弈决策优势。 展开更多
关键词 ppo算法 蒙特卡洛树搜索 斗地主 非完备信息博弈
在线阅读 下载PDF
带最大熵修正和GAIL的PPO算法
5
作者 王泽宁 刘蕾 《计算机测量与控制》 2025年第1期235-241,共7页
为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探... 为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探索,从而更全面地评估环境并发现更优策略;同时,为解决强化学习过程中因奖励函数设置不合理引起的训练效果不佳问题,引入GAIL思想,通过专家数据指导智能体进行学习;实验表明,引入最大熵修正项和GAIL的PPO算法在强化学习任务上取得了良好的性能,有效提升了学习速度和稳定性,且能有效规避因环境奖励函数设置不合理引起的性能损失;该算法为强化学习领域提供了一种新的解决策略,对于处理具有挑战性的连续控制问题具有重要意义。 展开更多
关键词 强化学习 ppo算法 生成式对抗模仿学习 深度学习 最大熵学习
在线阅读 下载PDF
中医外科PPOS临床教学模式构建
6
作者 赵满忱 李亚文 +5 位作者 尹凌峰 蔡文怡 周敏杰 周颖 徐磊 方豫东 《临床医学研究与实践》 2025年第31期174-178,共5页
目的探讨中医外科PPOS临床教学模式的构建。方法纳入2023年12月至2024年11月于我科实习的30名本科生、规培生进行研究,随机将其分为PPOS教学模式组(n=15,PPOS教学模式)和传统实训组(n=15,传统教学模式)。比较两组实习生的临床教学考核... 目的探讨中医外科PPOS临床教学模式的构建。方法纳入2023年12月至2024年11月于我科实习的30名本科生、规培生进行研究,随机将其分为PPOS教学模式组(n=15,PPOS教学模式)和传统实训组(n=15,传统教学模式)。比较两组实习生的临床教学考核成绩、患者对实习生满意度、临床思维能力、临床操作能力及综合能力。结果PPOS教学模式组的理论成绩、实践成绩及患者对实习生满意度评分均高于传统实训组(P<0.05)。实训后,两组实习生的临床思维能力量表各维度(批判性思维能力、系统性思维能力、循证性思维能力)评分及总分均升高,且PPOS教学模式组高于传统实训组(P<0.05)。实训后,PPOS教学模式组的临床操作能力各项(诊断、中医证型评估、治疗方案执行)评分均高于传统实训组(P<0.05)。实训后,两组实习生的综合能力提升问卷调查表各维度(独创思维、有效沟通、精准判断和高效治疗)评分均升高,且PPOS教学模式组高于传统实训组(P<0.05)。结论中医外科PPOS临床教学模式的构建,能够显著提高实习生的临床教学考核成绩、临床思维能力、临床操作能力及综合能力,进而提升患者对实习生的满意度。 展开更多
关键词 中医外科 ppoS教学模式 考核成绩 临床思维能力 综合能力
在线阅读 下载PDF
Improved PPO-Based Task Offloading Strategies for Smart Grids
7
作者 Qian Wang Ya Zhou 《Computers, Materials & Continua》 2025年第8期3835-3856,共22页
Edge computing has transformed smart grids by lowering latency,reducing network congestion,and enabling real-time decision-making.Nevertheless,devising an optimal task-offloading strategy remains challenging,as it mus... Edge computing has transformed smart grids by lowering latency,reducing network congestion,and enabling real-time decision-making.Nevertheless,devising an optimal task-offloading strategy remains challenging,as it must jointly minimise energy consumption and response time under fluctuating workloads and volatile network conditions.We cast the offloading problem as aMarkov Decision Process(MDP)and solve it with Deep Reinforcement Learning(DRL).Specifically,we present a three-tier architecture—end devices,edge nodes,and a cloud server—and enhance Proximal Policy Optimization(PPO)to learn adaptive,energy-aware policies.A Convolutional Neural Network(CNN)extracts high-level features from system states,enabling the agent to respond continually to changing conditions.Extensive simulations show that the proposed method reduces task latency and energy consumption far more than several baseline algorithms,thereby improving overall system performance.These results demonstrate the effectiveness and robustness of the framework for real-time task offloading in dynamic smart-grid environments. 展开更多
关键词 Smart grid task offloading deep reinforcement learning improved ppo algorithm edge computing
在线阅读 下载PDF
基于PPO算法的链路不相交多路径路由优化研究
8
作者 刘正堂 《软件工程与应用》 2025年第5期1105-1112,共8页
链路不相交多路径路由是当前网络优化的重要方向,传统路由算法在面对网络动态变化时存在适应性差、效率低等问题。本文提出了一种基于强化学习的链路不相交多路径路由算法,具体采用PPO (近端策略优化)算法。实验结果表明该算法具有良好... 链路不相交多路径路由是当前网络优化的重要方向,传统路由算法在面对网络动态变化时存在适应性差、效率低等问题。本文提出了一种基于强化学习的链路不相交多路径路由算法,具体采用PPO (近端策略优化)算法。实验结果表明该算法具有良好的收敛性与稳定性,所选路径集合的奖励显著优于随机方法,在不同网络状态下均表现出较强的泛化能力与适应能力。 展开更多
关键词 链路不相交 路由 强化学习 ppo
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题 被引量:1
9
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
10
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
自适应奖励函数的PPO曲面覆盖方法
11
作者 李淑怡 阳波 +2 位作者 陈灵 沈玲 唐文胜 《计算机工程》 北大核心 2025年第3期86-94,共9页
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面... 针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA Ⅱ、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 展开更多
关键词 清洁机器人 曲面 覆盖路径规划 强化学习 近端策略优化
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
12
作者 李锦键 王兴贵 丁颖杰 《电源学报》 北大核心 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 近端策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
一种基于PPO算法的低空基站优化模型
13
作者 薄云鹏 亢抗 +1 位作者 潘桂新 汪敏 《电子技术应用》 2025年第7期60-64,共5页
通过优化现有地面网络基站来实现低空网络服务具有成本低、建设快等优点,面对低空基站优化过程中存在的无线环境复杂、配置参数多样、优化目标互相影响等问题,提出了一种基于近端策略优化算法的多维低空网络基站优化模型:通过射线追踪... 通过优化现有地面网络基站来实现低空网络服务具有成本低、建设快等优点,面对低空基站优化过程中存在的无线环境复杂、配置参数多样、优化目标互相影响等问题,提出了一种基于近端策略优化算法的多维低空网络基站优化模型:通过射线追踪技术计算不同类型、不同角度基站的低空覆盖能力,并构建支持多目标优化和多参数配置的低空网络基站优化模型,利用PPO算法得到基站配置策略。在仿真环境中进行训练与结果验证,证明该模型可有效生成基站优化方案,且相较于基于A2C方法的模型具有更快的收敛速度和更好的基站优化效果。 展开更多
关键词 低空基站 低空通信 近端策略优化 强化学习
在线阅读 下载PDF
美味牛肝菌PPO酶学特性及其抑制机理
14
作者 资璐熙 向仕聪 +3 位作者 徐柠檬 李为兰 秦粉 郭磊 《西北农业学报》 北大核心 2025年第2期290-299,共10页
以美味牛肝菌为原料,对PPO进行分离纯化后研究其酶学特性,在此基础上,采用动力学模型和Lineweaver-Burk作图法对PPO热失活动力学和抑制剂作用机理进行分析。结果表明:美味牛肝菌PPO酶促反应产物在407 nm处有最大吸收峰,与邻苯二酚亲和... 以美味牛肝菌为原料,对PPO进行分离纯化后研究其酶学特性,在此基础上,采用动力学模型和Lineweaver-Burk作图法对PPO热失活动力学和抑制剂作用机理进行分析。结果表明:美味牛肝菌PPO酶促反应产物在407 nm处有最大吸收峰,与邻苯二酚亲和力最强,酶促反应动力学参数K_(m)=9.41 mmol/L,V_(max)=196.08 U/min,PPO最适底物为50 mmol/L邻苯二酚,最适pH为6.8,最适反应温度和时间分别为45℃、7 min。PPO在90℃下酶失活最快,其动力学参数为k=2.5045 min^(-1)、D=0.9420 min、T_(1/2)=0.2768 min;70℃~90℃下美味牛肝菌PPO失活活化能E_(a)=130.283 kJ/mol。偏重亚硫酸钠的抑制类型属于非竞争性抑制,抗坏血酸和L-半胱氨酸的抑制类型属于竞争性抑制。热处理和添加抑制剂能有效抑制PPO酶活力,研究结果为美味牛肝菌采后储藏及加工过程中的品质控制提供了一定的参考依据。 展开更多
关键词 美味牛肝菌 多酚氧化酶 酶学特性 分子对接 热失活 抑制剂机理
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:2
15
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于改进PPO的小天体飞越轨道修正机动规划算法
16
作者 扈航 张锦绣 王继河 《宇航学报》 北大核心 2025年第6期1111-1122,共12页
在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向... 在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向小天体飞越前的轨道修正机动场景,提出了一种基于改进近端策略优化(PPO)的可处理环境摄动的轨道修正机动规划算法。该算法以二体Lambert问题迭代解作为输出基础项,以PPO算法学习环境摄动影响后的决策结果为输出补偿项,兼顾了对环境摄动影响的补偿和计算耗时。仿真结果表明,在环境摄动被准确感知的情况下,所提算法得到的修正机动策略的终端位置精度优于二体Lambert问题迭代解、仅基于PPO算法学习所得结果,略低于微分修正法所得结果;在环境摄动感知存在偏差且机动点间隔时间较长的情况下,所提算法在Monte Carlo打靶实验中的终端位置精度优于微分修正法所得结果,具有更好的泛化能力和鲁棒性。且所提算法的实时性好,在计算资源受限的树莓派4B上测试时在所有场景的平均决策时间均优于0.6 s,具有搭载在探测器上进行实时规划的潜力。 展开更多
关键词 轨道修正机动 小天体飞越 不确定摄动 近端策略优化
在线阅读 下载PDF
PPOS方案与拮抗剂方案对卵巢高储备者胚胎整倍体率的影响
17
作者 成海英 黄向红 +3 位作者 谭小军 罗辰 雷茜 贺艳坤 《中国卫生标准管理》 2025年第2期13-16,130,共5页
目的探讨行胚胎植入前非整倍体遗传学检测(preimplantation genetic testing,PGT-A)的卵巢高储备患者,高孕激素状态下促排卵(progestin-primed ovarian stimulation,PPOS)方案和促性腺激素释放激素(gonadotropin-releasing hormone,Gn ... 目的探讨行胚胎植入前非整倍体遗传学检测(preimplantation genetic testing,PGT-A)的卵巢高储备患者,高孕激素状态下促排卵(progestin-primed ovarian stimulation,PPOS)方案和促性腺激素释放激素(gonadotropin-releasing hormone,Gn RH)拮抗剂方案对其胚胎整倍体率的影响。方法回顾性分析2017年1月—2022年12月在湘潭市中心医院行PGT-A的169例卵巢高储备患者。根据促排方案分为PPOS组78例和拮抗剂组91例。比较2组患者的促排卵效果及PGT-A检测结果。结果2组患者的促性腺激素(gonadotropin,Gn)使用天数、Gn总量、轻中度卵巢过度刺激综合征(ovarian hyperstimulation syndrome,OHSS)、重度OHSS、MⅡ卵囊胚形成率、整倍体囊胚率、首个冻胚移植周期临床妊娠率、早期流产率及活产率比较,差异均无统计学意义(P>0.05)。而PPOS组的获卵数、MⅡ卵数、卵泡输出率分别为(12.64±3.20)个、(12.55±3.12)个、(89.27±23.11)%,低于拮抗剂组的(14.19±3.80)个、(14.33±3.25)个、(102.41±29.23)%,差异有统计学意义(P<0.05)。PPOS组无患者出现早发黄体生成素(luteinizing hormone,LH)峰,而拮抗剂组有2例患者出现早发LH峰,差异无统计学意义(P>0.05)。结论对于行PGT-A的卵巢高储备患者,应用PPOS方案和拮抗剂方案均能较有效地抑制早发LH水平峰、避免重度OHSS发生以及获得较好的整倍体囊胚率。 展开更多
关键词 胚胎植入前非整倍体遗传学检测 高孕激素状态下促排卵 拮抗剂方案 整倍体胚胎 卵巢高储备 早发黄体生成素峰
暂未订购
基于PPO算法的一对一空战格斗决策方法
18
作者 周琪栋 江志东 +1 位作者 霍立平 赵冬梅 《计算机测量与控制》 2025年第10期165-173,共9页
空战格斗具有作战要素多、态势变化快和作战氛围紧张等特点,其决策方法是人工智能领域的热点研究课题;目前关于近距空战算法的研究大都在简化的低精度场景或现有仿真平台中进行,受实际问题的复杂性和仿真效能的限制大多简化了空战决策模... 空战格斗具有作战要素多、态势变化快和作战氛围紧张等特点,其决策方法是人工智能领域的热点研究课题;目前关于近距空战算法的研究大都在简化的低精度场景或现有仿真平台中进行,受实际问题的复杂性和仿真效能的限制大多简化了空战决策模型,降低了研究结果的参考价值;针对此问题,基于Unity3D搭建了满足研究需求的可视化空战平台并设计了飞机的机动动作集,根据空空格斗时的敌我态势特点定义了态势评估函数和奖励函数,在此基础上构建了基于近端策略优化算法的一对一空战格斗决策框架;实验结果表明,决策模型能够驱动智能体根据战场态势进行灵活的机动决策,具备较强的自主决策的能力,验证了方法的有效性。 展开更多
关键词 人工智能 空战格斗 强化学习 近端策略优化 空战决策
在线阅读 下载PDF
基于PPO算法的机械臂抓取策略研究 被引量:1
19
作者 孔凡国 仇展明 +2 位作者 王鑫 陈靖轩 袁功兴 《机电工程技术》 2024年第11期96-100,共5页
以解决机械臂在面临多目标场景中执行抓取任务时的路径规划问题为目标,验证PPO算法在机械臂抓取策略上的可行性。研究采用基于PPO算法的深度强化学习,通过在PyBullet仿真环境中进行机械臂与物体的交互模拟,以机械臂末端的位置坐标和目... 以解决机械臂在面临多目标场景中执行抓取任务时的路径规划问题为目标,验证PPO算法在机械臂抓取策略上的可行性。研究采用基于PPO算法的深度强化学习,通过在PyBullet仿真环境中进行机械臂与物体的交互模拟,以机械臂末端的位置坐标和目标物体的位置坐标作为状态空间输入到深度强化学习网络,并输出下一步骤的机械臂末端位置坐标,再通过机械臂逆运动学求得各个关节的旋转角度作为动作的输出,最后结合经过优化的奖励函数,提高机械臂在训练抓取任务时的学习效率,加快收敛速度。仿真实验表明,经过优化的奖励函数和PPO算法的应用使得机械臂训练时获取的奖励值能够在第1000回合左右开始收敛到-50~0,且能够在10步左右的步数稳定完成抓取任务,验证了该方法的可行性。该研究成果在机械臂抓取任务中取得很好的效果,为实际应用中解决复杂抓取问题提供了有力的方法和技术支持。 展开更多
关键词 深度强化学习 PyBullet 机械臂抓取 ppo
在线阅读 下载PDF
基于一种改进PPO算法的无人机空战自主机动决策方法研究 被引量:1
20
作者 张欣 董文瀚 +3 位作者 尹晖 贺磊 张聘 李敦旺 《空军工程大学学报》 CSCD 北大核心 2024年第6期77-86,共10页
深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距... 深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距空战攻击模型;其次,基于空战状态划分重构角度、速度、距离和高度态势函数,提出一种描述机动潜力的新型态势评估指标;之后,基于态势函数设计塑形奖励,并与基于规则的稀疏奖励、基于状态转换的子目标奖励共同构成算法奖励函数,增强了强化学习算法的引导能力;最后,设计专家系统作为对手,在高保真空战仿真平台(JSBSim)中对本文工作进行了评估。仿真验证,应用本文方法的智能体在对抗固定机动对手与专家系统对手时算法收敛速度与胜率都得到了有效提升。 展开更多
关键词 ppo算法 机动潜力 六自由度飞机模型 态势函数 近距空战 专家系统
在线阅读 下载PDF
上一页 1 2 67 下一页 到第
使用帮助 返回顶部