期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
利用A2C-ac的城轨车车通信资源分配算法 被引量:3
1
作者 王瑞峰 张明 +1 位作者 黄子恒 何涛 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第4期1306-1313,共8页
在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出... 在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出一种基于多智能体深度强化学习(MADRL)的改进优势演员-评论家(A2C-ac)资源分配算法。首先以系统吞吐量为优化目标,以T2T通信发送端为智能体,策略网络采用分层输出结构指导智能体选择需复用的频谱资源和功率水平,然后智能体做出相应动作并与T2T通信环境交互,得到该时隙下T2G用户和T2T用户吞吐量,价值网络对两者分别评价,利用权重因子β为每个智能体定制化加权时序差分(TD)误差,以此来灵活优化神经网络参数。最后,智能体根据训练好的模型联合选出最佳的频谱资源和功率水平。仿真结果表明,该算法相较于A2C算法和深度Q网络(DQN)算法,在收敛速度、T2T成功接入率、吞吐量等方面均有明显提升。 展开更多
关键词 城市轨道交通 资源分配 T2T通信 多智能体深度强化学习 a2c-ac算法
在线阅读 下载PDF
基于A2C算法的低轨星座动态波束资源调度研究 被引量:2
2
作者 刘伟 郑润泽 +3 位作者 张磊 高梓贺 陶滢 崔楷欣 《中国空间科学技术》 CSCD 北大核心 2023年第3期123-133,共11页
巨型低轨星座为载人飞船、空间站、遥感卫星等用户航天器提供低时延、大容量的通信通道存在波束资源分配优化的难题。针对采用离散时间的深度强化学习A2C(advanced actor-critic)的智能优化框架进行了研究,结合遗传算法中个体和基因概... 巨型低轨星座为载人飞船、空间站、遥感卫星等用户航天器提供低时延、大容量的通信通道存在波束资源分配优化的难题。针对采用离散时间的深度强化学习A2C(advanced actor-critic)的智能优化框架进行了研究,结合遗传算法中个体和基因概念、形成了可有效满足多用户、动态、并发接入需求的波束资源调度算法。基于仿真分析,提出的算法可在多种典型场景下具有适用性,支持在20 s内完成超过3000个任务的有效规划,任务成功率不低于91%。通过算法优化实现复杂度的降低,相对传统遗传算法可节约时间45%以上。同时对传统A2C算法框架中的收敛问题进行了优化,解决了传统全连接A2C算法无法收敛的难题,同时相比DQN(deep q-network)算法框架收敛速度提升38%以上。 展开更多
关键词 低轨星座 波束调度 任务规划 深度强化学习 a2c算法
在线阅读 下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:7
3
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部