期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
利用A2C-ac的城轨车车通信资源分配算法
被引量:
3
1
作者
王瑞峰
张明
+1 位作者
黄子恒
何涛
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第4期1306-1313,共8页
在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出...
在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出一种基于多智能体深度强化学习(MADRL)的改进优势演员-评论家(A2C-ac)资源分配算法。首先以系统吞吐量为优化目标,以T2T通信发送端为智能体,策略网络采用分层输出结构指导智能体选择需复用的频谱资源和功率水平,然后智能体做出相应动作并与T2T通信环境交互,得到该时隙下T2G用户和T2T用户吞吐量,价值网络对两者分别评价,利用权重因子β为每个智能体定制化加权时序差分(TD)误差,以此来灵活优化神经网络参数。最后,智能体根据训练好的模型联合选出最佳的频谱资源和功率水平。仿真结果表明,该算法相较于A2C算法和深度Q网络(DQN)算法,在收敛速度、T2T成功接入率、吞吐量等方面均有明显提升。
展开更多
关键词
城市轨道交通
资源分配
T2T通信
多智能体深度强化学习
a2c
-ac算法
在线阅读
下载PDF
职称材料
基于A2C算法的低轨星座动态波束资源调度研究
被引量:
2
2
作者
刘伟
郑润泽
+3 位作者
张磊
高梓贺
陶滢
崔楷欣
《中国空间科学技术》
CSCD
北大核心
2023年第3期123-133,共11页
巨型低轨星座为载人飞船、空间站、遥感卫星等用户航天器提供低时延、大容量的通信通道存在波束资源分配优化的难题。针对采用离散时间的深度强化学习A2C(advanced actor-critic)的智能优化框架进行了研究,结合遗传算法中个体和基因概...
巨型低轨星座为载人飞船、空间站、遥感卫星等用户航天器提供低时延、大容量的通信通道存在波束资源分配优化的难题。针对采用离散时间的深度强化学习A2C(advanced actor-critic)的智能优化框架进行了研究,结合遗传算法中个体和基因概念、形成了可有效满足多用户、动态、并发接入需求的波束资源调度算法。基于仿真分析,提出的算法可在多种典型场景下具有适用性,支持在20 s内完成超过3000个任务的有效规划,任务成功率不低于91%。通过算法优化实现复杂度的降低,相对传统遗传算法可节约时间45%以上。同时对传统A2C算法框架中的收敛问题进行了优化,解决了传统全连接A2C算法无法收敛的难题,同时相比DQN(deep q-network)算法框架收敛速度提升38%以上。
展开更多
关键词
低轨星座
波束调度
任务规划
深度强化学习
a2c
算法
在线阅读
下载PDF
职称材料
基于优势演员-评论家算法的强化自动摘要模型
被引量:
7
3
作者
杜嘻嘻
程华
房一泉
《计算机应用》
CSCD
北大核心
2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)...
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。
展开更多
关键词
自动摘要模型
抽取式摘要模型
生成式摘要模型
编码器-解码器
强化学习
优势演员-评论家算法
在线阅读
下载PDF
职称材料
题名
利用A2C-ac的城轨车车通信资源分配算法
被引量:
3
1
作者
王瑞峰
张明
黄子恒
何涛
机构
兰州交通大学自动化与电气工程学院
兰州交通大学自动控制研究所
出处
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第4期1306-1313,共8页
基金
国家自然科学基金铁路基础研究联合基金(U2268206)。
文摘
在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出一种基于多智能体深度强化学习(MADRL)的改进优势演员-评论家(A2C-ac)资源分配算法。首先以系统吞吐量为优化目标,以T2T通信发送端为智能体,策略网络采用分层输出结构指导智能体选择需复用的频谱资源和功率水平,然后智能体做出相应动作并与T2T通信环境交互,得到该时隙下T2G用户和T2T用户吞吐量,价值网络对两者分别评价,利用权重因子β为每个智能体定制化加权时序差分(TD)误差,以此来灵活优化神经网络参数。最后,智能体根据训练好的模型联合选出最佳的频谱资源和功率水平。仿真结果表明,该算法相较于A2C算法和深度Q网络(DQN)算法,在收敛速度、T2T成功接入率、吞吐量等方面均有明显提升。
关键词
城市轨道交通
资源分配
T2T通信
多智能体深度强化学习
a2c
-ac算法
Keywords
Urban rail transit system
Resource allocation
Train-to-Train(T2T)
Multi-Agent Deep Reinforcement Learning(MADRL)
Advantage Actor-Critic-ac(
a2c
-ac)
algorithm
分类号
TN929.5 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
基于A2C算法的低轨星座动态波束资源调度研究
被引量:
2
2
作者
刘伟
郑润泽
张磊
高梓贺
陶滢
崔楷欣
机构
国家航天局卫星通信系统创新中心
中国空间技术研究院通信与导航卫星总体部
西北工业大学
北京理工大学
出处
《中国空间科学技术》
CSCD
北大核心
2023年第3期123-133,共11页
基金
国家重点研发计划(2021YFB2900603)
国家自然科学基金(61831008)。
文摘
巨型低轨星座为载人飞船、空间站、遥感卫星等用户航天器提供低时延、大容量的通信通道存在波束资源分配优化的难题。针对采用离散时间的深度强化学习A2C(advanced actor-critic)的智能优化框架进行了研究,结合遗传算法中个体和基因概念、形成了可有效满足多用户、动态、并发接入需求的波束资源调度算法。基于仿真分析,提出的算法可在多种典型场景下具有适用性,支持在20 s内完成超过3000个任务的有效规划,任务成功率不低于91%。通过算法优化实现复杂度的降低,相对传统遗传算法可节约时间45%以上。同时对传统A2C算法框架中的收敛问题进行了优化,解决了传统全连接A2C算法无法收敛的难题,同时相比DQN(deep q-network)算法框架收敛速度提升38%以上。
关键词
低轨星座
波束调度
任务规划
深度强化学习
a2c
算法
Keywords
LEO constellation
beam scheduling
task planning
DRL
a2c algorithm
分类号
V19 [航空宇航科学与技术—人机与环境工程]
在线阅读
下载PDF
职称材料
题名
基于优势演员-评论家算法的强化自动摘要模型
被引量:
7
3
作者
杜嘻嘻
程华
房一泉
机构
华东理工大学信息科学与工程学院
出处
《计算机应用》
CSCD
北大核心
2021年第3期699-705,共7页
基金
赛尔网络下一代互联网技术创新项目(NGII20170520)。
文摘
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。
关键词
自动摘要模型
抽取式摘要模型
生成式摘要模型
编码器-解码器
强化学习
优势演员-评论家算法
Keywords
automatic summary model
extractive summary model
abstractive summary model
encoder-decoder
reinforcement learning
Advantage Actor-Critic(
a2c
)
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
利用A2C-ac的城轨车车通信资源分配算法
王瑞峰
张明
黄子恒
何涛
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024
3
在线阅读
下载PDF
职称材料
2
基于A2C算法的低轨星座动态波束资源调度研究
刘伟
郑润泽
张磊
高梓贺
陶滢
崔楷欣
《中国空间科学技术》
CSCD
北大核心
2023
2
在线阅读
下载PDF
职称材料
3
基于优势演员-评论家算法的强化自动摘要模型
杜嘻嘻
程华
房一泉
《计算机应用》
CSCD
北大核心
2021
7
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部