采用双层强化学习的干扰决策算法被引量：13

An Algorithm for Jamming Decision Using Dual Reinforcement Learning

下载PDF

导出

摘要为解决强化学习算法在干扰决策过程中收敛速度慢的问题,提出了一种采用双层强化学习的干扰决策算法(DRLJD)。首先对等效通信参数进行建模,模型减少了待学习参数的个数,降低了搜索空间的维度;然后利用降维后的搜索空间指导干扰参数选择,避免随机选择导致干扰性能差的缺点;最后利用选择的干扰参数施加干扰,并根据环境反馈进一步降低搜索空间的维度,通过不断交互的方式加快算法的收敛速度。此外,将以往的干扰经验以先验信息的形式加入到系统的学习进程中,进一步缩短了系统的学习时间。针对构造的干扰问题实验表明,DRLJD算法经过200次交互便学习到优异的干扰策略,小于现有算法所需600次交互,且先验信息的利用进一步降低了对交互次数的要求。以提出的新的奖赏标准作为奖赏依据,算法能够在未知通信协议情况下以牺牲交互时间为代价学习到最佳干扰策略。 A novel algorithm for jamming decision using dual reinforcement learning(DRLJD)is proposed to accelerate convergence rate of reinforcement learning algorithms in jamming decision.First,a model of equivalent communication parameter is constructed to reduce both the number of unlearned parameters and the dimension of the search space.Secondly,the search space with reduced dimension is used to choose jamming parameters and to avoid worse jamming performance caused by random selection.Finally,the selected parameters are used to take jamming action,and to reduce the dimension of search space from the environment feedback information.The convergence rate of the algorithm is accelerated by constant interaction.Moreover,previous jamming experiences are used as prior information to further shorten the learning time of the system and to accelerate the convergence rate.The proposed DRLJD algorithm is validated by taking experiments on some jamming problems.Simulation results show that the algorithm obtains the optimal or suboptimal jamming strategy with 200 interaction times which is less than600 interaction times of existing algorithms,and the use of prior information further reduces the requirements for the number of interactions.When the new reward standard is used as a basis for reward the proposed algorithm could learn the optimal jamming strategy at the expense ofinteraction times in the case that communication protocols are not known.

作者颛孙少帅杨俊安刘辉黄科举

机构地区国防科技大学电子对抗学院安徽省电子制约技术重点实验室

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2018年第2期63-69,共7页 Journal of Xi'an Jiaotong University

基金安徽省自然科学基金资助项目(1308085QF99 1408085MKL46)

关键词强化学习双层强化学习干扰决策先验信息奖赏标准 reinforcement learning dual reinforcement learning jamming decision prior information reward standard

分类号 TN975 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献3

1张春磊,杨小牛.认知电子战与认知电子战系统研究[J].中国电子科学研究院学报,2014,9(6):551-555. 被引量：53
2贾鑫,朱卫纲,曲卫,陈维高.认知电子战概念及关键技术[J].装备学院学报,2015,26(4):96-100. 被引量：25
3黄科举,杨俊安,周继航,刘辉.基于多臂赌博机模型的IEEE 802.11 MAC协议认知干扰技术[J].通信对抗,2017,36(2):30-35. 被引量：2

二级参考文献33

1王建萍,王春江.认知无线电[M].北京:国防工业出版社.2008.
2张春磊.认知电子战”拉开序幕--DARPA开始开发“智能干扰机”[J].通信电子战.2011(1):16-19.
3DARPA. Notice of Intent to Award Sole Source Contract: Behavioral Learning for Adaptive Electronic Warfare (BLADE) Phase 3 [ R/OL]. (2014-2-19). https:// www. fbo. gov/spg/ODA/DARPA/CMO/DARPA-SN-14- 24/listing. html.
4Barry Manz. Cognition: EW Gets Brainy [ J ]. Journal of Electronic Defense ,2012,35 (10) :32.
5Air Force. Cognitive Jammer [ EB/OL ]. https ://www. fbo. gov. ( 2010-1-20 ).
6ONR. Broad Agency Announcement (BAA) NUMBER 13-005 Electronic Warfare Technology [ R/OL]. (2012- 11-19). https://www, fbo. gov.
7DARPA. Broad Agency AnnouncementCOMMUNICATIONS UNDER EXTREME RFSPECTRUM CONDITIONS (Com- mEx )STRATEGIC TECHNOLOGY OFFICEDARPA-BAA 10-74[R/OL]. (2010-9-10). https://www, fbo. gov.
8Disruptor SRxTM[EB/OL].(201-10-4).Exelis官网.
9RANDALL JANKA. Applying Cognitive Radio Concepts to Next Generation Electronic Warfare[ C ]//2010年度软件无线电会议论文集.
10HAYKIN S. Cognitive radio:brain-empowered wireless com- municationsEJ:. IEEE Journal on Selected Areas in Commu- nications, 2005,23(2) :201-220.

共引文献66

1王柏杉.电子战装备特征提取和感知域重塑方法[J].系统仿真技术,2021,17(4):249-252.
2曹家华,李晨正.电子对抗技术发展综述[J].飞机设计,2023,43(5):59-63. 被引量：3
3姚彦龙,张改虎.关于军用航空认知战的顶层思考[J].飞机设计,2023,43(5):1-4. 被引量：1
4徐源,房超,周羽.从“军事智能化”到“以智取胜”——内涵、机理及其技术实现[J].国防,2019,0(11):67-71. 被引量：4
5光晓俐.雷达侦察信号的认知处理技术研究[J].电子科技,2016,29(7):143-146. 被引量：6
6王佩,仇兆扬,祝俊,唐斌.雷达信号侦收自主处理结构分析[J].电子信息对抗技术,2016,31(5):25-29. 被引量：6
7王璐璐,王满喜,曾勇虎,汪连栋.复杂环境下干扰信号优化方法研究[J].电子对抗,2016,0(5):12-15.
8罗金亮,王雷,杨健,陈林.美“电磁频谱战”作战概念解析[J].中国电子科学研究院学报,2016,11(5):474-477. 被引量：11
9黎海涛,李佳宇.同时收发的认知干扰机频谱感知[J].北京工业大学学报,2017,43(4):574-580. 被引量：1
10黄科举,杨俊安,周继航,刘辉.基于多臂赌博机模型的IEEE 802.11 MAC协议认知干扰技术[J].通信对抗,2017,36(2):30-35. 被引量：2

同被引文献63

1郭富强,王呈贵,于雨.基于OFDM导频信道估计的灵巧干扰方法[J].电子信息对抗技术,2008,23(3):35-38. 被引量：5
2游峰,王荣本,张荣辉,熊文华.智能车辆换道与超车轨迹跟踪控制[J].农业机械学报,2008,39(6):42-45. 被引量：19
3吴昊,张杭,路威.一种面向卫星频谱监测的复合式干扰自动识别算法[J].系统仿真学报,2008,20(17):4681-4684. 被引量：7
4杨小明,陶然.直接序列扩频通信系统中干扰样式的自动识别[J].兵工学报,2008,29(9):1078-1082. 被引量：18
5李建勋,闫海,吕强.基于高阶累积量的欺骗式干扰识别方法[J].微计算机信息,2009,25(7):233-235. 被引量：3
6黄英,雷菁.卫星通信中调制识别算法研究[J].系统工程与电子技术,2009,31(6):1303-1306. 被引量：24
7陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：66
8张明环,张科,张宇辰.车辆自主避障的触须算法研究[J].机械科学与技术,2012,31(12):1993-1996. 被引量：2
9田晓,唐斌.基于归一化小波分解能量比的雷达有源欺骗干扰识别[J].数据采集与处理,2013,28(4):416-420. 被引量：32
10闫占杰,吴德伟,刘海波,毛虎.GPS转发欺骗式干扰时延分析[J].空军工程大学学报（自然科学版）,2013,14(4):67-70. 被引量：30

引证文献13

1李永丹,马天力,陈超波,韦宏利,杨琼楠.无人驾驶车辆路径规划算法综述[J].国外电子测量技术,2019,38(6):72-79. 被引量：50
2张君毅,张冠杰,杨鸿杰.针对未知通信目标的干扰策略智能生成方法研究[J].电子测量技术,2019,42(16):148-153. 被引量：3
3王安义,李萍,张育芝.基于SARSA算法的水声通信自适应调制[J].科学技术与工程,2020,20(16):6505-6509. 被引量：5
4王军,叶立诚,刘帅,韩冬梅.时变环境下基于最大期望加权估计的干扰决策方法[J].现代雷达,2021,43(3):30-36. 被引量：2
5王龙翔,董凯,李小轩,董小社,张兴军,朱正东,王宇菲,张利平.面向虚拟数据空间的智能TCP拥塞控制算法[J].西安交通大学学报,2021,55(5):83-91. 被引量：12
6饶宁,许华,宋佰霖.融合动作剔除的深度竞争双Q网络智能干扰决策算法[J].空军工程大学学报（自然科学版）,2021,22(4):92-98. 被引量：2
7许华,宋佰霖,蒋磊,饶宁,史蕴豪.一种通信对抗干扰资源分配智能决策算法[J].电子与信息学报,2021,43(11):3086-3095. 被引量：15
8饶宁,许华,宋佰霖.融合有效方差置信上界的Q学习智能干扰决策算法[J].哈尔滨工业大学学报,2022,54(5):162-170. 被引量：3
9宋佰霖,许华,齐子森,饶宁,彭翔.一种基于深度强化学习的协同通信干扰决策算法[J].电子学报,2022,50(6):1301-1309. 被引量：10
10贺兴,任国春,冯智斌,龚玉萍,王路广,朱卓丹.面向动态通信用户数量的多模Q学习干扰策略[J].陆军工程大学学报,2023,2(6):25-30.

二级引证文献103

1李欣佳.高校档案管理中大数据检索改进算法的研究[J].电子测量技术,2020(10):90-94. 被引量：5
2李振锋,黎敬涛,许博文.一种提高红外避障精确度处理的算法设计[J].电子测量技术,2020(8):108-111. 被引量：2
3刘耀,毛剑琳.基于自适应变步长蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):76-81. 被引量：5
4袁洋,叶峰,赖乙宗,赵雨亭.结合负载均衡与A*算法的多AGV路径规划[J].计算机工程与应用,2020,56(5):251-256. 被引量：17
5杨朝阳,陈恳,彭丽.基于模型预测控制无人驾驶车辆避障轨迹跟踪器设计[J].湖北汽车工业学院学报,2020,34(1):11-15. 被引量：4
6项天远,张延伟,谭华,刘倩.基于概率势场的无人帆船实时路径规划研究[J].国外电子测量技术,2020,39(5):17-22. 被引量：1
7许伦辉,曹宇超,林培群.基于多影响因素RDMA*算法的无人驾驶动态路径规划[J].交通信息与安全,2020,38(2):24-36. 被引量：10
8李伦.基于出行决策的高速公路网入口流量控制规划模型[J].国外电子测量技术,2020,39(7):58-61. 被引量：1
9原静.无人驾驶汽车路径规划仿真分析[J].南方农机,2020,51(17):68-69.
10吴建清,宋修广.智慧公路关键技术发展综述[J].山东大学学报（工学版）,2020,50(4):52-69. 被引量：59

1李艳红.提高高中历史课堂教学有效性的策略探析[J].中华少年,2017,0(35):90-91. 被引量：2
2林晓.网络环境下小学数学教学模式创新探析[J].厦门广播电视大学学报,2017,20(4):55-58. 被引量：2
3吴良堤,冯桂.HEVC帧间编码的快速CU尺寸和PU模式决策算法[J].华侨大学学报（自然科学版）,2018,39(1):121-126.
4翁雅芳.探究“预习——讨论——练习”阅读学习模式——以《莫高窟》一课为例[J].读与写（教育教学刊）,2017,14(9):162-162.
5席培华.“支架式教学”在高职英语教学中的应用研究[J].海外英语,2017(8):39-41. 被引量：5
6朱华友,何钰凝,李涵.浙商回归的动力机制及对地区转型发展的影响:企业再地方化视角[J].浙江师范大学学报（社会科学版）,2017,42(5):1-8. 被引量：2
7黄玲美.展示提问艺术打造精美数学课堂[J].数理化解题研究（高中版）,2017,0(10X):18-19.
8邢宏萍,王祥,韩冲芳,杨文曲,贺建东.脉冲射频联合阿霉素治疗颈源性头痛的近期疗效[J].实用疼痛学杂志,2017,13(5):337-341. 被引量：6
9赵海燕,马卫民,孙秉珍,贾菁菁.考虑风险偏好的区间直觉模糊软集型多属性决策方法[J].计算机应用研究,2018,35(2):453-458. 被引量：3
10杨予昊,孙晶明,虞盛康,彭雄伟.基于卷积神经网络的高分辨距离像目标识别[J].现代雷达,2017,39(12):24-28. 被引量：21

西安交通大学学报

2018年第2期

浏览历史

内容加载中请稍等...

采用双层强化学习的干扰决策算法被引量：13

参考文献3

二级参考文献33

共引文献66

同被引文献63

引证文献13

二级引证文献103

相关作者

相关机构

相关主题

浏览历史

采用双层强化学习的干扰决策算法 被引量：13

参考文献3

二级参考文献33

共引文献66

同被引文献63

引证文献13

二级引证文献103

相关作者

相关机构

相关主题

浏览历史

采用双层强化学习的干扰决策算法被引量：13