基于深度强化学习的数据传输策略优化研究

Research on optimization of data transmission strategies based on deep reinforcement learning

下载PDF

导出

摘要基于深度强化学习理论框架,提出分层递进式解决方案。首先,构建融合边缘计算节点的异构数据传输架构,建立具有时变特征的多维状态空间马尔可夫决策过程。其次,在传统深度Q网络(deep Qlearning network,DQN)算法中嵌入熵正则化约束项,结合同策略经验回放机制,形成增强型ESERDQN(improved DQN algorithm based on entropy and same-strategy experience replay)优化器。最终,设计五维评估指标体系(收敛速率、累积奖励值、能耗、传输时延、传输成本),开展多算法对比实验。仿真结果表明,ESERDQN在1500训练周期内达成稳定收敛,较基准贪心算法、随机算法、DDPG算法及PPO分别提升收敛速度49.2%、41.7%、30.1%和13.3%;在综合业务指标方面,其单位能耗成本降低27.8%,关键任务时延控制在12.3 ms以内,验证了所提方法在智慧城市复杂传输场景下的技术优越性。 Based on the theoretical framework of deep reinforcement learning,a hierarchical and progressive solution was proposed.Firstly,a heterogeneous data transmission architecture integrating edge computing nodes was constructed,and a multi-dimensional state space Markov decision process with time-varying characteristics was established.Secondly,the entropy regularization constraint term was embedded in the traditional deep Q-learning network(DQN)algorithm,and the experience replay mechanism of the same strategy was combined.An enhanced ESERDQN(improved DQN algorithm based on entropy and same-strategy experience replay)optimizer was formed.Finally,a five-dimensional evaluation index system(convergence rate,cumulative reward value,energy consumption,end-toend delay,transmission cost)was designed to carry out multi-algorithm comparison experiments.The simulation results show that ESERDQN achieves stable convergence within 1500 training cycles,which improves the convergence speed by 49.2%,41.7%,30.1%and 13.3%respectively compared with the benchmark greedy algorithm,random algorithm,DDPG algorithm and PPO.In terms of comprehensive business indicators,the unit energy cost was reduced by 27.8%,and the delay of key tasks is controlled within 12.3 ms,which verifies the technical superiority of the proposed method in complex transmission scenarios of smart cities.

作者蒋守花冯军舒晖黎佳宜 JIANG Shouhua;FENG Jun;SHU Hui;LI Jiayi(Modern Education Technology Center,Chengdu Medical College,Chengdu 610599,China;Beijing Normal University,Beijing 100875,China)

机构地区成都医学院现代教育技术中心北京师范大学

出处《电信科学》北大核心 2025年第8期148-162,共15页 Telecommunications Science

基金四川省教育信息化应用与发展研究中心2024年度立项课题(No.JYXX2410) 四川省教育信息化与大数据中心项目(No.DSJZXKT256) 四川省教育数字化发展与评价重点实验室2025年度立项课题(No.JYSZH202514)。

关键词智慧城市数据传输熵同策略经验回放深度强化学习 smart city data transmission entropy same-strategy experience replay deep reinforcement learning

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1郭占杰.人工智能在智慧城市中的应用过程[J].自动化与仪表,2024,39(9):162-164. 被引量：3
2贾晓丰,高嵩,周琰,薛钦亮,范举.一种面向超大城市治理的数据高效跨域流通技术框架[J].数据与计算发展前沿,2023,5(5):35-45. 被引量：7
3王亚平,余贶琭,滕永平.面向智慧交通的物联网实验教学探索[J].实验室研究与探索,2024,43(1):184-187. 被引量：9
4周成祖,吴文,蔡晓强.基于分类分级的数据安全防控策略研究[J].数据与计算发展前沿,2023,5(1):128-135. 被引量：19
5陈坤,陈亮,谢济铭,刘丰博,陈泰熊,位路宽.基于LSTM-GNN的畸形交叉口自适应信号控制仿真研究[J].系统仿真学报,2025,37(6):1343-1351. 被引量：2
6左亚兵,王凯,杨帆,姜静.基于用户偏好的协作内容缓存策略[J].计算机应用研究,2022,39(1):123-127. 被引量：6
7沈林江,仇树卿,崔超,许俊东,李兆滨,耿晓巧.“东数西算”下的高效数据流通策略研究[J].数据与计算发展前沿,2023,5(5):3-12. 被引量：8
8蒋守花,王以伍.SDCN中基于深度强化学习的移动边缘计算任务卸载算法研究[J].电信科学,2024,40(2):96-106. 被引量：3
9陈凡,吴凌霄,王曼,吕干云,张小莲.基于PPO算法的CIES低碳优化调度方法[J].电力工程技术,2024,43(6):88-99. 被引量：4
10张燕,杨一帆,伊人,罗圣美,唐剑飞,夏正勋.隐私计算场景下数据质量治理探索与实践[J].大数据,2022,8(5):55-73. 被引量：9

二级参考文献99

1姬利娜,张金伟,亢凤林.城市道路畸形交叉口的交通改善方法[J].重庆交通大学学报（自然科学版）,2012,31(6):1185-1188. 被引量：23
2温保培,邹志云,汪锋.组合相位在畸形交叉口信号配时中的应用——以佛山市锦华路—福禄路交叉口为例[J].道路交通与安全,2006,6(8):22-25. 被引量：13
3程开明.统计数据预处理的理论与方法述评[J].统计与信息论坛,2007,22(6):98-103. 被引量：34
4叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：23
5汪云云,陈松灿.基于AUC的分类器评价和设计综述[J].模式识别与人工智能,2011,24(1):64-71. 被引量：55
6包阳,齐璇,李海龙.大型软件系统数据质量问题研究[J].计算机工程与设计,2011,32(3):963-967. 被引量：9
7吴强,徐鑫,刘国燕.基于SDN技术的数据中心基础网络构建[J].电信科学,2013,29(1):130-133. 被引量：25
8黄晓晴,葛玉兰.依托产学研建立校企共赢的联合体模式[J].实验室研究与探索,2013,32(3):131-133. 被引量：8
9宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报（社会科学版）,2013,33(5):38-43. 被引量：150
10李丹,陈贵海,任丰原,蒋长林,徐明伟.数据中心网络的研究进展与趋势[J].计算机学报,2014,37(2):259-274. 被引量：115

共引文献58

1侯鹏,李智鑫,张飞,孙旭,陈丹,崔毅浩,张寒冰,荆一楠,柴洪峰.金融数据安全治理智能化技术与实践[J].网络与信息安全学报,2023,9(3):174-187. 被引量：14
2杨帆,姜静,杜剑波,张雪薇,刘锰,琚磊.基于联盟链的边缘缓存系统收益最大化的缓存策略[J].计算机应用研究,2023,40(8):2447-2451. 被引量：2
3沈林江,仇树卿,崔超,许俊东,李兆滨,耿晓巧.“东数西算”下的高效数据流通策略研究[J].数据与计算发展前沿,2023,5(5):3-12. 被引量：8
4周沭玲,侯海平.基于离散粒子群的Web前端缓存协作任务优化分配方法[J].保山学院学报,2023,42(5):55-61. 被引量：1
5翁瑞.大数据分析技术的应用和发展趋势[J].计算机应用文摘,2023,39(21):37-39. 被引量：1
6赵皎卉,朱元利.从“AI+”到“+AI”:人工智能促进全民健身高质量发展的机理与路径[J].西安体育学院学报,2023,40(5):522-531. 被引量：18
7金加和,赵程遥,求昊泽,刘鹏.基于多方安全计算的公共数据融合创新模式研究及应用[J].大数据,2023,9(6):15-27. 被引量：4
8隋永丽.电子政务中电子文档加密技术研究[J].网络安全技术与应用,2023(12):32-33. 被引量：1
9杜小勇,李彤,卢卫,范举,张峰,柴云鹏.跨域数据管理[J].计算机科学,2024,51(1):4-12. 被引量：12
10郭斌,王涵毅.分析型数据库动态数据脱敏技术应用[J].信息化研究,2023,49(5):70-76. 被引量：3

1宋泽瑜.基于业财融合的企业绩效评价指标体系构建[J].新金融世界,2025,24(6):50-52.
2张波.“三新”改革背景下中小学思政课一体化建设路径[J].清风,2024(2):0148-0150.
3柴天佑,郑锐,邢方新,贾瑶,郑秀萍.工业过程控制智能化及未来发展展望[J].中国科学:信息科学,2025,55(7):1555-1570. 被引量：5
4汪琰.基于图神经网络的5G-A网络切片与资源动态分配[J].信息记录材料,2025,26(8):202-204. 被引量：1
5吴思宇.时间敏感网络TSN在智慧电厂运维应用的可行性初探[J].四川水力发电,2025,44(4):147-151. 被引量：1
6孙伟皓,王海,秦蓁,屈毓锛.机会无人机辅助数据收集的组网和资源分配方法[J].电子与信息学报,2025,47(5):1381-1391. 被引量：1
7韩会梅,王康琪,卢为党.面向MTC的新型多信道ALOHA随机接入方案[J].高技术通讯,2025,35(4):385-392.
8季薇.火电厂冷端系统智能调控与节能降碳协同机制[J].能源新观察,2025(8):84-85.
9王玥,颉满刚,王雅萍.信息年龄优先的车载网络异构数据传输策略[J].计算机工程,2025,51(8):383-395.
10胡家源,王新成,徐若羽.基于SCBC和ORC的海上风电制氢多级废热回收系统设计[J].电子技术(上海),2025,54(5):166-167. 被引量：1

电信科学

2025年第8期

浏览历史

内容加载中请稍等...

基于深度强化学习的数据传输策略优化研究

参考文献10

二级参考文献99

共引文献58

相关作者

相关机构

相关主题

浏览历史