Pipe-RLHF:计算模式感知的RLHF并行加速框架被引量：1

Pipe-RLHF:A Computation Mode-Aware Parallel Framework for RLHF

下载PDF

导出

摘要基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. Reinforcement learning with human feedback(RLHF)has been proven effective in aligning large language models(LLMs)with human preferences.The most costly part of RLHF is proximal policy optimization(PPO),which consists of three dependent steps.Different PPO steps in RLHF exhibit different computation modes,simply employing the same parallelization strategy to accelerate all steps that involve multiple model variants,as done in existing frameworks,will lead to poor performance in the PPO generation step due to insufficient utilization of computational resources.Thus,we introduce Pipe-RLHF,a parallelism framework for RLHF fine-tuning,which adaptively employs distinct parallelization strategies for different steps according to the computation mode.Specifically,we first investigate the characteristics of various computation modes to explore their best-fit parallelization approach.And then,we present a novel delayed inter-batch pipeline parallelization approach specifically designed for the PPO generation step,enabling the sufficient utilization of computational resources.Subsequently,based on the proposed inter-batch pipeline parallelization approach,we define a hierarchical parallel plan space for distributed RLHF fine-tuning.Finally,we present optimization algorithms to find the optimal parallelization plan from the defined hierarchical parallel plan space to minimize the overall time consumption.Implementation and evaluation across multiple LLMs demonstrates that the proposed Pipe-RLHF achieves 3.7 times speedup compared with existing methods while achieving near-linear scalability.

作者徐颖王梦迪程龙刘炼赵世新张磊王颖 Xu Ying;Wang Mengdi;Cheng Long;Liu Lian;Zhao Shixin;Zhang Lei;Wang Ying(Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100190;School of Control and Computer Engineering,North China Electric Power University,Beijing 102206)

机构地区中国科学院计算技术研究所中国科学院大学华北电力大学控制与计算机工程学院

出处《计算机研究与发展》北大核心 2025年第6期1513-1529,共17页 Journal of Computer Research and Development

基金国家自然科学基金项目(92473205) 国家重点研发计划项目(2023YFB4404400)。

关键词基于人类反馈的强化学习近端策略优化大模型微调分布式系统并行计算 reinforcement learning with human feedback(RLHF) proximal policy optimization(PPO) large language models fine-tuning distributed systems parallel computing

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1矣晓沅,谢幸.大模型道德价值观对齐问题剖析[J].计算机研究与发展,2023,60(9):1926-1945. 被引量：75
2葛旭冉,欧洋,王博,赵宇,吴利舟,王子聪,陈志广,肖侬.大语言模型推理中的存储优化技术综述[J].计算机研究与发展,2025,62(3):545-562. 被引量：8

二级参考文献4

1卢志武,金琴,宋睿华,文继荣.悟道·文澜:超大规模多模态预训练模型带来了什么?[J].中兴通讯技术,2022,28(2):25-32. 被引量：1
2滕妍,王国豫,王迎春.通用模型的伦理与治理:挑战及对策[J].中国科学院院刊,2022,37(9):1290-1299. 被引量：32
3吴砥,李环,陈旭.人工智能通用大模型教育应用影响探析[J].开放教育研究,2023,29(2):19-25. 被引量：202
4冯杨洋,汪庆,谢旻晖,舒继武.从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展[J].计算机研究与发展,2024,61(4):809-823. 被引量：22

共引文献81

1崔海教,魏婧.大模型时代数字出版发展路径研究[J].出版广角,2023(17):32-36. 被引量：5
2郭全中,张金熠.AI向善:AI大模型价值观对齐的内容与实践[J].新闻爱好者,2023(11):19-24. 被引量：30
3郭佳楠,陈婉莹.生成式人工智能技术的安全风险及其防范策略[J].科技智囊,2023(11):42-52. 被引量：11
4冯晓英,徐辛,郭婉瑢.如何理解,如何行动,如何成为?——人工智能时代教师专业发展的反思[J].开放教育研究,2024,30(2):31-41. 被引量：63
5唐林垚.公司法如何促进模型可信与价值对齐[J].东方法学,2024(2):76-87. 被引量：9
6杨雅,苏芳,章雪晴.制衡还是共生:生成式人工智能治理的技术校准与行动框架[J].社会治理,2024(2):4-12. 被引量：3
7王笑尘,张坤,张鹏.多视角看大模型安全及实践[J].计算机研究与发展,2024,61(5):1104-1112. 被引量：20
8张谧,潘旭东,杨珉.JADE-DB:基于靶向变异的大语言模型安全通用基准测试集[J].计算机研究与发展,2024,61(5):1113-1127. 被引量：4
9王梦如,姚云志,习泽坤,张锦添,王鹏,徐子文,张宁豫.基于知识编辑的大模型内容生成安全分析[J].计算机研究与发展,2024,61(5):1143-1155. 被引量：8
10胡正荣,闫佳琦.生成式人工智能的价值对齐比较研究——基于2012—2023年十大国际新闻生成评论的实验[J].新闻大学,2024(3):1-17. 被引量：43

引证文献1

1赵涛涛.最大似然估计(MLE)和最大后验估计(MAP)在ChatGPT中的应用研究[J].电脑知识与技术,2026,22(3):39-41.

1陆发玉,黎学军.马克思主义妇女观视角下的中国妇女运动递进及其逻辑[J].广西社会科学,2024(6):204-212. 被引量：1
2王重熙,章隆兵.基于通用图形处理器的神经网络并行推理加速[J].高技术通讯,2025,35(3):250-261.
3李展鹏,崔晓东,云天宇,李晓勇,亓超,阳凡林.基于CUDA的多波束测深数据海底地形模型并行构建算法[J].山东科技大学学报(自然科学版),2025,44(2):55-64. 被引量：1
4张倚铭,李辉.基于GPU加速的实时烟雾细节合成算法[J].四川大学学报(自然科学版),2025,62(3):610-618. 被引量：1
5詹雨君,蔡春明.基于B氏距离准则的纹样提取方法[J].毛纺科技,2025,53(5):39-44.

计算机研究与发展

2025年第6期

浏览历史

内容加载中请稍等...

Pipe-RLHF:计算模式感知的RLHF并行加速框架被引量：1

参考文献2

二级参考文献4

共引文献81

引证文献1

相关作者

相关机构

相关主题

浏览历史

Pipe-RLHF:计算模式感知的RLHF并行加速框架 被引量：1

参考文献2

二级参考文献4

共引文献81

引证文献1

相关作者

相关机构

相关主题

浏览历史

Pipe-RLHF:计算模式感知的RLHF并行加速框架被引量：1