利用CMA-MESO和SWC-WARMS高分辨率模式2023年5—9月小时降水预报产品,四川自动站小时降水资料及CLDAS(CMA Land Data Assimilation System)三源融合小时降水资料,采用“点对点”和“点对面”检验方法,对两家高分辨率模式小时降水产品在...利用CMA-MESO和SWC-WARMS高分辨率模式2023年5—9月小时降水预报产品,四川自动站小时降水资料及CLDAS(CMA Land Data Assimilation System)三源融合小时降水资料,采用“点对点”和“点对面”检验方法,对两家高分辨率模式小时降水产品在四川地区的预报性能进行评估。主要结论如下:①小时降水10 mm以下和50 mm以上的极端降水,CMA-MESO的预报参考性显著优于SWC-WARMS;小时降水10~30 mm,5—6月以SWC-WARMS表现更优,7—9月则以CMA-MESO表现更佳。②空间偏差特征分析表明,两家模式的小时降水平均绝对误差空间分布整体较为一致,在盆周山区、川西高原及凉山州北部误差较大,模式误差和实况降水强度、海拔高度呈一定正相关,且SWC-WARMS的空间误差更大。③时间偏差特征分析表明,CMA-MESO的短时强降水站点频次峰值时间偏差为1~2 h,而SWC-WARMS达3~4 h。④为优化TS评分,针对CMA-MESO和SWC-WARMS模式,在空间上,预报时可分别考虑邻域半径9 km和12 km内出现对应量级降水的可能性;在时间上,对于5~30 mm小时降水,预报时可考虑预报时刻前后1 h和2 h发生的可能性,其他量级可考虑前后1 h。展开更多
随着大语言模型(large language models,LLMs)(以下简称“大模型”)参数规模的持续增长,微调百亿级参数大模型对计算和存储资源提出了极高要求。传统分布式训练方案通常依赖大量高端GPU和高速互联网络,训练成本极为昂贵。现有单GPU训练...随着大语言模型(large language models,LLMs)(以下简称“大模型”)参数规模的持续增长,微调百亿级参数大模型对计算和存储资源提出了极高要求。传统分布式训练方案通常依赖大量高端GPU和高速互联网络,训练成本极为昂贵。现有单GPU训练方案虽通过张量卸载缓解显存压力,但仍然面临I/O传输效率低和设备利用率不足等问题。传统内核态I/O操作在大规模张量迁移中引入频繁的系统调用和上下文切换,成为制约性能的关键瓶颈;同时,优化器计算无法充分发挥多核CPU的并行能力,难以实现与GPU计算的有效重叠,进一步限制了系统性能。针对上述问题,提出了一种面向大模型训练的异构内存卸载与I/O优化方案HiTrain。首先构建了基于存储性能开发工具包(storage performance development kit,SPDK)的高性能张量存储模块,通过在用户态管理张量数据,避免了内核I/O栈开销,从而提高张量卸载的并发性与吞吐率;其次,设计并实现了基于异步优化器的存储-计算流水线调度模块,通过对优化器的执行进行优化重排来减少GPU等待时间,提高整体训练效率。实验结果表明,在配备单张GPU和非易失性存储器快速固态硬盘(non-volatile memory express solid state drive,NVMe SSD)的服务器上,所提出的方案能够充分利用系统中的存算资源,使得模型训练过程中张量卸载与加载效率提升32.7%,整体训练吞吐提升至现有方案的1.49倍,为低成本大模型训练提供了切实可行的技术路径。展开更多
随机开关频率调制策略通过将开关频率在扩频范围内随机变化抑制高频谐波。虽然过宽的扩频范围能更有效地抑制高频谐波,但同时会带来严重的电流畸变和较大的转矩脉动。为此,该文提出在窄扩频范围下考虑随机数变化的随机开关频率空间矢量...随机开关频率调制策略通过将开关频率在扩频范围内随机变化抑制高频谐波。虽然过宽的扩频范围能更有效地抑制高频谐波,但同时会带来严重的电流畸变和较大的转矩脉动。为此,该文提出在窄扩频范围下考虑随机数变化的随机开关频率空间矢量脉宽调制(random switching frequency space vector pulse width modulation,RSF-SVPWM)。与传统的RSF-SVPWM相比,提出的方法通过限制相邻随机数变化的最大值,减小了相邻随机数的相对变化,使高频谐波由三角形分布变为梯形分布,从而降低了高频谐波幅值,实现窄扩频范围内对高频谐波的有效抑制。实验结果表明,在相同的扩频范围内,该方法更有效地降低了开关频率及其整数倍处谐波的峰值。展开更多
文摘随着大语言模型(large language models,LLMs)(以下简称“大模型”)参数规模的持续增长,微调百亿级参数大模型对计算和存储资源提出了极高要求。传统分布式训练方案通常依赖大量高端GPU和高速互联网络,训练成本极为昂贵。现有单GPU训练方案虽通过张量卸载缓解显存压力,但仍然面临I/O传输效率低和设备利用率不足等问题。传统内核态I/O操作在大规模张量迁移中引入频繁的系统调用和上下文切换,成为制约性能的关键瓶颈;同时,优化器计算无法充分发挥多核CPU的并行能力,难以实现与GPU计算的有效重叠,进一步限制了系统性能。针对上述问题,提出了一种面向大模型训练的异构内存卸载与I/O优化方案HiTrain。首先构建了基于存储性能开发工具包(storage performance development kit,SPDK)的高性能张量存储模块,通过在用户态管理张量数据,避免了内核I/O栈开销,从而提高张量卸载的并发性与吞吐率;其次,设计并实现了基于异步优化器的存储-计算流水线调度模块,通过对优化器的执行进行优化重排来减少GPU等待时间,提高整体训练效率。实验结果表明,在配备单张GPU和非易失性存储器快速固态硬盘(non-volatile memory express solid state drive,NVMe SSD)的服务器上,所提出的方案能够充分利用系统中的存算资源,使得模型训练过程中张量卸载与加载效率提升32.7%,整体训练吞吐提升至现有方案的1.49倍,为低成本大模型训练提供了切实可行的技术路径。
文摘随机开关频率调制策略通过将开关频率在扩频范围内随机变化抑制高频谐波。虽然过宽的扩频范围能更有效地抑制高频谐波,但同时会带来严重的电流畸变和较大的转矩脉动。为此,该文提出在窄扩频范围下考虑随机数变化的随机开关频率空间矢量脉宽调制(random switching frequency space vector pulse width modulation,RSF-SVPWM)。与传统的RSF-SVPWM相比,提出的方法通过限制相邻随机数变化的最大值,减小了相邻随机数的相对变化,使高频谐波由三角形分布变为梯形分布,从而降低了高频谐波幅值,实现窄扩频范围内对高频谐波的有效抑制。实验结果表明,在相同的扩频范围内,该方法更有效地降低了开关频率及其整数倍处谐波的峰值。