This paper presents a space network emulation system based on a user-space network stack named Nos to solve space networks'unique architecture and routing issues and kernel stacks'inefficiency and development ...This paper presents a space network emulation system based on a user-space network stack named Nos to solve space networks'unique architecture and routing issues and kernel stacks'inefficiency and development complexity.Our low Earth orbit satellite scenario emulation verifies the dynamic routing function of the protocol stack.The proposed system uses technologies like Open vSwitch(OVS)and traffic control(TC)to emulate the space network's highly dynamic topology and time-varying link characteristics.The emulation results demonstrate the system's high reliability,and the user-space network stack reduces development complexity and debugging difficulty,providing convenience for the development of space network protocols and network functions.展开更多
随着大语言模型(large language models,LLMs)(以下简称“大模型”)参数规模的持续增长,微调百亿级参数大模型对计算和存储资源提出了极高要求。传统分布式训练方案通常依赖大量高端GPU和高速互联网络,训练成本极为昂贵。现有单GPU训练...随着大语言模型(large language models,LLMs)(以下简称“大模型”)参数规模的持续增长,微调百亿级参数大模型对计算和存储资源提出了极高要求。传统分布式训练方案通常依赖大量高端GPU和高速互联网络,训练成本极为昂贵。现有单GPU训练方案虽通过张量卸载缓解显存压力,但仍然面临I/O传输效率低和设备利用率不足等问题。传统内核态I/O操作在大规模张量迁移中引入频繁的系统调用和上下文切换,成为制约性能的关键瓶颈;同时,优化器计算无法充分发挥多核CPU的并行能力,难以实现与GPU计算的有效重叠,进一步限制了系统性能。针对上述问题,提出了一种面向大模型训练的异构内存卸载与I/O优化方案HiTrain。首先构建了基于存储性能开发工具包(storage performance development kit,SPDK)的高性能张量存储模块,通过在用户态管理张量数据,避免了内核I/O栈开销,从而提高张量卸载的并发性与吞吐率;其次,设计并实现了基于异步优化器的存储-计算流水线调度模块,通过对优化器的执行进行优化重排来减少GPU等待时间,提高整体训练效率。实验结果表明,在配备单张GPU和非易失性存储器快速固态硬盘(non-volatile memory express solid state drive,NVMe SSD)的服务器上,所提出的方案能够充分利用系统中的存算资源,使得模型训练过程中张量卸载与加载效率提升32.7%,整体训练吞吐提升至现有方案的1.49倍,为低成本大模型训练提供了切实可行的技术路径。展开更多
近年来存储行业经历了巨大的变革,以固态硬盘(solid state drive, SSD)为代表的半导体存储设备迅猛发展,在性能上显著超越了通过磁头移动寻址的机械硬盘(hard disk drive, HDD).目前支持SSD的2种协议主要包括非易失性内存主机控制器接...近年来存储行业经历了巨大的变革,以固态硬盘(solid state drive, SSD)为代表的半导体存储设备迅猛发展,在性能上显著超越了通过磁头移动寻址的机械硬盘(hard disk drive, HDD).目前支持SSD的2种协议主要包括非易失性内存主机控制器接口规范(nonvolatile memory express, NVMe)协议与串行SCSI(serial attached small computer system interface, SAS)协议,即SAS. NVMe是专为SSD设计的高性能存储协议,能够很大限度地发挥SSD的性能;而SAS协议则充分考虑数据中心的需求,在提供高可靠性与高可扩展性的同时,兼顾了系统性能与成本的平衡.相对于日益增速的存储介质,针对慢速存储设备所设计的软件栈在一次I/O过程中所耗费的时间开销愈发显著.针对该问题学界及工业界都相继提出了众多解决方案,例如Intel提出的高性能存储开发包(storage performance development kit, SPDK)通过将设备驱动实现在用户空间,并采用轮询感知I/O完成等方式大幅度缩短了NVMe SSD对应用程序的响应时间,极大地提升了整个系统的整体性能.然而之前的研究工作针对SAS SSD存储软件栈的优化非常有限,为此在用户空间实现了针对SAS SSD的软件栈优化.实验结果表明,该优化能够有效缩短存储设备对应用程序的响应时间,提高应用对存储设备的访存效率.此外,为了准确评估I/O栈中存储设备的时间开销,硬件性能测试工具HwPerfIO被提出,能够消除大部分软件开销的影响以测得更加准确的存储设备性能.展开更多
实时轨道、钟差产品的精度和完好性是实现全球卫星导航系统精准可信定位服务的重要前提。以2022年中国科学院(Chinese Academy of Sciences,CAS)实时轨道、钟差产品为例,从产品精度及精密单点定位精度两个方面评估实时轨道、钟差产品性...实时轨道、钟差产品的精度和完好性是实现全球卫星导航系统精准可信定位服务的重要前提。以2022年中国科学院(Chinese Academy of Sciences,CAS)实时轨道、钟差产品为例,从产品精度及精密单点定位精度两个方面评估实时轨道、钟差产品性能,并根据全球均匀分布的100个虚拟测站计算得到的瞬时空间信号用户测距误差(instantaneous signal-in-space user range error,IURE),分析实时轨道、钟差产品的空间信号用户测距误差分布特性,计算CAS实时轨道、钟差产品的完好性支持信息。试验结果表明,以德国地学研究中心提供的事后精密产品为参考,GPS和Galileo的轨道精度优于5 cm,钟差标准差(standard deviation,STD)优于0.08 ns,BDS和GLONASS的轨道精度优于15 cm,STD优于0.3 ns;选取全球分布测站以静态仿动态方式进行精密单点定位测试,四系统组合定位的3D方向精度均方根(root mean square,RMS)优于4 cm,收敛时间优于11 min。GPS和Galileo的IURE RMS优于4 cm,同时IURE分布峰度基本在10以内,偏度绝对值基本在0.5以内,可接受为高斯分布;GLONASS的IURE RMS在10 cm以内,但是各卫星IURE的偏度和峰度之间差异较大,尖峰厚尾情况较为严重;BDS的IURE RMS优于11 cm,但是不同类型卫星的IURE分布不同,且BDS-3上海微小卫星工程中心的卫星具有较为明显的双峰特性。对于星座故障和卫星故障先验概率,GPS星座故障先验概率最小为5.2×10^(-5),除BDS-2外,其他系统星座故障先验概率小于1.0×10^(-3);GLONASS卫星故障先验概率达到2.7×10^(-3),Galileo卫星故障先验概率最小为8.7×10^(-4)。对于空间信号用户测距误差的包络标准差和标准差,GPS和Galileo卫星的两种标准差差异均在4 cm以内;GLONASS卫星的两种标准差差异基本大于5 cm;相较于标准差,BDS-2和BDS-3的包络标准差差异较大。展开更多
基金supported by the National Natural Science Foundation of China under Grant No.62131012ZTE Industry-University-Institute Cooperation Funds under Grant No.IA20230712005。
文摘This paper presents a space network emulation system based on a user-space network stack named Nos to solve space networks'unique architecture and routing issues and kernel stacks'inefficiency and development complexity.Our low Earth orbit satellite scenario emulation verifies the dynamic routing function of the protocol stack.The proposed system uses technologies like Open vSwitch(OVS)and traffic control(TC)to emulate the space network's highly dynamic topology and time-varying link characteristics.The emulation results demonstrate the system's high reliability,and the user-space network stack reduces development complexity and debugging difficulty,providing convenience for the development of space network protocols and network functions.
文摘随着大语言模型(large language models,LLMs)(以下简称“大模型”)参数规模的持续增长,微调百亿级参数大模型对计算和存储资源提出了极高要求。传统分布式训练方案通常依赖大量高端GPU和高速互联网络,训练成本极为昂贵。现有单GPU训练方案虽通过张量卸载缓解显存压力,但仍然面临I/O传输效率低和设备利用率不足等问题。传统内核态I/O操作在大规模张量迁移中引入频繁的系统调用和上下文切换,成为制约性能的关键瓶颈;同时,优化器计算无法充分发挥多核CPU的并行能力,难以实现与GPU计算的有效重叠,进一步限制了系统性能。针对上述问题,提出了一种面向大模型训练的异构内存卸载与I/O优化方案HiTrain。首先构建了基于存储性能开发工具包(storage performance development kit,SPDK)的高性能张量存储模块,通过在用户态管理张量数据,避免了内核I/O栈开销,从而提高张量卸载的并发性与吞吐率;其次,设计并实现了基于异步优化器的存储-计算流水线调度模块,通过对优化器的执行进行优化重排来减少GPU等待时间,提高整体训练效率。实验结果表明,在配备单张GPU和非易失性存储器快速固态硬盘(non-volatile memory express solid state drive,NVMe SSD)的服务器上,所提出的方案能够充分利用系统中的存算资源,使得模型训练过程中张量卸载与加载效率提升32.7%,整体训练吞吐提升至现有方案的1.49倍,为低成本大模型训练提供了切实可行的技术路径。
文摘近年来存储行业经历了巨大的变革,以固态硬盘(solid state drive, SSD)为代表的半导体存储设备迅猛发展,在性能上显著超越了通过磁头移动寻址的机械硬盘(hard disk drive, HDD).目前支持SSD的2种协议主要包括非易失性内存主机控制器接口规范(nonvolatile memory express, NVMe)协议与串行SCSI(serial attached small computer system interface, SAS)协议,即SAS. NVMe是专为SSD设计的高性能存储协议,能够很大限度地发挥SSD的性能;而SAS协议则充分考虑数据中心的需求,在提供高可靠性与高可扩展性的同时,兼顾了系统性能与成本的平衡.相对于日益增速的存储介质,针对慢速存储设备所设计的软件栈在一次I/O过程中所耗费的时间开销愈发显著.针对该问题学界及工业界都相继提出了众多解决方案,例如Intel提出的高性能存储开发包(storage performance development kit, SPDK)通过将设备驱动实现在用户空间,并采用轮询感知I/O完成等方式大幅度缩短了NVMe SSD对应用程序的响应时间,极大地提升了整个系统的整体性能.然而之前的研究工作针对SAS SSD存储软件栈的优化非常有限,为此在用户空间实现了针对SAS SSD的软件栈优化.实验结果表明,该优化能够有效缩短存储设备对应用程序的响应时间,提高应用对存储设备的访存效率.此外,为了准确评估I/O栈中存储设备的时间开销,硬件性能测试工具HwPerfIO被提出,能够消除大部分软件开销的影响以测得更加准确的存储设备性能.
文摘实时轨道、钟差产品的精度和完好性是实现全球卫星导航系统精准可信定位服务的重要前提。以2022年中国科学院(Chinese Academy of Sciences,CAS)实时轨道、钟差产品为例,从产品精度及精密单点定位精度两个方面评估实时轨道、钟差产品性能,并根据全球均匀分布的100个虚拟测站计算得到的瞬时空间信号用户测距误差(instantaneous signal-in-space user range error,IURE),分析实时轨道、钟差产品的空间信号用户测距误差分布特性,计算CAS实时轨道、钟差产品的完好性支持信息。试验结果表明,以德国地学研究中心提供的事后精密产品为参考,GPS和Galileo的轨道精度优于5 cm,钟差标准差(standard deviation,STD)优于0.08 ns,BDS和GLONASS的轨道精度优于15 cm,STD优于0.3 ns;选取全球分布测站以静态仿动态方式进行精密单点定位测试,四系统组合定位的3D方向精度均方根(root mean square,RMS)优于4 cm,收敛时间优于11 min。GPS和Galileo的IURE RMS优于4 cm,同时IURE分布峰度基本在10以内,偏度绝对值基本在0.5以内,可接受为高斯分布;GLONASS的IURE RMS在10 cm以内,但是各卫星IURE的偏度和峰度之间差异较大,尖峰厚尾情况较为严重;BDS的IURE RMS优于11 cm,但是不同类型卫星的IURE分布不同,且BDS-3上海微小卫星工程中心的卫星具有较为明显的双峰特性。对于星座故障和卫星故障先验概率,GPS星座故障先验概率最小为5.2×10^(-5),除BDS-2外,其他系统星座故障先验概率小于1.0×10^(-3);GLONASS卫星故障先验概率达到2.7×10^(-3),Galileo卫星故障先验概率最小为8.7×10^(-4)。对于空间信号用户测距误差的包络标准差和标准差,GPS和Galileo卫星的两种标准差差异均在4 cm以内;GLONASS卫星的两种标准差差异基本大于5 cm;相较于标准差,BDS-2和BDS-3的包络标准差差异较大。