期刊文献+
共找到20,764篇文章
< 1 2 250 >
每页显示 20 50 100
多芯粒网络中负载均衡的死锁解决算法
1
作者 周宏伟 陈志强 +1 位作者 曾坤 邓让钰 《国防科技大学学报》 北大核心 2025年第2期146-154,共9页
针对多芯粒网络中存在跨芯粒的死锁问题以及链路故障导致的网络连通性问题,提出一种面向多芯粒网络的优化报文重传机制。通过在重传机制中使用“报文合并”功能来减少控制报文的数目,降低网络的负载;通过使用“报文转发”功能并采用转... 针对多芯粒网络中存在跨芯粒的死锁问题以及链路故障导致的网络连通性问题,提出一种面向多芯粒网络的优化报文重传机制。通过在重传机制中使用“报文合并”功能来减少控制报文的数目,降低网络的负载;通过使用“报文转发”功能并采用转发到邻居策略,降低芯粒间网络链路故障的容错成本,实现芯粒内网络更均衡的负载。模拟实验结果表明:相较于转向限制,所提方法在延迟基本不变的前提下提升12.5%~25%的饱和带宽,在出现链路故障时,最高提升50%的饱和带宽。“报文合并”可以有效减少控制报文的数目从而降低网络整体的负载。“报文转发”容错成本更低、能够实现芯粒内网络更均衡的负载。 展开更多
关键词 芯粒 容错 死锁 重传
在线阅读 下载PDF
基于多层感知机-注意力模型的功耗预测算法
2
作者 敬超 全育涛 陈艳 《计算机应用》 北大核心 2025年第8期2646-2655,共10页
虽然异构计算系统的应用可以加快神经网络参数的处理,但系统功耗也随之剧增。良好的功耗预测方法是异构系统优化功耗和处理多类型工作负载的基础,基于此,通过改进多层感知机-注意力模型,提出一种面向CPU/GPU异构计算系统多类型工作负载... 虽然异构计算系统的应用可以加快神经网络参数的处理,但系统功耗也随之剧增。良好的功耗预测方法是异构系统优化功耗和处理多类型工作负载的基础,基于此,通过改进多层感知机-注意力模型,提出一种面向CPU/GPU异构计算系统多类型工作负载的功耗预测算法。首先,考虑服务器功耗与系统特征,建立一种基于特征的工作负载功耗模型;其次,针对现有的功耗预测算法不能解决系统特征与系统功耗之间的长程依赖的问题,提出一种改进的基于多层感知机-注意力模型的功耗预测算法Prophet,该算法改进多层感知机实现各个时刻的系统特征的提取,并使用注意力机制综合这些特征,从而有效解决系统特征与系统功耗之间的长程依赖问题;最后,在实际系统中开展相关实验,将所提算法分别与MLSTM_PM(Power consumption Model based on Multi-layer Long Short-Term Memory)和ENN_PM(Power consumption Model based on Elman Neural Network)等功耗预测算法对比。实验结果表明,Prophet具有较高的预测精准性,与MLSTM_PM算法相比,在工作负载blk、memtest和busspd上将平均相对误差(MRE)分别降低了1.22、1.01和0.93个百分点,并且具有较低的复杂度,表明了所提算法的有效性及可行性。 展开更多
关键词 异构计算系统 负载特征 多层感知机 注意力机制 功耗预测
在线阅读 下载PDF
符合粒子输运模拟的专用加速器体系结构
3
作者 张建民 刘津津 +1 位作者 许炜康 黎铁军 《国防科技大学学报》 北大核心 2025年第2期155-164,共10页
粒子输运模拟是高性能计算机的主要应用,对于其日益增长的计算规模需求,通用微处理器由于其单核结构复杂,无法适应程序特征,难以获得较高的性能功耗比。因此,对求解粒子输运非确定性数值模拟的程序特征进行提取与分析;基于算法特征,对... 粒子输运模拟是高性能计算机的主要应用,对于其日益增长的计算规模需求,通用微处理器由于其单核结构复杂,无法适应程序特征,难以获得较高的性能功耗比。因此,对求解粒子输运非确定性数值模拟的程序特征进行提取与分析;基于算法特征,对开源微处理器内核架构进行定制设计,包括加速器流水线结构、分支预测部件、多级Cache层次与主存设计,构建一种符合粒子输运程序特征的专用加速器体系结构。在业界通用体系结构模拟器上运行粒子输运程序的模拟结果表明,与ARM Cortex-A15相比,所提出的专用加速器体系结构在同等功耗下可获得4.6倍的性能提升,在同等面积下可获得3.2倍的性能提升。 展开更多
关键词 粒子输运模拟 专用加速器 程序特征 分支预测 多级Cache
在线阅读 下载PDF
基于三维集成工艺的运算密集型电路性能优化
4
作者 毛志刚 尹琛 +2 位作者 景乃锋 董子正 李昂 《微电子学与计算机》 2025年第10期28-35,共8页
随着深度学习与大模型应用的快速发展,对计算性能的需求呈现指数级增长,亟需高性能计算硬件作为支撑。采用以2nm~7 nm为代表的先进工艺是提升计算性能的主要技术途径之一。目前,国际先进人工智能加速器和图形处理器芯片大多使用先进工艺... 随着深度学习与大模型应用的快速发展,对计算性能的需求呈现指数级增长,亟需高性能计算硬件作为支撑。采用以2nm~7 nm为代表的先进工艺是提升计算性能的主要技术途径之一。目前,国际先进人工智能加速器和图形处理器芯片大多使用先进工艺,但面临性能提升边际效益递减与成本高昂等严重挑战。因此,利用三维集成技术所具备的高带宽、低互连延迟优势,进一步挖掘性能潜力,已成为当前技术研究的热点。针对三维集成芯片设计中的性能优化问题,系统探讨了通过三维堆叠架构提升计算性能的关键技术途径,并开展了面向三维架构的设计空间探索。通过构建完整的三维集成设计流程,实现并验证了一种同构芯片三维堆叠方案的实际性能收益,为高性能集成电路设计提供了有效的技术支撑。 展开更多
关键词 三维集成 运算密集型 高能效计算
在线阅读 下载PDF
应用多工具平台的计算机组成原理实验教学
5
作者 陈家祯 郑子华 叶锋 《福建电脑》 2025年第7期94-98,共5页
为协同提升学生的专业基础与硬件设计能力,本文提出一种基于多工具平台的层次化实验教学方法,并应用于计算机组成原理课程。通过结合不同工具平台(实验箱、Logisim、Quartus)的特点与课程核心内容,设计分层次的实验项目,并以运算器实验... 为协同提升学生的专业基础与硬件设计能力,本文提出一种基于多工具平台的层次化实验教学方法,并应用于计算机组成原理课程。通过结合不同工具平台(实验箱、Logisim、Quartus)的特点与课程核心内容,设计分层次的实验项目,并以运算器实验为例,详述从基础验证、综合设计到创新实践的递进式实施路径。教学实践的结果表明,该实验教学方法有助于学生对知识点的深度理解,增强学生工程实践能力,可为硬件类课程的实验教学改革提供参考。 展开更多
关键词 多工具平台 层次化实验教学 计算机组成原理
在线阅读 下载PDF
面向分布式超导量子计算架构的量子线路映射 被引量:1
6
作者 朱鹏程 卫丽华 +3 位作者 冯世光 周祥臻 郑盛根 管致锦 《软件学报》 北大核心 2025年第5期2381-2400,共20页
近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子... 近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子线路,需要通过专门的映射工序对量子线路进行适配底层架构的变换,并将变换后的线路交由网络中多个QPU(quantum processing unit)协同运行.分布式量子线路映射需向原始线路插入辅助的量子态移动操作,这些操作(尤其是QPU间量子态移动操作)具有较高的错误率.因此,减少映射所需的量子态移动操作数对于保证分布式计算的成功率至关重要.基于超导量子互连技术和超导QPU的技术特征构建一种抽象的分布式量子计算模型,并基于该抽象模型提出一种分布式量子线路映射方法,该方法由量子比特分布式映射和量子态路由两个核心模块组成,前者以量子态路由开销为代价函数,通过局部寻优和模拟退火相结合的策略生成近最优的初始映射;后者根据量子门执行的不同情形构建多个启发式量子态路由策略,并通过灵活应用这些策略最小化插入的量子态移动操作数.所构建的分布式抽象模型屏蔽了底层架构中和量子线路映射无关的物理细节,这使得基于该模型的映射方法可适用于一类分布式超导架构而非某个特定架构.另外,所提方法可作为辅助工具参与分布式网络拓扑结构的设计和评价.实验结果表明,所提算法可以有效降低映射所需的QPU内量子态移动操作(即SWAP门)数和QPU间量子态移动操作(即ST门)数.相较已有算法,在所有基准线路上平均减少69.69%的SWAP门和85.88%的ST门,且时间开销和已有算法接近. 展开更多
关键词 超导量子计算 量子网络 分布式计算 量子处理器 量子线路映射
在线阅读 下载PDF
联邦学习的高效性研究综述 被引量:1
7
作者 葛丽娜 王明禹 田蕾 《计算机应用》 北大核心 2025年第8期2387-2398,共12页
联邦学习作为一个分布式机器学习框架,解决了数据孤岛问题,对个人及企业的隐私保护起到了重要作用。然而,由于联邦学习的特点,效率问题(尤其是高昂的成本)仍旧是目前急需解决的,这一现状仍不尽如人意。因此,全面调研并总结当前主流的关... 联邦学习作为一个分布式机器学习框架,解决了数据孤岛问题,对个人及企业的隐私保护起到了重要作用。然而,由于联邦学习的特点,效率问题(尤其是高昂的成本)仍旧是目前急需解决的,这一现状仍不尽如人意。因此,全面调研并总结当前主流的关于联邦学习高效性的研究。首先,回顾高效联邦学习的背景,包括它的由来以及核心思想,并解释联邦学习的概念和分类;其次,论述基于联邦学习而产生的高效性问题,并将它们分为异构性问题、个性化问题和通信代价问题;再次,在此基础上详细分析并论述高效性问题的解决方案,并将高效联邦学习研究分为模型压缩优化方法以及通信优化方法这2个类别后进行调研;继次,通过对比分析,总结各联邦学习方法的优缺点,并阐述目前高效联邦学习中仍存在的挑战;最后,给出高效联邦学习领域未来的研究方向。 展开更多
关键词 联邦学习 深度学习 通信效率 隐私保护 机器学习
在线阅读 下载PDF
IIoT环境下基于蜣螂优化的雾工作流调度算法 被引量:1
8
作者 吴宏伟 江凌云 《计算机工程与应用》 北大核心 2025年第10期341-349,共9页
为了解决在工业物联网(industrial Internet of things,IIoT)环境下,现有的调度算法在调度工作流中对数据安全、响应时间有一定要求的任务所带来的完工时间上升、成本增加的问题,提出一种基于雾环境负载率而变化的任务调度策略,并使用... 为了解决在工业物联网(industrial Internet of things,IIoT)环境下,现有的调度算法在调度工作流中对数据安全、响应时间有一定要求的任务所带来的完工时间上升、成本增加的问题,提出一种基于雾环境负载率而变化的任务调度策略,并使用改进的蜣螂优化算法对工作流调度问题进行求解。改进的算法使用HEFT(heterogeneous earliest finish time)算法对蜣螂种群进行初始化,降低了原始算法中随机性带来的影响。同时引入了镜面反射和反向学习思想,提高了算法的搜索性能。实验结果表明,该算法相比于其他一些传统的调度算法在完工时间与成本方面都有一定的性能提升。 展开更多
关键词 工作流调度 蜣螂优化算法 HEFT算法 反向学习 调度算法 雾计算 工业物联网(IIoT)
在线阅读 下载PDF
用于低间隔加速部件控制的多线程无中断RISC-V处理器 被引量:1
9
作者 张伟伟 陈虎 《计算机工程与科学》 北大核心 2025年第5期787-796,共10页
为满足控制低间隔加速部件的需求,提出了一种多线程无中断的RV32I微处理器(MIRV)结构和相关软件系统。MIRV采用六级流水线单发射顺序执行结构,结合数据重定向技术解决了线程内指令间的大部分数据冲突问题。硬件支持4个线程的寄存器组和... 为满足控制低间隔加速部件的需求,提出了一种多线程无中断的RV32I微处理器(MIRV)结构和相关软件系统。MIRV采用六级流水线单发射顺序执行结构,结合数据重定向技术解决了线程内指令间的大部分数据冲突问题。硬件支持4个线程的寄存器组和程序计数器,采用粗粒度线程调度机制,能够在线程内数据冲突和控制冲突无法解决时实现零时间开销的线程切换。还提出了硬件与软件统一的信号机制,利用特定CSR寄存器实现线程对外部加速部件信号的等待和快速唤醒,通过软件信号处理实现多线程同步与互斥。MIRV综合后包含1811个LUT,主频为210 MHz。与PicoRV32和DarkRISCV相比,MIRV主频较高且拥有较为优秀的性能。在MK7160FA开发板上使用C语言实现了基于生产者-消费者模型的流水灯控制测试案例,在该实验中,从硬件定时器发出信号到软件产生外部LED的控制信号仅需要10个时钟周期,验证了MIRV对外部硬件事件信号的低延迟响应能力。MIRV具备较低的硬件资源占用量、优异的性能和高级语言编程能力,可作为多种低间隔加速部件的控制器。 展开更多
关键词 低间隔 多线程 无中断支持 RISC-V 微控制器
在线阅读 下载PDF
基于生成对抗网络的恶意代码变体家族溯源方法
10
作者 李莉 张晴 +2 位作者 孔悠然 苏仁嘉 赵鑫 《计算机工程与科学》 北大核心 2025年第7期1215-1225,共11页
针对恶意代码变更速度快、溯源困难的问题,提出了一种通过创建恶意代码变体数据集,增强模型家族溯源能力的分类方法。该方法将恶意代码可视化,使用改进的生成对抗网络对恶意代码进行分类,使用Ghost模块与Dropout层调节生成器与判别器的... 针对恶意代码变更速度快、溯源困难的问题,提出了一种通过创建恶意代码变体数据集,增强模型家族溯源能力的分类方法。该方法将恶意代码可视化,使用改进的生成对抗网络对恶意代码进行分类,使用Ghost模块与Dropout层调节生成器与判别器的对抗能力,引入高效通道注意力机制帮助模型聚焦重要特征,使用卷积与上采样结合的结构避免生成图像棋盘格化。测试阶段使用恶意代码变体数据集与不同类别特征数据集,验证模型恶意代码变体的家族溯源能力。使用所提方法构建的模型具有更强的特征提取能力、更少的资源消耗以及更快的推理速度,满足当今恶意代码变更迅速对恶意代码分类模型提出的强抗混淆能力、高泛化能力的要求,且便于部署在移动、嵌入式等设备中,提供对恶意代码的实时检测。 展开更多
关键词 恶意代码变体溯源 生成对抗网络 注意力机制 代码可视化 特征纹理
在线阅读 下载PDF
面向智算中心的细粒度流量控制技术综述
11
作者 许晶 王展 +3 位作者 元国军 马振龙 杨帆 孙凝晖 《计算机研究与发展》 北大核心 2025年第11期2806-2825,共20页
随着人工智能生成内容技术的迅猛发展和大语言模型(large language models,LLMs)广泛应用,智算中心的网络面临着严峻挑战,流量控制是优化网络性能的重要方法.综述细粒度流量控制领域的关键问题及解决方案,重点梳理了自适应负载均衡机制... 随着人工智能生成内容技术的迅猛发展和大语言模型(large language models,LLMs)广泛应用,智算中心的网络面临着严峻挑战,流量控制是优化网络性能的重要方法.综述细粒度流量控制领域的关键问题及解决方案,重点梳理了自适应负载均衡机制、主动式拥塞控制机制和乱序包重排机制3个方面的研究进展.自适应负载均衡能够有效规避网络内部的拥塞,主动式拥塞控制用于预防自适应负载均衡无法避免的最后一跳拥塞问题,而乱序包重排解决了自适应负载均衡过程中可能引发的数据包乱序问题,三者协同作用确保了网络在高负载、高延迟等复杂环境下的稳定性与高效性.在此基础上,阐述了当前主流智算中心采用的关键技术方案以及目前支持细粒度流量控制的网络设备,最后总结了该领域尚未解决的关键问题及可能的解决方案,并对未来发展趋势进行了展望. 展开更多
关键词 负载均衡 拥塞控制 包喷洒 乱序重排 智算中心
在线阅读 下载PDF
基于容错学习问题的全同态加密算法和硬件优化综述
12
作者 河人华 李冰 +3 位作者 杜一博 王颖 李晓维 韩银和 《计算机研究与发展》 北大核心 2025年第7期1738-1753,共16页
随着云计算、量子计算等技术的飞速发展,数据隐私面临严峻威胁.越来越多的用户将数据和应用程序存储在云端,但传统的安全技术难以保障云计算环境中的数据安全.在此背景下,引入全同态加密算法成为有效的解决方案之一.同时,基于格理论的... 随着云计算、量子计算等技术的飞速发展,数据隐私面临严峻威胁.越来越多的用户将数据和应用程序存储在云端,但传统的安全技术难以保障云计算环境中的数据安全.在此背景下,引入全同态加密算法成为有效的解决方案之一.同时,基于格理论的全同态加密技术具有天然的抗量子攻击能力,能够在加密状态下对数据进行任意计算,有效地为量子计算时代数据安全提供保障.尽管全同态加密有广阔的应用前景,但它存在计算和存储巨额开销的问题.为了推动全同态加密算法的应用和落地,算法和硬件领域的研究人员提出了多种解决方案并取得显著进展.归纳了主流的全同态加密技术以及分析整理算法计算库和全同态硬件加速的近5年相关工作的进展,最后展望了全同态加密技术. 展开更多
关键词 全同态加密 同态加密算法 全同态加密算法库 全同态加密硬件加速器 容错学习
在线阅读 下载PDF
基于国产元器件的大功率多相供电技术研究
13
作者 贾春波 陈光 +1 位作者 姚信安 李宝峰 《计算机工程与科学》 北大核心 2025年第4期592-600,共9页
高性能计算已经迈入后E量级时代,对于高性能处理器的供电技术提出了大功率、低电压、快响应的严苛要求。但是,目前的国产数字多相控制器和DrMOS功率器件无法满足低电压条件下大功率的供电需求。为解决该问题,通过数字多相控制器的1个相... 高性能计算已经迈入后E量级时代,对于高性能处理器的供电技术提出了大功率、低电压、快响应的严苛要求。但是,目前的国产数字多相控制器和DrMOS功率器件无法满足低电压条件下大功率的供电需求。为解决该问题,通过数字多相控制器的1个相位驱动2个DrMOS,提出每相位“1推2”的工程设计方案,实现供电能力加倍。通过器件选型、参数设置、反馈均流等技术手段,控制纹波噪声、动态响应以及多相均流,确保该方案满足工程规范要求。详细介绍了该方案的原理和实现方法,同时搭建验证系统对该方案的可行性和有效性进行了验证。 展开更多
关键词 高性能计算 BUCK电路 数字多相PWM控制器 1推2
在线阅读 下载PDF
带状垂直差分结构分析与优化
14
作者 章幻 李滔 胡晋 《计算机工程与科学》 北大核心 2025年第8期1354-1363,共10页
随着差分信号速率的不断提升,传统差分过孔的不连续性对信号完整性的影响越来越不容忽视。为了解决多层PCB垂直方向上信号反射、衰减和阻抗不连续问题,急需开展新型垂直差分结构的研究。首先采用三维电磁仿真软件HFSS构建了Model I和Mod... 随着差分信号速率的不断提升,传统差分过孔的不连续性对信号完整性的影响越来越不容忽视。为了解决多层PCB垂直方向上信号反射、衰减和阻抗不连续问题,急需开展新型垂直差分结构的研究。首先采用三维电磁仿真软件HFSS构建了Model I和Model II 2种类型的带状垂直差分结构与传统差分过孔模型;其次对2种带状垂直差分结构的传输性能进行仿真与分析,发现Model I模型传输性能优于Model II模型;再次分析结构参数对带状垂直差分结构Model I模型的电性能传输参数的影响;最后,对比分析了带状垂直差分结构Model I模型与传统差分过孔的电性能传输参数,并通过时域眼图进行了验证。结果表明:减少面连接盘尺寸、垂直导体深度与残桩长度,增大钻孔直径与反焊盘尺寸,可以改善Model I模型的传输性能;Model I模型转换相比传统差分过孔转换带来的眼高和眼宽增大了4.47%和4.31%,抖动减少了57.16%,Model I模型具有更优的时域传输性能。 展开更多
关键词 差分信号 信号完整性 阻抗不连续 带状垂直差分结构 时域眼图
在线阅读 下载PDF
ISA真的重要么?——基于Gem5的仿真调查
15
作者 李华 王永文 《计算机工程与科学》 北大核心 2025年第11期1945-1952,共8页
指令集体系结构(ISA)是芯片最底层、最核心的部分,已有的关于ISA对性能影响的研究工作通常基于物理硬件平台实现,但不同的硬件实现方案使得无法直接对比分析ISA对性能的影响。基于以上原因,使用Gem5模拟器,采用相同的硬件配置与相同版... 指令集体系结构(ISA)是芯片最底层、最核心的部分,已有的关于ISA对性能影响的研究工作通常基于物理硬件平台实现,但不同的硬件实现方案使得无法直接对比分析ISA对性能的影响。基于以上原因,使用Gem5模拟器,采用相同的硬件配置与相同版本的编译器,对ARM,RISC-V和x86这3种ISA进行了仿真对比。采用CoreMark,Dhrystone和Whetstone作为基准测试程序。同时,利用McPAT对功耗进行了评估。模拟结果表明,ARM ISA在性能和功耗方面优于RISC-V和x86 ISA,但ARM和RISC-V之间的差异非常细微,而ARM和x86之间的性能差距可能是由实验中使用相对较低的硬件配置引起的,并且可以通过更积极的硬件方法将差距缩小甚至逆转。研究表明,ISA并不能从根本上提高效率。 展开更多
关键词 指令集体系结构(ISA) Gem5模拟器 McPAT模拟器 微架构 仿真
在线阅读 下载PDF
一种面向112 Gbit/s SerDes接收机的前瞻滑动判决反馈均衡器
16
作者 杨周灏 吕方旭 +3 位作者 徐炜遐 李世杰 许超龙 胡小月 《计算机工程与科学》 北大核心 2025年第7期1162-1169,共8页
随着信息技术的不断发展,有线传输速率经历了从112 Gbit/s到224 Gbit/s的飞跃。数据速率的提升也对SerDes接收端均衡器的复杂度提出了更高的要求。针对复杂的均衡器结构带来了时序紧张等一系列问题,提出了一种基于前瞻结构的滑动块判决... 随着信息技术的不断发展,有线传输速率经历了从112 Gbit/s到224 Gbit/s的飞跃。数据速率的提升也对SerDes接收端均衡器的复杂度提出了更高的要求。针对复杂的均衡器结构带来了时序紧张等一系列问题,提出了一种基于前瞻结构的滑动块判决反馈均衡器。该设计采用了6抽头前馈均衡器和9抽头判决反馈均衡器对数字信号进行处理。通过MATLAB仿真建模对功能进行验证,结果表明数据传输速率为112 Gbit/s,在8 dB~35 dB的不同信道衰减下,这种采用最小均方算法自适应均衡的数字信号处理设计能有效降低数据误码率,其误码性能均能满足KP4前向纠错码的甄别要求,且相较于传统的均衡器结构有更佳的误码性能表现。 展开更多
关键词 前馈均衡器 判决反馈均衡器 前瞻结构 自适应均衡
在线阅读 下载PDF
基于多头注意力机制的一致性正则化网络入侵检测方法
17
作者 向泳吉 汪学明 《计算机工程与设计》 北大核心 2025年第10期2850-2857,共8页
现有网络入侵检测数据集通常包含大量弱相关特征并呈现出不平衡现象,导致现有入侵检测模型在辨识少数类别样本的能力不足,出现过拟合问题。针对以上问题提出一种基于多头注意力机制的一致性正则化网络入侵检测方法 (CRLTrans)。该方法利... 现有网络入侵检测数据集通常包含大量弱相关特征并呈现出不平衡现象,导致现有入侵检测模型在辨识少数类别样本的能力不足,出现过拟合问题。针对以上问题提出一种基于多头注意力机制的一致性正则化网络入侵检测方法 (CRLTrans)。该方法利用Transformer的多头注意力机制实现全局特征并行化提取,并采用一致性正则化方法完成模型训练和样本分类。在公开数据集UNR-IDD(2023)上进行多方面评估。实验结果表明,CRL-Trans模型对小样本数据和多数类攻击均有较高的分类准确率,优于同类模型。 展开更多
关键词 入侵检测 不平衡数据 小样本数据 对比学习 特征提取 多头注意力机制 一致性正则化
在线阅读 下载PDF
基于可重构架构的数据中心异构加速软硬件系统级平台
18
作者 王彦伟 李仁刚 +1 位作者 徐冉 刘钧锴 《计算机研究与发展》 北大核心 2025年第4期963-977,共15页
构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构... 构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证.针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制.此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口.最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求. 展开更多
关键词 异构计算 加速平台 原型系统 高速互连 可重构架构 FPGA
在线阅读 下载PDF
MTTorch:面向MT-3000芯片和Transformer模型的PyTorch算子库实现与优化
19
作者 王昊天 孙羽菲 +4 位作者 隋轶丞 王嘉豪 石昌青 方建滨 张玉志 《软件学报》 北大核心 2025年第8期3896-3916,共21页
随着Transformer类大模型的飞速发展,算力逐渐成为制约领域发展的瓶颈,如何根据加速器硬件的结构特性加速和优化大语言模型的训练性能已成为研究热点.面向天河新一代超算系统的加速芯片MT-3000,提出并实现了适用于CPU+DSP异构架构的PyTo... 随着Transformer类大模型的飞速发展,算力逐渐成为制约领域发展的瓶颈,如何根据加速器硬件的结构特性加速和优化大语言模型的训练性能已成为研究热点.面向天河新一代超算系统的加速芯片MT-3000,提出并实现了适用于CPU+DSP异构架构的PyTorch扩展库——MTTorch,其核心是一个多核并行的算子库,对Transformer类模型训练过程中的核心算子进行向量化实现和优化.同时,针对MT-3000架构特性,提出了面向多核DSP的高性能规约算法及乒乓算法,显著提升了算子的运算性能.MTTorch还具有很好的通用性,对于不同版本的PyTorch都可以动态链接库的形式进行加载,不改变PyTorch的原生实现.大量实验证明,实现的核心算子在MT-3000芯片上有着很好的性能,在单DSP簇上可以达到8倍的加速效果.利用MTTorch在多节点执行训练任务时有着接近线性的加速比,极大地提升了Transformer类模型在MT-3000芯片上的训练效率. 展开更多
关键词 PyTorch 高性能计算 Transformer模型 天河超级计算机 CPU+DSP异构计算 软件生态
在线阅读 下载PDF
边缘智能计算系统中加速推荐模型训练的样本调度机制
20
作者 李国鹏 谈海生 +6 位作者 张弛 倪宏秋 王子龙 章馨月 徐洋 田晗 陈国良 《计算机研究与发展》 北大核心 2025年第6期1396-1415,共20页
在边缘智能计算系统中使用边缘工作节点训练深度学习推荐模型(deep learning recommendation model,DLRM)具有诸多优势,尤其是在数据隐私保护、低延迟和个性化推荐等方面.然而,由于嵌入表的规模庞大,在训练DLRM时通常采用1个或多个参数... 在边缘智能计算系统中使用边缘工作节点训练深度学习推荐模型(deep learning recommendation model,DLRM)具有诸多优势,尤其是在数据隐私保护、低延迟和个性化推荐等方面.然而,由于嵌入表的规模庞大,在训练DLRM时通常采用1个或多个参数服务器来维护全局嵌入表,同时利用多个边缘节点缓存嵌入表的一部分.在此架构下,需要在边缘节点和参数服务器间传输嵌入以保证嵌入数据一致性,嵌入传输代价通常主导了训练周期.目标旨在研究边缘智能计算系统中,当面对异构网络和资源受限等挑战时,如何将嵌入样本调度到合适的边缘节点上进行训练,以最小化总嵌入传输代价.为此,提出了一个基于预期嵌入传输代价的嵌入样本调度机制ESD.在ESD中,设计了一个结合资源密集型最优解法和启发式解法的调度决策方法HybridDis,以实现决策质量和资源消耗之间的平衡.使用C++和Python实现了ESD的原型系统,并在真实工作负载下将其与现有最先进的机制进行比较.大量实验结果表明,ESD可将嵌入传输代价至多降低36.76%,并且在端到端DLRM训练速度上实现了最高1.74倍的加速. 展开更多
关键词 分布式训练 边缘智能 深度学习 推荐模型 调度机制
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部