期刊文献+
共找到8,773篇文章
< 1 2 250 >
每页显示 20 50 100
多芯粒大模型加速器推理协同优化方法
1
作者 方娟 潘晨阳 +3 位作者 古明辉 李硕朋 陈慧杰 翟冉 《通信学报》 北大核心 2026年第2期190-208,共19页
在采用2.5D封装集成多计算芯粒与存储芯粒的大模型推理加速系统中,模型推理解码阶段跨芯粒通信具有突发性与强非均衡性,流量在拓扑中聚集到少数链路并形成热点排队,封装内网络通信常成为性能瓶颈。为缓解上述瓶颈,提出T^(2)-CHIP协同优... 在采用2.5D封装集成多计算芯粒与存储芯粒的大模型推理加速系统中,模型推理解码阶段跨芯粒通信具有突发性与强非均衡性,流量在拓扑中聚集到少数链路并形成热点排队,封装内网络通信常成为性能瓶颈。为缓解上述瓶颈,提出T^(2)-CHIP协同优化方法,通过刻画解码阶段跨芯粒通信在互连中的分布特征,识别热点链路,对带宽资源重分配,同时调整任务映射以减少热点跨芯粒交互,从而有效缓解解码阶段通信拥塞。周期精确网络仿真结果表明,该方法在提升解码阶段尾部性能与整体吞吐量的同时,降低了动态功耗,且维持了较低的实现开销。 展开更多
关键词 大语言模型 2.5D芯粒架构 芯粒间互连 异构协同优化
在线阅读 下载PDF
工业炉烟气排放智能监测系统设计
2
作者 商娟叶 《工业加热》 2026年第2期61-64,共4页
伴随工业生产不断发展,工业炉作为极为重要的热能转换设备,在各类工业生产环节当中有着举足轻重的地位。但是,工业炉在运行期间所产生的烟气排放这一问题愈发显著,对环境以及人类健康都造成了极为严重的危害。所以,设计一套既高效又智... 伴随工业生产不断发展,工业炉作为极为重要的热能转换设备,在各类工业生产环节当中有着举足轻重的地位。但是,工业炉在运行期间所产生的烟气排放这一问题愈发显著,对环境以及人类健康都造成了极为严重的危害。所以,设计一套既高效又智能的工业炉烟气排放监测系统,以此达成对烟气排放实时监测以及控制的目的,该系统旨在实时监测工业炉烟气中的污染物浓度,并将数据传输至相关部门,以便及时采取治理措施。对于确保环境安全、促使工业生产效率得以提升而言,有着相当重要的意义。着手对工业炉烟气排放智能监测系统的架构展开设计工作,对该系统所具备的优势加以分析。研究表明,该系统具有较高的监测准确性与实效性,为工业炉的进一步发展以及运用给予一定的参考。 展开更多
关键词 工业炉 烟气排放 监测系统
在线阅读 下载PDF
基于PSO和网格优化结合的SVM算法癌症分类研究
3
作者 汪颖 王琳 《兰州文理学院学报(自然科学版)》 2026年第1期56-61,共6页
针对乳腺癌良性与恶性的鉴别,提出一种融合粒子群优化与网格搜索的支持向量机模型(GPSO-SVM).该方法先通过网格搜索初步确定粒子群优化的超参数范围,并在粒子群优化迭代过程中阶段性引入网格搜索.联合完成对支持向量机超参数的优化,有... 针对乳腺癌良性与恶性的鉴别,提出一种融合粒子群优化与网格搜索的支持向量机模型(GPSO-SVM).该方法先通过网格搜索初步确定粒子群优化的超参数范围,并在粒子群优化迭代过程中阶段性引入网格搜索.联合完成对支持向量机超参数的优化,有效结合了网格搜索的全局搜索能力与粒子群算法的局部精细寻优优势,提高了参数寻优的效率与准确性.实验结果显示,GPSO-SVM模型在4种不同乳腺癌数据集上的五折交叉验证准确率分别达到98.60%、97.00%、90.52%和88.89%,优于其他寻优方法. 展开更多
关键词 癌症分类 网格搜索 GPSO-SVM
在线阅读 下载PDF
基于CXL的存储阵列全局缓存技术
4
作者 李强 刘涛 +4 位作者 张雪庆 孟宪伟 孙明刚 李博乐 陈曦 《计算机研究与发展》 北大核心 2026年第3期567-584,共18页
全局缓存是企业级存储阵列的关键技术,其核心功能是提高数据的写入速度:用户I/O写入存储控制器的内存缓存后立即返回,无需等待数据持久化至低速HDD或SSD设备。然而,企业级存储产品的全局缓存设计需综合考虑副本数量、系统高可用及故障... 全局缓存是企业级存储阵列的关键技术,其核心功能是提高数据的写入速度:用户I/O写入存储控制器的内存缓存后立即返回,无需等待数据持久化至低速HDD或SSD设备。然而,企业级存储产品的全局缓存设计需综合考虑副本数量、系统高可用及故障场景等因素。受这些因素的相互制约,存储集群的控制器数量通常难以超过4个,且系统可用性无法支持4个控制器同时坏3个。此外,控制器间通过RDMA(remote direct memory access)传输缓存副本数据,也会影响存储性能。为此,基于最新的CXL(compute express link)技术,设计了内存分离式的全局缓存系统原型。内存缓存从控制器内部解耦至外部后,系统具有以下优势:控制器与内存缓存可独立横向扩展,可以支持多个缓存副本;控制器故障不会导致缓存数据丢失,n个控制器可以同时故障n-1个;CXL技术在提升系统扩展性与可用性的同时,能显著优化存储性能。实验结果表明,CXL全局缓存性能比RDMA全局缓存提升38%。 展开更多
关键词 企业存储 存储阵列 CXL 全局缓存 分离式架构
在线阅读 下载PDF
一种远程直接内存访问网络中的高效分布式锁协议
5
作者 高健 舒继武 《计算机研究与发展》 北大核心 2026年第3期585-596,共12页
分布式锁是分布式存储系统的重要组件,锁协议的性能对系统整体的性能有关键性影响。远程直接内存访问(remote direct memory access,RDMA)是一种新兴的数据中心网络技术,它支持单边网络通信原语,可以降低系统CPU开销,同时具备低延迟、... 分布式锁是分布式存储系统的重要组件,锁协议的性能对系统整体的性能有关键性影响。远程直接内存访问(remote direct memory access,RDMA)是一种新兴的数据中心网络技术,它支持单边网络通信原语,可以降低系统CPU开销,同时具备低延迟、高吞吐的性能特性,为设计高速分布式锁协议提供了新机遇。然而,设计基于RDMA的分布式锁协议面临诸多挑战。着重在保证高性能的前提下解决扩展性和公平性挑战,提出一种RDMA网络中的高性能分布式锁协议FeLock,它利用多种类型的RDMA网络通信原语,使客户端不仅能与服务端通信加解锁,还能与其他客户端直接通信以移交锁所有权,同时实现了高性能、公平性和性能的扩展性。具体地,为保证高性能,FeLock引入了节点粒度锁管理机制,缩减锁协议在关键路径上的网络往返次数。为实现扩展性,FeLock引入了轮转移交机制,将所有节点排成1个环,客户端按照其在环中的顺序依次移交锁的所有权。为实现公平性和避免客户端饥饿,FeLock引入了节点信用机制,限制节点连续加锁的次数,避免其他节点上的客户端无法加锁。实验显示,FeLock相比于现有单边RDMA锁协议(如DSLR)表现出相似或更高的性能,并且具有更好的公平性和扩展性。在3~120个客户端的环境下,FeLock的吞吐量是DSLR的1.01~7.51倍,公平性提升至多2.24倍。 展开更多
关键词 分布式系统 并发控制 分布式锁 远程直接内存访问 公平性
在线阅读 下载PDF
支持低成本快速局部重构的快速Benes网络
6
作者 秦梦远 刘宏伟 郝沁汾 《电信科学》 北大核心 2026年第1期86-104,共19页
为了解决互连规模大于100时快速可重构光互连网络单次局部重构代价过高的问题,提出了快速Benes网络与配套局部重构算法,利用预留空置链路减少局部重构对已有链路的影响,在互连规模超过100时性能优异。在处理单一节点的路由变更时,快速Be... 为了解决互连规模大于100时快速可重构光互连网络单次局部重构代价过高的问题,提出了快速Benes网络与配套局部重构算法,利用预留空置链路减少局部重构对已有链路的影响,在互连规模超过100时性能优异。在处理单一节点的路由变更时,快速Benes网络仅影响平均2~4个接入节点对应的既有通信链路,略差于Crossbar网络,而远好于Benes网络(一次平均影响0.71N个接入节点,N为互连规模),降低重构代价达98%。基于该算法的现场可编程门阵列(field-programmable gate array,FPGA)硬件加速器,局部路由求解速度为79 ns/次,与Crossbar网络相近,比Benes网络快2个数量级。 展开更多
关键词 快速Benes网络 局部重构 节点同步成本
在线阅读 下载PDF
维和背景下智能态势侦测系统设计
7
作者 王洪海 刘珩 +2 位作者 李炜 张学铭 王丹宁 《现代电子技术》 北大核心 2026年第6期194-198,共5页
为了实现海外维和任务区执勤作战现场的即时感知,提高侦察设备的复杂环境适应能力与侦测系统威胁研判效率,采用目标定位识别、多模态信息融合及异常检测预警等技术,通过集成雷达与光电传感器,构建了一种基于深度学习算法的智能态势侦测... 为了实现海外维和任务区执勤作战现场的即时感知,提高侦察设备的复杂环境适应能力与侦测系统威胁研判效率,采用目标定位识别、多模态信息融合及异常检测预警等技术,通过集成雷达与光电传感器,构建了一种基于深度学习算法的智能态势侦测一体化系统。实验结果表明,该系统能有效实现可疑人员、车辆等威胁目标的实时侦测与预警,提升了维和执勤作战现场态势侦测的全面性、准确性和时效性,可为维和行动提供智能化决策支持。 展开更多
关键词 海外维和 态势侦测 目标识别 深度学习 异常预警 雷达光电融合
在线阅读 下载PDF
基于线激光的竹条凹陷深度测量方法研究
8
作者 徐筱茹 马良城 +3 位作者 江雨琪 伍希志 李贤军 杨滨 《应用激光》 北大核心 2026年第2期148-157,共10页
为了实现粗刨竹条加工量的精准计算,需要对其表面凹陷进行精准测量,提出了一种全新的基于线激光的竹条凹陷深度检测方法。首先构造激光三角测距模型,通过对工业相机进行相机标定以确定基准平面,并消除相机畸变对采集的图像的影响;其次... 为了实现粗刨竹条加工量的精准计算,需要对其表面凹陷进行精准测量,提出了一种全新的基于线激光的竹条凹陷深度检测方法。首先构造激光三角测距模型,通过对工业相机进行相机标定以确定基准平面,并消除相机畸变对采集的图像的影响;其次用自适应阈值法改进激光条纹中心线提取方法,增强了算法的鲁棒性;最后根据激光条纹中心线提取结果计算竹条的最大凹陷值。为验证测量方案的可行性,将灰度重心法与Steger算法和几何中心法进行了对比,灰度重心法的提取精度高于几何中心法和Steger法,且提取速度是Steger算法的10倍,表现出了相对最优的提取效果。实验结果表明该方法简单高效,检测的竹条凹陷值的平均绝对误差为0.031 8 mm,最大绝对误差在±0.1 mm以内,能够满足生产过程中粗刨竹条凹陷检测的需求。 展开更多
关键词 竹条 线激光 凹陷深度检测 三角测距 图像处理
原文传递
测控计算机系统双工管理软件设计与优化
9
作者 唐沛蓉 冯丽 范斐 《现代信息科技》 2026年第2期109-113,共5页
针对航天测控任务计算机系统的双机热备需求开展双工管理软件系统架构和功能设计,对状态检测、切换控制等关键流程进行了详细阐述,可满足物理机、虚拟机等多种部署要求。基于Linux操作系统调用机制提出了系统运行优化策略,经测试验证该... 针对航天测控任务计算机系统的双机热备需求开展双工管理软件系统架构和功能设计,对状态检测、切换控制等关键流程进行了详细阐述,可满足物理机、虚拟机等多种部署要求。基于Linux操作系统调用机制提出了系统运行优化策略,经测试验证该策略能够将双工软件心跳信号收发最大时延降低到10 ms以内,确保复杂环境下双工软件低延迟状态同步和高效稳定运行,为测控任务实施提供可靠保障。 展开更多
关键词 双工 心跳 故障检测
在线阅读 下载PDF
融合离群点检测与K-means的用电侧异常行为自动识别
10
作者 陈普 刘仲 刘元强 《自动化应用》 2026年第2期170-172,共3页
针对用电侧异常行为自动识别中存在的错识和漏识问题,提出融合离群点检测与K-means的用电侧异常行为自动识别方法。通过对用电侧行为数据进行填补及标准化处理,实现对原始数据的预处理;通过对用电侧行为进行离群点检测,深入挖掘数据中... 针对用电侧异常行为自动识别中存在的错识和漏识问题,提出融合离群点检测与K-means的用电侧异常行为自动识别方法。通过对用电侧行为数据进行填补及标准化处理,实现对原始数据的预处理;通过对用电侧行为进行离群点检测,深入挖掘数据中的潜在规律,提取离散特征的数据点。利用K-means算法对检测出的时间离群点序列进行聚类,识别序列中的异常行为,实现融合离群点检测与K-means的用电侧异常行为自动识别。实验证明,所设计方法的错识率不超过1.5%,漏识率不超过1%,可实现对用电侧异常行为的自动识别。 展开更多
关键词 离群点检测 K-MEANS 用电侧 异常行为 标准化
在线阅读 下载PDF
智能配置与负载感知调度的融合主机虚拟资源优化
11
作者 齐玉玲 黄涛 +4 位作者 刘国菲 张军贤 鲍春晓 吴江鹏 黄宜华 《大数据》 2026年第1期111-125,共15页
针对边缘计算平台中因异构应用共存、动态负载频发引发的虚拟化资源配置不准确和调度效率低的问题,以列车融合主机为典型应用场景,提出一种基于智能化配置与负载感知调度的融合主机虚拟化资源联合优化方法。首先,通过量化分析融合主机... 针对边缘计算平台中因异构应用共存、动态负载频发引发的虚拟化资源配置不准确和调度效率低的问题,以列车融合主机为典型应用场景,提出一种基于智能化配置与负载感知调度的融合主机虚拟化资源联合优化方法。首先,通过量化分析融合主机典型应用的资源需求特征,构建了一种基于随机森林建模和二分查找法的资源配置预测模型,实现对虚拟化资源的精准前瞻性分配。其次,针对动态负载变化,设计了一种改进的遗传算法,该算法将虚拟化应用与物理CPU核心进行映射,并结合资源利用率与应用性能的多目标适应度函数,动态调整调度策略。实验结果表明,与传统优势资源公平(dominant resource fairness,DRF)算法相比,所提出的资源配置预测模型能提供优于人工初始化的配置参数,同时改进的遗传算法将CPU平均利用率从13.5%提升至22.07%,相对提升幅度达63.5%,目标函数值从0.035提升至0.204,提升约4.83倍,服务器总资源占用降低44%,有效节约了硬件成本与能耗开销。研究为边缘计算平台在高动态场景下的资源优化提供了通用方法,并以列车融合主机为例验证了其可行性,对智能边缘系统的构建具有普适参考价值。 展开更多
关键词 边缘计算平台 虚拟化技术 资源配置 动态调度 遗传算法 随机森林
在线阅读 下载PDF
基于混合云的弹性伸缩技术设计与实现
12
作者 林恩爱 韩超 +2 位作者 娄峰 冯汀 贾琦婧 《信息记录材料》 2026年第5期146-148,共3页
针对航空公司企业对消费者(B2C)电子商务模式销售中机票“秒杀”活动等业务场景引发的瞬时高并发、资源需求突增且需成本可控的问题,本研究提出了一种基于混合云的弹性伸缩技术。通过设计三种弹性伸缩组(AS)模式,制定自动化伸缩策略与流... 针对航空公司企业对消费者(B2C)电子商务模式销售中机票“秒杀”活动等业务场景引发的瞬时高并发、资源需求突增且需成本可控的问题,本研究提出了一种基于混合云的弹性伸缩技术。通过设计三种弹性伸缩组(AS)模式,制定自动化伸缩策略与流程,并在混合云架构下实现关键组件的部署与集成,构建了可快速交付与回收资源的解决方案。结果表明,在两次“双十一”大促的电商活动中,该技术使系统的运行指标全面提升,用户端体验平滑顺畅。实践证明,该技术能在可控成本内有效应对电商业务的突发流量冲击。 展开更多
关键词 混合云 弹性伸缩 电子商务 高并发处理 资源调度 云计算
在线阅读 下载PDF
基于AMESim的冲击载荷下液压支架承载系统优化设计
13
作者 王亚楠 郑凯 《机械制造与自动化》 2026年第1期182-186,共5页
以提高液压支架抵抗冲击载荷的能力为目标,以单元型液压支架为研究对象,进行冲击载荷下液压支架承载系统优化设计。阐述单元型液压支架的基本结构与核心参数,并进行力学分析。利用AMESim软件绘制传统单元型液压支架的液压系统原理图,并... 以提高液压支架抵抗冲击载荷的能力为目标,以单元型液压支架为研究对象,进行冲击载荷下液压支架承载系统优化设计。阐述单元型液压支架的基本结构与核心参数,并进行力学分析。利用AMESim软件绘制传统单元型液压支架的液压系统原理图,并进行仿真分析。以传感器、电磁比例换向阀为硬件核心,通过PID控制系统的引入,对传统单元型液压支架的控制系统进行优化设计,并利用AMESim软件进行仿真分析。分析结果表明:PID控制系统的运用提高了液压组合支架抵抗冲击载荷的能力,可保证液压组合支架机构的持续与稳定运行。 展开更多
关键词 液压支架 控制系统 冲击载荷 AMESIM
在线阅读 下载PDF
基于指令串行融合的RISC-V向量处理器计算方法
14
作者 李凯歌 高鑫 杨孟飞 《微电子学与计算机》 2026年第3期155-163,共9页
在传统冯诺依曼计算机架构中,卷积神经网络、矩阵计算与快速傅里叶变换等算法存在频繁的数据重用,导致向量处理器流水线中产生大量写后读指令,易引发数据冲突。同时,数据在向量寄存器和计算单元之间的反复传输带来了显著的功耗开销。针... 在传统冯诺依曼计算机架构中,卷积神经网络、矩阵计算与快速傅里叶变换等算法存在频繁的数据重用,导致向量处理器流水线中产生大量写后读指令,易引发数据冲突。同时,数据在向量寄存器和计算单元之间的反复传输带来了显著的功耗开销。针对上述问题,提出了一种面向向量计算的数据冲突解决机制。通过利用数据重用减少数据流动,从而降低计算芯片功耗。将该方法应用于RISC-V向量处理器的仿真实验表明:在128×128矩阵乘法计算时,整体芯片功耗降低约5.8%;在计算神经卷积网络算法时,功耗降低约6.2%。该方法具有轻量化的特点,所引入的面积开销可忽略不计。 展开更多
关键词 RISC-V 向量处理器 矩阵计算 能效
在线阅读 下载PDF
一种海思片内的图像传输方法
15
作者 伍振宇 倪文龙 +1 位作者 郭晓光 王超 《自动化技术与应用》 2026年第3期124-127,共4页
为实现大规模图像数据传输与实时处理,提出一种基于海思芯片片内图像数据传输的高效方法。该方法结合线程池调度策略与PCIV传输机制,构建出一个简洁而强大的多路图像数据传输模型。线程池负责统一管理多路图像任务,显著提升资源利用率... 为实现大规模图像数据传输与实时处理,提出一种基于海思芯片片内图像数据传输的高效方法。该方法结合线程池调度策略与PCIV传输机制,构建出一个简洁而强大的多路图像数据传输模型。线程池负责统一管理多路图像任务,显著提升资源利用率和系统响应能力;PCIV则依托PCIE高速接口与海思硬件加速能力,实现低延迟、高吞吐量的数据传送。为验证该方法,在海思3559AV100与海思3531DV200芯片级联平台上进行了16路高清摄像头的实时传输试验。结果表明,该系统能够稳定处理多路图像数据,传输流畅,显示端无任何卡顿,完全满足多芯片协同处理场景下对大数据量与实时性的要求。研究有效解决了多图像处理芯片级联架构中的传输瓶颈,适用于智能安防、自动驾驶、工业检测等对实时图像处理要求较高的领域,具备良好的工程应用前景。 展开更多
关键词 海思 3559AV100 3531DV200 线程池 PCIV PCIE
在线阅读 下载PDF
一种私有云监控系统及方法
16
作者 陈雪华 倪蕾 +1 位作者 刘喆 郑美 《计算机与网络》 2026年第1期8-18,共11页
针对传统云平台运维监控系统存在的监控信息分散、无效告警冗余、误报率高,且难以支撑全局化运维决策的问题,在分析现有基于环状数据库(Round Robin Database,RRD)、Zabbix等技术的监控方案不足的基础上,对Prometheus与Grafana的技术适... 针对传统云平台运维监控系统存在的监控信息分散、无效告警冗余、误报率高,且难以支撑全局化运维决策的问题,在分析现有基于环状数据库(Round Robin Database,RRD)、Zabbix等技术的监控方案不足的基础上,对Prometheus与Grafana的技术适配性进行简要介绍,提出一种基于该技术组合的私有云监控系统及实现方法。系统通过“数据采集,数据存储,监控展示,告警执行”四大模块协同工作:数据采集模块采用接口与探针双轨制策略,结合跨网交互方案与接口限流突破机制,实现多网络环境下监控数据的全面获取;数据存储模块构建“逻辑组织、分片存储、联邦聚合”3层架构,基于Prometheus时序数据库与标签扩展模型,解决多源异构数据的高效存储与查询问题;告警执行模块引入动态阈值算法、分级抑制策略及告警风暴处理机制,提升告警准确性与可控性。通过搭建包含3台物理服务器的私有云测试集群,以Nagios系统为对照,对系统在正常负载、资源过载、网络隔离等场景下的性能进行仿真测试与对比分析。实验结果表明,与传统方案相比,该系统72h累计无效告警减少70.9%,告警准确率提升至92.2%(较对照组提高72.7%),平均告警延迟降低57.1%,同时CPU与内存资源占用分别减少6.8%和0.9 GB。研究结论显示,该系统可有效克服传统监控装置的缺陷,显著提升私有云平台的运行稳定性与运维效率,具备较强的工程实践推广价值。 展开更多
关键词 私有云平台 PROMETHEUS Grafana 监控系统 告警执行
在线阅读 下载PDF
站城融合立体网络空间数据湖仓存储设计方法
17
作者 魏露洋 方欢 《哈尔滨商业大学学报(自然科学版)》 2026年第1期59-65,共7页
围绕站城融合立体网络空间的数据运维展开研究,旨在破解多源异构数据在存储与融合过程中的关键技术瓶颈.以深圳北站站城融合立体网络空间智慧运维为研究对象,采用构建数据湖仓架构的方法,将数据湖仓存储体系聚焦于站城融合区域的结构、... 围绕站城融合立体网络空间的数据运维展开研究,旨在破解多源异构数据在存储与融合过程中的关键技术瓶颈.以深圳北站站城融合立体网络空间智慧运维为研究对象,采用构建数据湖仓架构的方法,将数据湖仓存储体系聚焦于站城融合区域的结构、环境、能耗、人流及事态五类核心应用场景数据.结果表明,所构建的数据湖仓能够有效集成来自传感器、建筑信息模型(BIM)、城市信息模型(CIM)等多系统、跨场景且具有半结构化特征的庞大数据资源,显著消除信息孤岛效应并提升数据融合效率.该架构从数据层面对站城融合空间智慧运维系统的落地实施形成有力支撑,为智慧交通与智慧城市交叉领域的深度应用提供了可靠的技术基础与保障. 展开更多
关键词 数据湖仓 站城融合 多源异构数据 数据存储 深圳北站
在线阅读 下载PDF
分布式云存储系统中多节点高效纠删码更新方法
18
作者 解则翠 《办公自动化》 2026年第5期4-7,共4页
为保证分布式云存储系统中数据的可靠性和可用性,提出一种多节点分组的纠删码更新策略。该策略有两个设计要点:一是数据块采取节点分组就地更新策略,二是纠删码更新采用基于时间节点数据增量日志的方式;分布式存储系统数据更新时,对集... 为保证分布式云存储系统中数据的可靠性和可用性,提出一种多节点分组的纠删码更新策略。该策略有两个设计要点:一是数据块采取节点分组就地更新策略,二是纠删码更新采用基于时间节点数据增量日志的方式;分布式存储系统数据更新时,对集群的节点进行分组,同组的节点共同计算纠删码,以减少网络延迟所带来的时间消耗,提高纠删码编码效率;纠删码数据更新采用基于时间节点数据增量日志的方法,可以减少数据频繁写入导致重复计算纠删码的频率,从而减少读后写操作。实验结果证明,该策略相比传统方法,分布式存储系统中的数据修改量越大其优势越明显,存储空间利用率至少提高1.2%,编码效率至少提升9.88%。 展开更多
关键词 纠删码 存储集群 多节点分组 数据更新
在线阅读 下载PDF
基于Matrix Core的高性能多维FFT设计与优化 被引量:2
19
作者 陆璐 祝松祥 +2 位作者 田卿燕 林海山 郭逸劼 《华南理工大学学报(自然科学版)》 北大核心 2025年第3期20-30,共11页
快速傅里叶变换(FFT)算法广泛应用于科学计算等领域。为了充分挖掘图形处理器(GPU)的计算能力并进一步提高FFT的计算效率,该文针对矩阵形式的Stockham FFT,提出了一种基于Matrix Core的高性能多维FFT计算方案。在计算优化方面,该方案利... 快速傅里叶变换(FFT)算法广泛应用于科学计算等领域。为了充分挖掘图形处理器(GPU)的计算能力并进一步提高FFT的计算效率,该文针对矩阵形式的Stockham FFT,提出了一种基于Matrix Core的高性能多维FFT计算方案。在计算优化方面,该方案利用Matrix Core加速FFT计算中的矩阵乘运算,同时通过编译器内部指令完成小粒度的矩阵乘加,使得Matrix Core支持更多尺寸的FFT计算。在内存优化方面,该方案使用2层迭代策略,以充分利用共享内存,减少与全局内存的数据交换;根据Matrix Core的矩阵数据在各个线程寄存器中的分布规律,直接在寄存器上完成FFT计算中大量存在的矩阵逐元素乘操作;通过对共享内存中的数据进行重排来缓解存储体冲突,并采用双缓冲策略缓解访存瓶颈。该文还提出了高效的矩阵转置策略,以加速多维FFT计算。在AMD MI250 GPU平台上将该方案与GPU上主流的高性能FFT计算库rocFFT和VkFFT进行了比较实验,结果表明:该方案在AMD MI250上的1维、2维和3维FFT平均计算效率均优于rocFFT和VkFFT,3维FFT的平均计算效率为rocFFT的1.5倍,为VkFFT的2.0倍,具有较好的性能提升;mcFFT的计算精度与rocFFT和VkFFT保持在相同水平。 展开更多
关键词 图形处理器 Matrix Core 快速傅里叶变换 矩阵乘法
在线阅读 下载PDF
基于Matrix Core的小尺寸批量矩阵乘法设计与优化 被引量:1
20
作者 陆璐 赵容 +1 位作者 梁志宏 索思亮 《华南理工大学学报(自然科学版)》 北大核心 2025年第9期48-58,共11页
通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM(即FP16)一直是许多深度学... 通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM(即FP16)一直是许多深度学习框架的核心操作。目前AMD GPU上半精度批处理GEMM的访存和计算利用率不足,急需优化。为此,该文提出了一种半精度批处理GEMM(HGEMM)的图形处理器(GPU)优化方案。分块策略方面,根据输入矩阵块大小为线程分配相同的访存量和计算量,同时线程计算多个矩阵乘法,以提高计算单元的利用率。访存优化方面,以多读数据为代价,为每个线程分配相同访存量以便于编译器优化,保证访存和计算时间相互掩盖。对于矩阵尺寸小于16的极小尺寸批处理HGEMM,该文利用4×4×4的Matrix Core及其对应的分块方案,在提升访存性能的同时减少Matrix Core计算资源的浪费,并提供是否使用共享内存的选项来达到最高性能。在AMD GPU MI210平台上,将该方案与rocBLAS的2个算子进行性能对比,结果表明:该方案在AMD GPU MI210上的平均性能为rocBLASHGEMMBatched的4.14倍,rocBLASGEMMExBatched的4.96倍;对于极小尺寸批处理HGEMM,平均性能为rocBLASHGEMMBatched的18.60倍,rocBLASGEMMExBatched的14.02倍。 展开更多
关键词 图形处理器 Matrix Core 矩阵乘法 访存优化
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部