期刊文献+
共找到350篇文章
< 1 2 18 >
每页显示 20 50 100
基于Matrix Core的高性能多维FFT设计与优化 被引量:2
1
作者 陆璐 祝松祥 +2 位作者 田卿燕 林海山 郭逸劼 《华南理工大学学报(自然科学版)》 北大核心 2025年第3期20-30,共11页
快速傅里叶变换(FFT)算法广泛应用于科学计算等领域。为了充分挖掘图形处理器(GPU)的计算能力并进一步提高FFT的计算效率,该文针对矩阵形式的Stockham FFT,提出了一种基于Matrix Core的高性能多维FFT计算方案。在计算优化方面,该方案利... 快速傅里叶变换(FFT)算法广泛应用于科学计算等领域。为了充分挖掘图形处理器(GPU)的计算能力并进一步提高FFT的计算效率,该文针对矩阵形式的Stockham FFT,提出了一种基于Matrix Core的高性能多维FFT计算方案。在计算优化方面,该方案利用Matrix Core加速FFT计算中的矩阵乘运算,同时通过编译器内部指令完成小粒度的矩阵乘加,使得Matrix Core支持更多尺寸的FFT计算。在内存优化方面,该方案使用2层迭代策略,以充分利用共享内存,减少与全局内存的数据交换;根据Matrix Core的矩阵数据在各个线程寄存器中的分布规律,直接在寄存器上完成FFT计算中大量存在的矩阵逐元素乘操作;通过对共享内存中的数据进行重排来缓解存储体冲突,并采用双缓冲策略缓解访存瓶颈。该文还提出了高效的矩阵转置策略,以加速多维FFT计算。在AMD MI250 GPU平台上将该方案与GPU上主流的高性能FFT计算库rocFFT和VkFFT进行了比较实验,结果表明:该方案在AMD MI250上的1维、2维和3维FFT平均计算效率均优于rocFFT和VkFFT,3维FFT的平均计算效率为rocFFT的1.5倍,为VkFFT的2.0倍,具有较好的性能提升;mcFFT的计算精度与rocFFT和VkFFT保持在相同水平。 展开更多
关键词 图形处理器 matrix core 快速傅里叶变换 矩阵乘法
在线阅读 下载PDF
基于Matrix Core的小尺寸批量矩阵乘法设计与优化 被引量:1
2
作者 陆璐 赵容 +1 位作者 梁志宏 索思亮 《华南理工大学学报(自然科学版)》 北大核心 2025年第9期48-58,共11页
通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM(即FP16)一直是许多深度学... 通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM(即FP16)一直是许多深度学习框架的核心操作。目前AMD GPU上半精度批处理GEMM的访存和计算利用率不足,急需优化。为此,该文提出了一种半精度批处理GEMM(HGEMM)的图形处理器(GPU)优化方案。分块策略方面,根据输入矩阵块大小为线程分配相同的访存量和计算量,同时线程计算多个矩阵乘法,以提高计算单元的利用率。访存优化方面,以多读数据为代价,为每个线程分配相同访存量以便于编译器优化,保证访存和计算时间相互掩盖。对于矩阵尺寸小于16的极小尺寸批处理HGEMM,该文利用4×4×4的Matrix Core及其对应的分块方案,在提升访存性能的同时减少Matrix Core计算资源的浪费,并提供是否使用共享内存的选项来达到最高性能。在AMD GPU MI210平台上,将该方案与rocBLAS的2个算子进行性能对比,结果表明:该方案在AMD GPU MI210上的平均性能为rocBLASHGEMMBatched的4.14倍,rocBLASGEMMExBatched的4.96倍;对于极小尺寸批处理HGEMM,平均性能为rocBLASHGEMMBatched的18.60倍,rocBLASGEMMExBatched的14.02倍。 展开更多
关键词 图形处理器 matrix core 矩阵乘法 访存优化
在线阅读 下载PDF
压水堆堆外探测器中子传输矩阵单点校刻方法及验证
3
作者 赵廷玉 易林 +2 位作者 万承辉 白家赫 李文 《核动力工程》 北大核心 2026年第2期46-53,共8页
针对压水堆堆外探测器中子传输矩阵(T)多点校刻过程中存在的堆芯工况扰动大、试验周期长及操作风险高等问题,提出了一种基于单次堆芯中子注量率测量试验数据的中子传输矩阵单点校刻方法。该方法首先利用单次堆芯中子注量率试验数据确定... 针对压水堆堆外探测器中子传输矩阵(T)多点校刻过程中存在的堆芯工况扰动大、试验周期长及操作风险高等问题,提出了一种基于单次堆芯中子注量率测量试验数据的中子传输矩阵单点校刻方法。该方法首先利用单次堆芯中子注量率试验数据确定堆芯轴向功率分布及探测器响应修正因子;随后,通过数值模拟替代传统多次控制棒扰动试验,构造多组等效堆芯功率与探测器电流数据;最终采用共轭梯度法对比计算结果与模拟响应,反演获得T与灵敏度系数矩阵(S)。基于我国某压水堆核电厂多机组实测数据的验证结果表明,本文方法计算得到的TS矩阵与ETALONG软件结果高度一致,验证了方法的可靠性,并在此基础上进一步比较了多点校刻法与单点校刻法的性能。结果显示,两种方法在堆芯轴向功率分布重构中的相对误差的均方根值分别为0.04%和0.52%,均满足工程限值要求。研究表明,该方法在保持堆芯运行稳定性的前提下,可显著简化中子传输矩阵求取过程,提高堆外探测器灵敏度系数矩阵的校准效率,具有良好的工程适用性和推广价值。 展开更多
关键词 堆芯功率重构 堆外探测器 中子传输矩阵 单点校刻法 共轭梯度法
原文传递
Optimizing winograd-based convolution with DCU’s matrix cores
4
作者 Jiandong Shang Fuchang Gao +5 位作者 Zhaopeng Li Yizhe Sui Gang Wu Nan Wang Lingling Wang Dujuan Zhang 《CCF Transactions on High Performance Computing》 2026年第1期107-119,共13页
Convolution algorithms based on the Winograd implementation can reduce computational complexity and are widely used in CNNs.As an emerging GPU-like accelerator,DCU has achieved some performance optimization for the Wi... Convolution algorithms based on the Winograd implementation can reduce computational complexity and are widely used in CNNs.As an emerging GPU-like accelerator,DCU has achieved some performance optimization for the Winograd algorithm,but it fails to fully exploit the Matrix Cores of DCU to further enhance the efficiency of Winograd convolution computations.This paper proposes an improved fused Winograd convolution optimization scheme that integrates all transformation stages into a single kernel,which is specifically designed to exploit the characteristics of Matrix Cores.In the input transformation stage,we design an efficient data reuse mechanism that reduces redundant global memory accesses.In the element-wise matrix multiplication stage,we transform Hadamard products into batched GEMMs,boosting computational intensity and complying with the data layout requirements of Matrix Cores.During kernel fusion,we eliminate shared memory bank conflicts by reorganizing thread layout and further introduce software pipelining to effectively mask memory access latency.The results show that our method achieves average speedups of 1.35×and 1.72×(up to 1.81×and 2.78×)over the Winograd and Implicit GEMM algorithms in MIOpen under FP16 mode,and 1.22×and 1.53×(up to 1.55×and 1.88×)under FP32 mode. 展开更多
关键词 CONVOLUTION Fused Winograd Batched GEMMs matrix cores
在线阅读 下载PDF
地埋电缆群实时动态载流能力快速评估方法
5
作者 司文荣 梁永春 +1 位作者 赵莹莹 傅晨钊 《高压电器》 北大核心 2026年第2期153-161,共9页
准确、快速计算应急负荷和转供负荷工况下地埋电力电缆群暂态缆芯温升对于提高电力电缆动态载流能力精细化管理水平具有重要的意义。首先利用有限元稳态分析获得转移矩阵,利用有限元暂态分析获得单根加热电缆下的自热暂态温升数据和其... 准确、快速计算应急负荷和转供负荷工况下地埋电力电缆群暂态缆芯温升对于提高电力电缆动态载流能力精细化管理水平具有重要的意义。首先利用有限元稳态分析获得转移矩阵,利用有限元暂态分析获得单根加热电缆下的自热暂态温升数据和其余电缆的互热暂态温升数据;然后构建了复合暂态热路模型,加载电缆的自热热路模型由二支路热阻—热容组成,邻近电缆的互热热路模型由一支路热阻—热容组成,给出了复合暂态热路模型的龙格库塔法求解方法;最后以有限元计算结果为基准,利用遗传算法优化求解复合热路模型的热阻和热容参数。针对具体实例,利用转移矩阵获得各电缆稳态温升,通过每一个时间步修正损耗实现热电耦合,利用复合热路模型计算任意一根电缆的动态载流量。与有限元计算结果对比表明,该方法具有较高的精度,可以用于工程中直埋电缆群的应急负荷和转供负荷电流运维管理。 展开更多
关键词 地埋电缆群 复合暂态热路模型 暂态缆芯温升 动态载流量 龙格库塔法 转移矩阵 热电耦合
在线阅读 下载PDF
swDaCe:一种申威众核处理器上以数据为中心的并行编程模型设计与实现
6
作者 沈沛祺 陈俊仕 安虹 《小型微型计算机系统》 北大核心 2026年第3期751-759,共9页
高性能科学计算是超级计算机的核心应用领域,包括粒子模拟、气候分析等关键任务.然而,随着摩尔定律逐渐失效,超级计算机体系结构日益趋向异构和复杂,导致科学计算应用的开发和优化变得更加困难.为解决这一问题,本文基于新一代申威超级... 高性能科学计算是超级计算机的核心应用领域,包括粒子模拟、气候分析等关键任务.然而,随着摩尔定律逐渐失效,超级计算机体系结构日益趋向异构和复杂,导致科学计算应用的开发和优化变得更加困难.为解决这一问题,本文基于新一代申威超级计算平台,提出并实现了一种以数据为中心的并行编程模型——swDaCe.该模型通过解耦数据流图优化与原始程序,使得编程人员可以使用Python描述计算逻辑,并最终生成适配申威众核架构的高性能C++代码.此外,本文提出了一系列针对申威架构的数据流优化方法,包括从核任务映射、向量化并行以及DMA访存优化,以充分利用申威众核处理器的计算能力.实验结果表明,swDaCe生成的代码在稀疏矩阵计算等典型应用中实现了显著的性能提升,单核组加速比达到25倍以上,验证了该框架在申威架构上的有效性. 展开更多
关键词 新一代神威平台 异构众核处理器 数据流编程 并行计算 稀疏矩阵乘
在线阅读 下载PDF
基于矩阵画像和Louvain社区发现算法的关键核心技术识别研究 被引量:1
7
作者 万校基 赖静 +2 位作者 牟莹禧 朱志国 张丽萍 《情报学报》 北大核心 2025年第7期903-914,共12页
针对现有关键核心技术识别方法较少考虑时间因素和较难解读识别结果等问题,本文提出一种基于矩阵画像(matrix profile,MP)和Louvain社区发现算法的关键核心技术识别方法。该方法基于IPC(international patent classification)小类权重... 针对现有关键核心技术识别方法较少考虑时间因素和较难解读识别结果等问题,本文提出一种基于矩阵画像(matrix profile,MP)和Louvain社区发现算法的关键核心技术识别方法。该方法基于IPC(international patent classification)小类权重和词频分析法识别目标领域热点技术主题,结合高频IPC小类时间序列和MP算法构建技术关联网络,借助Louvain算法和社会网络分析法识别目标领域初始关键核心技术主题。基于特征筛选关键核心技术主题,并通过对技术关联子网络、原始专利数据、相关政策文件和期刊文献的深层次解读来识别目标领域关键核心技术。通过对incoPat专利数据库中2014—2023年物流领域的授权专利进行数据处理和挖掘发现,本文方法能有效识别物流领域关键核心技术,不仅有助于推动行业技术突破和创新,亦可提升国家在全球产业链和价值链中的地位。 展开更多
关键词 关键核心技术 矩阵画像 社区发现算法 技术关联网络 结构洞
在线阅读 下载PDF
Core逆的一些新特征
8
作者 罗高骏 左可正 周良 《山东大学学报(理学版)》 CAS CSCD 北大核心 2015年第4期90-94,共5页
利用矩阵的Σ-K-L分解,研究了Core逆的性质,得到了Core逆的一些新特征,给出了Core逆的一些充要条件。
关键词 core 广义逆 Σ-K-L分解 EP阵
原文传递
裂缝性特低渗透砂岩油藏控速增渗注水提高采收率技术及应用——以鄂尔多斯盆地为例
9
作者 王香增 王小锋 +4 位作者 梁全胜 党海龙 侯玢池 崔鹏兴 高涛 《油气地质与采收率》 北大核心 2025年第6期137-145,共9页
裂缝性特低渗透砂岩油藏基质孔喉细小,微裂缝发育,为发挥渗吸驱油作用提供了有利条件;表面活性剂溶液能够改变岩石与流体之间界面作用,增强渗吸作用,对提高采收率有着重要的影响。利用界面张力实验测试、润湿性测定和自发渗吸实验,研究... 裂缝性特低渗透砂岩油藏基质孔喉细小,微裂缝发育,为发挥渗吸驱油作用提供了有利条件;表面活性剂溶液能够改变岩石与流体之间界面作用,增强渗吸作用,对提高采收率有着重要的影响。利用界面张力实验测试、润湿性测定和自发渗吸实验,研究不同质量分数阴非离子表面活性剂YCSX-1溶液的界面张力、润湿性和自发渗吸驱油效率以及表面活性剂溶液的注入质量分数和注入速度对驱油效率的影响;创新设计基于Warren-Root模型的基质-裂缝双重介质岩心,并构建考虑表面活性剂及渗吸作用的双重介质数学模型,综合利用物理模拟及数值模拟方法研究表面活性剂不同注入质量分数和注入量下的驱油规律。实验结果表明:界面张力和润湿接触角随表面活性剂质量分数的增大均呈现先下降后增大的趋势,是渗吸驱油效率的关键影响因素;质量分数为0.4%的表面活性剂体系渗吸作用最强,驱油效率最高,渗吸作用的增强提高了基质内原油的动用程度;驱油效率随注入速度的增加呈现先增大后减小的趋势,最佳注入速度为1.2 mL/min。基于实验结果,利用构建的双重介质数学模型模拟计算,实现了注入参数的优化,最佳注入质量分数为0.4%,最佳单井注入量为12 m3/d。将该模拟结果应用于X区块注水开发,效果明显,日产油量最高增幅达54%。控速增渗注水提高采收率技术通过优化表面活性剂溶液质量分数,改变基质孔隙界面张力及润湿性;同时控制注水速度,使得驱油过程中两相流体的弯液面保持理想动力状态,发挥毛管力与驱替压力双重动力作用,进一步增强渗吸作用在驱油过程中的相对贡献,使得基质小孔隙原油流动能力增强,更多基质孔隙原油被采出,提高了驱油效率。 展开更多
关键词 特低渗透砂岩 表面活性剂 基质-裂缝岩心 注入速度 驱油效率 提高采收率
在线阅读 下载PDF
火炸药领域的核壳结构Al基复合材料研究进展 被引量:1
10
作者 董英楠 姜一帆 +3 位作者 赵凤起 李思恒 刘丁 曲文刚 《含能材料》 北大核心 2025年第8期907-927,共21页
核壳结构能有效抑制Al基复合材料燃烧产生的大颗粒Al凝团,提升Al粉释能效率,改善Al粉的点火性能和燃烧释能特性。本研究从核壳结构Al基复合材料的特点出发,介绍了核壳结构Al基复合材料的研究进展,讨论了核壳结构Al基复合材料的常用制备... 核壳结构能有效抑制Al基复合材料燃烧产生的大颗粒Al凝团,提升Al粉释能效率,改善Al粉的点火性能和燃烧释能特性。本研究从核壳结构Al基复合材料的特点出发,介绍了核壳结构Al基复合材料的研究进展,讨论了核壳结构Al基复合材料的常用制备方法,分析了不同组成对核壳结构Al基复合材料的燃烧性能、能量释放效率以及稳定性等方面的影响,并给出核壳结构Al基复合材料潜在的应用与发展方向:优化核壳结构制备技术并实现规模化生产的同时,调控包覆材料组分或在基体‑包覆层界面构筑功能化介层,可有效改善材料燃烧过程中的传质传热特性。 展开更多
关键词 核壳结构 AL基复合材料 制备方法 材料组成 燃烧性能
在线阅读 下载PDF
非负矩阵的核单调刻画
11
作者 林麟 钟金 《兰州理工大学学报》 北大核心 2025年第3期167-172,共6页
研究了非负矩阵核单调的刻画问题.利用非负满秩分解给出了非负矩阵是核单调的充分必要条件,并给出了核逆非负时的表示.通过数值例子说明了非负矩阵的核逆与Moore-Penrose逆和群逆的非负性不是等价的,并利用矩阵的Moore-Penrose逆和群逆... 研究了非负矩阵核单调的刻画问题.利用非负满秩分解给出了非负矩阵是核单调的充分必要条件,并给出了核逆非负时的表示.通过数值例子说明了非负矩阵的核逆与Moore-Penrose逆和群逆的非负性不是等价的,并利用矩阵的Moore-Penrose逆和群逆给出了非负矩阵是核单调的一个充分必要条件.此外,给出了一个实矩阵是核单调的充分必要条件,推广了Collatz的结果. 展开更多
关键词 非负矩阵 核逆 核单调 对偶核单调
在线阅读 下载PDF
共轭微孔聚合物-碳纳米管混合基质膜的可控成核生长与PM/CO_(2)同步捕集机理 被引量:1
12
作者 徐明伟 杨尚学 +8 位作者 刘冠林 汪少振 王存民 李佳琪 李湘 张一帆 张明明 何新建 徐欢 《高等学校化学学报》 北大核心 2025年第4期123-132,共10页
混合基质膜(MMMs)通过将聚合物的优点与有机/无机填料相结合来提高吸附和分离性能.共轭微孔聚合物(CMPs)具有层次化的多孔结构和丰富的杂原子吸附位点,能够在复杂的环境中实现高效、稳定的气体吸附和分离.本文构建了碳纳米管(CNTs)网络... 混合基质膜(MMMs)通过将聚合物的优点与有机/无机填料相结合来提高吸附和分离性能.共轭微孔聚合物(CMPs)具有层次化的多孔结构和丰富的杂原子吸附位点,能够在复杂的环境中实现高效、稳定的气体吸附和分离.本文构建了碳纳米管(CNTs)网络支撑CMPs膜,该膜以具有三维网络结构的CNTs为柔性基底,以具有分级多孔结构和丰富杂原子吸附位点的CMPs为吸附活性层,旨在解决制备过程中多孔聚合物自成膜难的问题.所制备的CMP-CNTs膜保留了CNTs的三维网络结构和CMPs的分级多孔结构,在高效吸附颗粒物(PM)和分离二氧化碳/氮气(CO_(2)/N_(2))的同时显著降低了渗透阻力.在酸碱环境中,CMP-CNTs对PM3.0的拦截效率超过99.9%.孔隙性质测试结果表明,CMP-CNTs具有与气体分子动力学直径相似的尺寸特征和由氮和氧杂原子引起的极性诱导环境,因此具有优异的CO_(2)/N_(2)分离能力.CMP-CNTs对CO_(2)/N_(2)混合组分的选择性高达119[273 K,1.0 bar(1 bar=0.1 MPa)].本文将CMPs同轴共价接枝在CNTs表面形成核壳结构的混合基质膜,这种将多孔聚合物和柔性基底优势互补的加工方法表现出设计灵活性和工艺普适性. 展开更多
关键词 混合基质膜 同轴共价接枝 核壳结构 酸碱耐受性 颗粒物/CO_(2)同步捕集
在线阅读 下载PDF
地表基质调查中浅钻技术方法及其应用——以JNZK04钻孔为例
13
作者 史轲亮 陈占生 +2 位作者 李永彬 陈林 李玄辉 《钻探工程》 2025年第S1期381-385,共5页
浅钻技术能够快速穿透不同性质的地表基质层,并准确采集到具有代表性的基质样本。本研究采用GJ240-2S型钻机,在山东鱼台县施工20 m深度的JNZK04钻孔,开展地表基质层调查,系统探讨了浅钻技术在地表基质调查中的技术方法与应用价值。通过... 浅钻技术能够快速穿透不同性质的地表基质层,并准确采集到具有代表性的基质样本。本研究采用GJ240-2S型钻机,在山东鱼台县施工20 m深度的JNZK04钻孔,开展地表基质层调查,系统探讨了浅钻技术在地表基质调查中的技术方法与应用价值。通过岩心编录、样品采集与分析、地球物理相结合的方法,揭示了地表基质20 m以浅垂向基质类型及结构特征。验证了浅钻技术在地表基质调查中的适用性,总结了浅钻技术优势,浅钻技术能够为地表基质调查提供有力技术支撑。 展开更多
关键词 浅钻技术 地表基质调查 岩心编录 样品采集与分析 地球物理
在线阅读 下载PDF
FeP纳米晶催化活化Li_(2)S构建长寿命锂硫电池
14
作者 陈飞 翟飞飞 +1 位作者 宋昊鑫 吕盼 《应用化学》 北大核心 2025年第5期668-674,共7页
通过简便且易规模化的高温原位热解聚合物制备出自支撑的核壳结构柔性多孔催化载体,用于高载量负载活性硫组分。壳层内FeP纳米晶颗粒的引入,在加速硫电极结构内离子输运的同时,作为活性位点高效催化Li2S的活化转化,加速了Li-S电池中Li_(... 通过简便且易规模化的高温原位热解聚合物制备出自支撑的核壳结构柔性多孔催化载体,用于高载量负载活性硫组分。壳层内FeP纳米晶颗粒的引入,在加速硫电极结构内离子输运的同时,作为活性位点高效催化Li2S的活化转化,加速了Li-S电池中Li_(2)S↔S_(8)的转化反应,保证了锂硫电池的高度可逆性和长循环稳定性。制备的高硫负载阴极展现出较高的放电比容量(1306.2 mA·h/g)和十分优异的长循环稳定性(2 C→0.1 C,容量恢复率95.8%)。通过循环后电池拆解分析,验证了实验条件下所组装的锂硫电池性能衰减机制。 展开更多
关键词 锂硫电池 磷化铁纳米晶 核壳结构 硫化锂活化 多孔载体
在线阅读 下载PDF
一种融合模糊覆盖的模糊概念认知学习
15
作者 吴雨青 林艺东 梁涛巨 《南通大学学报(自然科学版)》 2025年第3期23-33,51,共12页
概念认知学习是一种新兴的交叉研究热点领域,旨在通过模仿人类的认知过程不断学习新知识。然而,现有的概念认知学习模型通常忽略了概念中对象的局部差异性、概念空间的冗余性、概念可解释性等问题,导致模型认知偏差与有效信息利用不足... 概念认知学习是一种新兴的交叉研究热点领域,旨在通过模仿人类的认知过程不断学习新知识。然而,现有的概念认知学习模型通常忽略了概念中对象的局部差异性、概念空间的冗余性、概念可解释性等问题,导致模型认知偏差与有效信息利用不足。因此,提出一种融合隶属度与覆盖的模糊概念认知学习(fuzzy concept-cognitive learning model integrating membership degree and coverage,IMDC)模型。首先,为了提高概念外延的表征能力,引入一种带偏移阈值的隶属度函数探讨对象与概念之间的相关性,并构造隶属度矩阵,进一步将概念空间转化为模糊覆盖;其次,通过模糊β截集筛选高相关对象,结合覆盖率探索不同概念的地位,从而构建核心概念空间,以有效降低概念空间的冗余性,提高认知学习效率;然后,基于线索与核心概念之间的相似性实现概念分类;最后,采用十折交叉验证方法,将提出的模型与4种机器学习算法和2种概念认知算法进行对比。实验结果表明,该模型在14个数据集上的平均精度均高于其他对比算法,并且在不同数据集上的性能波动范围最小,此外,在查准率、查全率、F1值方面也保持领先优势,充分验证了该模型的可行性和有效性。 展开更多
关键词 概念认知学习 隶属度矩阵 模糊覆盖 核心概念空间
在线阅读 下载PDF
基于多核DSP的线代运算优化方法及实现
16
作者 刘红伟 潘灵 张昊 《通信技术》 2025年第9期984-990,共7页
随着前端传感器(如多源阵列天线、图像传感器等)在精度和采样速率上的持续提升,算法任务对响应时间提出了更高要求,进而对在多核DSP上实现线性代数运算的优化提出了新的挑战。因此,设计了基于循环分块、数据预取、合理分配任务和优化通... 随着前端传感器(如多源阵列天线、图像传感器等)在精度和采样速率上的持续提升,算法任务对响应时间提出了更高要求,进而对在多核DSP上实现线性代数运算的优化提出了新的挑战。因此,设计了基于循环分块、数据预取、合理分配任务和优化通信机制等策略的方法,有效提升了数据局部性和缓存利用率,并充分发挥多核DSP的并行计算优势,优化了矩阵乘法、线性方程组求解和矩阵分解等核心线性代数算法。实验表明,所提方法大幅提升了运算效率,加速比随矩阵规模增大而提高,可以在通信、图像处理等领域广泛应用。 展开更多
关键词 多核DSP 线性代数运算 优化方法 矩阵乘法 线性方程组求解 矩阵分解
在线阅读 下载PDF
基于总线矩阵系统级内存保护单元的设计
17
作者 杨晓刚 朱樟明 +1 位作者 魏敬和 胡凯 《集成电路与嵌入式系统》 2025年第5期16-23,共8页
设计了一种基于总线矩阵的系统级内存保护单元,支持管理员和用户两种工作模式,可根据总线矩阵主机的个数进行灵活配置,能够实时监控系统中所有的主机,有效阻止未经授权的主机访问特定内存区域,解决了单一基于主机的内存访问保护机制而... 设计了一种基于总线矩阵的系统级内存保护单元,支持管理员和用户两种工作模式,可根据总线矩阵主机的个数进行灵活配置,能够实时监控系统中所有的主机,有效阻止未经授权的主机访问特定内存区域,解决了单一基于主机的内存访问保护机制而引发的任务间相互干扰的功能安全问题。此外,本文提出的设计还支持对同一块内存区域实施不同的保护策略,能够保护每个内核的私有数据与共享数据,以最小的硬件成本解决多核系统架构中数据一致性的问题。 展开更多
关键词 总线矩阵 内存保护单元 功能安全 多核系统 数据一致性
在线阅读 下载PDF
面向SW26010P的异形矩阵乘法众核并行优化技术研究
18
作者 胡怡 陈道琨 杨超 《计算机工程与应用》 北大核心 2025年第6期150-163,共14页
矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010... 矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010P众核处理器,探讨异形矩阵乘法的众核并行优化技术。具体而言,结合SW26010P的硬件特性和异形矩阵的数据布局,设计了多样化任务划分映射的并行算法,提高直接内存访问(direct memory access,DMA)访存带宽利用率。结合SW26010P的硬件流水线和向量化访存/计算指令,抽象运算中涉及的计算类型进行底层汇编优化,提高了计算效率。提出了远程内存访问(remote memory access,RMA)点对点机制下的数据共享策略,降低数据访存和传输开销,并提出了嵌套双缓冲技术进一步提高异形矩阵乘法的性能。此外,针对不同种类异形矩阵乘法行实现时面临的分块参数适配问题,基于SW26010P众核处理器进行实验分析研究,确定了各函数并行化时的最优分块参数。实验结果显著,所优化的异形矩阵乘法的性能最高可达roofline模型预测性能上限的93%,相较于常规大规模矩阵乘法算法平均获得了5.43倍的性能加速,最高可获得51.5倍的性能加速。 展开更多
关键词 异形矩阵乘法 SW26010P众核处理器 多样化任务划分映射 RMA点对点机制 嵌套双缓冲技术
在线阅读 下载PDF
一个新的差别矩阵及其求核方法 被引量:244
19
作者 叶东毅 陈昭炯 《电子学报》 EI CAS CSCD 北大核心 2002年第7期1086-1088,共3页
首先利用反例指出HU的利用差别距阵来求粗糙集中的核的方法是错误的 ,然后给出一个新的差别距阵的定义和求核方法 ,并证明了方法的正确性 .
关键词 粗糙集 差别矩阵 属性约简 HU算法 机器学习 人工神经网络
在线阅读 下载PDF
变精度粗糙集的属性核和最小属性约简算法 被引量:68
20
作者 陈昊 杨俊安 庄镇泉 《计算机学报》 EI CSCD 北大核心 2012年第5期1011-1017,共7页
文中深入研究了变精度粗糙集的属性约简问题,给出了3种属性约简的概念,针对不同概念的属性约简,分别提出了两种不同的求解变精度粗糙集最小属性约简算法:基于容差矩阵和属性核的最小约简.提出了变精度粗糙集的属性核思想,对其进行了形... 文中深入研究了变精度粗糙集的属性约简问题,给出了3种属性约简的概念,针对不同概念的属性约简,分别提出了两种不同的求解变精度粗糙集最小属性约简算法:基于容差矩阵和属性核的最小约简.提出了变精度粗糙集的属性核思想,对其进行了形式化描述,说明了变精度粗糙集的属性核真正具备了核的本质特征,从而更深层地提出了基于属性核的启发式约简以求解最小约简.理论分析和实例表明,所提出的两种最小约简算法可以减小属性约简的搜索空间,提高约简的效率,使得变精度粗糙集的属性约简具有了实用性. 展开更多
关键词 变精度粗糙集 属性约简 属性核 容差矩阵 最小约简
在线阅读 下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部