期刊文献+
共找到15,263篇文章
< 1 2 250 >
每页显示 20 50 100
Investigation of Liquid Cooling Plate for Server CPUs Based on Topology Optimization
1
作者 Guijun Ai Yingying Luo Wei Su 《Journal of Electronics Cooling and Thermal Control》 2024年第1期1-34,共34页
In this study, a microchannel liquid cooling plate (LCP) is proposed for Intel Xeon 52.5 mm * 45 mm packaged architecture processors based on topology optimization (TO). Firstly, a mathematical model for topology opti... In this study, a microchannel liquid cooling plate (LCP) is proposed for Intel Xeon 52.5 mm * 45 mm packaged architecture processors based on topology optimization (TO). Firstly, a mathematical model for topology optimization design of the LCP is established based on heat dissipation and pressure drop objectives. We obtain a series of two-dimensional (2D) topology optimization configurations with different weighting factors for two objectives. It is found that the biomimetic phenomenon of the topologically optimized flow channel structure is more pronounced at low Reynolds numbers. Secondly, the topology configuration is stretched into a three-dimensional (3D) model to perform CFD simulations under actual operating conditions. The results show that the thermal resistance and pressure drop of the LCP based on topology optimization achieve a reduction of approximately 20% - 50% compared to traditional serpentine and microchannel straight flow channel structures. The Nusselt number can be improved by up to 76.1% compared to microchannel straight designs. Moreover, it is observed that under high flow rates, straight microchannel LCPs exhibit significant backflow, vortex phenomena, and topology optimization structures LCPs also tend to lead to loss of effectiveness in the form of tree root-shaped branch flows. Suitable flow rate ranges for LCPs are provided. Furthermore, the temperature and pressure drop of experimental results are consistent with the numerical ones, which verifies the effectiveness of performance for topology optimization flow channel LCP. 展开更多
关键词 CPU SEVER Data Center Topology Optimization Liquid Cooling Plate
在线阅读 下载PDF
决战CPUSocket A大战Cu—128
2
作者 赖明亨 《计算机应用文摘》 2000年第7期24-25,共2页
关键词 CPU 微处理器 SOCKETA Cu-128 芯片组
在线阅读 下载PDF
Enhancing LLM Inference Performance on ARM CPUs Through Software and Hardware Co-Optimization Strategies
3
作者 CHENG ZHANG XINGYU ZHU +8 位作者 LONGHAO CHEN TINGJIE YANG EVENS PAN GUOSHENG YU YANG ZHAO XIGUANG WU BO LI WEI MAO GENQUAN HAN 《Integrated Circuits and Systems》 2025年第2期49-57,共9页
Large language models(LLMs)have exhibited remarkable performance across a broad spectrum of tasks,yet their extensive computational and memory requirements present substantial challenges for deployment in resource-con... Large language models(LLMs)have exhibited remarkable performance across a broad spectrum of tasks,yet their extensive computational and memory requirements present substantial challenges for deployment in resource-constrained scenarios.To address the challenges,this work introduces software and hardware co-optimization strategies aimed at enhancing the inference performance of LLMs on ARM CPU-based platforms.A mixed-precision quantization technique is employed,preserving the precision of critical weights to maintain model accuracy while quantizing non-essential weights to INT8,thereby reducing the model’s memory footprint.This work also capitalizes on the SIMD instruction set of ARM CPUs to efficiently process model data.Furthermore,the inference framework is optimized by fusing components of the attention computation and streamlining the dequantization process through modifications to the scaling factor.These enhancements result in a significant reduction in model memory usage and improved throughput during the prefill and decode stages.The efficacy of the proposed approach is demonstrated through the optimization of the Qwen-1.8B model on Armv9,with only a 0.66%decrease in accuracy and a reduction in memory usage to 58.8%of the baseline,while achieving a 4.09×and 15.23×increase in inference performance for the prefill and decode stages over the baseline,respectively. 展开更多
关键词 Model compression mixed-precision quantization ARM cpus SIMD optimization LLM inference performance.
在线阅读 下载PDF
Improving performance portability for GPU-specific Open CL kernels on multi-core/many-core CPUs by analysis-based transformations
4
作者 Mei WEN Da-fei HUANG +1 位作者 Chang-qing XUN Dong CHEN 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第11期899-916,共18页
OpenCL is an open heterogeneous programming framework. Although OpenCL programs are func- tionally portable, they do not provide performance portability, so code transformation often plays an irreplaceable role. When ... OpenCL is an open heterogeneous programming framework. Although OpenCL programs are func- tionally portable, they do not provide performance portability, so code transformation often plays an irreplaceable role. When adapting GPU-specific OpenCL kernels to run on multi-core/many-core CPUs, coarsening the thread granularity is necessary and thus has been extensively used. However, locality concerns exposed in GPU-specific OpenCL code are usually inherited without analysis, which may give side-effects on the CPU performance. Typi- cally, the use of OpenCL's local memory on multi-core/many-core CPUs may lead to an opposite performance effect, because local-memory arrays no longer match well with the hardware and the associated synchronizations are costly. To solve this dilemma, we actively analyze the memory access patterns using array-access descriptors derived from GPU-specific kernels, which can thus be adapted for CPUs by (1) removing all the unwanted local-memory arrays together with the obsolete barrier statements and (2) optimizing the coalesced kernel code with vectorization and locality re-exploitation. Moreover, we have developed an automated tool chain that makes this transformation of GPU-specific OpenCL kernels into a CPU-friendly form, which is accompanied with a scheduler that forms a new OpenCL runtime. Experiments show that the automated transformation can improve OpenCL kernel performance on a multi-core CPU by an average factor of 3.24. Satisfactory performance improvements axe also achieved on Intel's many-integrated-core coprocessor. The resultant performance on both architectures is better than or comparable with the corresponding OpenMP performance. 展开更多
关键词 OpenCL Performance portability Multi-core/many-core CPU Analysis-based transformation
原文传递
关键核心技术国产替代的创新模式研究——基于CPU技术头部企业的双案例分析 被引量:6
5
作者 王砚羽 卢婷 刘汝芳 《科学学研究》 北大核心 2025年第4期712-722,750,共12页
关键核心技术是国之重器。本研究以龙芯中科和天津飞腾两家CPU技术头部企业为案例,探讨关键核心技术国产替代的创新模式。得出如下结论:(1)识别出关键核心技术国产替代的两种路径,龙芯中科采用“技术引进+学习导向的消化吸收”路径,最... 关键核心技术是国之重器。本研究以龙芯中科和天津飞腾两家CPU技术头部企业为案例,探讨关键核心技术国产替代的创新模式。得出如下结论:(1)识别出关键核心技术国产替代的两种路径,龙芯中科采用“技术引进+学习导向的消化吸收”路径,最终实现了核心技术自主可控;而天津飞腾采用“技术引进+应用导向的消化吸收”路径,存在卡脖子风险。(2)不同的国产替代创新模式塑造了不同的企业技术能力和生态能力。本研究为理解技术限制背景下的技术主权提供了新的视角,为政策制定者和行业利益相关者提供管理启示。 展开更多
关键词 关键核心技术 国产替代 创新模式 案例研究 CPU芯片
原文传递
基于多核并行RFECV-GNB的风电机组齿轮箱故障诊断方法 被引量:1
6
作者 王进花 袁山钦 曹洁 《太阳能学报》 北大核心 2025年第4期550-558,共9页
针对深度学习的风电机组齿轮箱诊断方法在噪声环境下的鲁棒性较差且在带标签的样本不足时存在诊断精度较低的问题,提出基于RFECV-GNB风电机组齿轮箱故障诊断方法。该方法结合了交叉验证递归特征消除法(RFECV)在故障数据较少时能有效挖... 针对深度学习的风电机组齿轮箱诊断方法在噪声环境下的鲁棒性较差且在带标签的样本不足时存在诊断精度较低的问题,提出基于RFECV-GNB风电机组齿轮箱故障诊断方法。该方法结合了交叉验证递归特征消除法(RFECV)在故障数据较少时能有效挖掘故障信号的本质特征,以及高斯朴素贝叶斯(GNB)快速高效的性能进行风电机组齿轮箱的故障诊断。同时,针对RFECV训练时间较长这一问题,提出一种基于CPU并行的任务“打包”算法来提高诊断模型的训练速度。该方法通过超额分配逻辑CPU(LCPU)的方式,实现了LCPU之间工作的有效平衡,以此缩短建模时间。最终,通过多个故障数据集进行实验验证,结果表明在相同故障样本数量下,所提方法与传统方法相比,在诊断精度和建模速度上具有明显优势。 展开更多
关键词 风电机组 齿轮箱 故障诊断 贝叶斯定理 特征选择 CPU并行
原文传递
面向特定应用的可配置CPU性能分析方法
7
作者 邓全 林荣臻 +2 位作者 罗莉 鲁建壮 王永文 《计算机工程与科学》 北大核心 2025年第11期1901-1911,共11页
随着集成电路的发展和芯片应用的不断拓展,可配置CPU为芯片设计空间的探索提供了便利。可配置CPU不仅能满足敏捷设计的需求,还能兼顾用户根据目标应用进行调优的需求。然而,目前面向特定应用的可配置CPU的性能调优仍主要依赖于资深体系... 随着集成电路的发展和芯片应用的不断拓展,可配置CPU为芯片设计空间的探索提供了便利。可配置CPU不仅能满足敏捷设计的需求,还能兼顾用户根据目标应用进行调优的需求。然而,目前面向特定应用的可配置CPU的性能调优仍主要依赖于资深体系结构工程师,缺乏一套科学方法进行指导,因此,提出了一种面向特定应用的可配置CPU性能分析方法。在软件层面,利用Perf工具快速定位应用程序在硬件执行时的热点代码块;在硬件层面,通过分析框架的2种计数模式(时钟周期计数与slots计数),锁定各个执行部件的热点执行情况,以便设计人员快速定位硬件执行的热点行为。对支持RISCV指令集的可配置DMR架构在流体力学典型程序NPB上进行了敏捷设计。实验结果表明,迭代后可配置CPU单核性能提升了13.2%,面积开销增加了12.2%。 展开更多
关键词 性能分析 可配置CPU PMU NPB 测试
在线阅读 下载PDF
面向LoongArch边界检查访存指令的GCC优化
8
作者 舒燕君 郑翔宇 +5 位作者 徐成华 黄沛 王永琪 周凡 张展 左德承 《计算机研究与发展》 北大核心 2025年第5期1136-1150,共15页
为了减少内存安全检查的开销,LoongArch指令集架构引入了边界检查访存类指令.然而,作为一种新的内存访问指令,目前GCC(GNU compiler collection)编译器不支持该类指令,LoongArch硬件能力不能得到充分利用.针对此LoongArch边界检查访存... 为了减少内存安全检查的开销,LoongArch指令集架构引入了边界检查访存类指令.然而,作为一种新的内存访问指令,目前GCC(GNU compiler collection)编译器不支持该类指令,LoongArch硬件能力不能得到充分利用.针对此LoongArch边界检查访存指令改进了GCC编译器,实现利用该类指令优化程序的内存安全检查.具体而言,完成了3个方面的工作:1)设计实现了针对边界检查访存指令的内建函数;2)改进GCC RTL(register transfer language)阶段的优化器,使其能够识别无异常处理和带异常处理2种情况的边界检查访存语义,并自动优化;3)面向LoongArch边界检查访存指令触发的边界检查异常(bound check exception,BCE),设计了新的Linux内核异常信号SIGBCE和相应的运行时库glibc(GNU C library)的信号处理函数,实现了BCE处理.通过在GCC 12.2.0和龙芯3C5000L服务器进行实验,验证了改进后的编译器不仅能正确使用新引入的边界检查访存指令,而且在某些安全函数中带来接近20%的性能提升.完善了LoongArch生态,推进了LoongArch指令集发展,对此类特定指令编译器优化工作有一定的借鉴意义. 展开更多
关键词 编译器优化 LoongArch GCC 边界检查访存 龙芯CPU 异常处理 内存安全
在线阅读 下载PDF
基于多核CPU的雷达导引头数字化实时仿真研究 被引量:2
9
作者 苏灏杨 夏伟杰 +1 位作者 吴雪 王宇 《遥测遥控》 2025年第2期92-99,共8页
雷达导引头仿真系统在导引头精确打击目标的过程中起着重要的作用。随着仿真系统的复杂度不断提升以及数据处理需求的日益增长,传统的串行计算仿真技术已难以满足雷达导引头数字仿真系统对实时性的严格要求。针对现有雷达导引头仿真过... 雷达导引头仿真系统在导引头精确打击目标的过程中起着重要的作用。随着仿真系统的复杂度不断提升以及数据处理需求的日益增长,传统的串行计算仿真技术已难以满足雷达导引头数字仿真系统对实时性的严格要求。针对现有雷达导引头仿真过程中耗时过长的问题,本文提出了一种全流程的数字化实时仿真方法。首先,将传统全流程仿真架构的核心部分——接收控制系统指令、接收回波仿真数据、SAR(Synthetic aperture Radar,合成孔径雷达)成像处理、成像结果上传与界面动态更新进行流水并行化。其次,利用OpenMP(开放式多处理)多核并行模型,对SAR成像算法主要步骤进行多核CPU(Central Processing Unit,中央处理器)并行处理。然后,引入高性能数学计算库FFTW3(西方最快傅里叶变换第3版)快速实现成像算法的傅里叶变换,加快SAR成像算法处理速度。最后仿真结果表明:该全流程的设计方法相较于传统的串行仿真,加速比达到100倍左右,同时加速前后的SAR图像相似度接近于1。在处理精度和效果一致的前提下,该方法能够完成雷达导引头系统的全流程实时仿真,具有较好的工程应用前景。 展开更多
关键词 雷达导引头 SAR仿真 多核CPU 并行计算 实时仿真
在线阅读 下载PDF
MTTorch:面向MT-3000芯片和Transformer模型的PyTorch算子库实现与优化 被引量:1
10
作者 王昊天 孙羽菲 +4 位作者 隋轶丞 王嘉豪 石昌青 方建滨 张玉志 《软件学报》 北大核心 2025年第8期3896-3916,共21页
随着Transformer类大模型的飞速发展,算力逐渐成为制约领域发展的瓶颈,如何根据加速器硬件的结构特性加速和优化大语言模型的训练性能已成为研究热点.面向天河新一代超算系统的加速芯片MT-3000,提出并实现了适用于CPU+DSP异构架构的PyTo... 随着Transformer类大模型的飞速发展,算力逐渐成为制约领域发展的瓶颈,如何根据加速器硬件的结构特性加速和优化大语言模型的训练性能已成为研究热点.面向天河新一代超算系统的加速芯片MT-3000,提出并实现了适用于CPU+DSP异构架构的PyTorch扩展库——MTTorch,其核心是一个多核并行的算子库,对Transformer类模型训练过程中的核心算子进行向量化实现和优化.同时,针对MT-3000架构特性,提出了面向多核DSP的高性能规约算法及乒乓算法,显著提升了算子的运算性能.MTTorch还具有很好的通用性,对于不同版本的PyTorch都可以动态链接库的形式进行加载,不改变PyTorch的原生实现.大量实验证明,实现的核心算子在MT-3000芯片上有着很好的性能,在单DSP簇上可以达到8倍的加速效果.利用MTTorch在多节点执行训练任务时有着接近线性的加速比,极大地提升了Transformer类模型在MT-3000芯片上的训练效率. 展开更多
关键词 PyTorch 高性能计算 Transformer模型 天河超级计算机 CPU+DSP异构计算 软件生态
在线阅读 下载PDF
SERGHEI-SWMM:并行计算与可移植性城市洪涝模型及其应用
11
作者 郑哪 王俊博 +3 位作者 李小宁 李博 李质 刘曙光 《水利学报》 北大核心 2025年第10期1372-1382,共11页
随着气候变化的不确定性日益加剧,极端天气引发的洪涝灾害已成为制约城市韧性提升的重要因素。城市洪涝模拟模型作为评估洪涝灾害风险、支撑城市防灾减灾系统、提升城市应急管理能力的关键工具,其计算方法已趋于成熟。然而,当前广泛应... 随着气候变化的不确定性日益加剧,极端天气引发的洪涝灾害已成为制约城市韧性提升的重要因素。城市洪涝模拟模型作为评估洪涝灾害风险、支撑城市防灾减灾系统、提升城市应急管理能力的关键工具,其计算方法已趋于成熟。然而,当前广泛应用于城市洪涝模拟的管道排水与地表径流耦合模型在多样化的高性能计算硬件架构上缺乏良好的可移植性。本研究基于Kokkos异构并行计算框架,构建了一维管道排水与二维地表径流耦合的水动力模型SERGHEI-SWMM。首先,通过基准算例验证,SERGHEI-SWMM模拟结果与InfoWorks ICM等模型的相对差值均低于9%。随后,以同济大学校园为研究区域,建立了其一维管道与二维地表耦合的洪涝模型,并结合洪涝实测数据对模型进行率定及验证。结果表明,该模型能够准确模拟洪涝过程中地表径流与地下管流之间的交换以及积水的时空演变特征,在不同CPU与GPU硬件架构上均表现出良好的并行性能与可移植性。本研究成果可为城市洪涝灾害风险评估提供高效、可靠的技术支撑,也为后续城市洪涝的实时预报预警奠定了基础。 展开更多
关键词 城市洪涝 耦合模型 可移植性 并行计算 CPU/GPU异构计算
在线阅读 下载PDF
基于STL-DeepAR-HW组合模型的云计算资源负载预测
12
作者 黄擅杭 董建刚 +3 位作者 彭真 孙鑫杰 邬锦琛 钱育蓉 《计算机应用与软件》 北大核心 2025年第8期367-373,共7页
在信息化蓬勃发展的今日,大量云计算资源的高效管理是运维领域的重要难题。准确的负载预测是应对这一难题的关键技术。针对该问题提出一种基于局部加权回归周期趋势分解算法(Seasonal and Trend decomposition using Loess,STL)、Holt-W... 在信息化蓬勃发展的今日,大量云计算资源的高效管理是运维领域的重要难题。准确的负载预测是应对这一难题的关键技术。针对该问题提出一种基于局部加权回归周期趋势分解算法(Seasonal and Trend decomposition using Loess,STL)、Holt-Winters模型和深度自回归模型(DeepAR)的组合预测模型STL-DeepAR-HW。先采用快速傅里叶变换和自相关函数提取数据的周期性特征,以提取到的最优周期对数据做STL分解,将数据分解为趋势项、季节项和余项;并用DeepAR和Holt-Winters分别预测趋势项和季节项,最后组合得到预测结果。在公开数据集AzurePublicDataset上进行实验,结果表明,与Transformer、Stacked-LSTM以及Prophet等模型相比,该组合模型在负载预测中具有更高的准确性和适用性。 展开更多
关键词 云计算 CPU负载预测 组合模型 STL分解 DeepAR Holt-Winters
在线阅读 下载PDF
利用CPU和GPU混合并行方法快速构建海洋扰动重力梯度基准图
13
作者 黄炎 李姗姗 +3 位作者 吕明昊 范雕 谭勖立 冯进凯 《武汉大学学报(信息科学版)》 北大核心 2025年第3期515-527,共13页
高精度、高分辨率的海洋扰动重力梯度基准图是将水下扰动重力梯度辅助惯性导航付诸于实践的关键技术之一,可依据边值问题理论,基于移去-恢复技术计算求得。基于传统串行算法存在计算效率低、耗时长等问题,为满足大范围乃至全球海洋扰动... 高精度、高分辨率的海洋扰动重力梯度基准图是将水下扰动重力梯度辅助惯性导航付诸于实践的关键技术之一,可依据边值问题理论,基于移去-恢复技术计算求得。基于传统串行算法存在计算效率低、耗时长等问题,为满足大范围乃至全球海洋扰动重力梯度基准图的快速构建需求,利用中央处理器(central processing unit,CPU)与图形处理器(graph processing unit,GPU)混合并行(CPU+GPU)编程平台,设计了一种高效的混合并行计算方案。首先,利用数组收缩膨胀方法,有效解决了CPU进行勒让德函数递推计算过程中内存读写冲突问题;然后,引入Hilbert空间填充曲线,将二维格网重力异常数据降维成为具有高度聚簇性的一维数组,通过其在GPU显存中的快速索引,实现了Stokes积分的高效计算。在CPU型号为Intel Xeon(R)Gold 6130、GPU型号为Tesla V100的计算机上进行实验,利用该混合并行方案计算6°×6°范围、1′分辨率的全张量海洋扰动重力梯度基准图仅需15.84 s,而传统串行方法需要35 min以上;计算2°×2°范围、30″分辨率基准图仅需22.7 s,串行方法则需要52 min;计算2°×2°范围、10″分辨率基准图需要26.7 min,串行方法则需要两天以上。在保证并行计算绝对误差小于等于1×10^(-6) E、T_(xx)+T_(yy)+T_(zz)绝对值的最大值小于0.1 E、均方根误差小于0.01 E的前提下,实现了全球全张量海洋扰动重力梯度基准图模型的快速构建。 展开更多
关键词 扰动重力梯度 边值问题 CPU GPU 混合并行
原文传递
高温智能注水测控系统设计
14
作者 韩子玞 李越 +6 位作者 赵庆晨 李英松 杨贺贺 岳春芳 王爱双 陈磊 周敏 《内江科技》 2025年第11期79-81,共3页
为了满足海上油田现场对高温井况下智能注水工具的需求,本文设计了一种适用于井下高温环境的高温智能注水测控系统。使用耐高温的CPU芯片设计高温电路,增加系统在高温环境下的运行时间。设计优化软件架构,提高了系统执行效率,降低了系... 为了满足海上油田现场对高温井况下智能注水工具的需求,本文设计了一种适用于井下高温环境的高温智能注水测控系统。使用耐高温的CPU芯片设计高温电路,增加系统在高温环境下的运行时间。设计优化软件架构,提高了系统执行效率,降低了系统功耗。为了验证测控系统设计的有效性,进行了耐高温稳定性实验、压力标定检定实验和流量测调实验。实验结果表明,系统具有良好的稳定性和耐高温性能,最高耐温177.6℃,温度精度土0.3℃,压力精度2%FS,流量测量精度2%FS。 展开更多
关键词 CPU芯片 高温 稳定性实验 软件架构 测控系统
在线阅读 下载PDF
微处理器性能分析与优化:基于SPEC CPU2017的对比研究
15
作者 徐晗 郭振江 肖俊华 《高技术通讯》 北大核心 2025年第3期241-249,共9页
运行标准测试程序是进行微处理器设计空间探索的基本手段。横向对比分析国内外主流处理器在标准测试程序场景下的各项性能指标,有助于识别国产处理器的性能瓶颈,为进一步的性能优化指明方向。本文基于SPEC CPU2017对3款微处理器进行同... 运行标准测试程序是进行微处理器设计空间探索的基本手段。横向对比分析国内外主流处理器在标准测试程序场景下的各项性能指标,有助于识别国产处理器的性能瓶颈,为进一步的性能优化指明方向。本文基于SPEC CPU2017对3款微处理器进行同频性能测试和对比分析,分别是龙芯LA464架构的3A5000微处理器、AMD ZEN1架构的R3-1200以及Intel Skylake架构的i3-9100f。根据测试结果,3A5000定点性能与R3-1200基本相同,比i3-9100f低10%左右;3A5000浮点性能相当于另2款微处理器的70%左右。本文从动态指令数和每周期指令数(instruction per cycle,IPC)2个角度对微处理器进行比较和分析。基于SPEC CPU2017的结果显示,3A5000定点动态指令数和浮点动态指令数分别比另2款微处理器多约10%和25%。在3A5000上使用激进的自动向量化编译优化策略、优化立即数乘法编译效率等手段可以将其性能提升10%左右。3A5000的定点IPC比另外2款微处理器高4%左右,浮点IPC低8%左右。发射宽度、执行单元数量、功能和延迟等微结构参数接近是3款微处理器IPC差别较小的主要原因。 展开更多
关键词 SPEC CPU2017 性能分析 龙芯3A5000 向量化 体系结构
在线阅读 下载PDF
面向响应系数法的FVCOM模型算法优化:以象山港为例
16
作者 秦志浩 胡松 陈勤思 《海洋学研究》 北大核心 2025年第2期67-78,共12页
基于响应系数的数值模拟是在港湾环境容量评估中的常用方法之一,但目前常见的海洋模型中没有可同时计算多个释放点的响应系数场且互不干扰的示踪物模块。针对响应系数法的特点,本研究对三维水动力海洋数值模型FVCOM(Finite-Volume Commu... 基于响应系数的数值模拟是在港湾环境容量评估中的常用方法之一,但目前常见的海洋模型中没有可同时计算多个释放点的响应系数场且互不干扰的示踪物模块。针对响应系数法的特点,本研究对三维水动力海洋数值模型FVCOM(Finite-Volume Community Ocean Model)的示踪物模块(dyeing tracking,DYE)进行改进,在模型原有DYE模块的基础上增加多个功能与原DYE模块相同的独立模块,即并行计算多个DYE模块,使FVCOM能够同时计算多个互不干扰的保守示踪物模块。以一个理想地形矩形案例和一个象山港理想地形案例进行了测试。结果显示,改进算法模拟的多点源示踪物平流扩散过程互不影响,且模拟的响应系数场与传统算法一致;相较于传统算法,改进算法的计算过程耗时更短,对理想矩形案例的计算效率最高提升了85%,对象山港案例最高提升了78%;在并行运算的条件下,改进算法对CPU进程的利用率更高。使用改进后的DYE计算响应系数场可以缩短海洋环境容量评估的整体用时。 展开更多
关键词 FVCOM DYE 响应系数 多源示踪物独立扩散 并行加速比 CPU利用率
在线阅读 下载PDF
基于SPH方法的3D高速侵彻并行数值模拟
17
作者 邓敏杰 宋卫东 肖李军 《兵工学报》 北大核心 2025年第10期71-82,共12页
针对高速侵彻过程中涉及的大变形、损伤与断裂等复杂物理现象,基于光滑粒子流体动力学方法,开发了用于弹丸侵彻薄金属靶板的并行数值模拟方法。为准确描述材料在高速载荷作用下的力学响应,采用简化Johnson-Cook损伤模型。为解决SPH仿真... 针对高速侵彻过程中涉及的大变形、损伤与断裂等复杂物理现象,基于光滑粒子流体动力学方法,开发了用于弹丸侵彻薄金属靶板的并行数值模拟方法。为准确描述材料在高速载荷作用下的力学响应,采用简化Johnson-Cook损伤模型。为解决SPH仿真中粒子数量剧增带来的高昂计算成本问题,将计算域划分为子域并将粒子信息在子域间传递,开发并实现了基于MPI的CPU并行求解器。将模拟结果与文献实验数据对比,对应8 mm和10 mm厚靶板的工况,预测的最大误差分别为7.86%和5.44%,验证了该数值方法在预测剩余速度和侵彻过程方面的精确性。对并行框架的加速性能进行了系统评估,该框架能显著提升计算效率,在处理一个包含约179万粒子的中等规模问题时,使用54个CPU核心可达到0.76的并行加速效率。该并行SPH框架在保证仿真精度的前提下,成功将计算能力扩展至更高量级,能够处理超过一亿个粒子的大规模仿真。 展开更多
关键词 高速侵彻 光滑粒子流体动力学 CPU并行 子域划分 粒子迁移
在线阅读 下载PDF
基于静动态样本点重构的处理器功耗建模精度提升方法
18
作者 钟佳卿 陈娟 +3 位作者 周一畅 吴贤瑜 王蕊 喻湘 《计算机工程与科学》 北大核心 2025年第12期2108-2118,共11页
建立高精度细粒度CPU功耗模型对于计算机系统的功耗管理与优化至关重要。针对多核处理器建模中建模数据集数量、类型分布不均衡等问题,提出一种基于静动态程序样本点重构的处理器建模精度提升方法。程序样本由程序运行时的性能计数器(P... 建立高精度细粒度CPU功耗模型对于计算机系统的功耗管理与优化至关重要。针对多核处理器建模中建模数据集数量、类型分布不均衡等问题,提出一种基于静动态程序样本点重构的处理器建模精度提升方法。程序样本由程序运行时的性能计数器(PMC)采集数据构成。静态重构算法从特征选择、时间粒度细化和空间去冗余3个维度对程序样本点进行重构。动态重构算法作为静态重构算法的补充,关注程序在不同编译选项或不同资源加载等优化手段下运行时的行为,选择合适优化手段的程序样本,补充程序样本点。为评估静动态样本点重构算法对功耗建模的影响,在x86和ARM处理器平台上对5个程序基准测试集进行评估。实验结果表明,在2个x86平台上,功耗模型分别采用线性模型、神经网络模型和随机森林模型,精度提升的平均结果分别为74.80%,65.70%,32.24%以及61.61%,80.44%,18.76%,在ARM平台上,线性模型、神经网络模型和随机森林模型的精度提升平均结果为22.34%,34.63%和34.36%。 展开更多
关键词 样本点重构 静动态结合 CPU功耗建模 训练集优化 高精度
在线阅读 下载PDF
基于Power BI的电商企业数据仓库可视化平台设计与应用 被引量:2
19
作者 李骜成 潘建江 《无线互联科技》 2025年第3期98-101,共4页
针对电商企业数据的复杂性与管理需求,文章设计了基于Power BI的数据仓库可视化平台。首先通过高效采集和深度分析电商数据,揭示销售趋势与用户行为特征。随后,融合数据深度挖掘技术与直观可视化技术,以完成平台的整体设计。实验结果表... 针对电商企业数据的复杂性与管理需求,文章设计了基于Power BI的数据仓库可视化平台。首先通过高效采集和深度分析电商数据,揭示销售趋势与用户行为特征。随后,融合数据深度挖掘技术与直观可视化技术,以完成平台的整体设计。实验结果表明,随着线程数的增加,该平台数据处理时间从1200 s大幅缩短至380 s,存储速率则从10 MB/s提升至31 MB/s,同时库存变动监控的实时性也得到显著提升,整体应用效果较好。 展开更多
关键词 Power BI 电商企业 数据仓库 可视化 CPU处理器
在线阅读 下载PDF
基于异型架构的新一代运载火箭地面发控系统设计
20
作者 张明亮 梁宽 +4 位作者 周虎 谢望 戴李刚 徐昕 马莉 《计算机测量与控制》 2025年第5期168-175,共8页
面向新一代运载火箭,满足其发控系统设备紧凑,信号响应延时小的需求,提出了利用FPGA与CPU相结合的异型架构,实现新一代运载火箭地面发控系统的冗余化设计和性能升级;通过基于多通路M-LVDS总线的模块化冗余设计,嵌入式总控模块竞争上岗... 面向新一代运载火箭,满足其发控系统设备紧凑,信号响应延时小的需求,提出了利用FPGA与CPU相结合的异型架构,实现新一代运载火箭地面发控系统的冗余化设计和性能升级;通过基于多通路M-LVDS总线的模块化冗余设计,嵌入式总控模块竞争上岗机制和冗余切换机制的构建,实现了发控系统核心设备各模块的高速互联和冗余控制输出;搭建了发控系统等效器测试环境,验证了系统各单机和模块的功能和性能,等效器测试结果表明:该系统冗余化切换功能正常,信号响应时间最高可达微秒级,模块化更换时间在一分钟以内;与传统系统方案相比,该系统具备集成化高,响应速度快,维护便捷的优点。 展开更多
关键词 发控系统 FPGA CPU M-LVDS 冗余设计
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部