期刊文献+
共找到424篇文章
< 1 2 22 >
每页显示 20 50 100
面向对象方法在SPEEDUP中的应用
1
作者 陈捷 徐亦方 +2 位作者 沈复 陈志奎 王丙申 《炼油设计》 1997年第5期51-55,共5页
SPEEDUP是目前唯一采用面向方程法进行动态模拟的商品化软件,该软件也可对化工过程进行稳态模拟以及优化分析,是一个非常有前途的软件,但该软件使用起来很不方便,主要原因是输入困难。本文首次采用面向对象的方法在OOME(面向对象... SPEEDUP是目前唯一采用面向方程法进行动态模拟的商品化软件,该软件也可对化工过程进行稳态模拟以及优化分析,是一个非常有前途的软件,但该软件使用起来很不方便,主要原因是输入困难。本文首次采用面向对象的方法在OOME(面向对象建模环境)下,为生成SPEEDUP的输入文件和建立新模型提供了一个很方便的接口,这可以促进SPEEDUP软件在我国的推广使用,为在线优化、控制提供良好的工具。结果表明,采用面向对象方法不仅程序层次清晰,而且复用度可比传统方法提高2-3倍。 展开更多
关键词 面向对象 模拟仿真 speedup 化工过程
在线阅读 下载PDF
SPEEDUP指标的适用性分析
2
作者 刘德才 王鼎兴 +1 位作者 沈美明 郑纬民 《计算机研究与发展》 EI CSCD 北大核心 1995年第5期52-56,共5页
长期以来,speeduP一直被视为衡量并行处理性能的主要指标之一。不论是并行计算机系统的设计者,还是并行算法的设计者,均非常重视speedup指标。那么,speedup能否像人们想象的那样正确地描述并行处理的性能呢?... 长期以来,speeduP一直被视为衡量并行处理性能的主要指标之一。不论是并行计算机系统的设计者,还是并行算法的设计者,均非常重视speedup指标。那么,speedup能否像人们想象的那样正确地描述并行处理的性能呢?迄今为止,人们对这一问题尚缺乏认识。本文从speedup的定义出发,结合实例,全面分析了speedup度量并行处理的性能所存在的问题以及可能导致的错误,还讨论了speedup的适应条件。 展开更多
关键词 并行处理 性能评价 并行计算机
在线阅读 下载PDF
Achieving 100% Throughput for Integrated Uni- and Multicast Traffic without Speedup
3
作者 Fulong Yan Qingxu Xiong +1 位作者 Han Xiao Jiacheng Liang 《International Journal of Communications, Network and System Sciences》 2017年第5期35-42,共8页
Along with the unbounded speedup and exponential growth of virtual queues requirement aiming for 100% throughput of multicast scheduling as the size of the high-speed switches scale, the issues of low throughput of mu... Along with the unbounded speedup and exponential growth of virtual queues requirement aiming for 100% throughput of multicast scheduling as the size of the high-speed switches scale, the issues of low throughput of multicast under non-speedup or fixed crosspoint buffer size is addressed. Inspired by the load balance two-stage Birkhoff-von Neumann architecture that can provide 100% throughput for all kinds of unicast traffic, a novel 3-stage architecture, consisting of the first stage for multicast fan-out splitting, the second stage for load balancing, and the last stage for switching (FSLBS) is proposed. And the dedicated multicast fan-out splitting to unicast (M2U) scheduling algorithm is developed for the first stage, while the scheduling algorithms in the last two stages adopt the periodic permutation matrix. FSLBS can achieve 100% throughput for integrated uni- and multicast traffic without speedup employing the dedicated M2U and periodic permutation matrix scheduling algorithm. The operation is theoretically validated adopting the fluid model. 展开更多
关键词 speedup MULTICAST SWITCH Architecture 100% THROUGHPUT
暂未订购
四级流水线堆栈处理器研究与设计
4
作者 朱恒宇 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2025年第1期265-273,共9页
针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16... 针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16中流水线冒险问题。实验结果表明,在Xilinx XC7A100T FPGA目标芯片上,ZP16的运行主频稳定在230 MHz。与J1堆栈处理器相比,ZP16流水线加速比为1.3,资源占用率基本相当,功耗增加8%,主频提升130%。与其它同类型堆栈处理器在不同的目标芯片上进行比较,ZP16主频有较为明显的提升。 展开更多
关键词 堆栈处理器 流水线 现场可编程门阵列 主频 加速比 资源占用率 功耗
在线阅读 下载PDF
面向迈创3000异构处理器的多头注意力机制多重并行优化
5
作者 路瑶 栾钟治 +4 位作者 李根 齐家兴 韩斌 杨海龙 钱德沛 《计算机学报》 北大核心 2025年第9期2049-2063,共15页
针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令... 针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令集、片上存储层次和DMA传输特性,设计了三方面的优化策略:在算子方面,对Linear和Softmax等算子进行内核级优化与算子融合,减少计算与访存开销;在访存方面,利用广播机制与全局共享内存(GSM)优化数据流,降低主存带宽依赖;在调度方面,以行为粒度分块并行,隐藏数据传输延迟。实验表明,优化后的Linear算子单簇峰值性能达1.53 TFLOPS,占理论峰值的37.7%,较NVIDIA V100 GPU加速比最高达5.34倍;在典型大语言模型配置下(嵌入维度4096/8192,头数32/64),MHA机制相较NVIDIA V100 GPU实现最高23.53倍加速,且在单节点多簇环境中扩展性良好。本研究为MT-3000在长序列推理任务中的高效部署提供了解决方案,并为天河超算支持大语言模型等复杂AI任务奠定了技术基础。 展开更多
关键词 MT-3000 多头注意力 性能优化 PyTorch 加速比
在线阅读 下载PDF
面向大规模动态图的异构图计算系统设计
6
作者 张明 郭文康 王海峰 《计算机工程》 北大核心 2025年第3期197-207,共11页
图形处理器(GPU)异构集群中处理大规模动态图时GPU计算资源未被充分利用,并且面向GPU的图划分方法存在局限性导致出现性能瓶颈。为提高图计算系统性能,提出一种中央处理器(CPU)/GPU分布式异构图计算系统引擎(DH-Engine),用于提升异构处... 图形处理器(GPU)异构集群中处理大规模动态图时GPU计算资源未被充分利用,并且面向GPU的图划分方法存在局限性导致出现性能瓶颈。为提高图计算系统性能,提出一种中央处理器(CPU)/GPU分布式异构图计算系统引擎(DH-Engine),用于提升异构处理器的计算性能。首先提出新的异构图分割算法,该分割算法以流式图划分为核心,通过贪心策略调整顶点位置,进而实现计算节点之间、CPU/GPU之间的动态负载均衡。在初始图划分时基于最多邻居顶点分配图顶点,在迭代时基于最少连接边动态调整顶点位置。其次,设计GPU异构计算模型,通过CPU/GPU功能并行的方式实现协同计算。CPU与GPU并行执行图算法,提高CPU核心的利用率,进而提升图计算效率。实验以图算法PageRank、CC(Connected Components)、SSSP(Single-Source Shortest Path)与k-core为例,将DH-Engine与其他图计算系统展开对比。与未考虑异构计算的图引擎相比,DH-Engine能更好地平衡各节点计算负载以及计算节点内部的异构处理器之间的负载,通过缩短局部时延来提高整体的计算速度。实验结果表明DH-Engine的CPU/GPU协同度趋于1。相较于其他图计算系统,DH-Engine异构计算的加速比达到5倍,可以提供更好的图异构计算方案。 展开更多
关键词 异构计算 负载均衡 动态图 加速比 图划分
在线阅读 下载PDF
面向响应系数法的FVCOM模型算法优化:以象山港为例
7
作者 秦志浩 胡松 陈勤思 《海洋学研究》 北大核心 2025年第2期67-78,共12页
基于响应系数的数值模拟是在港湾环境容量评估中的常用方法之一,但目前常见的海洋模型中没有可同时计算多个释放点的响应系数场且互不干扰的示踪物模块。针对响应系数法的特点,本研究对三维水动力海洋数值模型FVCOM(Finite-Volume Commu... 基于响应系数的数值模拟是在港湾环境容量评估中的常用方法之一,但目前常见的海洋模型中没有可同时计算多个释放点的响应系数场且互不干扰的示踪物模块。针对响应系数法的特点,本研究对三维水动力海洋数值模型FVCOM(Finite-Volume Community Ocean Model)的示踪物模块(dyeing tracking,DYE)进行改进,在模型原有DYE模块的基础上增加多个功能与原DYE模块相同的独立模块,即并行计算多个DYE模块,使FVCOM能够同时计算多个互不干扰的保守示踪物模块。以一个理想地形矩形案例和一个象山港理想地形案例进行了测试。结果显示,改进算法模拟的多点源示踪物平流扩散过程互不影响,且模拟的响应系数场与传统算法一致;相较于传统算法,改进算法的计算过程耗时更短,对理想矩形案例的计算效率最高提升了85%,对象山港案例最高提升了78%;在并行运算的条件下,改进算法对CPU进程的利用率更高。使用改进后的DYE计算响应系数场可以缩短海洋环境容量评估的整体用时。 展开更多
关键词 FVCOM DYE 响应系数 多源示踪物独立扩散 并行加速比 CPU利用率
在线阅读 下载PDF
基于嵌套分解Winograd算法的3D-CNN硬件加速器
8
作者 杨家元 刘光柱 肖昊 《复旦学报(自然科学版)》 北大核心 2025年第5期567-578,共12页
卷积神经网络(CNN)在许多机器视觉任务中具有广泛的应用,为使三维(3D-CNN)适应图像语义分割和视频理解等应用场景的需要,本文设计了一种基于嵌套分解的三维Winograd算法,先将大卷积核分解为若干小卷积核,然后通过嵌套的方式将三维Winog... 卷积神经网络(CNN)在许多机器视觉任务中具有广泛的应用,为使三维(3D-CNN)适应图像语义分割和视频理解等应用场景的需要,本文设计了一种基于嵌套分解的三维Winograd算法,先将大卷积核分解为若干小卷积核,然后通过嵌套的方式将三维Winograd与一维Winograd相结合,之后再使用小卷积核的Winograd单元进行加速,实现了基于Winograd算法的3D-CNN的大卷积核加速。基于该嵌套分解算法设计了一种配套的硬件架构,此架构能够兼容常见的大卷积核,同时也提高了数据的访存效率。与直接卷积相比;在计算5×5×5、7×7×7和9×9×9的卷积核时,乘法次数分别减少了70.50%、76.19%和79.03%,与目前先进的OLA-Winograd算法相比,在计算5×5×5、7×7×7和9×9×9的卷积核时,乘法次数分别降低了42.38%、34.60%和29.22%。 展开更多
关键词 三维卷积神经网络 Winograd算法 现场可编程门阵列 硬件加速
在线阅读 下载PDF
The Memory-Bounded Speedup Model and Its Impacts in Computing
9
作者 孙贤和 鲁潇阳 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第1期64-79,共16页
With the surge of big data applications and the worsening of the memory-wall problem,the memory system,instead of the computing unit,becomes the commonly recognized major concern of computing.However,this“memorycent... With the surge of big data applications and the worsening of the memory-wall problem,the memory system,instead of the computing unit,becomes the commonly recognized major concern of computing.However,this“memorycentric”common understanding has a humble beginning.More than three decades ago,the memory-bounded speedup model is the first model recognizing memory as the bound of computing and provided a general bound of speedup and a computing-memory trade-off formulation.The memory-bounded model was well received even by then.It was immediately introduced in several advanced computer architecture and parallel computing textbooks in the 1990’s as a must-know for scalable computing.These include Prof.Kai Hwang’s book“Scalable Parallel Computing”in which he introduced the memory-bounded speedup model as the Sun-Ni’s Law,parallel with the Amdahl’s Law and the Gustafson’s Law.Through the years,the impacts of this model have grown far beyond parallel processing and into the fundamental of computing.In this article,we revisit the memory-bounded speedup model and discuss its progress and impacts in depth to make a unique contribution to this special issue,to stimulate new solutions for big data applications,and to promote data-centric thinking and rethinking. 展开更多
关键词 memory-bounded speedup scalable computing memory-wall performance modeling and optimization data-centric design
原文传递
GPU在人工智能领域中能效优化策略与实践
10
作者 鲁燕清 《数字通信世界》 2025年第5期76-78,共3页
GPU作为人工智能领域的核心计算引擎,通过并行计算加速深度学习应用。从硬件优化、算法优化、数据预处理到分布式训练等多个层面,系统性地提升GPU计算效率和能源利用率。新一代GPU芯片采用先进制程与创新架构,配合优化的软件生态系统,... GPU作为人工智能领域的核心计算引擎,通过并行计算加速深度学习应用。从硬件优化、算法优化、数据预处理到分布式训练等多个层面,系统性地提升GPU计算效率和能源利用率。新一代GPU芯片采用先进制程与创新架构,配合优化的软件生态系统,在保证模型精度的同时显著提升训练和推理性能,为人工智能应用提供高效的硬件基础支持。 展开更多
关键词 GPU优化 能效提升 深度学习 硬件加速
在线阅读 下载PDF
Review on the study of entanglement in quantum computation speedup 被引量:35
11
作者 DING ShengChao1,3 & JIN Zhi1,2,1 Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080,China 2 Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100080,China 3 Graduate University of Chinese Academy of Sciences,Beijing 100080,China 《Chinese Science Bulletin》 SCIE EI CAS 2007年第16期2161-2166,共6页
The role the quantum entanglement plays in quantum computation speedup has been widely disputed. Some believe that quantum computation's speedup over classical computation is impossible if entan-glement is absent,... The role the quantum entanglement plays in quantum computation speedup has been widely disputed. Some believe that quantum computation's speedup over classical computation is impossible if entan-glement is absent,while others claim that the presence of entanglement is not a necessary condition for some quantum algorithms. This paper discusses this problem systematically. Simulating quantum computation with classical resources is analyzed and entanglement in known algorithms is reviewed. It is concluded that the presence of entanglement is a necessary but not sufficient condition in the pure state or pseudo-pure state quantum computation speedup. The case with the mixed state remains open. Further work on quantum computation will benefit from the presented results. 展开更多
关键词 量子论 量子纠缠 量子计算 加速 模拟
在线阅读 下载PDF
基于混合有限元法的油浸式变压器稳态流-热耦合场并行计算方法 被引量:6
12
作者 刘刚 靳立鹏 +2 位作者 胡万君 刘云鹏 武卫革 《高电压技术》 EI CAS CSCD 北大核心 2024年第5期2259-2269,共11页
针对油浸式变压器2维流-热耦合仿真计算效率低的问题,提出了基于混合有限元法的并行计算方法。首先,在Visual Studio 2019中采用C++语言实现无量纲最小二乘有限元法以及迎风有限元法的串行计算方法。然后,基于图形处理器(graphic proces... 针对油浸式变压器2维流-热耦合仿真计算效率低的问题,提出了基于混合有限元法的并行计算方法。首先,在Visual Studio 2019中采用C++语言实现无量纲最小二乘有限元法以及迎风有限元法的串行计算方法。然后,基于图形处理器(graphic processing unit,GPU)实现流体场的并行计算,针对单分区分匝模型对比分析了不同GPU卡在不同网格条件下的并行计算效率,分析结果表明数据规模越大,GPU卡流处理器越多并行效果越好。其次,基于Intel MKL(Intel math kernel library)函数库结合共享存储并行编程(open multi-processing,OpenMP)实现了2维温度场的并行计算,并对比分析了不同网格数量对并行效率的影响。最后,在此基础上提出了根据不同仿真条件的混合并行计算方法,并应用到大型油浸式变压器绕组模型的2维温升热点分析中。结果表明,相较于串行程序,混合有限元并行计算方法的加速比达到了69.5,实验测试结果进一步验证了并行计算结果的准确性,研究成果为大型油浸式变压器流-热耦合问题的快速计算奠定了基础。 展开更多
关键词 变压器绕组 混合有限元 热点 并行计算 加速比
原文传递
基于改进连续时间动态系统的模拟SAT求解器 被引量:2
13
作者 赵海军 陈华月 崔梦天 《计算机应用研究》 CSCD 北大核心 2024年第1期200-205,共6页
针对布尔可满足性问题的高效求解进行了研究。首先,通过对k-SAT问题和基于耦合常微分方程形式的确定性连续时间动态系统的分析,提出了一种基于时延信息形式的改进连续时间动态系统方程,以保持集中搜索特性;然后,提出了实现该系统方程的... 针对布尔可满足性问题的高效求解进行了研究。首先,通过对k-SAT问题和基于耦合常微分方程形式的确定性连续时间动态系统的分析,提出了一种基于时延信息形式的改进连续时间动态系统方程,以保持集中搜索特性;然后,提出了实现该系统方程的三个主要组件即信号动态电路、辅助变量电路和数字验证电路的模拟设计。在信号动态电路的设计中,设计了一种获得更高性能、更小面积和更低功耗的模拟硬件形式;在提出的辅助变量电路和数字验证电路的模拟硬件设计中,实现了避免梯度下降搜索陷入无解和确定给定问题的解是否已经找到的目标;同时提出了降低面积和功耗的可替代辅助变量电路的两种设计方案。仿真实验结果表明,提出的新的模拟SAT求解器不仅是有效的,而且相比于单一软件算法实现的SAT求解器和其他硬件类SAT求解器具有更高的加速性能和更低的功耗。 展开更多
关键词 布尔可满足性问题 连续时间动态系统 模拟设计 辅助变量 数字验证 加速性能
在线阅读 下载PDF
A Distributed Ant Colony Optimization Applied in Edge Detection 被引量:1
14
作者 Min Chen 《Journal of Computer and Communications》 2024年第8期161-173,共13页
With the rise of image data and increased complexity of tasks in edge detection, conventional artificial intelligence techniques have been severely impacted. To be able to solve even greater problems of the future, le... With the rise of image data and increased complexity of tasks in edge detection, conventional artificial intelligence techniques have been severely impacted. To be able to solve even greater problems of the future, learning algorithms must maintain high speed and accuracy through economical means. Traditional edge detection approaches cannot detect edges in images in a timely manner due to memory and computational time constraints. In this work, a novel parallelized ant colony optimization technique in a distributed framework provided by the Hadoop/Map-Reduce infrastructure is proposed to improve the edge detection capabilities. Moreover, a filtering technique is applied to reduce the noisy background of images to achieve significant improvement in the accuracy of edge detection. Close examinations of the implementation of the proposed algorithm are discussed and demonstrated through experiments. Results reveal high classification accuracy and significant improvements in speedup, scaleup and sizeup compared to the standard algorithms. 展开更多
关键词 Distributed System Ant Colony Optimization Edge Detection MAPREDUCE speedup
在线阅读 下载PDF
基于多GPU数值框架的流域地表径流过程数值模拟 被引量:3
15
作者 冯新政 张大伟 +1 位作者 徐海卿 鞠琴 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期48-55,共8页
与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体... 与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体积法离散完整二维浅水方程组建立模型,通过消息传递接口(message passing interface,MPI)与统一计算设备架构(compute unified device architecture,CUDA)相结合的技术实现了基于多图形处理器(graphics processing unit,GPU)的高性能加速计算,采用理想算例和真实流域算例验证模型具有较好的数值计算精度,其中,理想算例中洪峰的相对误差为0.011%,真实流域算例中洪峰的相对误差为2.98%。选取宝盖寺流域为研究对象,分析不同单元分辨率下模型的加速效果,结果表明:在5、2、1 m分辨率下,使用8张GPU卡计算获得的加速比分别为1.58、3.92、5.77,单元分辨率越高,即单元数越多,多GPU卡的加速效果越明显。基于多GPU的水动力模型加速潜力巨大,可为数字孪生流域建设提供有力技术支撑。 展开更多
关键词 水动力模型 地表径流 多GPU Godunov格式 加速比
在线阅读 下载PDF
并行机器中基于干扰时间的间歇实时任务分区DM调度 被引量:1
16
作者 刘洪标 宋程昊 +3 位作者 王婷煜 姜菁菁 乔磊 杨孟飞 《软件学报》 EI CSCD 北大核心 2024年第11期5306-5318,共13页
间歇实时任务的分区DM(deadline-monotonic)调度是一个经典的研究问题,针对约束截止期间歇任务,提出一种具有更高处理器利用率的多核分区调度算法PDM-FFD(partitioned deadline-monotonic first-fit decrease).在PDM-FFD中,首先将任务... 间歇实时任务的分区DM(deadline-monotonic)调度是一个经典的研究问题,针对约束截止期间歇任务,提出一种具有更高处理器利用率的多核分区调度算法PDM-FFD(partitioned deadline-monotonic first-fit decrease).在PDM-FFD中,首先将任务按照其相对截止期以非递减顺序进行排序,然后采用first-fit策略选择处理器核分配任务,且在各处理器核上采用DM调度策略进行任务调度.最后通过对任务干扰时间的分析,得出一种更为紧凑的可调度性判定方法,并通过该可调度性方法来判定任务的可调度性.证明PDM-FFD的加速因子为3-(3Δ+1)/(m+Δ),时间复杂度为O(n^(2))+O(nm),其中Δ=_(Στj∈τ)C_(j)×u_(j)/D_(max),τ_(j)为任务集τ中的任务,C_(j)为该任务最差执行时间,u_(j)为该任务利用率,D_(max)为τ中的最大相对截止期,n为τ的任务数,m为处理器核数.该加速因子严格小于3-1/m,优于已有多核分区调度算法FBB-FFD.实验表明,PDM-FFD算法在4核处理器上的处理器利用率比其他算法提高了18.5%,且PDM-FFD的性能优势随着处理器核数、任务集利用率和任务数的增加而进一步扩大.由于PDM-FFD算法具有高性能特性,因此该算法可以广泛应用于资源受限的航天器、自动驾驶汽车、工业机器人等典型实时系统中. 展开更多
关键词 间歇实时任务 分区DM(deadline-monotonic)调度 干扰时间 加速因子 资源受限
在线阅读 下载PDF
基于硬件加速的空间碎片监视处理方法
17
作者 蒋孝勇 曲耀斌 +5 位作者 周军 刘波 汪少林 莫凡 陈议 桑峰 《上海航天(中英文)》 CSCD 2024年第S2期175-182,共8页
为解决空间碎片识别难,空间碎片轨迹维护难问题,本文提出一种混合异构在轨目标实时处理平台技术。混合异构在轨实时处理方法可将检测结果直接下传地面用户,提高了空间碎片检测时效性。检测算法采用图像增强滤波手段,在轨实时滑窗滤波处... 为解决空间碎片识别难,空间碎片轨迹维护难问题,本文提出一种混合异构在轨目标实时处理平台技术。混合异构在轨实时处理方法可将检测结果直接下传地面用户,提高了空间碎片检测时效性。检测算法采用图像增强滤波手段,在轨实时滑窗滤波处理器为FPGA,滤波图像增强后的图像数据经过CPU过门限后得到空间碎片目标,空间碎片轨迹库由星载CPU管理维护。混合异构星载计算平台通过并行计算实现在轨实时处理。混合异构硬件加速平台可将传统单一CPU处理耗时9989.69 ms,提升到118 ms,达到图像帧250 ms实时处理能力,并实现目标轨迹稳定跟踪。 展开更多
关键词 空间碎片 混合异构 目标检测 硬件加速 在轨编程
在线阅读 下载PDF
一种基于ModelSim的红外图像仿真方法与系统 被引量:1
18
作者 李江辉 《红外技术》 CSCD 北大核心 2024年第7期802-806,共5页
在红外热成像的图像处理算法过程中,传统的算法仿真需要借助Matlab等图形处理工具软件先进行仿真再转化成FPGA处理器中可以运行的算法代码,而Matlab上的运行的语言、实现方式与FPGA硬件上运行的硬件描述语言和实现方式完全不同。导致转... 在红外热成像的图像处理算法过程中,传统的算法仿真需要借助Matlab等图形处理工具软件先进行仿真再转化成FPGA处理器中可以运行的算法代码,而Matlab上的运行的语言、实现方式与FPGA硬件上运行的硬件描述语言和实现方式完全不同。导致转化过程复杂、转化精度损失、开发周期长等。本文提出了一种基于ModelSim仿真工具的红外图像仿真方法与系统,与Matlab等图形处理工具一样,编程写好代码,导入图像仿真后,立即输出图像显示,并能查看中间处理过程中的数据变化情况。并且ModelSim仿真运行的仿真代码可以直接拿到FPGA编译工具中运行,最终部署在硬件板卡上。在工程应用中,转化过程简单,开发效率大大提升。 展开更多
关键词 FPGA MODELSIM 红外热成像 仿真方法 图像处理算法 硬件描述语言 硬件加速
在线阅读 下载PDF
线云隐私攻击算法的并行加速研究
19
作者 郭宸良 阎少宏 宗晨琪 《计算机工程与科学》 CSCD 北大核心 2024年第4期615-625,共11页
线云定位方法能保护场景隐私,但也存在被隐私攻击算法破解的风险。该攻击算法能从线云恢复近似点云,但其计算效率较低。针对该问题,提出了一种并行优化算法,并对其运行时间和加速比进行了分析。具体来说,分别采用SPMD模式和流水线模式... 线云定位方法能保护场景隐私,但也存在被隐私攻击算法破解的风险。该攻击算法能从线云恢复近似点云,但其计算效率较低。针对该问题,提出了一种并行优化算法,并对其运行时间和加速比进行了分析。具体来说,分别采用SPMD模式和流水线模式实现了CPU多核并行和GPGPU并行。然后,进一步结合数据并行模式实现了异构计算,以达到最高的并行度。实验结果表明,并行优化算法加速比最大为15.11,最小为8.20;相比原算法,并行优化算法的还原点云相对误差控制在原误差的0.4%以内,保证了算法的精度。该研究对线云隐私攻击算法以及其他密度估计问题、不同场景下的线云隐私保护算法等有重要意义和参考价值。 展开更多
关键词 线云隐私安全 异构计算 并行化处理 隐私攻击算法 加速比
在线阅读 下载PDF
Row Fixation - A Parallel Algorithm for Matrix Computing
20
作者 沈文枫 郁松年 徐炜民 《Advances in Manufacturing》 SCIE CAS 2000年第S1期119-122,共4页
Row fixation is a parallel algorithm based on MPI that can be implemented on high performance computer system. It keeps the characteristics of matrices since row-computations are fixed on different nodes. Therefore t... Row fixation is a parallel algorithm based on MPI that can be implemented on high performance computer system. It keeps the characteristics of matrices since row-computations are fixed on different nodes. Therefore the locality of computation is realized effectively and the acceleration ratio is obtained very well for large scale parallel computations such as solving linear equations using Gaussian reduction method, LU decomposition of matrices and m-th power of matrices. 展开更多
关键词 row fixation MPI SMP augmented matrix speedup ratio
在线阅读 下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部