期刊文献+
共找到197篇文章
< 1 2 10 >
每页显示 20 50 100
基于NVIDIA GPU的高轨SAR快速BP算法子孔径成像CUDA设计与实现
1
作者 雷苏力 苏翔 +3 位作者 杨娟娟 高阳 向天舜 党红杏 《空间电子技术》 2025年第3期54-59,共6页
后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFB... 后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFBP算法的巨大的运算量仍然在工程中难以满足时效性需求,文章使用图形处理器(GPU)作为CPU的协处理器,提出基于FFBP算法的子孔径(CUDA)实现方案,使用流实现回波数据分块传输延迟隐藏的同时避免了高频次切换进程,另外设计超细颗粒度线程,实现子孔径FFBP算法成像的GPU大规模并发。经验证,使用该CUDA解决方案完成高轨SAR卫星FFBP子孔径成像时,设备的执行效率大于90%,相较于CPU 32线程并发程序具有120倍加速比。 展开更多
关键词 高轨SAR 快速后向投影(FFBP)成像算法 图形处理器(GPU)
在线阅读 下载PDF
一种面向高算力处理器的运算单元设计
2
作者 刘玉 张杰 周乐 《集成电路与嵌入式系统》 2025年第9期57-62,共6页
提出一种应用于大算力处理器的存算融合运算单元设计方案,存算融合运算单元包含支持多精度运算的运算器,并在内部集成了本地存储,运算单元可以基于本地存储完成运算,避免访问外部总线,同时针对存算融合运算单元结构特点设计了硬件流水线... 提出一种应用于大算力处理器的存算融合运算单元设计方案,存算融合运算单元包含支持多精度运算的运算器,并在内部集成了本地存储,运算单元可以基于本地存储完成运算,避免访问外部总线,同时针对存算融合运算单元结构特点设计了硬件流水线,处理器算力具备多维度可扩展性。文中提出的运算单元设计方案具有良好的性能功耗比优势,该方案的性能功耗比达到2.47 TOPS/W@INT8,显著优于其他存算融合处理器架构,适合作为高算力处理器运算核心进行大量部署。 展开更多
关键词 高算力处理器 运算单元 扩展性 流水线 FPGA
在线阅读 下载PDF
Speeding up the MATLAB complex networks package using graphic processors 被引量:1
3
作者 张百达 唐玉华 +1 位作者 吴俊杰 李鑫 《Chinese Physics B》 SCIE EI CAS CSCD 2011年第9期460-467,共8页
The availability of computers and communication networks allows us to gather and analyse data on a far larger scale than previously. At present, it is believed that statistics is a suitable method to analyse networks ... The availability of computers and communication networks allows us to gather and analyse data on a far larger scale than previously. At present, it is believed that statistics is a suitable method to analyse networks with millions, or more, of vertices. The MATLAB language, with its mass of statistical functions, is a good choice to rapidly realize an algorithm prototype of complex networks. The performance of the MATLAB codes can be further improved by using graphic processor units (GPU). This paper presents the strategies and performance of the GPU implementation of a complex networks package, and the Jacket toolbox of MATLAB is used. Compared with some commercially available CPU implementations, GPU can achieve a speedup of, on average, 11.3x. The experimental result proves that the GPU platform combined with the MATLAB language is a good combination for complex network research. 展开更多
关键词 complex networks graphic processors unit MATLAB Jacket Toolbox
原文传递
Experimentation of a 1-pixel bit reconfigurable ternary optical processor 被引量:1
4
作者 王宏健 金翊 +1 位作者 欧阳山 周裕 《Journal of Shanghai University(English Edition)》 CAS 2011年第5期430-436,共7页
A detailed experiment of 1-pixel bit reconfigurable ternary optical processor (TOP) is proposed in the paper. 42 basic operation units (BOUs) and 28 typical logic operators of the TOP are realized in the experimen... A detailed experiment of 1-pixel bit reconfigurable ternary optical processor (TOP) is proposed in the paper. 42 basic operation units (BOUs) and 28 typical logic operators of the TOP are realized in the experiment. Results of the test cases elaborately cover the every combination of BOUs and all the nine inputs of ternary processor. Both the experiment process and results analysis are given in this paper. The experimental results demonstrate that the theory of reconfiguring a TOP is valid and that the reconfiguration circuitry is effective. 展开更多
关键词 ternary optical processor (TOP) decrease-radix design basic operation units (BOUs) RECONFIGURABILITY recon figuration circuitry
在线阅读 下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
5
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
在线阅读 下载PDF
GPU任务调度研究综述 被引量:3
6
作者 李来文 胡韬 邓庆绪 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2800-2807,共8页
本文针对运行在GPU上的任务的管理和调度研究进行了综述,并且把讨论重点放在针对单GPU上的相关研究工作.随着人工智能技术的发展以及相关应用的普及,使得GPU成为加速计算的关键工具.本文首先介绍了GPU的架构和编程模型,然后按照调度粒度... 本文针对运行在GPU上的任务的管理和调度研究进行了综述,并且把讨论重点放在针对单GPU上的相关研究工作.随着人工智能技术的发展以及相关应用的普及,使得GPU成为加速计算的关键工具.本文首先介绍了GPU的架构和编程模型,然后按照调度粒度,从stream级到warp级介绍了多种调度方法的相关研究工作.每个级别的调度方法都旨在提高GPU的性能、资源利用率、可靠性或降低能耗.此外,本文还指出了GPU任务调度面临的挑战以及未来的研究方向,如保障GPU执行时间确定性的软硬件机制研究、结合机器学习的GPU任务调度研究、GPU新架构探索研究以及追求GPU性能和能耗平衡的调度技术研究.本文旨在为研究者们提供一个全面的视角,帮助他们了解GPU任务调度的研究动态和未来的发展方向. 展开更多
关键词 图形处理单元 CUDA GPU多任务 GPU调度
在线阅读 下载PDF
新能源电力系统细粒度并行与多速率电磁暂态仿真 被引量:3
7
作者 王啟国 徐晋 +2 位作者 汪可友 周建其 樊涛 《电力系统自动化》 EI CSCD 北大核心 2024年第3期113-121,共9页
随着可再生能源的快速发展,电力系统设备类型越来越多,系统振荡特征越来越复杂,对电磁暂态仿真的精度和效率提出了更高要求。基于大规模集成电路设计中所使用的延迟插入法(LIM),提出了新能源电力系统的细粒度建模方法,并结合图形处理器(... 随着可再生能源的快速发展,电力系统设备类型越来越多,系统振荡特征越来越复杂,对电磁暂态仿真的精度和效率提出了更高要求。基于大规模集成电路设计中所使用的延迟插入法(LIM),提出了新能源电力系统的细粒度建模方法,并结合图形处理器(GPU)的资源优势,实现了算法的并行求解。所提方法将传统交流电网与电力电子设备进行解耦,并基于混合数值稳定性判据和局部截断误差的方法确定了各子系统的步长。然后,通过插值实现了新能源电力系统的多速率仿真。最后,基于GPU硬件平台,以含新能源接入的改进39节点系统为例验证了所提方法的精度,并以不同规模的新能源接入、不同仿真步长的组合验证了所提方法在仿真效率方面的优势。 展开更多
关键词 可再生能源 电力系统 电磁暂态仿真 并行计算 细粒度仿真 多速率仿真 延迟插入法 图形处理器
在线阅读 下载PDF
基于SPI全双工通信的ICNI健康管控系统 被引量:3
8
作者 刘维 《电子测量技术》 北大核心 2024年第19期34-43,共10页
无人机通信导航识别系统(ICNI)更高程度的综合化使得ICNI主控模块需完成基于多种总线通信的系统管控、数据转发等功能,对核心处理器的处理性能和接口资源有着更高要求。因此对模块中的健康管控系统提出了更轻量级的设计要求。本文在主... 无人机通信导航识别系统(ICNI)更高程度的综合化使得ICNI主控模块需完成基于多种总线通信的系统管控、数据转发等功能,对核心处理器的处理性能和接口资源有着更高要求。因此对模块中的健康管控系统提出了更轻量级的设计要求。本文在主控模块内采用CPU+MCU分布式架构设计了一种全国产化的基于CAN总线的健康管理系统。由FT-2000/4作为核心处理器,MCU作为协处理器实现CAN总线接口单元,二者通过SPI全双工通信完成CAN总线应用层数据交互,实现CPU对系统内各模块/单元的状态查询、命令下发,从而实现系统的健康管理。该系统可实时监测系统内各模健康状态,电路设计仅占用核心处理器SPI和GPIO接口,不占用其他接口资源和可编程逻辑(FPGA)资源,硬件设计简单,减轻电路布局和结构设计压力。健康管理部分电路器件成本较业内其他典型设计降低至少60%,符合低成本需求。 展开更多
关键词 健康管理单元 FT-2000/4处理器 SPI通信 CAN总线 ICNI主控模块
原文传递
某型航空发动机抗电源失效设计与试验验证 被引量:1
9
作者 李鸿基 郭海红 +1 位作者 江井跃 孙朝辉 《内燃机与配件》 2024年第11期97-100,共4页
为应对外部电源可能出现的失效问题,某航空发动机控制系统开展电子控制器储能电路设计,并选用具有零偏功能的电液伺服阀。通过改造台架电源配置、增加延时继电器,实现模拟电源短时中断50ms和完全失效功能。整机电源失效试验表明,某航空... 为应对外部电源可能出现的失效问题,某航空发动机控制系统开展电子控制器储能电路设计,并选用具有零偏功能的电液伺服阀。通过改造台架电源配置、增加延时继电器,实现模拟电源短时中断50ms和完全失效功能。整机电源失效试验表明,某航空发动机电子控制器CPU在外部电源短时中断50ms条件下可保持稳定工作,可取消配套应急电源设备;在电源完全失效情况下可通过切断关闭主燃油、调节几何角度使发动机安全停车,发动机性能和操纵性未发生变化,满足飞机使用要求。 展开更多
关键词 航空发动机 电源失效 控制系统 中央处理器 电液伺服阀 整机试验
在线阅读 下载PDF
Philips Mx8000 Exp双层螺旋CT启动过程 被引量:2
10
作者 高甦 毕玉成 《医疗卫生装备》 CAS 2006年第10期69-70,共2页
介绍MX8000Exp双层螺旋CT启动的过程中每一个步骤里实际有哪些信号进行传递;有哪些相关部件在动作,简要介绍了与启动相关的一些故障情况。
关键词 OPcon BOX (operrater CONSOLE box) GHOST (general host) Rhost (rotor host) Accu (AC control unit) CMP (common processor)
在线阅读 下载PDF
基于GPU的并行优化技术 被引量:23
11
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法... 针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 展开更多
关键词 图形处理器 并行优化 累加和 统一计算设备架构
在线阅读 下载PDF
光纤陀螺惯性测量单元的设计与实现 被引量:5
12
作者 宋凝芳 张春熹 +2 位作者 马迎建 杜新政 张维叙 《中国惯性技术学报》 EI CSCD 1999年第1期30-33,37,共5页
本文介绍采用全数字闭环光纤陀螺组成的惯性测量单元的实现方法,采用DSP作为中央处理单元,完成三轴组合的时序控制、数字解调、滤波算法、波形合成及数据传输,并对三轴陀螺进行了全面的性能测试,测试结果表明惯性测量单元中每个... 本文介绍采用全数字闭环光纤陀螺组成的惯性测量单元的实现方法,采用DSP作为中央处理单元,完成三轴组合的时序控制、数字解调、滤波算法、波形合成及数据传输,并对三轴陀螺进行了全面的性能测试,测试结果表明惯性测量单元中每个陀螺零漂均小于0.5°/h,标度因数线性度<200ppm。 展开更多
关键词 光纤陀螺 惯性测量单元 DSP 闭环
在线阅读 下载PDF
一种基于双DSP的环网柜测控保护终端 被引量:4
13
作者 刘革明 尹项根 +3 位作者 蔡树立 李伟 李岩 梅中健 《继电器》 CSCD 北大核心 2005年第8期52-55,60,共5页
从配电自动化发展的需求出发,提出了一种面向环网柜的智能型测控保护终端的设计思想。以两进四出规模的环网柜为研究对象,阐述了以两片浮点数字信号处理器芯片TMS320VC33为核心的终端单元的硬件设计。在满足配电远方终端一般要求的基础... 从配电自动化发展的需求出发,提出了一种面向环网柜的智能型测控保护终端的设计思想。以两进四出规模的环网柜为研究对象,阐述了以两片浮点数字信号处理器芯片TMS320VC33为核心的终端单元的硬件设计。在满足配电远方终端一般要求的基础上,详细讨论了智能接线、模块化计算、智能逻辑时序控制、电能质量分析及管理等特色功能的技术实现方案,并介绍了两片DSP相互配合完成上述功能的程序设计方法。 展开更多
关键词 环网柜 配电自动化 数字信号处理器 远方终端
在线阅读 下载PDF
基于DSP的FTU的研究和设计 被引量:8
14
作者 吴军基 刘翔 杨伟 《电力自动化设备》 EI CSCD 北大核心 2003年第12期17-20,共4页
随着我国配电网自动化的不断发展,对配电网络故障的类型判断、故障隔离、故障定位及网络重构都提出了较高的要求,实时性要求更高。基于数字信号处理器DSP(DigitalSignalProcessor)芯片TMS320LF2407的馈线终端单元FTU(FeederTerminalUnit... 随着我国配电网自动化的不断发展,对配电网络故障的类型判断、故障隔离、故障定位及网络重构都提出了较高的要求,实时性要求更高。基于数字信号处理器DSP(DigitalSignalProcessor)芯片TMS320LF2407的馈线终端单元FTU(FeederTerminalUnit)的设计集中运用了DSP芯片运算速度快、运算量大等优点,为配网自动化中馈线自动化的关键设备FTU的研究和设计提出了一套较好的设计方案。 展开更多
关键词 数字信号处理器 馈线终端单元 馈线自动化
在线阅读 下载PDF
一位可重构三值光学处理器的设计和实现 被引量:19
15
作者 王宏健 金翊 欧阳山 《计算机学报》 EI CSCD 北大核心 2014年第7期1500-1507,共8页
文中对可重构三值光学处理器的原理和基本结构进行了详细的实验研究,证明了这种处理器的可重构性和重构电路的有效性.本次研究设计了实用的重构电路,使用小规模FPGA芯片、笔段式液晶显示器和高速光强传感器等元件,成功构造了一个像素位... 文中对可重构三值光学处理器的原理和基本结构进行了详细的实验研究,证明了这种处理器的可重构性和重构电路的有效性.本次研究设计了实用的重构电路,使用小规模FPGA芯片、笔段式液晶显示器和高速光强传感器等元件,成功构造了一个像素位的可重构三值光学处理器.在实现的实验系统上,通过精心选择的50个实验用例,对三值光学处理器的全部42个基元和28个代表性逻辑运算器进行了研究.50个实验用例覆盖了所有可能的输入状态和各种基元组合情况.该文是对降值设计理论的第一次全面实践,为可重构三值光学处理器从理论到实际应用提供了实验基础和技术支持. 展开更多
关键词 三值光学处理器 降值设计理论 基元 可重构 重构电路 实验
在线阅读 下载PDF
基于CUDA的高速FFT计算 被引量:22
16
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
在线阅读 下载PDF
一种高速实时定点FFT处理器的设计 被引量:25
17
作者 韩泽耀 韩雁 郑为民 《电路与系统学报》 CSCD 2002年第1期18-22,共5页
本文讨论了采用FPGA和ASIC硬件实现高速实时FFT处理器的设计方案,作者在这种高速FFT设计时选择的特点基于Radix 4 DIT算法、采用乒乓RAM的设计思路以及级与级间采用流水结构。另外由于FFT基4运算的复杂性,所以在设计基4运算单元、数据... 本文讨论了采用FPGA和ASIC硬件实现高速实时FFT处理器的设计方案,作者在这种高速FFT设计时选择的特点基于Radix 4 DIT算法、采用乒乓RAM的设计思路以及级与级间采用流水结构。另外由于FFT基4运算的复杂性,所以在设计基4运算单元、数据通道中串并转换、运算数据的拉齐、颠倒位序、双地址发生等方面也有一些特点。整体上考虑是:尽可能地能够进行高速的FFT运算,本文针对1024点、16 bits位长、定点数、复数点进行运算;考虑到芯片外围接口的问题,希望外围能够尽量方便用户使用,所以在外围数据、状态和控制线上比较精简,从而把复杂的控制部分转移到芯片内部实现。 展开更多
关键词 高速实时定点 FPGA ASIC FFT处理器 电路设计
在线阅读 下载PDF
基于GCC实现飞腾处理器向量处理单元的编译器后端 被引量:3
18
作者 李春江 杜云飞 +2 位作者 倪晓强 王永文 杨灿群 《计算机科学》 CSCD 北大核心 2013年第12期19-22,共4页
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌... 编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌函数。从四路双精度SIMD指令的机器描述出发,总结了在GCC后端所做的实现工作。其对基于GCC编译器实现面向特定目标机器的编译器后端有较大的参考价值。 展开更多
关键词 飞腾处理器 向量处理单元 GCC 编译器后端
在线阅读 下载PDF
离子发动机交换电荷离子返流的粒子模拟 被引量:4
19
作者 任军学 李娟 +2 位作者 仇钎 汤海滨 温正 《强激光与粒子束》 EI CAS CSCD 北大核心 2011年第7期1929-1934,共6页
建立了离子发动机羽流的物理模型,采用粒子网格对羽流中的交换电荷离子的分布进行了模拟,电场方程使用完全近似格式的代数多重网格方法求解。利用计算设备统一架构技术开发出一套基于图形处理器的3维并行粒子模拟程序。计算结果表明,交... 建立了离子发动机羽流的物理模型,采用粒子网格对羽流中的交换电荷离子的分布进行了模拟,电场方程使用完全近似格式的代数多重网格方法求解。利用计算设备统一架构技术开发出一套基于图形处理器的3维并行粒子模拟程序。计算结果表明,交换电荷离子在径向扩张型电势结构下会向束流区外运动,一部分交换离子在电场力作用下会向发动机上游运动,从而形成返流。发动机上游区域的交换电荷数密度与束流等离子体数密度相比降低了3~4个数量级。通过降低电子温度可有效降低返流电流。 展开更多
关键词 离子发动机 交换电荷离子 返流 粒子网格 图形处理器
在线阅读 下载PDF
基于数字信号处理器的配电自动化终端装置 被引量:4
20
作者 牛培峰 李国胜 +3 位作者 刘远龙 刘建丽 王立红 周丽芹 《电力系统自动化》 EI CSCD 北大核心 2002年第20期66-68,71,共4页
应用数字信号处理器 ( DSP)的特殊资源 ,采用 DMA方式实现主机与从机之间的双机通信 ,并利用 DMA功能实现主机下载 DSP程序。为了充分发挥 DSP的数据处理能力 ,采样系统通过CPLD构成了独立的采样控制逻辑。通过 FTU对采集量的计算和分... 应用数字信号处理器 ( DSP)的特殊资源 ,采用 DMA方式实现主机与从机之间的双机通信 ,并利用 DMA功能实现主机下载 DSP程序。为了充分发挥 DSP的数据处理能力 ,采样系统通过CPLD构成了独立的采样控制逻辑。通过 FTU对采集量的计算和分析实现了单相短路和相间短路故障的判断以及故障定位、故障隔离及接地故障分析和检测等功能。经实际应用表明 ,应用方案及其实时算法是合理、可行的。 展开更多
关键词 数字信号处理器 配电自动化 终端装置 交流采样 电力系统 通信
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部