期刊文献+
共找到222篇文章
< 1 2 12 >
每页显示 20 50 100
基于OpenCL的超低延迟行情加速系统设计与实现
1
作者 冯一飞 丁楠 +1 位作者 叶钧超 柴志雷 《计算机应用与软件》 北大核心 2025年第3期15-21,共7页
针对量化高频交易中对数据处理的低延迟需求,定制一种超低延迟的行情系统,包含网络通信、数据解码和数据分析三部分功能,并在FPGA上进行实现。对各功能模块进行并行优化,构建全流水架构;对内存架构进行优化设计,提高数据传输速率;使用... 针对量化高频交易中对数据处理的低延迟需求,定制一种超低延迟的行情系统,包含网络通信、数据解码和数据分析三部分功能,并在FPGA上进行实现。对各功能模块进行并行优化,构建全流水架构;对内存架构进行优化设计,提高数据传输速率;使用流接口实现模块间数据传输优化,降低数据处理延迟。实验结果表明:在Alveo U50上最大吞吐率可达38.4 Gbit/s,行情处理延迟最低为678 ns,波动稳定在10 ns间,与软件方案相比,性能提升12倍,吞吐率提升1.87倍,且延迟稳定。 展开更多
关键词 VITIS opencl 现场可编程门阵列 高频量化交易 超低延迟 系统开发设计
在线阅读 下载PDF
基于OpenCL的FPGA异构平台聚焦波束形成算法实现
2
作者 徐逸强 《声学与电子工程》 2025年第1期44-47,共4页
聚焦波束形成涉及的分段聚焦补偿方法,计算量大,要求处理的实时性强,因此对硬件设备的计算和存储性能要求较高。文章采用基于OpenCL的FPGA异构平台,实现一套7个景深的聚焦波束形成算法,较CPU具有3.88的加速比。仿真实验结果证实了算法... 聚焦波束形成涉及的分段聚焦补偿方法,计算量大,要求处理的实时性强,因此对硬件设备的计算和存储性能要求较高。文章采用基于OpenCL的FPGA异构平台,实现一套7个景深的聚焦波束形成算法,较CPU具有3.88的加速比。仿真实验结果证实了算法结果准确性,并具有较高的计算效率。 展开更多
关键词 opencl FPGA 异构平台 计算加速 聚焦波束形成
在线阅读 下载PDF
基于OpenCL的驾驶监控系统自调优化研究 被引量:1
3
作者 刘创 李智 《电子制作》 2024年第7期62-67,共6页
高性能异构计算在视频大数据处理中的研究应用意义重大,如何高效地发挥计算平台的性能问题亟待解决,本文以汽车智能化的驾驶员监控系统应用为背景,针对深度学习视频识别分析实时性要求高,异构计算平台错综复杂等问题,从基于OpenCL异构... 高性能异构计算在视频大数据处理中的研究应用意义重大,如何高效地发挥计算平台的性能问题亟待解决,本文以汽车智能化的驾驶员监控系统应用为背景,针对深度学习视频识别分析实时性要求高,异构计算平台错综复杂等问题,从基于OpenCL异构框架并行计算和模型自调优化两个方面深入研究,通过利用OpenCL在异构并行计算中的架构优势,进行编程性能模型的设计和自调算法优化,有效地避免了接触底层设备来设计和实现高并行计算的传统方法。对照实验结果表明,引入YOLOv3算法的OpenCL异构计算平台相对于GPU并行加速比能达到1.46,进一步通过TVM优化部署加速比突破到了1.6,研究结果表明,该方法解决了跨多种平台代码重构与性能自调优的难题,对汽车智能化驾驶员监控系统的高性能需求提供了理论研究。 展开更多
关键词 opencl 自调模型 算法优化 优化编译器
在线阅读 下载PDF
基于OpenCL的多标靶加速定位方法
4
作者 王瑾瑜 罗剑波 《软件工程》 2024年第8期57-61,共5页
针对现有人工标靶定位方法精度不高且效率低的问题,提出一种基于ICP(Iterrative Closest Point)的定位标靶中心算法,并在所提出的定位方法的实现上进行加速,对检测到的二维边缘点集在CPU中建立VP-tree(Vantage Point Tree)数据结构后,... 针对现有人工标靶定位方法精度不高且效率低的问题,提出一种基于ICP(Iterrative Closest Point)的定位标靶中心算法,并在所提出的定位方法的实现上进行加速,对检测到的二维边缘点集在CPU中建立VP-tree(Vantage Point Tree)数据结构后,传入图形处理器(Graphics Processing Unit,GPU)缓冲区中,使用全称为开放计算语言(Open Computing Language,OpenCL)框架并行计算,并且使下一时刻的边缘点云继承上一时刻的刚性变换矩阵,减少迭代次数并加快收敛速度,实现实时定位。经实验验证,本文算法在1.6 m的视场范围,定位精度约为0.0819 pixel,平均绝对误差约为0.0261 mm。实验结果验证了该方法具有可行性且算法有效。 展开更多
关键词 标靶定位 opencl 迭代最近点 GPU
在线阅读 下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:6
5
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
基于OpenCL的拉普拉斯图像增强算法优化研究 被引量:19
6
作者 贾海鹏 张云泉 +2 位作者 龙国平 徐建良 李焱 《计算机科学》 CSCD 北大核心 2012年第5期271-277,共7页
OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同... OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 opencl 通用计算 拉普拉斯算法 跨平台
在线阅读 下载PDF
基于OpenCL的Viola-Jones人脸检测算法性能优化研究 被引量:14
7
作者 贾海鹏 张云泉 +1 位作者 袁良 李士刚 《计算机学报》 EI CSCD 北大核心 2016年第9期1775-1789,共15页
Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实... Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实时性要求已经成为研究热点.然而,该算法在对GPU的实现和优化中,存在线程间负载不均衡的非规则特性,如果仅使用传统的优化方法,则难以在GPU计算平台上达到较高性能.针对此种情况,该文构建了针对此类算法的并行优化框架,通过Uberkernel、粗粒度并行、Persistent Thread、线程与数据的动态映射、全局及本地队列等优化方法的应用,突破了负载不均衡非规则特性导致的性能瓶颈,大幅提高了人脸检测算法在GPU计算平台上的性能.同时,该文通过对不同GPU计算平台关键性能参数的定义、抽取和传递,实现了该算法在不同GPU计算平台间的性能移植.实验结果表明,与OpenCV2.4中经过高度优化的CPU版本在Intel Xeon X5550CPU上的性能相比,优化后的算法在AMD HD7970和NVIDIA GTX680两个不同GPU计算平台上分别达到了11.24-20.27和9.24-17.62倍的加速比,不仅实现了高性能,而且实现了在不同GPU计算平台间的性能移植. 展开更多
关键词 opencl 负载不均衡 任务队列 线程与任务动态映射 性能移植
在线阅读 下载PDF
异构平台上基于OpenCL的FFT实现与优化 被引量:8
8
作者 李焱 张云泉 +1 位作者 王可 赵美超 《计算机科学》 CSCD 北大核心 2011年第8期284-286,296,共4页
快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程... 快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpenCL实现了基于2的幂一维FFT,并对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。 展开更多
关键词 FFT opencl Cell CUDA GPU 快速傅立叶变换
在线阅读 下载PDF
基于OpenCL的异构系统并行编程 被引量:23
9
作者 詹云 赵新灿 谭同德 《计算机工程与设计》 CSCD 北大核心 2012年第11期4191-4195,4293,共6页
针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算... 针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算统一设备架构CUDA(compute unified device architecture)及其它通用计算技术进行对比。对比结果表明,OpenCL能够充分发挥异构处理平台上各种处理器的性能潜力,充分合理地分配任务,为进行大规模并行计算提供了新的强有力的工具。 展开更多
关键词 异构处理器 通用计算 开放计算语言(opencl) 性能优化 计算统一设备架构(CUDA)
在线阅读 下载PDF
面向OpenCL模型的GPU性能优化 被引量:21
10
作者 陈钢 吴百锋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第4期571-581,共11页
GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式... GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式发掘可向量化的存储访问实例,利用数据空间变换对存储访问模式进行转换,进而使用向量数据类型提高片外存储器的带宽利用率;通过检测程序中的数据重用,根据数据的访问属性和OpenCL存储模型的特性实现快速存储器的有效分配与优化,提高了片上存储器的使用效率.采用文中方法对6个测试程序进行实验的结果表明,程序的性能提高了1.6~8.4倍,证实了其有效性. 展开更多
关键词 opencl GPU 性能优化 异构处理 通用计算 多面体表示
在线阅读 下载PDF
基于OpenCL的图像积分图算法优化研究 被引量:6
11
作者 贾海鹏 张云泉 徐建良 《计算机科学》 CSCD 北大核心 2013年第2期1-7,共7页
图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非... 图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非常困难的工作。在分析不同GPU平台底层硬件架构的基础上,从片外访存带宽利用率、计算资源利用率和数据本地化等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响。并在此基础上实现了基于OpenCL的图像积分图算法。实验结果表明,优化后的算法在AMD和NVIDIA GPU上分别取得了11.26和12.38倍的性能加速,优化后的GPU kernel比NVIDIA NPP库中的相应函数也分别取得了55.01%和65.17%的性能提升。验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 opencl GPU 图像积分图算法 跨平台
在线阅读 下载PDF
面向OpenCL架构的大规模生物序列比对 被引量:2
12
作者 陈钢 韦刚 +2 位作者 李国波 裴颂文 吴百锋 《小型微型计算机系统》 CSCD 北大核心 2012年第2期392-398,共7页
为提高生物序列比对算法的性能和效率,提出一种异构处理平台下可移植的大规模生物序列比对算法及其优化方法.通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,增加序列比对的并行性;通过改变存储器布局后使用向量数据类型,提... 为提高生物序列比对算法的性能和效率,提出一种异构处理平台下可移植的大规模生物序列比对算法及其优化方法.通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,增加序列比对的并行性;通过改变存储器布局后使用向量数据类型,提高全局存储器的带宽利用率;通过增加偏移量改变存储器模块的映射方式,避免模块访问冲突,提高局部存储器的使用效率.实验结果表明,优化后的生物序列比对性能提升了近100倍. 展开更多
关键词 opencl GPU 生物序列比对 SMITH-WATERMAN算法
在线阅读 下载PDF
OpenCL加速的基于虚拟节点法的柔性体实时切割仿真 被引量:2
13
作者 贾世宇 潘振宽 张维忠 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2014年第10期1852-1859,共8页
为了提高柔性体变形仿真运行速度并且解决切割对变形计算稳定性的负面影响,提出了能与GPU加速的变形算法协同运作的基于虚拟节点法的柔性体实时切割仿真方法.柔性体模型由真实四面体网格嵌入虚拟四面体网格中构成,前者用于碰撞处理和图... 为了提高柔性体变形仿真运行速度并且解决切割对变形计算稳定性的负面影响,提出了能与GPU加速的变形算法协同运作的基于虚拟节点法的柔性体实时切割仿真方法.柔性体模型由真实四面体网格嵌入虚拟四面体网格中构成,前者用于碰撞处理和图形渲染,而后者则用于变形计算.切割算法首先分裂真实四面体网格;然后复制包含超过一块真实四面体连通碎片的虚拟四面体,每个复制品包含一块真实四面体碎片;再根据真实四面体之间的连接关系更新虚拟四面体之间的连接关系;最后更新真实四面体网格与虚拟四面体网格之间的镶嵌关系.为了确保仿真系统不被限制在NVIDIA公司的GPU上,GPU加速使用OpenCL实现.仿真测试结果表明,该方法可以在任意多次切割情况下保持变形计算稳定不发散,并且在NVIDIA公司和AMD公司的GPU上都可以正确运行. 展开更多
关键词 柔性体 实时变形 实时切割仿真 虚拟节点法 GPU加速 opencl
在线阅读 下载PDF
基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算 被引量:3
14
作者 龙卓群 王晓瑜 王昌明 《自动化与仪表》 2017年第7期16-21,33,共7页
为提高大矩阵乘的并行计算效率和计算精度,该文提出一种基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算方法。首先,引入DCT预测编码技术,并利用其二维数据的DCT变换值及其逆变换的二维表达式,对未编码数据的预测来消除邻近数据间在... 为提高大矩阵乘的并行计算效率和计算精度,该文提出一种基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算方法。首先,引入DCT预测编码技术,并利用其二维数据的DCT变换值及其逆变换的二维表达式,对未编码数据的预测来消除邻近数据间在时间域以及空间域上的相关性,以达到对数据进行压缩的目的;其次,基于Epiphany进行OpenCL的并行变换编码处理流程设计,实现矩阵乘的并行化计算;最后,通过在常用编程模型和大矩阵乘法上的试验,显示所提方法具有更高的计算效率和精度,验证了所提并行计算方法的性能优势。 展开更多
关键词 DCT预测编码 Epiphany架构 opencl模型 矩阵乘法 并行计算
在线阅读 下载PDF
基于OpenCL的Prewitt算法的并行实现 被引量:5
15
作者 马歌 肖汉 《现代电子技术》 2014年第20期103-106,共4页
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作... Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。 展开更多
关键词 opencl 异构框架 边缘检测 Prewitt算法 并行实现
在线阅读 下载PDF
基于OpenCL并行流动影响三维共晶生长多相场模拟 被引量:1
16
作者 朱昶胜 金显 +1 位作者 冯力 肖荣振 《兰州理工大学学报》 CAS 北大核心 2019年第1期11-17,共7页
基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算... 基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算规模相同时,分别在不同的平台上取得了一定的加速比.对并行算法在一定程度上进行优化,与CPU平台上的串行算法相比优化后的并行算法在异构平台上分别达到了20.2倍和23.6倍的加速比,大大提高了计算效率.同时,以其强大的浮点计算能力获取较为准确的模拟结果,达到计算效率和可移植性的双重需求,解决了传统求解相场模型存在的计算量大、效率低、限于定性研究等问题. 展开更多
关键词 opencl KKSO模型 共晶生长 相场法 数值模拟
在线阅读 下载PDF
支持OpenCL的GPU加速人工神经网络训练 被引量:2
17
作者 祝伟华 付先珺 《计算机系统应用》 2011年第7期217-220,共4页
人工神经网络训练所包含的运算量随着网络中神经元的数量增多而加大,对于神经元较多的网络训练很耗时。提高人工神经网络训练速度的一个方法是对训练算法优化以减少计算量。由于人工神经网络训练算法包含大量的矩阵和向量运算,如果把优... 人工神经网络训练所包含的运算量随着网络中神经元的数量增多而加大,对于神经元较多的网络训练很耗时。提高人工神经网络训练速度的一个方法是对训练算法优化以减少计算量。由于人工神经网络训练算法包含大量的矩阵和向量运算,如果把优化的算法用运行在GPU上的OpenCL C语言实现,则训练速度相比传统基于CPU计算的实现会提高很多。从硬件的并行计算能力着手,以RPROP算法为例,对其运行在GPU上的OpenCL C语言实现作一些研究。 展开更多
关键词 加速 人工神经网络 RPROP opencl CPU
在线阅读 下载PDF
基于OpenCL的DRR算法优化研究 被引量:2
18
作者 田林琳 李莹 《计算机技术与发展》 2018年第4期165-168,173,共5页
放射治疗计划系统(TPS)是为放疗患者制定放疗计划的特殊系统,对放射治疗的精度和效果有重要影响,是放射治疗的核心技术之一。数字重建放射影像算法(DRR)是TPS中的关键算法,广泛用于实现射野验证、病人摆位等。针对DRR算法性能不能满足... 放射治疗计划系统(TPS)是为放疗患者制定放疗计划的特殊系统,对放射治疗的精度和效果有重要影响,是放射治疗的核心技术之一。数字重建放射影像算法(DRR)是TPS中的关键算法,广泛用于实现射野验证、病人摆位等。针对DRR算法性能不能满足交互式和实时性的要求,提出了一种使用OpenCL技术对DRR算法进行并行加速的计算方法。首先介绍了DRR算法在TPS系统中的重要性和OpenCL框架,接着在DRR算法的优化过程中以X射线衰减理论公式为基础,构建了DRR算法的串行版本作为算法优化的基准,分析了基于光线跟踪的DRR算法的特点,给出了算法的并行化方案,并结合OpenCL的存储器特性对并行算法进行了性能调优。在NVIDIA平台对算法进行了实验和评测,结果显示,OpenCL并行优化版本相对其串行版本加速约36倍左右,满足了系统的性能要求。 展开更多
关键词 opencl 放射治疗计划系统 数字重建放射影像 光线跟踪 并行化
在线阅读 下载PDF
基于OpenCL改进四邻域算法速度的研究 被引量:1
19
作者 何刚 尹光福 邹远文 《实验科学与技术》 2012年第2期53-54,173,共3页
介绍OpenCL基本原理及其特点,分析其在生物医学图像处理中的应用,并以图像清晰度计算算法四邻域法为例进行算法并行化。计算结果表明,在PC平台进行图像清晰度计算时,基于GPU计算的OpenCL技术可以极大地提高图像处理的速度,使得普通计算... 介绍OpenCL基本原理及其特点,分析其在生物医学图像处理中的应用,并以图像清晰度计算算法四邻域法为例进行算法并行化。计算结果表明,在PC平台进行图像清晰度计算时,基于GPU计算的OpenCL技术可以极大地提高图像处理的速度,使得普通计算机上也可实现复杂的生物医学图像处理及可视化应用。 展开更多
关键词 开放计算语言opencl 图形处理器 四邻域算法
在线阅读 下载PDF
基于国产软硬件的OpenCL计算平台研究 被引量:2
20
作者 安婷玉 郭宝宝 《计算机工程与科学》 CSCD 北大核心 2019年第11期1919-1923,共5页
随着智能计算和大数据应用的发展,人们对GPU等加速部件的需求不断增长。基于国产基础软硬件平台运行显控应用做加速计算的需求,研究了OpenCL计算平台的移植和实现途径,就国产软硬件平台进行GPU计算做出了初步探索。研究的计算平台包括M... 随着智能计算和大数据应用的发展,人们对GPU等加速部件的需求不断增长。基于国产基础软硬件平台运行显控应用做加速计算的需求,研究了OpenCL计算平台的移植和实现途径,就国产软硬件平台进行GPU计算做出了初步探索。研究的计算平台包括Mesa、ROCm、Pocl和Beignet,最后给出了如何将ROCm在国产平台上移植适配的思路和解决方案。 展开更多
关键词 国产基础软硬件 opencl计算平台 移植 GPU计算
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部