期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算 被引量:3
1
作者 龙卓群 王晓瑜 王昌明 《自动化与仪表》 2017年第7期16-21,33,共7页
为提高大矩阵乘的并行计算效率和计算精度,该文提出一种基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算方法。首先,引入DCT预测编码技术,并利用其二维数据的DCT变换值及其逆变换的二维表达式,对未编码数据的预测来消除邻近数据间在... 为提高大矩阵乘的并行计算效率和计算精度,该文提出一种基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算方法。首先,引入DCT预测编码技术,并利用其二维数据的DCT变换值及其逆变换的二维表达式,对未编码数据的预测来消除邻近数据间在时间域以及空间域上的相关性,以达到对数据进行压缩的目的;其次,基于Epiphany进行OpenCL的并行变换编码处理流程设计,实现矩阵乘的并行化计算;最后,通过在常用编程模型和大矩阵乘法上的试验,显示所提方法具有更高的计算效率和精度,验证了所提并行计算方法的性能优势。 展开更多
关键词 DCT预测编码 Epiphany架构 opencl模型 矩阵乘法 并行计算
在线阅读 下载PDF
基于OpenCL并行流动影响三维共晶生长多相场模拟 被引量:1
2
作者 朱昶胜 金显 +1 位作者 冯力 肖荣振 《兰州理工大学学报》 CAS 北大核心 2019年第1期11-17,共7页
基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算... 基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算规模相同时,分别在不同的平台上取得了一定的加速比.对并行算法在一定程度上进行优化,与CPU平台上的串行算法相比优化后的并行算法在异构平台上分别达到了20.2倍和23.6倍的加速比,大大提高了计算效率.同时,以其强大的浮点计算能力获取较为准确的模拟结果,达到计算效率和可移植性的双重需求,解决了传统求解相场模型存在的计算量大、效率低、限于定性研究等问题. 展开更多
关键词 opencl KKSO模型 共晶生长 相场法 数值模拟
在线阅读 下载PDF
基于OpenCL并行的挡板对珠光体生长的相场法模拟
3
作者 朱昶胜 李玉杰 +2 位作者 马芳兰 冯力 雷鹏 《兰州理工大学学报》 CAS 北大核心 2021年第2期13-20,共8页
建立了耦合相场和溶质场的KKSO模型,采用OpenCL并行计算模拟了Fe-C合金共析生长过程,研究了不同形状和不同位置的挡板对层片状珠光体协同生长的影响.结果表明:GPU计算效率相对于串行CPU,最高可达88倍的加速比,并且随着模拟规模的增大,GP... 建立了耦合相场和溶质场的KKSO模型,采用OpenCL并行计算模拟了Fe-C合金共析生长过程,研究了不同形状和不同位置的挡板对层片状珠光体协同生长的影响.结果表明:GPU计算效率相对于串行CPU,最高可达88倍的加速比,并且随着模拟规模的增大,GPU的加速性能越高;挡板的存在直接影响珠光体的形貌演化,其使挡板下方的珠光体生长被限制,穿过挡板间隙的珠光体形貌发生改变;当挡板位于渗碳体和铁素体界面正上方时,挡板两侧渗碳体相合并为不规则形状,渗碳体相前沿碳原子不能满足其生长需求,停止生长,相邻铁素体合为一个相.因此挡板的存在可以控制珠光体的生长形貌. 展开更多
关键词 KKSO模型 opencl FE-C合金 层片状珠光体 挡板
在线阅读 下载PDF
面向OpenCL架构的GPGPU量化性能模型 被引量:3
4
作者 朱俊峰 陈钢 +1 位作者 张珂良 吴百锋 《小型微型计算机系统》 CSCD 北大核心 2013年第5期1118-1125,共8页
为了评估数据并行(DLP)应用并行化后在GPU体系结构上的执行性能,针对OpenCL架构提出一种GPGPU量化性能模型.该模型充分考虑了影响GPGPU程序性能的各种因素:全局存储器访问、局部存储器访问、计算与访存重叠、条件分支转移和同步.通过对... 为了评估数据并行(DLP)应用并行化后在GPU体系结构上的执行性能,针对OpenCL架构提出一种GPGPU量化性能模型.该模型充分考虑了影响GPGPU程序性能的各种因素:全局存储器访问、局部存储器访问、计算与访存重叠、条件分支转移和同步.通过对DLP应用的静态分析并设定具体的OpenCL执行配置,在无需编写实际GPGPU程序的前提下采用该模型即可估算出DLP应用在GPU体系结构上的执行时间.在AMD RadeonTMHD 5870 GPU和NVIDIA GeForceTMGTX 280 GPU上对矩阵乘法与并行前缀和的分析与实验结果表明:该性能模型能够相对准确地评估DLP应用并行化后的执行时间. 展开更多
关键词 GPU GPGPU 数据并行 opencl 性能模型
在线阅读 下载PDF
形状模型分割中形状对齐GPU加速的OpenCL实现
5
作者 刘毅飞 周燕红 《信息技术》 2016年第3期28-30,40,共4页
基于形状模型的分割算法为了消除非形状因素的干扰,需要不断地进行形状对齐,提高形状对齐算法的运算速度可以减少基于形状模型分割时间。文中采用树形并行求和方法对形状对齐算法中的串行累加和进行并行处理,并采用OpenCL编程模型在GPU... 基于形状模型的分割算法为了消除非形状因素的干扰,需要不断地进行形状对齐,提高形状对齐算法的运算速度可以减少基于形状模型分割时间。文中采用树形并行求和方法对形状对齐算法中的串行累加和进行并行处理,并采用OpenCL编程模型在GPU中实现了形状对齐算法,实验结果表明采用GPU提高了形状对齐的运算速度,并且随着表示形状模型的形状点数的增加,性能提高越明显。 展开更多
关键词 形状模型 形状对齐 GPU opencl
在线阅读 下载PDF
基于Chan-Vese模型的面向多核CPU和GPU的人脸轮廓提取并行算法 被引量:1
6
作者 王丽娜 史晓华 《计算机应用》 CSCD 北大核心 2014年第11期3121-3125,共5页
针对人脸轮廓提取中Chan-Vese模型计算量大、分割速度缓慢等问题,采用开放计算语言(OpenCL)并行编程模型,提出了一种基于图形处理器(GPU)和多核CPU加速的并行算法。该算法首先将模型的框架进行重构,消除模型中的数据依赖关系;然后,利用... 针对人脸轮廓提取中Chan-Vese模型计算量大、分割速度缓慢等问题,采用开放计算语言(OpenCL)并行编程模型,提出了一种基于图形处理器(GPU)和多核CPU加速的并行算法。该算法首先将模型的框架进行重构,消除模型中的数据依赖关系;然后,利用开放计算语言对算法进行并行化以及相应的优化。实验结果表明,与单线程算法相比,在NVIDIA GTX660和AMD FX-8530下达到了较高的加速比。 展开更多
关键词 CHAN-VESE模型 并行 开放计算语言 人脸轮廓提取
在线阅读 下载PDF
基于高性能计算的雷达信号处理研究综述 被引量:17
7
作者 耿昭谦 朱虎明 +2 位作者 李旭明 陈梅青 杨贵鹏 《电子科技》 2021年第9期1-6,共6页
随着软件定义雷达技术的发展和信号处理算法日趋复杂,以多核处理器和图形处理器等为代表的高性能计算技术在雷达系统中得到了更多的应用。文中重点介绍了高性能计算硬件系统最新的技术进展,对比分析了并行计算软件框架CUDA、OpenCL、Ope... 随着软件定义雷达技术的发展和信号处理算法日趋复杂,以多核处理器和图形处理器等为代表的高性能计算技术在雷达系统中得到了更多的应用。文中重点介绍了高性能计算硬件系统最新的技术进展,对比分析了并行计算软件框架CUDA、OpenCL、OpenMP、MPI和Pthread的技术特点,并利用多线程流水线技术设计了基于CPU的并行雷达信号处理算法,探讨了高性能计算在雷达信号处理中的应用技术发展趋势。 展开更多
关键词 雷达信号处理 高性能计算 并行计算 图形处理器 加速器 并行编程模型 开放计算语言 流水线
在线阅读 下载PDF
基于均匀尺度不变局部三元模式的背景建模及其在Intel HD显卡上的并行实现 被引量:1
8
作者 林泽诚 朱建清 +1 位作者 廖胜才 李子青 《计算机应用》 CSCD 北大核心 2015年第8期2274-2279,共6页
针对尺度不变局部三元模式(SILTP)背景建模算法复杂度较高、计算速度较慢,不利于高速视频处理的问题,提出了一种新的均匀尺度不变局部三元模式(USILTP)背景建模并行算法。首先,通过规范SILTP编码的跳变次数得到USILTP纹理特征,实现了SI... 针对尺度不变局部三元模式(SILTP)背景建模算法复杂度较高、计算速度较慢,不利于高速视频处理的问题,提出了一种新的均匀尺度不变局部三元模式(USILTP)背景建模并行算法。首先,通过规范SILTP编码的跳变次数得到USILTP纹理特征,实现了SILTP特征降维;其次,设计并实现基于英特尔核芯显卡(Intel HD)及开放式计算语言(Open CL)的USILTP背景建模并行算法,进一步加速了USILTP背景建模算法;最后,通过融合多颜色通道模型结果,优化了USILTP背景建模算法的前景效果。实验结果表明,在Intel HD 4600上处理320×240分辨率的视频,该算法将速度提升至98 frame/s,比SILTP背景建模算法快4倍;在前景检测方面,该算法在背景公开数据库上的性能比SILTP背景建模算法提升了2.1%。 展开更多
关键词 尺度不变局部三元模式 英特尔核芯显卡 开放式计算语言 背景建模
在线阅读 下载PDF
一种CPU-GPU协同计算的三维地形实时渲染算法 被引量:9
9
作者 郭向坤 林浒 +1 位作者 刘继申 王鸿亮 《小型微型计算机系统》 CSCD 北大核心 2018年第4期825-829,共5页
提出一种基于Open CL的CPU-GPU协同计算的大规模地形实时渲染算法,该算法侧重于把批LOD模型的构建从CPU移植到GPU.CPU主要负责把外存中的数据块实时调度到内存中,并把相应的地形块载入GPU中的显存.GPU负责利用Open CL平台并行构建LOD模... 提出一种基于Open CL的CPU-GPU协同计算的大规模地形实时渲染算法,该算法侧重于把批LOD模型的构建从CPU移植到GPU.CPU主要负责把外存中的数据块实时调度到内存中,并把相应的地形块载入GPU中的显存.GPU负责利用Open CL平台并行构建LOD模型.为了避免相邻LOD模型出现裂缝,利用地形块的裂缝检测和删除顶点的方法消除裂缝;为了解决两个LOD层次的转换过程中出现地表突跳现象,采用morphing方法实现地形的平滑过渡.实验结果表明,该算法将大量的几何计算移植到GPU上并行计算,降低了CPU的计算负载,提高了LOD模型的构建效率,加快了场景的渲染速度. 展开更多
关键词 opencl CPU—GPU协同计算 LOD模型 平滑过渡
在线阅读 下载PDF
UPPA:面向异构众核系统的统一并行编程架构 被引量:5
10
作者 吴树森 董小社 +2 位作者 王宇菲 王龙翔 朱正东 《计算机学报》 EI CSCD 北大核心 2020年第6期990-1009,共20页
主流异构并行编程方法如CUDA和OpenCL,其编程抽象层次低,编程接口靠近底层,无法为用户屏蔽底层硬件和运行时细节,导致编程逻辑复杂,编程困难易错.同时应用性能绑定于底层运行时环境,在硬件架构变化时需要根据硬件特征进行针对性改动和优... 主流异构并行编程方法如CUDA和OpenCL,其编程抽象层次低,编程接口靠近底层,无法为用户屏蔽底层硬件和运行时细节,导致编程逻辑复杂,编程困难易错.同时应用性能绑定于底层运行时环境,在硬件架构变化时需要根据硬件特征进行针对性改动和优化,无法保证上层应用的统一.为了简化异构并行编程,提高编程效率,实现上层应用的统一和跨平台,本文提出了一种面向异构众核系统的高层统一并行编程架构UPPA(Unified Parallel Programming Architecture).架构中首先提出了数据关联计算编程模型,实现了不同层级不同模式并行性的统一描述,简化了异构并行编程逻辑,提供了高层统一的并行编程抽象;继而设计了数据关联计算描述语言为用户提供简便易用的统一编程接口,通过高层语义结构保留了应用的并行特征,可以指导编译和运行时系统实现向不同硬件架构的自动映射,保证了上层应用的统一,并采用C语言兼容的语法提供针对高层语义结构的语言扩展,保证编程接口的易学易用;最后提供了基于OpenCL的编译和运行时原型系统,以OpenCL为中间语言实现了高层应用在不同异构系统上的执行,提供了良好的跨平台特性.我们使用数据关联计算描述语言对Parboil和Rodinia测试集中的多个测试用例进行了重构,并在NVIDIA GPU和Intel MIC两种异构平台上进行了验证测试.每个测试用例重构的代码量与测试集提供的串行代码相当,仅为测试集OpenCL代码的13%~64%,有效地降低了异构编程的工作量.在编译和运行时系统的支持下,重构代码无需改动就可以在两种平台上执行.相比于人工编写且经过优化的测试集OpenCL代码,重构代码在GPU和MIC两种平台下分别能够达到其性能的91%~100%和76%~98%,这表明了本文方法的有效性和编译与运行时系统的高效. 展开更多
关键词 异构并行编程 数据关联计算 并行编程模型 统一编程架构 opencl
在线阅读 下载PDF
基于GPU的目标识别算法的并行化研究
11
作者 刘宝平 陈庆奎 +1 位作者 李金静 刘伯成 《太原理工大学学报》 CAS 北大核心 2015年第6期713-718 726,726,共7页
针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效... 针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效果的前提下,并行化的算法的执行效率相比于OpenCV中的CPU或GPU实现有明显的提高;通过对目标识别算法的并行化,结合其他算法,使得这类复杂算法能够在一些需要实时监测的工程领域中得到应用。 展开更多
关键词 梯度方向直方图 可变形部件模型 图形处理器 协同计算 统一计算设备架构 开放运算语言
在线阅读 下载PDF
基于图形处理器的可变形部件模型算法的并行化
12
作者 刘宝平 陈庆奎 +1 位作者 李金静 刘伯成 《计算机应用》 CSCD 北大核心 2015年第11期3075-3078,3129,共5页
目前目标识别领域,在人体检测中精确度最高的算法就是可变形部件模型(DPM)算法,针对DPM算法计算量大的缺点,提出了一种基于图形处理器(GPU)的并行化解决方法。采用GPU编程模型OpenCL,对DPM算法的整个算法的实现细节采用了并行化的思想... 目前目标识别领域,在人体检测中精确度最高的算法就是可变形部件模型(DPM)算法,针对DPM算法计算量大的缺点,提出了一种基于图形处理器(GPU)的并行化解决方法。采用GPU编程模型OpenCL,对DPM算法的整个算法的实现细节采用了并行化的思想进行重新设计实现,优化算法实现的内存模型和线程分配。通过对Open CV库和采用GPU重新实现的程序进行对比,在保证了检测效果的前提下,使得算法的执行效率有了近8倍的提高。 展开更多
关键词 可变形部件模型 图形处理器 opencl 人体检测
在线阅读 下载PDF
基于GPU的异构并行编程模型分析与研究
13
作者 包达尔罕 高文炜 +2 位作者 郑欣 冯路 杨金颖 《内蒙古民族大学学报(自然科学版)》 2020年第1期42-46,共5页
近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已经被广泛使用和研究.从异构并行编程模型与编程框架两个角度总结了异构并行编程模型的最新研究成果.异构并行编程为异构系统与上层应用之间搭建桥梁,... 近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已经被广泛使用和研究.从异构并行编程模型与编程框架两个角度总结了异构并行编程模型的最新研究成果.异构并行编程为异构系统与上层应用之间搭建桥梁,为当前高速发展的并行计算提供了技术方案支持.在主流的并行编程模型中,CUDA与OpenCL是广泛被人们所青睐的两种方案,并且它们能够提供成熟且稳定的技术支持.文章以CUDA和OpenCL的特征为出发点,研究了异构并行编程模型的核心技术. 展开更多
关键词 CUDA opencl 编程模型 编程框架
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部