期刊文献+
共找到487篇文章
< 1 2 25 >
每页显示 20 50 100
SIMD-to-RVV动态二进制翻译中的跨架构编程模型适配优化
1
作者 赖远明 李亚龙 +3 位作者 胡瀚之 谢梦瑶 王喆 武成岗 《计算机研究与发展》 北大核心 2025年第6期1469-1491,共23页
RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大... RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大障碍之一.开发了面向RISC-V的进程级动态二进制翻译(DBT)器RVBT,用于将成熟的x86软件生态移植到RISC-V平台,加速RISC-V在HPC领域的应用进程.针对HPC程序广泛依赖SIMD指令的特性,聚焦于解决SIMD与RVV间显著的编程模型差异导致的翻译性能瓶颈问题,提出了3项创新的优化方案.x86SIMD将数据类型硬编码于操作码,而RVV需动态配置vtype和掩码寄存器,这导致直接翻译产生了大量冗余操作,严重拉低了翻译运行的效率.通过充分利用程序数据类型的局部性,优化方案可删除跨架构适配编程模型导致的冗余设置,混合使用浮点扩展和向量扩展翻译SIMD指令并按需同步数据,大幅提升了SIMD指令的翻译运行效率.3项优化方案具备通用性,也适用于ARM平台的SIMD到RVV的翻译.实验表明,以SPECCPU2006作为测试集,优化方案对csrr,vsetvl,vsetvli指令的平均动态消除率分别达到了100%,100%和56.31%,在浮点测试集上,掩码设置操作的平均动态消除率达到了74.66%,数据的平均动态同步率为67.35%.优化后的RVBT在整点和浮点测试集上的平均运行效率达到了本地执行的47.39%和40.06%,相比优化前的加速比分别为1.21和8.31,并远超QEMU18.84%和4.81%,展现出了应用于部分HPC场景的潜力. 展开更多
关键词 二进制翻译 RISC-V向量扩展 x86simd 跨架构编程模型适配 浮点计算 冗余设置消除 混合翻译
在线阅读 下载PDF
面向申威平台的SIMD编程接口设计与研究
2
作者 姜军 顾晓阳 +2 位作者 徐坤坤 吕勇帅 黄亮明 《计算机科学》 北大核心 2025年第6期66-73,共8页
在国产申威处理器中,申威GCC编译器在对程序进行向量化时,使用自动向量化和内嵌汇编的方式很难对某些复杂的程序进行向量化,阻碍了国产申威处理器的性能发挥。针对部分程序不能向量化的问题,在申威GCC编译器中进行SIMD编程接口的设计与... 在国产申威处理器中,申威GCC编译器在对程序进行向量化时,使用自动向量化和内嵌汇编的方式很难对某些复杂的程序进行向量化,阻碍了国产申威处理器的性能发挥。针对部分程序不能向量化的问题,在申威GCC编译器中进行SIMD编程接口的设计与研究。在申威向量指令的基础上,通过在申威GCC编译器中添加向量机器模式和向量数据类型,编译器可以对向量参数类型进行识别。根据向量指令的类型和复杂度,分别使用内建函数扩展、操作符扩展和高级语言扩展3种方式实现SIMD编程接口函数。在后端添加不同的指令模板,使接口函数可以匹配相应的指令模板,生成对应向量指令的汇编代码。通过对FFTW库和Hyperscan库进行测试和分析,相比优化前的程序,使用SIMD编程接口进行向量化后,FFTW中Double类和Float类型程序的平均加速比分别为1.97和2.13,Hyperscan的平均加速比为2.94。 展开更多
关键词 向量化 simd编程接口 向量指令 内建函数 指令模板
在线阅读 下载PDF
自适应的申威SIMD指令优化内存连续读写方法
3
作者 毛旻凯 顾雨晨 +1 位作者 郜晨 崔巍 《信息技术与信息化》 2025年第8期145-151,共7页
提升高性能处理器性能是现代计算领域的关键任务之一,申威处理器以其显著的运算能力和技术创新受到了研究人员的广泛关注。当前申威处理器在执行大数据量连续内存读写时存在资源浪费的问题。为了解决上述问题,文章提出了一种基于申威架... 提升高性能处理器性能是现代计算领域的关键任务之一,申威处理器以其显著的运算能力和技术创新受到了研究人员的广泛关注。当前申威处理器在执行大数据量连续内存读写时存在资源浪费的问题。为了解决上述问题,文章提出了一种基于申威架构的SIMD指令优化内存连续读写方法。由于SIMD指令的实施受到不对界异常等多种技术障碍的限制,进一步提出了一种自适应选择多种普通访存指令和SIMD访存指令的方法,以提高内存访问效率。在此基础上设计了应对不同响应条件与操作功能的各读写指令,利用SIMD指令访存指令数据较宽的特点,在内核内存读写的memcpy函数上设计了SIMD指令的实现方法,从而完成整个算法实例。通过MBW测试内存读写性能,在内存拷贝和内存块拷贝测试项中,分别获得了449.4%和535.5%的性能提升。 展开更多
关键词 优化内存连续读写 自适应方法 simd指令 内存拷贝
在线阅读 下载PDF
基于SIMD的单比特频数和块内频数检测快速实现
4
作者 罗影 康红娟 +2 位作者 潘文伦 杨先伟 黎珂 《通信技术》 2025年第7期807-816,共10页
在密码学领域,随机序列的生成与检测是确保安全性的关键环节,其中随机性的验证通常依赖于概率统计方法。随机性检测算法中的单比特频数检测和块内频数检测被视为随机性检测的核心组成部分。为了提升这两个算法的执行效率,在综合前人优... 在密码学领域,随机序列的生成与检测是确保安全性的关键环节,其中随机性的验证通常依赖于概率统计方法。随机性检测算法中的单比特频数检测和块内频数检测被视为随机性检测的核心组成部分。为了提升这两个算法的执行效率,在综合前人优化成果的基础上,提出了一种结合单指令多数据流技术的256/512比特处理能力和汉明重量指令的全面优化方案,以显著提高检测性能。实验结果表明,当使用AVX512指令时,单比特频数检测性能分别达到了查表法的17.541倍和Fast NIST STS的26.871倍,块内频数检测性能也分别提升至查表法的11.349倍和Fast NIST STS的17.311倍。所提方案对于保障各种密码应用的安全性具有深远意义。 展开更多
关键词 二元序列 随机性检测 单比特频数检测 块内频数检测 单指令多数据流 汉明重量
在线阅读 下载PDF
面向SIMD指令集的SM4算法比特切片优化 被引量:3
5
作者 王闯 丁滟 +1 位作者 黄辰林 宋连涛 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期2097-2109,共13页
SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题.... SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题.比特切片技术通过对输入数据重组实现了并行化高效分组密码处理,可以抵御针对缓存的侧信道攻击.然而现有切片分组密码研究对硬件平台相关性强、处理器架构支持单一,并且并行化处理流水启动较慢,面向小规模数据的加解密操作难以充分发挥单指令多数据(single instruction multiple data,SIMD)等先进指令集的优势.针对上述问题,首先提出了一种跨平台的通用切片分组密码算法模型,支持面向不同的处理器指令字长提供一致化的通用数据切片方法.在此基础上,提出了一种面向SIMD指令集的细粒度切片并行处理SM4优化算法,通过细粒度明文切片重组与线性处理优化有效缩短算法启动时间.实验结果表明,相比通用SM4算法,优化的SM4比特切片算法加密速率最高可达438.0 MBps,加密每字节所需的时钟周期最快高达7.0 CPB(cycle/B),加密性能平均提升80.4%~430.3%. 展开更多
关键词 SM4算法 性能优化 比特切片 侧信道攻击 simd指令集
在线阅读 下载PDF
SIMD指令及其在C++编程语言中的应用 被引量:2
6
作者 张小丹 杨严硕 +2 位作者 胡婉靖 王亚峰 肖春杨 《科技视界》 2024年第8期15-17,共3页
单指令多数据流指令是一种非常有效的单线程加速方法,通过使用SIMD指令集,计算机可以同时对多个数据执行相同的运算,从而实现程序加速。针对SIMD的具体应用,文章结合目前常用的C++语言进行加速过程讲解与代码编程,介绍了SIMD相关基本概... 单指令多数据流指令是一种非常有效的单线程加速方法,通过使用SIMD指令集,计算机可以同时对多个数据执行相同的运算,从而实现程序加速。针对SIMD的具体应用,文章结合目前常用的C++语言进行加速过程讲解与代码编程,介绍了SIMD相关基本概念和指令集,然后基于C++编程语言测试SIMD的加速性能。实验结果表明,SIMD在单线程情况下可以显著加快代码运行速度。 展开更多
关键词 simd指令集 程序加速 单线程加速 程序优化
在线阅读 下载PDF
基于QEMU的SIMD指令替换浮点指令框架
7
作者 刘登峰 李东亚 +2 位作者 柴志雷 周浩杰 丁海峰 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第8期70-77,共8页
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是... 现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%. 展开更多
关键词 simd QEMU 动态二进制翻译 浮点计算
在线阅读 下载PDF
基于SIMD技术的图像卷积处理器体系结构研究 被引量:5
8
作者 佟凤辉 樊晓桠 +1 位作者 王党辉 辛明瑞 《微电子学与计算机》 CSCD 北大核心 2003年第3期13-16,20,共5页
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出... SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了3×3、5×5、7×7、9×9、11×11、13×13和15×15卷积模板的图像卷积运算的变换而无需另行更改硬件电路的特点。最后,对这个图像卷积处理器体系结构的性能进行了缜密的分析。 展开更多
关键词 simd技术 图像卷积处理器 体系结构 图像处理 计算机 simd处理机 数据缓存系统 对准电路
在线阅读 下载PDF
基于SIMD的AVS3并行率失真优化量化算法 被引量:2
9
作者 唐毅欣 黄晓峰 +3 位作者 唐然 周洋 崔燕 殷海兵 《电信科学》 北大核心 2024年第6期114-126,共13页
针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple da... 针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple data,SIMD)的并行RDOQ算法。首先,在最优系数决策(optimal coefficient decision,OCD)阶段,通过优化,仅保留扫描线内的依赖关系。然后,在最后一个非零位置决策(last non-zero position decision,LNPD)阶段,基于分治策略,通过将Zig-Zag扫描线分解成多个独立扫描线,实现每条扫描线上最优系数位置的并行计算。最后,采用SIMD指令进行并行加速,以提高整个率失真优化量化的计算效率。实验结果表明,该算法在AI配置下,可以降低29.46%的编码时间,而BD-Rate仅损失0.25%。 展开更多
关键词 AVS3 率失真优化量化 单指令多数据 并行加速
在线阅读 下载PDF
基于申威SIMD指令的H.264编码优化 被引量:2
10
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令流多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
在线阅读 下载PDF
基于SIMD的VSIPL三角函数向量化技术研究
11
作者 闫妍 李典 +1 位作者 李康 周磊 《航空计算技术》 2024年第5期105-109,共5页
为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上... 为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上对VSIPL向量三角函数接口进行性能测试。测试结果显示该方法相比循环遍历的方式具有2倍以上的加速效果,表明方法能够显著提高三角函数的计算效率,在高性能、可移植嵌入式信号处理软件领域具有一定的工程价值。 展开更多
关键词 嵌入式信号处理 向量化技术 向量三角函数 单指令多数据 向量、信号与图像处理函数库
在线阅读 下载PDF
SIMD自动向量化编译优化概述 被引量:36
12
作者 高伟 赵荣彩 +2 位作者 韩林 庞建民 丁锐 《软件学报》 EI CSCD 北大核心 2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 展开更多
关键词 simd扩展部件 自动向量化 数据级并行 编译优化
在线阅读 下载PDF
SIMD技术与向量数学库研究 被引量:10
13
作者 解庆春 张云泉 +2 位作者 王可 李焱 许亚武 《计算机科学》 CSCD 北大核心 2011年第7期298-301,共4页
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell ... 首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。 展开更多
关键词 向量化 SSE MMX 3DNow! simd
在线阅读 下载PDF
基于SIMD机制的并行排序算法 被引量:4
14
作者 明玉瑞 李思泽 《计算机系统应用》 2009年第11期87-90,共4页
探讨了如何利用现代CPU架构中的SIMD机制提高程序性能的途径,以冒泡排序为例设计了并行算法与并进行了代码实现,最后用实验结果论证了其可行性。
关键词 simd机制 冒泡排序 并行算法 simd汇编技术 优化
在线阅读 下载PDF
龙芯3B的SIMD编译优化及分析 被引量:9
15
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B... 根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 展开更多
关键词 编译优化 simd 自动向量化 Builtin 龙芯3B
在线阅读 下载PDF
向量并行度指导的循环SIMD向量化方法 被引量:5
16
作者 高伟 韩林 +2 位作者 赵荣彩 徐金龙 陈超然 《软件学报》 EI CSCD 北大核心 2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%. 展开更多
关键词 simd扩展部件 向量并行度 Loop-aware 循环展开
在线阅读 下载PDF
基于SIMD技术的锥束ART算法快速并行图像重建 被引量:6
17
作者 张顺利 张定华 +1 位作者 李明君 吉军 《仪器仪表学报》 EI CAS CSCD 北大核心 2010年第3期630-634,共5页
ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三... ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三维射线的对称性提出一种权因子和体素索引的并行计算方法,通过一次计算可同时得到两条射线的权因子和体素索引;然后采用Intel处理器的单指令多数据(single instruction multiple data,SIMD)技术,一次性加载多个打包数据,利用SSE(streamingSIMD extension)指令实现了投影、计算图像校正和反投影的并行运算。实验结果表明本文提出的方法非常有效,在保证图像重建精度的同时取得了约1.5倍的重建加速比。 展开更多
关键词 锥束CT 图像重建 ART算法 simd技术
在线阅读 下载PDF
基于Intel SIMD指令的二维FFT优化算法 被引量:11
18
作者 李成军 周卫峰 朱重光 《计算机工程与应用》 CSCD 北大核心 2007年第5期41-44,共4页
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法... 在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。 展开更多
关键词 大数据量图像处理 二维FFT simd SSE/SSE3
在线阅读 下载PDF
一种改进的控制流SIMD向量化方法 被引量:3
19
作者 高伟 李颖颖 +2 位作者 孙回回 李雁冰 赵荣彩 《软件学报》 EI CSCD 北大核心 2017年第8期2046-2063,共18页
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含... SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%. 展开更多
关键词 simd扩展部件 控制依赖 数据依赖 循环分布
在线阅读 下载PDF
面向非多媒体程序的SIMD向量化算法的研究及改进 被引量:6
20
作者 李玉祥 施慧 陈莉 《小型微型计算机系统》 CSCD 北大核心 2009年第10期1927-1935,共9页
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点... 利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化. 展开更多
关键词 向量化 数据重组 simd 外层循环的向量化
在线阅读 下载PDF
上一页 1 2 25 下一页 到第
使用帮助 返回顶部