期刊文献+
共找到490篇文章
< 1 2 25 >
每页显示 20 50 100
SIMD-to-RVV动态二进制翻译中的跨架构编程模型适配优化
1
作者 赖远明 李亚龙 +3 位作者 胡瀚之 谢梦瑶 王喆 武成岗 《计算机研究与发展》 北大核心 2025年第6期1469-1491,共23页
RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大... RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大障碍之一.开发了面向RISC-V的进程级动态二进制翻译(DBT)器RVBT,用于将成熟的x86软件生态移植到RISC-V平台,加速RISC-V在HPC领域的应用进程.针对HPC程序广泛依赖SIMD指令的特性,聚焦于解决SIMD与RVV间显著的编程模型差异导致的翻译性能瓶颈问题,提出了3项创新的优化方案.x86SIMD将数据类型硬编码于操作码,而RVV需动态配置vtype和掩码寄存器,这导致直接翻译产生了大量冗余操作,严重拉低了翻译运行的效率.通过充分利用程序数据类型的局部性,优化方案可删除跨架构适配编程模型导致的冗余设置,混合使用浮点扩展和向量扩展翻译SIMD指令并按需同步数据,大幅提升了SIMD指令的翻译运行效率.3项优化方案具备通用性,也适用于ARM平台的SIMD到RVV的翻译.实验表明,以SPECCPU2006作为测试集,优化方案对csrr,vsetvl,vsetvli指令的平均动态消除率分别达到了100%,100%和56.31%,在浮点测试集上,掩码设置操作的平均动态消除率达到了74.66%,数据的平均动态同步率为67.35%.优化后的RVBT在整点和浮点测试集上的平均运行效率达到了本地执行的47.39%和40.06%,相比优化前的加速比分别为1.21和8.31,并远超QEMU18.84%和4.81%,展现出了应用于部分HPC场景的潜力. 展开更多
关键词 二进制翻译 RISC-V向量扩展 x86simd 跨架构编程模型适配 浮点计算 冗余设置消除 混合翻译
在线阅读 下载PDF
一种面向SIMD的控制流投机向量化方法
2
作者 韩林 吴若枫 +3 位作者 刘浩浩 聂凯 李浩然 陈梦尧 《计算机科学》 北大核心 2025年第S2期768-774,共7页
SIMD自动向量化是充分发挥处理器计算能力、提升应用程序性能的重要手段,但是控制流的存在给自动向量化带来了极大的挑战。传统的控制流向量化方法依赖于IF转换技术,但此技术也带来了代码执行效率低的问题。因此,为了缓解这一问题,提出... SIMD自动向量化是充分发挥处理器计算能力、提升应用程序性能的重要手段,但是控制流的存在给自动向量化带来了极大的挑战。传统的控制流向量化方法依赖于IF转换技术,但此技术也带来了代码执行效率低的问题。因此,为了缓解这一问题,提出了一种面向SIMD的控制流投机向量化方法。该方法在向量代码中检测谓词相关区域,使用代价模型在区域内引导实施针对分支一致的投机变换,在运行时消除无用的谓词执行,从而消除冗余计算导致的代码效率低的问题。该方法基于当前主流的GCC10.3编译器实现,实验选取业界公认的SPEC CPU 2006测试集课题和测试向量化能力的TSVC测试集,结果显示SPEC2006测试集481课题在使用该方法后性能提升10%,TSVC_2测试部分典型用例的性能提升在20%以上。在标准测试集上进行,结果表明,此方法能够有效提升GCC编译器的控制流向量化代码的执行效率。 展开更多
关键词 simd GCC 控制流 代价模型 投机向量化
在线阅读 下载PDF
面向申威平台的SIMD编程接口设计与研究
3
作者 姜军 顾晓阳 +2 位作者 徐坤坤 吕勇帅 黄亮明 《计算机科学》 北大核心 2025年第6期66-73,共8页
在国产申威处理器中,申威GCC编译器在对程序进行向量化时,使用自动向量化和内嵌汇编的方式很难对某些复杂的程序进行向量化,阻碍了国产申威处理器的性能发挥。针对部分程序不能向量化的问题,在申威GCC编译器中进行SIMD编程接口的设计与... 在国产申威处理器中,申威GCC编译器在对程序进行向量化时,使用自动向量化和内嵌汇编的方式很难对某些复杂的程序进行向量化,阻碍了国产申威处理器的性能发挥。针对部分程序不能向量化的问题,在申威GCC编译器中进行SIMD编程接口的设计与研究。在申威向量指令的基础上,通过在申威GCC编译器中添加向量机器模式和向量数据类型,编译器可以对向量参数类型进行识别。根据向量指令的类型和复杂度,分别使用内建函数扩展、操作符扩展和高级语言扩展3种方式实现SIMD编程接口函数。在后端添加不同的指令模板,使接口函数可以匹配相应的指令模板,生成对应向量指令的汇编代码。通过对FFTW库和Hyperscan库进行测试和分析,相比优化前的程序,使用SIMD编程接口进行向量化后,FFTW中Double类和Float类型程序的平均加速比分别为1.97和2.13,Hyperscan的平均加速比为2.94。 展开更多
关键词 向量化 simd编程接口 向量指令 内建函数 指令模板
在线阅读 下载PDF
基于SIMD技术的图像卷积处理器体系结构研究 被引量:5
4
作者 佟凤辉 樊晓桠 +1 位作者 王党辉 辛明瑞 《微电子学与计算机》 CSCD 北大核心 2003年第3期13-16,20,共5页
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出... SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了3×3、5×5、7×7、9×9、11×11、13×13和15×15卷积模板的图像卷积运算的变换而无需另行更改硬件电路的特点。最后,对这个图像卷积处理器体系结构的性能进行了缜密的分析。 展开更多
关键词 simd技术 图像卷积处理器 体系结构 图像处理 计算机 simd处理机 数据缓存系统 对准电路
在线阅读 下载PDF
基于SIMD并行的量子切分模拟加速优化
5
作者 王莺时 邵鹏宇 蒋金虎 《电子技术应用》 2025年第12期1-7,共7页
量子计算是当前计算领域备受瞩目的尖端课题,量子切分是为了突破当前的硬件限制、提高可用量子比特数而提出的一种极具潜力的计算框架。在使用经典计算机对其进行的研究与验证中,对子电路的量子模拟是最重要的算力瓶颈环节。为了提高量... 量子计算是当前计算领域备受瞩目的尖端课题,量子切分是为了突破当前的硬件限制、提高可用量子比特数而提出的一种极具潜力的计算框架。在使用经典计算机对其进行的研究与验证中,对子电路的量子模拟是最重要的算力瓶颈环节。为了提高量子模拟的效率,本研究发现量子模拟框架Qiskit Aer中关键的矩阵计算环节所使用的朴素线性代数方法存在使用SIMD进行优化的空间。基于此,本研究使用AVX2指令优化了矩阵计算部分的代码,并通过容器化方法进行控制变量测试。SIMD优化方法成功地对Qiskit Aer的量子模拟效率赋予了显著提升,经过验证,此提升是稳定、可靠、可复现的,并且不会对量子模拟以外的无关环节引入未知影响。本文的研究成果提高了量子切分模拟的效率,为量子切分的研究提供了更快速的工具,为Qiskit框架的进一步优化提供了可以借鉴的经验与范式。 展开更多
关键词 量子计算 量子切分 量子模拟 simd Qiskit
在线阅读 下载PDF
自适应的申威SIMD指令优化内存连续读写方法
6
作者 毛旻凯 顾雨晨 +1 位作者 郜晨 崔巍 《信息技术与信息化》 2025年第8期145-151,共7页
提升高性能处理器性能是现代计算领域的关键任务之一,申威处理器以其显著的运算能力和技术创新受到了研究人员的广泛关注。当前申威处理器在执行大数据量连续内存读写时存在资源浪费的问题。为了解决上述问题,文章提出了一种基于申威架... 提升高性能处理器性能是现代计算领域的关键任务之一,申威处理器以其显著的运算能力和技术创新受到了研究人员的广泛关注。当前申威处理器在执行大数据量连续内存读写时存在资源浪费的问题。为了解决上述问题,文章提出了一种基于申威架构的SIMD指令优化内存连续读写方法。由于SIMD指令的实施受到不对界异常等多种技术障碍的限制,进一步提出了一种自适应选择多种普通访存指令和SIMD访存指令的方法,以提高内存访问效率。在此基础上设计了应对不同响应条件与操作功能的各读写指令,利用SIMD指令访存指令数据较宽的特点,在内核内存读写的memcpy函数上设计了SIMD指令的实现方法,从而完成整个算法实例。通过MBW测试内存读写性能,在内存拷贝和内存块拷贝测试项中,分别获得了449.4%和535.5%的性能提升。 展开更多
关键词 优化内存连续读写 自适应方法 simd指令 内存拷贝
在线阅读 下载PDF
SIMD自动向量化编译优化概述 被引量:36
7
作者 高伟 赵荣彩 +2 位作者 韩林 庞建民 丁锐 《软件学报》 EI CSCD 北大核心 2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 展开更多
关键词 simd扩展部件 自动向量化 数据级并行 编译优化
在线阅读 下载PDF
基于SIMD的单比特频数和块内频数检测快速实现
8
作者 罗影 康红娟 +2 位作者 潘文伦 杨先伟 黎珂 《通信技术》 2025年第7期807-816,共10页
在密码学领域,随机序列的生成与检测是确保安全性的关键环节,其中随机性的验证通常依赖于概率统计方法。随机性检测算法中的单比特频数检测和块内频数检测被视为随机性检测的核心组成部分。为了提升这两个算法的执行效率,在综合前人优... 在密码学领域,随机序列的生成与检测是确保安全性的关键环节,其中随机性的验证通常依赖于概率统计方法。随机性检测算法中的单比特频数检测和块内频数检测被视为随机性检测的核心组成部分。为了提升这两个算法的执行效率,在综合前人优化成果的基础上,提出了一种结合单指令多数据流技术的256/512比特处理能力和汉明重量指令的全面优化方案,以显著提高检测性能。实验结果表明,当使用AVX512指令时,单比特频数检测性能分别达到了查表法的17.541倍和Fast NIST STS的26.871倍,块内频数检测性能也分别提升至查表法的11.349倍和Fast NIST STS的17.311倍。所提方案对于保障各种密码应用的安全性具有深远意义。 展开更多
关键词 二元序列 随机性检测 单比特频数检测 块内频数检测 单指令多数据流 汉明重量
在线阅读 下载PDF
SIMD技术与向量数学库研究 被引量:10
9
作者 解庆春 张云泉 +2 位作者 王可 李焱 许亚武 《计算机科学》 CSCD 北大核心 2011年第7期298-301,共4页
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell ... 首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。 展开更多
关键词 向量化 SSE MMX 3DNow! simd
在线阅读 下载PDF
基于SIMD机制的并行排序算法 被引量:4
10
作者 明玉瑞 李思泽 《计算机系统应用》 2009年第11期87-90,共4页
探讨了如何利用现代CPU架构中的SIMD机制提高程序性能的途径,以冒泡排序为例设计了并行算法与并进行了代码实现,最后用实验结果论证了其可行性。
关键词 simd机制 冒泡排序 并行算法 simd汇编技术 优化
在线阅读 下载PDF
龙芯3B的SIMD编译优化及分析 被引量:9
11
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B... 根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 展开更多
关键词 编译优化 simd 自动向量化 Builtin 龙芯3B
在线阅读 下载PDF
向量并行度指导的循环SIMD向量化方法 被引量:5
12
作者 高伟 韩林 +2 位作者 赵荣彩 徐金龙 陈超然 《软件学报》 EI CSCD 北大核心 2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%. 展开更多
关键词 simd扩展部件 向量并行度 Loop-aware 循环展开
在线阅读 下载PDF
基于SIMD技术的锥束ART算法快速并行图像重建 被引量:6
13
作者 张顺利 张定华 +1 位作者 李明君 吉军 《仪器仪表学报》 EI CAS CSCD 北大核心 2010年第3期630-634,共5页
ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三... ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三维射线的对称性提出一种权因子和体素索引的并行计算方法,通过一次计算可同时得到两条射线的权因子和体素索引;然后采用Intel处理器的单指令多数据(single instruction multiple data,SIMD)技术,一次性加载多个打包数据,利用SSE(streamingSIMD extension)指令实现了投影、计算图像校正和反投影的并行运算。实验结果表明本文提出的方法非常有效,在保证图像重建精度的同时取得了约1.5倍的重建加速比。 展开更多
关键词 锥束CT 图像重建 ART算法 simd技术
在线阅读 下载PDF
基于Intel SIMD指令的二维FFT优化算法 被引量:11
14
作者 李成军 周卫峰 朱重光 《计算机工程与应用》 CSCD 北大核心 2007年第5期41-44,共4页
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法... 在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。 展开更多
关键词 大数据量图像处理 二维FFT simd SSE/SSE3
在线阅读 下载PDF
一种改进的控制流SIMD向量化方法 被引量:4
15
作者 高伟 李颖颖 +2 位作者 孙回回 李雁冰 赵荣彩 《软件学报》 EI CSCD 北大核心 2017年第8期2046-2063,共18页
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含... SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%. 展开更多
关键词 simd扩展部件 控制依赖 数据依赖 循环分布
在线阅读 下载PDF
面向非多媒体程序的SIMD向量化算法的研究及改进 被引量:6
16
作者 李玉祥 施慧 陈莉 《小型微型计算机系统》 CSCD 北大核心 2009年第10期1927-1935,共9页
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点... 利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化. 展开更多
关键词 向量化 数据重组 simd 外层循环的向量化
在线阅读 下载PDF
基于SIMD指令的柔性物体并行碰撞检测 被引量:13
17
作者 唐敏 MANOCHA Dinesh 童若锋 《计算机学报》 EI CSCD 北大核心 2009年第10期2042-2051,共10页
复杂场景中柔性物体间的碰撞检测依然难以满足交互设计的要求.为了提高处理速度,文中给出了一种充分利用现代CPU的并行处理能力的碰撞检测算法.算法基于两方面的并行处理:即基于SIMD指令的指令级并行处理和基于多线程的任务级并行处理.... 复杂场景中柔性物体间的碰撞检测依然难以满足交互设计的要求.为了提高处理速度,文中给出了一种充分利用现代CPU的并行处理能力的碰撞检测算法.算法基于两方面的并行处理:即基于SIMD指令的指令级并行处理和基于多线程的任务级并行处理.算法给出了一种针对SIMD指令特别优化的k-DOP模型——SIMD-DOP,从理论上分析了该包围盒的高效性,并与常规的16-DOP和24-DOP进行了运行效率对比.通过使用SIMD-DOP同时在多核间进行负载均衡,算法获得了优化的并行加速.文中算法已经在一台16核工作站上针对一组复杂测试场景进行了验证. 展开更多
关键词 连续碰撞检测 柔性物体 simd指令 并行碰撞检测 包围盒层次结构
在线阅读 下载PDF
LSSIMD阵列微处理器的控制逻辑设计 被引量:11
18
作者 李莉 沈绪榜 《计算机学报》 EI CSCD 北大核心 2000年第5期557-560,共4页
首先介绍了 L S SIMD阵列微处理器的三种并行性 :数据并行、流水线并行和指令的并行执行 .针对这三种并行性 ,阐述了控制逻辑的设计 .
关键词 simd阵列 微处理器 控制逻辑 指令流水线 设计
在线阅读 下载PDF
面向SIMD的数组重组和对齐优化 被引量:3
19
作者 魏帅 赵荣彩 +1 位作者 姚远 侯永生 《计算机科学》 CSCD 北大核心 2012年第2期305-310,共6页
随着多媒体应用的普及,越来越多的处理器集成了SIMD扩展,但是非连续或者非对齐访存会阻碍程序的向量化或者造成性能损失。针对实际应用中出现的数组引用不连续的情况,提出了一种数学模型,用以刻画数组的访存模式和数据重组方案,以判断... 随着多媒体应用的普及,越来越多的处理器集成了SIMD扩展,但是非连续或者非对齐访存会阻碍程序的向量化或者造成性能损失。针对实际应用中出现的数组引用不连续的情况,提出了一种数学模型,用以刻画数组的访存模式和数据重组方案,以判断这些数组引用是否可以通过数组转置的方法满足连续性要求;并采用过程间数组填充、循环剥离和基于SLP的向量化代码生成方法等进行对齐优化。最后基于SPEC2000测试集对该算法进行了测试,结果表明,该方法可以有效地提升向量化程序的执行效率。 展开更多
关键词 simd 对齐分析 数据重组 多维数组填充
在线阅读 下载PDF
一种改进的嵌入式SIMD协处理器设计 被引量:3
20
作者 周国昌 王忠 +1 位作者 车德亮 冯国臣 《计算机工程与应用》 CSCD 北大核心 2004年第31期13-16,共4页
论文介绍的SIMD协处理器是用于低层图像理解的16位定点嵌入式阵列处理器。该协处理器采用load/store体系结构,并且除SIMD固有的数据并行性外,还具有三级流水和三组指令并发执行的并行性。三组指令并发执行使数据交换操作和其它类型操作... 论文介绍的SIMD协处理器是用于低层图像理解的16位定点嵌入式阵列处理器。该协处理器采用load/store体系结构,并且除SIMD固有的数据并行性外,还具有三级流水和三组指令并发执行的并行性。三组指令并发执行使数据交换操作和其它类型操作并发执行,从而实现了数据交换操作的隐含执行,大大减少了通信和I/O操作的开销。 展开更多
关键词 simd阵列协处理器 load/store 流水线 超大规模集成电路
在线阅读 下载PDF
上一页 1 2 25 下一页 到第
使用帮助 返回顶部