期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
一种具有动态可重构数据流的混合矩阵向量处理器
1
作者 艾晨阳 赵乐川 +2 位作者 华涛 王新安 王颖 《计算机工程与科学》 北大核心 2025年第11期1912-1921,共10页
脉动阵列作为通用矩阵乘法(GEMM)算子的高能效加速器,受到了学术界和工业界广泛关注。然而,它往往占用大量面积,并且通常需要VPU单元配合使用,这种组合经常出现在神经网络加速器中。此外,它还存在时间空间利用率低、端到端场景性能有限... 脉动阵列作为通用矩阵乘法(GEMM)算子的高能效加速器,受到了学术界和工业界广泛关注。然而,它往往占用大量面积,并且通常需要VPU单元配合使用,这种组合经常出现在神经网络加速器中。此外,它还存在时间空间利用率低、端到端场景性能有限等问题。为了解决这些问题,通过结合脉动阵列与向量处理器,提出了一种脉动向量处理器HVSA。通过对VPU中存储、广播和通道间通信单元进行复用,HVSA可在阵列的形状和数据流方面进行可重构配置,可以在可接受的硬件面积开销的前提下,更有效地支持GEMM和向量运算。同时提出了适用于HVSA的端到端编译框架,包括基于MLIR的编译前端、数据流调度和兼容RISC-V向量扩展的编程模型。实验数据表明,与同等面积的脉动阵列相比,HVSA计算速度提升了30.30倍。在端到端应用中,相比同等面积的“VPU+脉动阵列”,HVSA的平均运行时间缩短为原来的约4.7%,能耗减少约58.7%。 展开更多
关键词 通用矩阵乘法 向量运算 脉动阵列 向量处理单元 数据流调度 编译器
在线阅读 下载PDF
基于大数据的调峰火力发电机组化学性能预测方法
2
作者 苏囿廷 孙琴英 《科技创新与应用》 2025年第34期90-93,共4页
随着火力发电机组逐步迈向智能化和高效运行,机组的化学性能监测和预测已成为保障其稳定运行和延长设备使用寿命的重要手段。腐蚀、结垢及积盐等化学反应对机组的安全和经济性有深远影响。该文分析化学成分对火力发电机组的影响,研究基... 随着火力发电机组逐步迈向智能化和高效运行,机组的化学性能监测和预测已成为保障其稳定运行和延长设备使用寿命的重要手段。腐蚀、结垢及积盐等化学反应对机组的安全和经济性有深远影响。该文分析化学成分对火力发电机组的影响,研究基于大数据的多维度预测方法,提出一种结合支持向量机算法的多因素分析模型,旨在提高机组运行的化学性能预测精度。 展开更多
关键词 大数据 调峰火力发电机组 化学性能预测 腐蚀过程 向量机
在线阅读 下载PDF
基于GCC实现飞腾处理器向量处理单元的编译器后端 被引量:3
3
作者 李春江 杜云飞 +2 位作者 倪晓强 王永文 杨灿群 《计算机科学》 CSCD 北大核心 2013年第12期19-22,共4页
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌... 编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌函数。从四路双精度SIMD指令的机器描述出发,总结了在GCC后端所做的实现工作。其对基于GCC编译器实现面向特定目标机器的编译器后端有较大的参考价值。 展开更多
关键词 飞腾处理器 向量处理单元 GCC 编译器后端
在线阅读 下载PDF
基于LVQ神经网络的轨道单元状态综合评判方法研究 被引量:4
4
作者 许贵阳 刘金朝 +1 位作者 曲建军 史天运 《铁道建筑》 北大核心 2013年第10期84-87,共4页
为了有效利用多种检测数据评判轨道单元的状态,提出利用LVQ(学习矢量量化)神经网络建立轨道单元特征参数与轨道单元分级的关联模型,通过对TQI(轨道质量指数)、轨道几何、加速度、晃车仪、添乘仪、人体感觉的超限扣分加权得到轨道单元的... 为了有效利用多种检测数据评判轨道单元的状态,提出利用LVQ(学习矢量量化)神经网络建立轨道单元特征参数与轨道单元分级的关联模型,通过对TQI(轨道质量指数)、轨道几何、加速度、晃车仪、添乘仪、人体感觉的超限扣分加权得到轨道单元的量化评分指标,并利用层次分析法确定各特征参数的权系数。根据大量实测数据建立随机样本,利用聚类方法确定轨道单元状态的分级。以轨道单元的量化评分指标作为输入,以聚类得到的表征轨道单元分级的矢量量化数据作为输出,利用误差反向传播方法训练LVQ神经网络模型。利用新的评判方法对某线路的轨道单元状态进行评判,结果表明该方法可行、有效,为轨道单元状态综合评判提供了一条新途径。 展开更多
关键词 轨道单元 学习矢量量化 神经网络 层次分析法 聚类方法
在线阅读 下载PDF
轮辋数控加工工艺分析及其加工中心夹具设计 被引量:17
5
作者 张国政 周元枝 《机床与液压》 北大核心 2014年第14期30-32,共3页
从工程实际情况出发,针对汽车轮辋工件数控加工装夹问题,分析轮辋数控加工工艺,采用加工面单位法矢量方法分析轮辋零件图纸,并考虑数控机床工序集中的特点,制定出合理可行的数控加工工艺方案。为解决轮辋工件在加工中心上的装夹问题,分... 从工程实际情况出发,针对汽车轮辋工件数控加工装夹问题,分析轮辋数控加工工艺,采用加工面单位法矢量方法分析轮辋零件图纸,并考虑数控机床工序集中的特点,制定出合理可行的数控加工工艺方案。为解决轮辋工件在加工中心上的装夹问题,分析轮辋工件定位问题,采用气动控制夹紧方案,设计了一种加工中心夹具装置。该夹具结构简单、装夹方便,适用于轮辋、轮毂等同类工件的批量数控加工。 展开更多
关键词 轮辋 数控加工工艺 单位法矢量 加工中心夹具 气动夹紧
在线阅读 下载PDF
单元级别并行有限元法求解工程涡流场的关键问题研究 被引量:7
6
作者 唐任远 吴东阳 谢德馨 《电工技术学报》 EI CSCD 北大核心 2014年第5期1-8,共8页
单元级别并行有限元方法(EBE-PFEM)目前尚未在工程涡流场求解中得到应用。由于含有不同导电媒质的工程涡流问题经有限元离散化得到的方程组呈现病态性质,给EBE-PFEM这一有效方法的应用造成了困难。本文从数学模型选择与算法实施两方面... 单元级别并行有限元方法(EBE-PFEM)目前尚未在工程涡流场求解中得到应用。由于含有不同导电媒质的工程涡流问题经有限元离散化得到的方程组呈现病态性质,给EBE-PFEM这一有效方法的应用造成了困难。本文从数学模型选择与算法实施两方面出发对此提出了解决方案。将修正矢量磁位法及二阶矢量位法应用于涡流问题的数学模型中,能够简化问题的数学模型并改善涡流场离散化方程组的性质;而采用EBE-PFEM法求解该方程组,可以解决工程涡流场分析的存储规模庞大、求解困难的问题。文中并给出了EBE-PFEM法在GPU(图形处理单元)上的实现过程。 展开更多
关键词 单元级别并行有限元法 图形处理单元 三维涡流场 二阶矢量位 并行计算
在线阅读 下载PDF
基于GPU的SVM参数优化并行算法 被引量:2
7
作者 唐美丽 张劲松 +1 位作者 李璐 马廷淮 《江苏大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第5期576-581,共6页
为了缩短支持向量机(support vector machine,SVM)参数优化时长,提高SVM参数优化的效率,提出了基于图形处理单元(graphic processing unit,GPU)的SVM参数优化并行算法.分析了基于网格搜索和粒子群优化算法的并行特性,基于GPU设计了该优... 为了缩短支持向量机(support vector machine,SVM)参数优化时长,提高SVM参数优化的效率,提出了基于图形处理单元(graphic processing unit,GPU)的SVM参数优化并行算法.分析了基于网格搜索和粒子群优化算法的并行特性,基于GPU设计了该优化算法的并行化方案,并在单GeForce GT 650M GPU卡上进行了试验验证.结果表明,并行化网格搜索和并行化粒子群参数优化算法不仅可以取得与非并行化参数优化算法相同的优化效果,而且执行时间大大减小,其中并行粒子群参数优化算法的加速比可高达26.85,大幅提升了SVM的参数优化效率. 展开更多
关键词 图形处理单元 支持向量机 网格搜索算法 粒子群优化算法 参数优化
在线阅读 下载PDF
大规模稀疏矩阵的主特征向量计算优化方法 被引量:3
8
作者 王伟 陈建平 +2 位作者 曾国荪 俞莉花 谭一鸣 《计算机科学与探索》 CSCD 2012年第2期118-124,共7页
矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图... 矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。 展开更多
关键词 图形处理单元通用计算(GPGPU) 主特征向量计算 稀疏矩阵向量乘 线程优化
在线阅读 下载PDF
GPU上实现的向量点积的性能分析 被引量:4
9
作者 郭雷 刘进锋 《计算机工程与应用》 CSCD 2012年第2期201-202,226,共3页
CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。
关键词 统一设备计算架构(CUDA) 图形处理器(GPU) 向量点积
在线阅读 下载PDF
基于GPU和特征选择的SVM入侵检测模型 被引量:3
10
作者 夏永祥 史志才 《计算机工程》 CAS CSCD 2012年第8期111-113,116,共4页
基于支持向量机的入侵检测模型检测效率较低,为此,提出一种基于图形处理器(GPU)和特征选择的入侵检测模型。在入侵检测过程中,采用基于GPU的并行计算模型进行训练,并对样本的特征进行合理选择,从而提高检测效率。实验结果表明,在保证系... 基于支持向量机的入侵检测模型检测效率较低,为此,提出一种基于图形处理器(GPU)和特征选择的入侵检测模型。在入侵检测过程中,采用基于GPU的并行计算模型进行训练,并对样本的特征进行合理选择,从而提高检测效率。实验结果表明,在保证系统性能的情况下,该模型可以缩短训练时间。 展开更多
关键词 入侵检测 支持向量机 图形处理器 统一计算设备架构 特征选择 并行计算
在线阅读 下载PDF
共轭梯度法在GPU及Xeon Phi下的并行优化及比较 被引量:1
11
作者 黄敏 丁萍 罗海飚 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第11期35-46,53,共13页
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据... 为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好. 展开更多
关键词 共轭梯度法 图形处理器 XEON PHI 并行优化 稀疏矩阵向量乘
在线阅读 下载PDF
改进特征与GPU加速的行人检测 被引量:4
12
作者 齐美彬 李佶 +1 位作者 蒋建国 王慈淳 《中国图象图形学报》 CSCD 北大核心 2018年第8期1171-1180,共10页
目的目前行人检测存在特征维度高、检测耗时的问题,行人图像易受到光照、背景、遮挡等影响,给实际行人检测造成了一定困难。为了提高检测准确性,减少检测耗时,针对以上问题,提出一种改进特征与GPU(graphic processing unit)加速的行人... 目的目前行人检测存在特征维度高、检测耗时的问题,行人图像易受到光照、背景、遮挡等影响,给实际行人检测造成了一定困难。为了提高检测准确性,减少检测耗时,针对以上问题,提出一种改进特征与GPU(graphic processing unit)加速的行人检测算法。方法首先,采用多尺度无缩放思想,通过canny算子对所有样本进行预处理,减少背景干扰与统一归格化的形变影响。然后,针对实际视频中的遮挡问题,把图像分成头部、左臂、上身、右臂、左腿、右腿6个区域。接着选取比LBP(local binary patterns)特征鲁棒性更好的SILTP(scale invariant local ternary pattern)特征作为纹理特征,在GPU空间中并行提取;同时,分别提取6个区域的HOG(histogram of oriented gradient)特征值,结合行人轮廓在6个区域上的梯度方向分布特性,对其进行加权。最后,将提取的全部特征输出到CPU(central processing unit),利用支持向量机(SVM)分类器实现行人检测。结果在INRIA、NICTA数据集上进行实验,INRIA数据集上检测率达到99.80%,NICTA数据集上检测率达到99.91%,并且INRIA数据集上检测时间加速比达到12.19,NICTA数据集上达到13.49,相对传统HOG、LBP算法,检测率、时间比实现提高。结论提出的改进HOG-SILTP特征与GPU加速的行人检测算法,能够有效表达行人信息,改善传统特征提取方式带来的耗时与形变影响,对环境变化、遮挡具有较强的鲁棒性。该算法在检测率、检测时间方面均有提高,能够实现有效、快速的行人检测,具有实际意义。 展开更多
关键词 行人检测 GPU加速 SILTP特征 HOG特征 支持向量机(SVM)分类器
原文传递
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:2
13
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(GPU)
在线阅读 下载PDF
FAHP耦合GRA的潜油电泵机组复杂系统脆性分析
14
作者 赵晓姣 屈展 +4 位作者 王萍 薛朝妹 刘灿 赵志峰 徐竟天 《西安石油大学学报(自然科学版)》 CAS 北大核心 2016年第5期94-99,共6页
将复杂系统脆性引入到潜油电泵机组系统的研究中,并根据事故树原理建立机组系统脆性风险分析模型,着重从主观和客观、定性和定量方面对脆性因子进行分析研究。结合模糊层次分析法(FAHP)和灰色关联度分析法(GRA)建立潜油电泵机组系统耦... 将复杂系统脆性引入到潜油电泵机组系统的研究中,并根据事故树原理建立机组系统脆性风险分析模型,着重从主观和客观、定性和定量方面对脆性因子进行分析研究。结合模糊层次分析法(FAHP)和灰色关联度分析法(GRA)建立潜油电泵机组系统耦合关联序模型,分析整个系统的脆性状态,求得综合序关系大小排序,找出极易使机组系统崩溃的脆性因子,对其进行重点监测,最大限度避免系统脆性的发生,从而为潜油电泵机组系统的脆性研究提供了一种可行的分析方法。 展开更多
关键词 潜油电泵机组系统 脆性因子 模糊层次分析 灰色关联度分析 权重向量
在线阅读 下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
15
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
在线阅读 下载PDF
基于粒子群算法与图形处理器加速的支持向量机参数优化方法 被引量:5
16
作者 毛耀宗 陈珂 +1 位作者 江弋 邹权 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第5期609-612,共4页
支持向量机(support vector machine,SVM)的参数选择对其性能有着重要的影响,使用穷举法优化参数需要大量的计算时间.为快速寻找最优参数组合,利用粒子群算法(particle swarm optimization,PSO)收敛速度快、简单易行等特点,将SVM参数作... 支持向量机(support vector machine,SVM)的参数选择对其性能有着重要的影响,使用穷举法优化参数需要大量的计算时间.为快速寻找最优参数组合,利用粒子群算法(particle swarm optimization,PSO)收敛速度快、简单易行等特点,将SVM参数作为粒子的解决方案.并利用图形处理器(graphics processing unit,GPU)并行化处理能力计算每个参数的分类准确率,从而提升了在一定的搜索空间内寻找最佳参数组合的计算速度.对UCI数据进行实验,对比结果显示,该方法能快速有效地获取优化结果. 展开更多
关键词 支持向量机 粒子群算法 图形处理器 参数寻优
在线阅读 下载PDF
基于SVM的CPU-GPU异构系统任务分配模型 被引量:4
17
作者 王彦华 乔建忠 +1 位作者 林树宽 赵廷磊 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第8期1089-1094,共6页
为了改善异构系统的性能和效率,提出并实现了一个两阶段的任务分配模型.该模型对预分配给CPU和GPU的任务集进行多轮调整,以此最大程度地缩短程序的执行时间.首先,使用支持向量机进行任务预处理,支持向量机将任务分成CPU型和GPU型;然后,... 为了改善异构系统的性能和效率,提出并实现了一个两阶段的任务分配模型.该模型对预分配给CPU和GPU的任务集进行多轮调整,以此最大程度地缩短程序的执行时间.首先,使用支持向量机进行任务预处理,支持向量机将任务分成CPU型和GPU型;然后,根据预处理结果以及处理器的特征和状态,并在对分配集合进行多轮调整后实施实际的任务分配.本模型在具体的异构系统中实现,使用多种基准程序进行检测.实验结果表明,对比其他任务分配算法,本文算法能够使性能获得平均43.54%的提升. 展开更多
关键词 图形处理单元 支持向量机 异构系统 机器学习 任务预处理 任务分配
在线阅读 下载PDF
基于GPU的稀疏矩阵存储格式优化研究 被引量:7
18
作者 杨世伟 蒋国平 +1 位作者 宋玉蓉 涂潇 《计算机工程》 CAS CSCD 北大核心 2019年第9期23-31,39,共10页
稀疏矩阵存储格式中的稀疏矩阵向量乘(SpMV)计算效率低下,且分块行列(BRC)存储格式的计算结果缺少再现性和确定性。为此,提出一种改进的BRCP存储格式。采用不同的二维分块策略,根据矩阵各行非零元素分布的统计特性自适应调节分块参数,提... 稀疏矩阵存储格式中的稀疏矩阵向量乘(SpMV)计算效率低下,且分块行列(BRC)存储格式的计算结果缺少再现性和确定性。为此,提出一种改进的BRCP存储格式。采用不同的二维分块策略,根据矩阵各行非零元素分布的统计特性自适应调节分块参数,提高SpMV在GPU平台上的并行性,并设计基于快速分段求和算法的GPU内核函数,保证计算结果的确定性及其在不同GPU平台上的再现性。实验结果表明,BRCP存储格式具有较高的计算效率,相比BRC存储格式可减少并行环境中的SpMV计算误差,并提高PageRank排序的准确率。 展开更多
关键词 稀疏矩阵向量乘 计算统一设备架构 图形处理器 存储格式 浮点运算
在线阅读 下载PDF
基于GPU的多类支持向量机改进算法 被引量:2
19
作者 顾德闯 杨永健 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第1期107-111,共5页
针对支持向量机算法耗时较长的问题,利用并行计算思想,基于图形处理器对多类支持向量机算法——Crammer-Singer算法进行改进,并利用循环展开、数据暂留、缓存和开放运算语言等技术对算法加以实现.分别在4个数据集上对原算法和改进算法... 针对支持向量机算法耗时较长的问题,利用并行计算思想,基于图形处理器对多类支持向量机算法——Crammer-Singer算法进行改进,并利用循环展开、数据暂留、缓存和开放运算语言等技术对算法加以实现.分别在4个数据集上对原算法和改进算法进行对比实验,结果表明,改进算法在性能上获得了较大提升. 展开更多
关键词 支持向量机 多分类 图形处理器 并行计算 开放运算语言
在线阅读 下载PDF
基于GPU的高效稀疏矩阵存储格式研究 被引量:10
20
作者 程凯 田瑾 马瑞琳 《计算机工程》 CAS CSCD 北大核心 2018年第8期54-60,共7页
针对基于GPU求解大规模稀疏线性方程组的问题,提出一种稀疏矩阵的存储格式HEC,并应用该格式在统一计算设备架构(CUDA)平台上实现不完全LU分解的预条件共轭梯度(ILUCG)法。该存储格式由ELL与CSR格式混合而成,将其以调用GPU kernel的方式... 针对基于GPU求解大规模稀疏线性方程组的问题,提出一种稀疏矩阵的存储格式HEC,并应用该格式在统一计算设备架构(CUDA)平台上实现不完全LU分解的预条件共轭梯度(ILUCG)法。该存储格式由ELL与CSR格式混合而成,将其以调用GPU kernel的方式实现ILUCG法并应用于大型稀疏线性系统的求解中,可提高稀疏矩阵的存储效率,减少稀疏矩阵与向量乘(SpMV)的运算时间。实验结果表明,与目前广泛使用的基于CSR和HYB存储格式并调用CUSPARSE库函数的实现方式相比,该实现方式最优可得10.4%的加速效果,并且具有良好的SpMV运算性能。 展开更多
关键词 图像处理单元 CUSPARSE库 HEC存储格式 稀疏矩阵与向量乘 不完全LU分解 预条件共轭梯度法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部