期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于GPU的Winograd卷积算法并行化
1
作者 王鑫 甄雪茹 《计算机应用研究》 北大核心 2025年第8期2446-2451,共6页
针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表... 针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表明,在经典卷积神经网络模型ResNet的多个卷积层上,提出的算法优于NVIDIA cuDNN 8.3.0库中的标准Winograd卷积算法,在Turing架构的RTX 2080Ti GPU上实现高达2.46的加速比,并且保持较高的计算准确性。与基于GPU的标准Winograd卷积算法相比,该算法显著提升了卷积计算效率。 展开更多
关键词 winograd算法 并行计算 CUDA 卷积神经网络
在线阅读 下载PDF
基于嵌套分解Winograd算法的3D-CNN硬件加速器
2
作者 杨家元 刘光柱 肖昊 《复旦学报(自然科学版)》 北大核心 2025年第5期567-578,共12页
卷积神经网络(CNN)在许多机器视觉任务中具有广泛的应用,为使三维(3D-CNN)适应图像语义分割和视频理解等应用场景的需要,本文设计了一种基于嵌套分解的三维Winograd算法,先将大卷积核分解为若干小卷积核,然后通过嵌套的方式将三维Winog... 卷积神经网络(CNN)在许多机器视觉任务中具有广泛的应用,为使三维(3D-CNN)适应图像语义分割和视频理解等应用场景的需要,本文设计了一种基于嵌套分解的三维Winograd算法,先将大卷积核分解为若干小卷积核,然后通过嵌套的方式将三维Winograd与一维Winograd相结合,之后再使用小卷积核的Winograd单元进行加速,实现了基于Winograd算法的3D-CNN的大卷积核加速。基于该嵌套分解算法设计了一种配套的硬件架构,此架构能够兼容常见的大卷积核,同时也提高了数据的访存效率。与直接卷积相比;在计算5×5×5、7×7×7和9×9×9的卷积核时,乘法次数分别减少了70.50%、76.19%和79.03%,与目前先进的OLA-Winograd算法相比,在计算5×5×5、7×7×7和9×9×9的卷积核时,乘法次数分别降低了42.38%、34.60%和29.22%。 展开更多
关键词 三维卷积神经网络 winograd算法 现场可编程门阵列 硬件加速
在线阅读 下载PDF
高效Winograd卷积硬件设计及其量化方案
3
作者 严峥 张宸硕 +2 位作者 白一川 杜源 杜力 《集成电路与嵌入式系统》 2025年第8期41-52,共12页
卷积是CNN网络中常见的运算,卷积中的乘累加运算功耗较高,限制了许多CNN硬件加速器的性能,减少卷积的乘法次数是提高CNN加速器性能的有效途径之一。作为一种快速卷积算法,Winograd算法可以减少卷积中高达75%的乘法。然而,Winograd卷积... 卷积是CNN网络中常见的运算,卷积中的乘累加运算功耗较高,限制了许多CNN硬件加速器的性能,减少卷积的乘法次数是提高CNN加速器性能的有效途径之一。作为一种快速卷积算法,Winograd算法可以减少卷积中高达75%的乘法。然而,Winograd卷积中的权重分布显著不同,导致为了保持相似的精度需要更长的量化位宽,从而抵消了因减少乘法次数带来的硬件优化效果。针对这一问题进行定量分析,提出了一种新的Winograd卷积量化方案,实现了小于1%的精度损失。为了进一步降低硬件成本,将近似乘法器应用于Winograd卷积。与传统卷积计算块相比,Winograd计算块节省了27.3%的面积,近似乘法器在Winograd计算块中应用节省了39.6%的面积,且性能损失不明显。 展开更多
关键词 卷积神经网络 winograd算法 模型量化 近似乘法器 硬件加速器
在线阅读 下载PDF
申威26010众核处理器上Winograd卷积算法的研究与优化 被引量:2
4
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 winograd卷积 高性能计算 并行算法 申威处理器
在线阅读 下载PDF
基于Winograd算法的3D卷积神经网络权重剪枝方法
5
作者 邹贵 秦子然 +5 位作者 吴捷 刘国梁 赵军 王迎雪 林晖 林巍峣 《长江信息通信》 2024年第8期1-3,17,共4页
针对3D卷积神经网络在资源有限的环境下高计算成本的挑战,文章提出了一种融合Winograd算法和网络剪枝技术的3D卷积神经网络优化方法。首先,将标准3D卷积层替换为效率更高的3D Winograd层,实现对卷积操作的优化。接着,对3D Winograd层的... 针对3D卷积神经网络在资源有限的环境下高计算成本的挑战,文章提出了一种融合Winograd算法和网络剪枝技术的3D卷积神经网络优化方法。首先,将标准3D卷积层替换为效率更高的3D Winograd层,实现对卷积操作的优化。接着,对3D Winograd层的权重进行重要性评估,保留重要的权重单元并剪枝获得稀疏模型。最后,对稀疏模型进行重训练,恢复剪枝后网络的性能。通过结合Winograd算法和网络剪枝技术,能够在提高识别准确度的同时,显著降低了模型的计算需求。实验结果证实,与其他优化技术相比,本方法能有效减少计算资源消耗,同时保持甚至提高识别性能。 展开更多
关键词 3D卷积神经网络优化 winograd算法 网络剪枝
在线阅读 下载PDF
基于Winograd算法的目标检测加速器设计与优化 被引量:2
6
作者 李斌 齐延荣 周清雷 《电子学报》 EI CAS CSCD 北大核心 2022年第10期2387-2397,共11页
卷积神经网络(Convolutional Neural Networks,CNN)已被广泛应用于图像处理领域.基于CNN的目标检测模型,如YOLO,已被证明在许多应用中是最先进的.CNN对计算能力和内存带宽要求极高,通常需要部署到专用硬件平台,FPGA因其高性能、低功耗... 卷积神经网络(Convolutional Neural Networks,CNN)已被广泛应用于图像处理领域.基于CNN的目标检测模型,如YOLO,已被证明在许多应用中是最先进的.CNN对计算能力和内存带宽要求极高,通常需要部署到专用硬件平台,FPGA因其高性能、低功耗和可重配置性成为CNN的有效硬件加速器.以往的基于FPGA的目标检测加速器主要采用传统卷积算法,然而,传统卷积算法的高运算复杂度限制了加速器的性能.基于此,本文设计了一种基于Winograd算法的目标检测加速器.考虑到各模块间的联系,采用模块融合策略融合卷积层和池化层模块,降低数据移动次数,减少片外存储器访问次数,提高加速器整体性能.以YOLO2模型为例,对数据访问模式、池化内核、参数重排序、数据通路优化进行分析设计,并部署在U280板卡上.实验结果表明,量化后mAP降低了0.96%,性能达249.65 GOP/s,是Xilinx官网所给数据的4.4倍. 展开更多
关键词 目标检测 FPGA winograd算法 模块融合 YOLO2
在线阅读 下载PDF
基于规则化权重列稀疏的移动端3D卷积神经网络加速方法
7
作者 邹贵 秦子然 +5 位作者 吴捷 刘国梁 赵军 王迎雪 林晖 林巍峣 《长江信息通信》 2025年第7期50-52,56,共4页
针对3D卷积神经网络在移动端部署时计算成本过高的问题,文章提出了一种基于规则化列稀疏的3D卷积网络加速方法。首先,将标准3D卷积层替换为3D Winograd层,并通过权重矩阵重排将Winograd变换转化为规则的矩阵运算形式。接着提出基于重要... 针对3D卷积神经网络在移动端部署时计算成本过高的问题,文章提出了一种基于规则化列稀疏的3D卷积网络加速方法。首先,将标准3D卷积层替换为3D Winograd层,并通过权重矩阵重排将Winograd变换转化为规则的矩阵运算形式。接着提出基于重要性评估的规则化列稀疏策略,通过列筛选和稀疏训练实现权重矩阵的结构化压缩。最后基于紧凑矩阵运算的特性,开发专门的ARM-NEON加速算子,实现高效的移动端部署。实验结果证实,相较现有方法在计算效率和模型性能上均取得了显著提升,为解决3D卷积网络在移动端部署的性能瓶颈问题提供了新的思路。 展开更多
关键词 3D卷积神经网络优化 winograd算法 权重稀疏 移动端加速
在线阅读 下载PDF
基于深度学习加速模型的杂乱目标实时视觉检测方法 被引量:1
8
作者 余永维 陈天皓 +1 位作者 杜柳青 方荣 《农业机械学报》 北大核心 2025年第5期617-624,共8页
在农业机械自动装配产线上,其嵌入式控制平台片上资源极其有限,而基于卷积神经网络的深度学习检测系统参数量过大,难以直接移植于嵌入式平台,为此,本文提出一种基于改进ResNet18-SSD(Single shot multi-box detector)和现场可编程门阵列... 在农业机械自动装配产线上,其嵌入式控制平台片上资源极其有限,而基于卷积神经网络的深度学习检测系统参数量过大,难以直接移植于嵌入式平台,为此,本文提出一种基于改进ResNet18-SSD(Single shot multi-box detector)和现场可编程门阵列(Field programmable gate array,FPGA)加速引擎的深度学习实时检测方法。为了降低参数量的同时提高检测模型准确性,提出基于ResNet18-SSD的深度学习快速检测模型,利用优化改进后的ResNet18网络替换SSD模型的VGG16前置网络,引入多分支同构结构和非对称并行残差结构,使其能适应遮挡、光线昏暗等复杂场景;在满足检测精度需求的情况下,采用动态定点量化的方式,对模型数据量进行缩减,以提高检测模型执行效率。针对改进ResNet18-SSD模型中消耗资源严重的卷积层,提出一种基于Winograd算法的FPGA加速引擎,提高模型检测实时性,通过软硬件协同设计,从硬件加速器与软件网络轻量化两个角度进行联合优化,实现轻量化、加速性能及复杂场景下准确性三者之间的平衡。在Xilinx FPGA嵌入式平台的实验结果表明,本文方法检测准确率达到93.5%,当工作频率为100 MHz时,单幅图像检测时间为80.232 ms,满足实时性需求。 展开更多
关键词 目标检测 FPGA 动态定点量化 winograd算法
在线阅读 下载PDF
Winograd矩阵乘法算法用于任意阶矩阵时的一种新处理方法 被引量:4
9
作者 谭福平 刘洪刚 《应用数学与计算数学学报》 2004年第1期92-96,共5页
摘要t矩阵乘法StraSsen算法及其变形winograd算法用分而治之的方法把矩阵乘法时间复杂性由传统的D(n。)改进到0(佗kg。n.但是对于奇数阶矩阵,在划分子矩阵时,要作特殊处理才能继续使用此算法.本文提出了一种非等阶“十”字架划分方法,... 摘要t矩阵乘法StraSsen算法及其变形winograd算法用分而治之的方法把矩阵乘法时间复杂性由传统的D(n。)改进到0(佗kg。n.但是对于奇数阶矩阵,在划分子矩阵时,要作特殊处理才能继续使用此算法.本文提出了一种非等阶“十”字架划分方法,可以最少化填零,最大化性能,使得奇数阶矩阵乘法的时间复杂性更加接近偶数阶矩阵乘法的效果.计算实例显示该方法是有效的. 展开更多
关键词 矩阵乘法 winograd算法 Strassen算法 非等阶划分
在线阅读 下载PDF
基于SVD-Winograd快速变换的半盲水印算法 被引量:1
10
作者 裴小根 马磊 +1 位作者 刘江 燕明 《计算机应用》 CSCD 北大核心 2010年第8期2164-2166,共3页
目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,针对这一问题提出了一种基于奇异值分解与Winograd快速傅里叶变换相结合的半盲水印算法。在奇异值分解过程中,先将奇异值... 目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,针对这一问题提出了一种基于奇异值分解与Winograd快速傅里叶变换相结合的半盲水印算法。在奇异值分解过程中,先将奇异值分解的对角矩阵与Winograd快速傅里叶变换中分解的对角阵进行矩阵相与,产生一新对角矩阵。再将数字水印嵌入到新对角矩阵中,最后通过相关运算提取水印。实验结果表明,该方法可获得较好的图像视觉效果,对剪切、噪声、旋转等攻击皆具有较好的鲁棒性。 展开更多
关键词 奇异值分解 winograd快速变换 半盲水印算法
在线阅读 下载PDF
一种有效的Winograd付里叶变换并行算法
11
作者 顾卫刚 张德富 沈守声 《电子学报》 EI CAS CSCD 北大核心 1992年第2期46-50,共5页
本文提出一种有效的Winograd付里叶变换并行算法,该算法具有处理器间负载平衡,并行计算效率高等特点。
关键词 并行算法 付里叶变换 负载平衡
在线阅读 下载PDF
WinoNet:Reconfigurable look-up table-based Winograd accelerator for arbitrary precision convolutional neural network inference
12
作者 Wang Chengcheng Li He +3 位作者 Cao Yanpeng Song Changjun Yu Feng Tang Yongming 《Journal of Southeast University(English Edition)》 EI CAS 2022年第4期332-339,共8页
To solve the hardware deployment problem caused by the vast demanding computational complexity of convolutional layers and limited hardware resources for the hardware network inference,a look-up table(LUT)-based convo... To solve the hardware deployment problem caused by the vast demanding computational complexity of convolutional layers and limited hardware resources for the hardware network inference,a look-up table(LUT)-based convolution architecture built on a field-programmable gate array using integer multipliers and addition trees is used.With the help of the Winograd algorithm,the optimization of convolution and multiplication is realized to reduce the computational complexity.The LUT-based operator is further optimized to construct a processing unit(PE).Simultaneously optimized storage streams improve memory access efficiency and solve bandwidth constraints.The data toggle rate is reduced to optimize power consumption.The experimental results show that the use of the Winograd algorithm to build basic processing units can significantly reduce the number of multipliers and achieve hardware deployment acceleration,while the time-division multiplexing of processing units improves resource utilization.Under this experimental condition,compared with the traditional convolution method,the architecture optimizes computing resources by 2.25 times and improves the peak throughput by 19.3 times.The LUT-based Winograd accelerator can effectively solve the deployment problem caused by limited hardware resources. 展开更多
关键词 quantized neural networks look-up table(LUT)-based multiplier winograd algorithm arbitrary precision
在线阅读 下载PDF
基于DCT-Winograd快速变换的半盲水印算法
13
作者 郭宗良 裴小根 +2 位作者 徐才云 田靖 常燕 《微型机与应用》 2011年第10期51-53,共3页
针对目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,提出了一种基于离散余弦变换与Winograd快速傅里叶变换相结合的半盲水印算法,将Winograd算法分解的对角矩阵与经过DCT... 针对目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,提出了一种基于离散余弦变换与Winograd快速傅里叶变换相结合的半盲水印算法,将Winograd算法分解的对角矩阵与经过DCT变换的图像块相与,产生一个新的对角矩阵,再将数字水印嵌入到该对角矩阵中,最后通过相关逆运算提取水印。实验结果表明,该方法可获得较好的图像视觉效果,对剪切、噪声等攻击皆具有较好的鲁棒性。 展开更多
关键词 离散余弦变换 winograd快速变换 半盲水印算法
在线阅读 下载PDF
基于Winograd稀疏算法的卷积神经网络加速器设计与研究 被引量:1
14
作者 徐睿 马胜 +2 位作者 郭阳 黄友 李艺煌 《计算机工程与科学》 CSCD 北大核心 2019年第9期1557-1566,共10页
随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新... 随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。 展开更多
关键词 卷积神经网络 加速器 winograd算法 稀疏网络
在线阅读 下载PDF
基于FPGA的Winograd算法卷积神经网络加速器设计与实现 被引量:1
15
作者 牛朝旭 孙海江 《液晶与显示》 CAS CSCD 北大核心 2023年第11期1521-1530,共10页
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传... 为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。 展开更多
关键词 卷积神经网络 现场可编程门阵列 winograd算法 流水线 并行计算
在线阅读 下载PDF
基于二维Winograd算法的深流水线5×5卷积方法 被引量:1
16
作者 黄程程 董霄霄 李钊 《计算机应用》 CSCD 北大核心 2021年第8期2258-2264,共7页
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分... 针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络(CNN)预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。 展开更多
关键词 卷积神经网络 现场可编程逻辑门阵列 winograd算法 双缓冲区 深流水线
在线阅读 下载PDF
Winograd快速卷积相关研究综述 被引量:5
17
作者 童敢 黄立波 《计算机科学与探索》 CSCD 北大核心 2022年第5期959-971,共13页
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操... 卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选。但目前相关工作聚焦于算法的一般化、拓展和各类体系结构上的实现,还没有研究者对Winograd卷积算法作系统性的总结。为了给后续研究者提供详细的参考依据,对Winograd卷积引入以来的相关工作进行了总结。首先阐述了Winograd最小滤波算法及Winograd卷积的引入,介绍了Winograd卷积的一般化与拓展,并对比了现有实现之间的差异;从稀疏剪枝、低精度与量化、数值稳定性这三方面介绍了Winograd卷积的优化工作,并详细介绍了相关具体方法的优缺点;对各类体系结构上的实现和优化进行了分类总结,比较了各平台上实现可用的通用优化方法,并介绍了Winograd卷积的实际应用;最后对内容进行了简要总结,分析了现有研究的局限性,并对未来可能的方向进行了初步展望。 展开更多
关键词 winograd卷积 快速卷积算法 卷积神经网络(CNN) 卷积优化
在线阅读 下载PDF
基于3D-Winograd的快速卷积算法设计及FPGA实现 被引量:1
18
作者 林珂玉 姜宏旭 +1 位作者 张永华 丛容子 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第9期1900-1907,共8页
近年来,卷积神经网络(CNN)已被计算机视觉任务广泛采用。由于FPGA的高性能、能效和可重新配置性,已被认为是最有前途的CNN硬件加速器,但是受FPGA计算能力、存储资源的限制,基于传统Winograd算法计算三维卷积的FPGA解决方案性能还有提升... 近年来,卷积神经网络(CNN)已被计算机视觉任务广泛采用。由于FPGA的高性能、能效和可重新配置性,已被认为是最有前途的CNN硬件加速器,但是受FPGA计算能力、存储资源的限制,基于传统Winograd算法计算三维卷积的FPGA解决方案性能还有提升的空间。首先,研究了适用于三维运算的Winograd算法一维展开过程;然后,通过增加一次性输入特征图和卷积块的维度大小、低比特量化权重和输入数据等方法改善CNN在FPGA上的运行性能。优化思路包括使用移位代替部分除法的方法、分tile方案、二维到三维扩展及低比特量化等4个部分。相对传统的二维Winograd算法,优化算法每个卷积层的时钟周期数减少了7倍左右,相较传统滑窗卷积算法平均每个卷积层减少7倍左右。通过研究,证明了基于一维展开的3D-Winograd算法可以大大减少运算复杂度,并改善在FPGA运行CNN的性能。 展开更多
关键词 卷积神经网络(CNN) FPGA winograd 卷积算法 快速算法
原文传递
基于Winograd卷积的并行深度卷积神经网络优化算法 被引量:6
19
作者 李叶 毛伊敏 陈志刚 《信息与控制》 CSCD 北大核心 2023年第4期466-482,共17页
针对并行深度卷积神经网络算法在大数据环境下存在冗余特征计算过多、卷积运算性能不足和参数并行化合并效率低等问题,提出了基于Winograd卷积的并行深度卷积神经网络优化算法。首先,该算法提出基于余弦相似度与归一化互信息的特征过滤... 针对并行深度卷积神经网络算法在大数据环境下存在冗余特征计算过多、卷积运算性能不足和参数并行化合并效率低等问题,提出了基于Winograd卷积的并行深度卷积神经网络优化算法。首先,该算法提出基于余弦相似度与归一化互信息的特征过滤策略,通过先筛选后融合的方式消除了通道间对于冗余特征的计算,以此解决了冗余特征计算过多的问题;然后,结合MapReduce提出了并行Winograd卷积策略,通过使用并行化Winograd卷积运算替换传统卷积运算的方式来提升卷积运算的性能,以此解决了卷积运算性能不足的问题;最后,提出基于任务迁移的负载均衡策略,通过动态负载迁移的方式来均衡集群中各节点之间的负载,降低了集群总体的平均反应时长,以此解决了参数并行化合并效率低的问题。实验表明,WP-DCNN算法显著降低了DCNN在大数据环境下的训练代价,而且对并行DCNN的训练效率也有大幅提升。 展开更多
关键词 并行深度卷积神经网络算法 MAPREDUCE框架 并行winograd卷积 负载均衡策略
原文传递
使用Winograd算法实现不规则长度DFT——在多载波调制系统(OFDM)中不规则长度FFT的一种实现方法 被引量:1
20
作者 严砚飞 杜伟韬 杨占昕 《中国传媒大学学报(自然科学版)》 2007年第2期39-43,9,共6页
本文结合FFT在多载波调制系统(OFDM)中的应用,介绍了改进大素数Winograd FFT算法,并通过与传统Winograd FFT、DFT的性能比较,论述了本算法的研究意义;介绍了二维卷积算法Agarwal-Cooley、包括中国余数定理、小点数的Winograd卷积算法和... 本文结合FFT在多载波调制系统(OFDM)中的应用,介绍了改进大素数Winograd FFT算法,并通过与传统Winograd FFT、DFT的性能比较,论述了本算法的研究意义;介绍了二维卷积算法Agarwal-Cooley、包括中国余数定理、小点数的Winograd卷积算法和克罗内克积;在介绍算法的同时穿插11点FFT的推导,先计算2点和5点Winograd卷积,之后得到10点卷积,最后得出11点FFT。 展开更多
关键词 OFDM winograd FFT Agarwal—Cooley卷积算法 中国余数定理 克罗内克积 Reader算法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部