基于FPGA的卷积神经网络加速模块设计被引量：4

Design of Convolutional Neural Network acceleration module based on FPGA

下载PDF

导出

摘要针对卷积神经网络前向推理硬件加速的研究,提出一种基于FPGA(Field Programmable Gate Array)的卷积神经网络加速模块,以期在资源受限的硬件平台中加速卷积运算.通过分析卷积神经网络基本结构与常见卷积神经网络的特性,设计了一种适用于常见卷积神经网络的硬件加速架构.在该架构中,采用分层次缓存数据与分类复用数据策略,优化卷积层片外访存总量,缓解带宽压力;在计算模块中,在输入输出通道上并行计算,设计了将乘加树与脉动阵列相结合的高效率计算阵列,兼顾了计算性能与资源消耗.实验结果表明,提出的加速模块运行VGG‐16(Visual Geometry Group)卷积神经网络性能达到189.03 GOPS(Giga Operations per Second),在DSP(Digital Signal Processor)性能效率上优于大部分现有的解决方案,内存资源消耗比现有解决方案减少41%,适用于移动端卷积神经网络硬件加速. To accelerate the convolutional operation of Convolutional Neural Network in resource‐constrained hardware platforms,a Convolutional Neural Network acceleration module based on FPGA(Field Programmable Logic Gate Array)is proposed.By analyzing the basic structure of Convolutional Neural Network and the characteristics of common Convolutional Neural Networks,a hardware acceleration architecture for common convolutional neural networks is designed.In the above architecture,the strategies of hierarchical caching data and classified reusing data are adopted to minimize the total amount of external memory access data and reduce the pressure of bandwidth.Considering the computing performance and resource consumption,a high efficiency computing array is designed which combines multiplicative and additive tree with systolic array for parallel computation on input and output channels in the computing module.The experimental results show that the performance of the proposed acceleration module reaches 189.03 GOPS(Giga Operations per Second)when running VGG‐16(Visual Geometry Group)Convolutional Neural Network,which is better than most of the existing solutions in terms of DSP performance efficiency,and 41%lower than the existing solutions in terms of memory resource consumption.The proposed module is suitable for hardware acceleration of mobile terminal convolutional neural network.

作者梅志伟王维东 Mei Zhiwei;Wang Weidong(College of Information Science&Electronic Engineering,Zhejiang University,Hangzhou,310013,China;ZJU‐Rock Chips Joint Laboratory of Multimedia System,College of Information Science&Electronic Engineering,Zhejiang University,Hangzhou,310013,China)

机构地区浙江大学信息与电子工程学院浙江大学‐瑞芯微多媒体系统联合实验室

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2020年第4期581-590,共10页 Journal of Nanjing University（Natural Science）

关键词卷积神经网络硬件加速 FPGA 并行计算高效率乘加阵列 Convolutional Neural Network hardware acceleration FPGA parallel computation DSP performance efficiency

分类号 TN4 [电子电信—微电子学与固体电子学]

引文网络
相关文献

同被引文献41

1李依肖,张方.基于牛顿迭代法的时域动载荷识别SISO修正算法[J].国外电子测量技术,2022,41(3):52-55. 被引量：2
2卢冶,陈瑶,李涛,蔡瑞初,宫晓利.面向边缘计算的嵌入式FPGA卷积神经网络构建方法[J].计算机研究与发展,2018,55(3):551-562. 被引量：48
3蹇强,张培勇,王雪洁.一种可配置的CNN协加速器的FPGA实现方法[J].电子学报,2019,47(7):1525-1531. 被引量：20
4马璐,杨文飞.基于双向过滤法的块效应下无参考图像质量评价[J].江汉大学学报（自然科学版）,2020,48(1):91-96. 被引量：1
5张慧明.基于多核的卷积神经网络加速方法与系统实现[J].集成电路应用,2020,37(5):10-13. 被引量：2
6王恺,严迎建,郭朋飞,朱春生,蔡爵嵩.基于改进残差网络和数据增强技术的能量分析攻击研究[J].密码学报,2020,7(4):551-564. 被引量：9
7李雯莉,张素兰,张继福,胡立华.基于卷积神经网络和概念格的图像语义完备标注[J].小型微型计算机系统,2020,41(9):1979-1986. 被引量：2
8陈积敏,林泽昊.基于端到端学习的图像编码研究及进展[J].激光与光电子学进展,2020,57(22):20-30. 被引量：2
9李斌,马璐.密集连接的生成对抗网络图像超分辨率重建[J].激光与光电子学进展,2020,57(22):130-138. 被引量：5
10唐浪,李慧霞,颜晨倩,郑侠武,纪荣嵘.深度神经网络结构搜索综述[J].中国图象图形学报,2021,26(2):245-264. 被引量：12

引证文献4

1马璐.基于DR-CNN方法的图像质量评价[J].宿州学院学报,2022,37(6):12-15. 被引量：1
2张立博,李昌伟,齐伟,王刚,戚鲁凤.神经网络训练处理器的浮点运算优化架构[J].计算机测量与控制,2023,31(6):176-182.
3赵洋,靳永强,王艺钢.YOLOv4-tiny模型在边缘计算平台的加速设计[J].物联网技术,2024,14(1):93-97.
4李俊锋,谭北海,郑宇凡,陈汉杰,余荣.基于FPGA的语义信息处理加速器设计[J].电子测量技术,2025,48(6):188-195.

二级引证文献1

1张意.儿童胸部数字化X线摄影图像质量的影响因素分析[J].中外医药研究,2025,4(1):157-159.

1MMVAULT:2020年亚太地区行业趋势预测[J].单片机与嵌入式系统应用,2020,20(2):30-30.
2无.2020年亚太地区行业云战略凸显[J].软件和集成电路,2020(1):32-33.
3胡铁乔,李恒昶.基于FPGA+DSP的ADS-B欺骗干扰检测优化[J].中国民航大学学报,2019,37(5):1-4. 被引量：1
4陆歌皓,谢莉红,李析禹.区块链共识算法对比研究[J].计算机科学,2020,47(S01):332-339. 被引量：22
5何斌颖(文/图),李实(文/图).出击多个细分市场 ARM多款新架构中端IP一览[J].微型计算机,2019,0(34):95-98.
6杨松涛,许海韵,王大鸣,巴斌.互质阵型下基于四阶累积量的高自由度低复杂波达方向估计方法[J].信息工程大学学报,2019,20(6):647-652. 被引量：1
7惠学云,孙露.基于大数据分析的易混淆车辅助识别系统设计与实现[J].中国交通信息化,2019,0(10):126-128. 被引量：2
8胡正平,刁鹏成,张瑞雪,李淑芳,赵梦瑶.3D多支路聚合轻量网络视频行为识别算法研究[J].电子学报,2020,48(7):1261-1268. 被引量：9
9赵飞扬,罗兵,林国军,杨平先,吴浩.基于改进YOLOv3的火焰检测[J].中国科技论文,2020,15(7):820-826. 被引量：12
10胡迎刚.基于FPGA的机器人视觉系统研究与设计[J].电子制作,2020,28(15):25-27. 被引量：3

南京大学学报（自然科学版）

2020年第4期

浏览历史

内容加载中请稍等...

基于FPGA的卷积神经网络加速模块设计被引量：4

同被引文献41

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于FPGA的卷积神经网络加速模块设计 被引量：4

同被引文献41

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于FPGA的卷积神经网络加速模块设计被引量：4