融合Transformer与卷积神经网络的图像分类算法被引量：1

Research on Image Classification Algorithm Combining Transformer with CNN

下载PDF

导出

摘要在传统图像分类网络中,卷积神经网络(Convolutional Neural Network,CNN)的卷积运算需要大量乘法和累加操作,计算成本较高。Transformer模型灵活的自注意力机制使其需要大规模数据以减少过拟合风险,导致其具有较大的参数量与计算复杂度。针对上述问题,文中提出一种多阶段图像分类模型HTCNet(Hybrid Transformer-Convolution Network)。在模型的浅层阶段使用部分卷积,利用特征图冗余对部分通道进行卷积运算以减少模型的浮点运算次数(Floating Point Operations,FLOPs)。在深层阶段将卷积运算加入自注意力机制,构建一种高效的自注意力机制,有效缓解模型的过拟合风险并降低对数据的依赖性。通过自适应输入分辨率能够获取更多位置信息的卷积位置编码(Convolution Positional Encoding,CPE)。HTCNet在不同规模数据集CIFAR-10和ImageNet-1K上的分类准确率分别达到95.4%和82.6%。实验结果表明与同等规模的卷积神经网络和其他Transformer模型比较,HTCNet性能更好。 In traditional image classification networks,the convolutional operation of CNN(Convolutional Neural Network)requires a lot of multiplication and accumulation operations,and the calculation cost is high.The flexible self-attention mechanism of the Transformer model requires large-scale data to reduce the risk of overfitting,but has a large number of parameters and computational complexity.To solve these problems,a multi-stage image classification model HTCNet(Hybrid Transformer-Convolution Network)is proposed.In the shallow stage of the model,partial convolution is used,and some channels are convolved with feature graph redundancy to reduce the FLOPs(Floating Point Operations).In the deep stage,convolution operation is added to the self-attention mechanism to build an efficient self-attention mechanism,which can effectively alleviate the overfitting risk and data dependence of the model.CPE(Convolutional Position Coding)with more position information can be obtained by adaptive input resolution.The classification accuracy of HTCNet on different scale data sets CIFAR-10 and ImageNet-1K reached 95.4%and 82.6%,respectively.Experimental results show that HTCNet performs better than other Transformer models and convolutional neural networks of the same scale.

作者朱灵龙王亚刚陈怡 ZHU Linglong;WANG Yagang;CHEN Yi(School of Optical-Electrical&Computer Engineering,Shanghai University of Science&Technology,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《电子科技》 2025年第10期96-105,共10页 Electronic Science and Technology

基金国家重点研发计划(2020YFC2007502)。

关键词图像分类卷积神经网络 TRANSFORMER 自注意力机制模型融合 HTCNet 深度学习过拟合 image classification convolutional neural network Transformer self-attention mechanism model fusion HTCNet deep learning overfitting

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：2035
2迟海洋,严馨,徐广义,陈玮,周枫.融合主题信息和Transformer模型的健康问句意图分类[J].小型微型计算机系统,2021,42(12):2519-2524. 被引量：5
3党晓方,蔡兴雨.基于Transformer的机动目标跟踪技术[J].电子科技,2023,36(9):86-92. 被引量：10
4朱斌,刘子龙.基于新型初始模块的卷积神经网络图像分类方法[J].电子科技,2021,34(2):52-56. 被引量：16
5Meng-Hao Guo,Cheng-Ze Lu,Zheng-Ning Liu,Ming-Ming Cheng,Shi-Min Hu.Visual attention network[J].Computational Visual Media,2023,9(4):733-752. 被引量：123

二级参考文献37

1余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：649
2刘建伟,刘媛,罗雄麟.玻尔兹曼机研究进展[J].计算机研究与发展,2014,51(1):1-16. 被引量：72
3金林鹏,董军.面向临床心电图分析的深层学习算法[J].中国科学：信息科学,2015,45(3):398-416. 被引量：39
4金碧漪,许鑫.网络健康社区中的主题特征研究[J].图书情报工作,2015,59(12):100-105. 被引量：49
5Yi ZHENG,QiLIU,Enhong CHEN,Yong GE,J. Leon ZHAO.Exploiting multi-channels deep convolutional neural networks for multivariate time series classification[J].Frontiers of Computer Science,2016,10(1):96-112. 被引量：25
6高君宇,杨小汕,张天柱,徐常胜.基于深度学习的鲁棒性视觉跟踪方法[J].计算机学报,2016,39(7):1419-1434. 被引量：30
7李红,刘芳,杨淑媛,张凯.基于深度支撑值学习网络的遥感图像融合[J].计算机学报,2016,39(8):1583-1596. 被引量：41
8常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：448
9赵亮,王晓峰,袁逸涛.基于深度卷积神经网络的船舶识别方法研究[J].舰船科学技术,2016,38(8):119-123. 被引量：31
10奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：245

共引文献2183

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2杜佳峰,王景松,杨宝军,薛勇新,郑春华.基于卷积神经网络的船舶水尺字符识别方法研究[J].中国水运（下半月）,2020(3):1-3. 被引量：1
3陆天和,刘莉,贺云涛,杨盾.多无人机航迹规划算法及关键技术[J].战术导弹技术,2020(1):85-90. 被引量：9
4林桢哲,王桂棠,陈建强,符秦沈.基于残差网络深度学习的肺部CT图像结节良恶性分类模型[J].仪器仪表学报,2020,41(3):248-256. 被引量：23
5陈仁祥,张勇,杨黎霞,陈才,徐向阳.基于整周期数据和卷积神经网络的谐波减速器健康状态评估[J].仪器仪表学报,2020,41(2):245-252. 被引量：25
6鲍光海,林善银,徐林森.基于改进型卷积网络的汽车高度调节器缺陷检测方法[J].仪器仪表学报,2020,41(2):157-165. 被引量：13
7谭宇辰,蔡晶晶,倪辰.基于深度学习的Web攻击检测技术研究[J].信息网络安全,2020(S02):122-126. 被引量：1
8任杰,李钢,赵燕姣,姚琼辛,田培辰.基于改进Faster RCNN的城市道路货车检测[J].计算机系统应用,2022,31(12):316-321. 被引量：3
9胡伟,文武,魏敏.改进U-Net的高分辨率遥感图像轻量化分割[J].计算机系统应用,2022,31(12):135-146. 被引量：4
10孙守强,李青青,肖舒玥,曾子明.基于情景感知的叙事型壁画场景式移动视觉搜索模型研究[J].数据分析与知识发现,2024,8(8):52-62. 被引量：2

同被引文献17

1王志扬,袁旭,沈项军,赵增民,季彬.深度网络去相关层归一化技术研究[J].小型微型计算机系统,2022,43(5):1075-1080. 被引量：10
2楚宪腾,杨海涛,闫道申,许铭洋,王华朋.基于全局注意力机制的CNN-LSTM说话人识别研究[J].电声技术,2022,46(2):38-45. 被引量：2
3周宇,袁晓,张月荣.基于IFFT的Lubich数字分数微分器系数的快速算法[J].太赫兹科学与电子信息学报,2022,20(6):608-617. 被引量：4
4邱莲鹏,宋承云.噪声鲁棒的动态时间规整算法[J].计算机应用,2023,43(6):1855-1860. 被引量：3
5屈丹,杨绪魁,闫红刚,陈雅淇,牛铜.低资源少样本连续语音识别最新进展[J].郑州大学学报（工学版）,2023,44(4):1-9. 被引量：7
6汤卫芬,高翠芳.极值点自适应加权的动态时间规整算法[J].计算机工程,2023,49(7):150-160. 被引量：7
7刘美,王全民.基于DTW的时间序列相似度量方法的优化[J].计算机与数字工程,2023,51(4):814-819. 被引量：4
8赵元琪,尹永柯,王洪君,房明.基于频谱分析仪的语音识别及控制软件系统设计[J].现代电子技术,2024,47(6):27-31. 被引量：6
9杨佳沛,王宇,彭广建,白清,刘昕,靳宝全.基于DTW-GMM的光纤传感系统声纹识别方法[J].电子测量与仪器学报,2024,38(4):176-186. 被引量：6
10赵建辉,林川,任丽娜,黄瑞章.融合位置编码的中文拼写纠错方法[J].计算机工程与设计,2024,45(9):2844-2851. 被引量：2

引证文献1

1潘桂妹.基于动态时间规整与Transformer的连续语音识别与发音校正算法[J].现代电子技术,2025,48(24):61-66. 被引量：1

二级引证文献1

1任昱君,黄先涛,宋晶晶,金宣伯,贾丽群.基于Transformer模型的医患沟通语义分析与满意度预测研究[J].电子设计工程,2026,34(5):12-16.

1韩昌,朱祯琳,柴欣灵,王润民,熊正强.基于Transformer的多尺度分组空洞自注意力机制在复杂场景分割方面的研究[J].高技术通讯,2025,35(8):847-860.
2肖双喜,姚彤彤,李灿.基于改进MobileNetV2的轻量化茶叶病害检测方法[J].华南农业大学学报,2025,46(6):801-809. 被引量：1
3Junsan Zhang,Chenyang Xu,Shigen Shen,Jie Zhu,Peiying Zhang.MFF-YOLO:An Improved YOLO Algorithm Based on Multi-Scale Semantic Feature Fusion[J].Tsinghua Science and Technology,2025,30(5):2097-2113. 被引量：1
4Mustafa Keleş,Aysen Gunel-Ozcan.HOX and MEINOX in cellular plasticity,fibrosis,and cancer[J].World Journal of Stem Cells,2025,17(9):36-65.
5Alessio Amodio,Dan Wang,Curtis Berger,Hai-En Tsai,Samuel K.Barber,Jeroen van Tilborg,Alexander Picksley,Zachary Eisentraut,Neel Rajeshbhai Vora,Mahek Logantha,Qing Ji,Russell Wilcox,Qiang Du,Anthony Gonsalves.Pointing stabilization of a 1 Hz high-power laser via machine learning[J].High Power Laser Science and Engineering,2025,13(3):34-42.

电子科技

2025年第10期

浏览历史

内容加载中请稍等...

融合Transformer与卷积神经网络的图像分类算法被引量：1

参考文献5

二级参考文献37

共引文献2183

同被引文献17

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合Transformer与卷积神经网络的图像分类算法 被引量：1

参考文献5

二级参考文献37

共引文献2183

同被引文献17

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合Transformer与卷积神经网络的图像分类算法被引量：1