-
题名融合CNN与ViT模型对江南8种野菜识别分类
- 1
-
-
作者
吴玉强
雷芷若
胡乃娟
吴育宝
-
机构
南京警察学院信息技术学院
南京农业大学智慧农业学院(人工智能学院)
江苏省农业科学院农业经济与发展研究所
-
出处
《种子》
北大核心
2026年第2期185-192,共8页
-
基金
中央高校基本科研业务费专项资金项目(LGZD202504)
国家重点研发计划子课题(2023YFC330400502)
江苏高校“青蓝工程”资助(苏教师函[2025]4号)。
-
文摘
传统的野菜识别主要依赖人工经验,存在耗时、耗力及误判等问题,因此开发高效准确的识别算法成为关键。为解决可食用野菜图像识别问题,对视觉Transformer(Vision Transformer,ViT)的变体模型BiFormer进行改进。引入传统卷积神经网络(Convolutional Neural Network,CNN)代表模型ResNet50的双卷积层残差块,以增强局部特征提取能力;在MLP层添加Dropout抑制过拟合;同时优化qk_dims参数提升注意力建模效率,最终构建名为Res-BiFormer的改进模型。在包含江南地区8种野菜的1509张原始图像数据集上,Res-BiFormer识别准确率高达95.77%,较原始BiFormer和ResNet50分别提升4.34%和0.76%;在6036张数据增强后的大规模数据集上,其准确率进一步较两基准模型分别提升6.96%和3.32%,充分验证了所提模型对不同规模数据集的良好适应性。通过Grad-CAM++技术生成热力图对模型决策过程进行可视化分析,结果表明,Res-BiFormer能够精准聚焦叶片叶脉纹理、边缘轮廓等野菜识别关键特征。研究不仅为可食用野菜识别提供了高效可行的技术方案,其可视化分析方法也为深度学习模型决策机制的解读提供了参考。
-
关键词
可食用野菜识别
res-biformer
双卷积层残差块
Grad-CAM++
-
Keywords
edible wild-vegetable recognition
res-biformer
double-convolution residual block
Grad-CAM++
-
分类号
S647
[农业科学—蔬菜学]
-