水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新...水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新型检测模型(A Novel Detection Model with Deep Integration of Swin Transformer and YOLO11 Architectures, YOLO11-Swin)。该模型以Swin Transformer作为主干特征提取网络,利用其分层设计与滑动窗口自注意力机制,有效捕获图像的全局上下文依赖关系,增强对模糊、遮挡目标的表征能力。在特征融合阶段,本文设计了一种跨层特征聚合机制(Cross-layer Feature Aggregation, CFA),通过全局池化与自适应权重计算,引导不同尺度特征图进行高效信息交互,以解决特征金字塔中的语义间隙与尺度不匹配问题。此外,在各级特征图输出端嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM),通过串行的通道与空间注意力子模块,自适应地优化特征响应,突出目标区域并抑制背景噪声。针对水下数据集正负样本不均衡的问题,模型采用Focal Loss作为分类损失函数,以聚焦困难样本的训练,提升模型收敛速度与稳健性。在URPC数据集上的实验结果表明,YOLO11-Swin的mAP@50达到75.54%,相比基线YOLO11模型显著提升9.42%。特别地,对小目标(如扇贝)的检测平均精度(AP)提升10.16%,召回率(Recall)提高4.55%,充分验证了所提模型在复杂水下环境下的有效性与先进性。展开更多
[目的/意义]针对自然环境干扰下检测模型对辣椒叶片病虫害的特征提取不充分、容易忽视目标物体的边缘信息,以及小块病斑与虫害病灶易漏检等问题,本研究提出一种轻量化辣椒叶片病害检测算法,即YOLOMDFR(You Only Look Once Version 12-MD...[目的/意义]针对自然环境干扰下检测模型对辣椒叶片病虫害的特征提取不充分、容易忽视目标物体的边缘信息,以及小块病斑与虫害病灶易漏检等问题,本研究提出一种轻量化辣椒叶片病害检测算法,即YOLOMDFR(You Only Look Once Version 12-MDFR)。[方法]基于YOLOv12s模型做出改进。首先用两个堆叠的3×3的深度可分离卷积代替一个5×5的深度可分离卷积以改进MobileNetV4,并将其代替YOLOv12s的原始骨干网络实现骨干网络轻量化。其次为提高小目标物体的特征提取能力,提出了多维频域互补自注意力机制模块(Dimensional Frequency Reciprocal Attention Mixing Transformer,D-F-Ramit)。最后利用D-F-Ramit与RAGConv(Residual Aggrega⁃tion Gate-Controlled Convolution)重新设计颈部网络,增强模型的特征融合能力和信息传递能力。基于以上改进提出YOLO-MDFR目标检测算法。[结果和讨论]实验结果表明,本研究提出的YOLO-MDFR模型在实验数据集上的平均识别精确度达到95.6%,与YOLOv12s模型相比,平均识别精度提高了2.0%,同时参数量下降了61.5%,计算量下降了68.5%,帧率达到43.4帧/s。[结论]本研究通过系统性的架构优化,在保持模型轻量化的同时显著提升了检测性能,实现了计算效率与检测精度的最佳平衡。展开更多
目标检测是计算机视觉的基石,在医疗成像、工业缺陷检测、自动驾驶和农业监测等领域有着广泛的应用。YOLO(You Only Look Once)作为单阶段目标检测的开创性算法,以其卓越的实时性和高效性成为计算机视觉领域的核心技术。从2016年YOLOv1...目标检测是计算机视觉的基石,在医疗成像、工业缺陷检测、自动驾驶和农业监测等领域有着广泛的应用。YOLO(You Only Look Once)作为单阶段目标检测的开创性算法,以其卓越的实时性和高效性成为计算机视觉领域的核心技术。从2016年YOLOv1的首次亮相到2025年YOLOv12的发布,YOLO通过持续优化网络架构、改进损失函数设计和创新数据增强策略,显著提升了检测性能和应用适配性。本文系统回顾了YOLO长达十年的发展历程,分析了其在不同领域的应用,并探讨了其快速发展背后的驱动力,包括深度学习技术的突破、开源社区的广泛协作以及对实时性和边缘计算的迫切需求。与双阶段算法(如Faster R-CNN)和基于Transformer的方法(如DETR)相比,YOLO在速度和工程部署上展现出显著优势,但在小目标检测、密集场景处理和复杂背景下的鲁棒性方面仍面临挑战。未来YOLO或可通过整合轻量级Transformer模块、优化多任务学习框架以及引入生成式AI增强数据多样性,有望进一步提升精度和场景适应能力。展开更多
文摘由于宫颈细胞样本的液基薄层细胞学检测(thin prep cytologic test,TCT)图像内容复杂,背景颜色丰富多样,而且不同女性的宫颈细胞具有一定程度的天然差异,这给宫颈异常细胞的检测带来了很大的困难。为解决这一难题,提出了一种名为基于特征压缩与激发和可变形卷积(SE-ResNet-deformable convolution you only look once,SER-DC YOLO)的目标检测网络。该网络在YOLOv5的Backbone中融合注意力机制,添加了SE-ResNet模块,然后改进了SPP层的网络结构,并且使用可变形卷积来替换普通卷积,最后修改了边界框的损失计算函数,将广义交并比(generalized intersection over union,GIoU)改为α-IOU Loss。实验表明,该网络与YOLOv5网络相比,在宫颈图片数据集上召回率提高了19.94%,精度提高了3.52%,平均精度均值提高了7.19%。相关代码链接:https://github.com/sleepLion99/SER-DC_YOLO。
文摘水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新型检测模型(A Novel Detection Model with Deep Integration of Swin Transformer and YOLO11 Architectures, YOLO11-Swin)。该模型以Swin Transformer作为主干特征提取网络,利用其分层设计与滑动窗口自注意力机制,有效捕获图像的全局上下文依赖关系,增强对模糊、遮挡目标的表征能力。在特征融合阶段,本文设计了一种跨层特征聚合机制(Cross-layer Feature Aggregation, CFA),通过全局池化与自适应权重计算,引导不同尺度特征图进行高效信息交互,以解决特征金字塔中的语义间隙与尺度不匹配问题。此外,在各级特征图输出端嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM),通过串行的通道与空间注意力子模块,自适应地优化特征响应,突出目标区域并抑制背景噪声。针对水下数据集正负样本不均衡的问题,模型采用Focal Loss作为分类损失函数,以聚焦困难样本的训练,提升模型收敛速度与稳健性。在URPC数据集上的实验结果表明,YOLO11-Swin的mAP@50达到75.54%,相比基线YOLO11模型显著提升9.42%。特别地,对小目标(如扇贝)的检测平均精度(AP)提升10.16%,召回率(Recall)提高4.55%,充分验证了所提模型在复杂水下环境下的有效性与先进性。
文摘[目的/意义]针对自然环境干扰下检测模型对辣椒叶片病虫害的特征提取不充分、容易忽视目标物体的边缘信息,以及小块病斑与虫害病灶易漏检等问题,本研究提出一种轻量化辣椒叶片病害检测算法,即YOLOMDFR(You Only Look Once Version 12-MDFR)。[方法]基于YOLOv12s模型做出改进。首先用两个堆叠的3×3的深度可分离卷积代替一个5×5的深度可分离卷积以改进MobileNetV4,并将其代替YOLOv12s的原始骨干网络实现骨干网络轻量化。其次为提高小目标物体的特征提取能力,提出了多维频域互补自注意力机制模块(Dimensional Frequency Reciprocal Attention Mixing Transformer,D-F-Ramit)。最后利用D-F-Ramit与RAGConv(Residual Aggrega⁃tion Gate-Controlled Convolution)重新设计颈部网络,增强模型的特征融合能力和信息传递能力。基于以上改进提出YOLO-MDFR目标检测算法。[结果和讨论]实验结果表明,本研究提出的YOLO-MDFR模型在实验数据集上的平均识别精确度达到95.6%,与YOLOv12s模型相比,平均识别精度提高了2.0%,同时参数量下降了61.5%,计算量下降了68.5%,帧率达到43.4帧/s。[结论]本研究通过系统性的架构优化,在保持模型轻量化的同时显著提升了检测性能,实现了计算效率与检测精度的最佳平衡。
文摘目标检测是计算机视觉的基石,在医疗成像、工业缺陷检测、自动驾驶和农业监测等领域有着广泛的应用。YOLO(You Only Look Once)作为单阶段目标检测的开创性算法,以其卓越的实时性和高效性成为计算机视觉领域的核心技术。从2016年YOLOv1的首次亮相到2025年YOLOv12的发布,YOLO通过持续优化网络架构、改进损失函数设计和创新数据增强策略,显著提升了检测性能和应用适配性。本文系统回顾了YOLO长达十年的发展历程,分析了其在不同领域的应用,并探讨了其快速发展背后的驱动力,包括深度学习技术的突破、开源社区的广泛协作以及对实时性和边缘计算的迫切需求。与双阶段算法(如Faster R-CNN)和基于Transformer的方法(如DETR)相比,YOLO在速度和工程部署上展现出显著优势,但在小目标检测、密集场景处理和复杂背景下的鲁棒性方面仍面临挑战。未来YOLO或可通过整合轻量级Transformer模块、优化多任务学习框架以及引入生成式AI增强数据多样性,有望进一步提升精度和场景适应能力。