水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新...水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新型检测模型(A Novel Detection Model with Deep Integration of Swin Transformer and YOLO11 Architectures, YOLO11-Swin)。该模型以Swin Transformer作为主干特征提取网络,利用其分层设计与滑动窗口自注意力机制,有效捕获图像的全局上下文依赖关系,增强对模糊、遮挡目标的表征能力。在特征融合阶段,本文设计了一种跨层特征聚合机制(Cross-layer Feature Aggregation, CFA),通过全局池化与自适应权重计算,引导不同尺度特征图进行高效信息交互,以解决特征金字塔中的语义间隙与尺度不匹配问题。此外,在各级特征图输出端嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM),通过串行的通道与空间注意力子模块,自适应地优化特征响应,突出目标区域并抑制背景噪声。针对水下数据集正负样本不均衡的问题,模型采用Focal Loss作为分类损失函数,以聚焦困难样本的训练,提升模型收敛速度与稳健性。在URPC数据集上的实验结果表明,YOLO11-Swin的mAP@50达到75.54%,相比基线YOLO11模型显著提升9.42%。特别地,对小目标(如扇贝)的检测平均精度(AP)提升10.16%,召回率(Recall)提高4.55%,充分验证了所提模型在复杂水下环境下的有效性与先进性。展开更多
[目的/意义]针对自然环境干扰下检测模型对辣椒叶片病虫害的特征提取不充分、容易忽视目标物体的边缘信息,以及小块病斑与虫害病灶易漏检等问题,本研究提出一种轻量化辣椒叶片病害检测算法,即YOLOMDFR(You Only Look Once Version 12-MD...[目的/意义]针对自然环境干扰下检测模型对辣椒叶片病虫害的特征提取不充分、容易忽视目标物体的边缘信息,以及小块病斑与虫害病灶易漏检等问题,本研究提出一种轻量化辣椒叶片病害检测算法,即YOLOMDFR(You Only Look Once Version 12-MDFR)。[方法]基于YOLOv12s模型做出改进。首先用两个堆叠的3×3的深度可分离卷积代替一个5×5的深度可分离卷积以改进MobileNetV4,并将其代替YOLOv12s的原始骨干网络实现骨干网络轻量化。其次为提高小目标物体的特征提取能力,提出了多维频域互补自注意力机制模块(Dimensional Frequency Reciprocal Attention Mixing Transformer,D-F-Ramit)。最后利用D-F-Ramit与RAGConv(Residual Aggrega⁃tion Gate-Controlled Convolution)重新设计颈部网络,增强模型的特征融合能力和信息传递能力。基于以上改进提出YOLO-MDFR目标检测算法。[结果和讨论]实验结果表明,本研究提出的YOLO-MDFR模型在实验数据集上的平均识别精确度达到95.6%,与YOLOv12s模型相比,平均识别精度提高了2.0%,同时参数量下降了61.5%,计算量下降了68.5%,帧率达到43.4帧/s。[结论]本研究通过系统性的架构优化,在保持模型轻量化的同时显著提升了检测性能,实现了计算效率与检测精度的最佳平衡。展开更多
目标检测是计算机视觉的基石,在医疗成像、工业缺陷检测、自动驾驶和农业监测等领域有着广泛的应用。YOLO(You Only Look Once)作为单阶段目标检测的开创性算法,以其卓越的实时性和高效性成为计算机视觉领域的核心技术。从2016年YOLOv1...目标检测是计算机视觉的基石,在医疗成像、工业缺陷检测、自动驾驶和农业监测等领域有着广泛的应用。YOLO(You Only Look Once)作为单阶段目标检测的开创性算法,以其卓越的实时性和高效性成为计算机视觉领域的核心技术。从2016年YOLOv1的首次亮相到2025年YOLOv12的发布,YOLO通过持续优化网络架构、改进损失函数设计和创新数据增强策略,显著提升了检测性能和应用适配性。本文系统回顾了YOLO长达十年的发展历程,分析了其在不同领域的应用,并探讨了其快速发展背后的驱动力,包括深度学习技术的突破、开源社区的广泛协作以及对实时性和边缘计算的迫切需求。与双阶段算法(如Faster R-CNN)和基于Transformer的方法(如DETR)相比,YOLO在速度和工程部署上展现出显著优势,但在小目标检测、密集场景处理和复杂背景下的鲁棒性方面仍面临挑战。未来YOLO或可通过整合轻量级Transformer模块、优化多任务学习框架以及引入生成式AI增强数据多样性,有望进一步提升精度和场景适应能力。展开更多
基金supported in part by the Shanghai Aerospace Science and Technology Innovation Foundation(No.SAST 2021-026)the Fund of Prospec⁃tive Layout of Scientific Research for Nanjing University of Aeronautics and Astronautics(NUAA).
文摘随着空间技术的飞速发展,空间态势感知能力需求不断增加。与传统光学传感器相比,逆合成孔径雷达(Inverse synthetic aperture radar,ISAR)具有全天候、远距离高分辨率成像的能力,且成像不受光照条件的影响。此外,空间态势感知系统需要对周围航天器进行准确的评估,因此对空间目标部件识别能力的需求日益迫切。本文提出了一种基于YOLOv5结构的Multitask⁃YOLO网络,用于卫星ISAR图像中卫星帆板的识别和分割。首先,本文添加了分割解耦头来实现网络的分割功能。然后用空间金字塔池快速算法(Spatial pyramid pooling fast,SPPF)和距离交并比算法(Distance intersection over union,DIoU)代替原有结构,避免图像失真,加快收敛速度。通过在通道中引入注意机制,提高了分割和识别的准确性。最后使用模拟卫星的ISAR图像进行实验。结果表明,所提出的Multitask⁃YOLO网络高效、准确地实现了部件的识别和分割。与其他的识别和分割网络相比,该网络的平均精度(mean Average precision,mAP)和平均交并比(mean Intersection over union,mIoU)提高了约5%。此外,该网络的运行速度高达16.4 GFLOP,优于传统的多任务网络的性能。
文摘水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新型检测模型(A Novel Detection Model with Deep Integration of Swin Transformer and YOLO11 Architectures, YOLO11-Swin)。该模型以Swin Transformer作为主干特征提取网络,利用其分层设计与滑动窗口自注意力机制,有效捕获图像的全局上下文依赖关系,增强对模糊、遮挡目标的表征能力。在特征融合阶段,本文设计了一种跨层特征聚合机制(Cross-layer Feature Aggregation, CFA),通过全局池化与自适应权重计算,引导不同尺度特征图进行高效信息交互,以解决特征金字塔中的语义间隙与尺度不匹配问题。此外,在各级特征图输出端嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM),通过串行的通道与空间注意力子模块,自适应地优化特征响应,突出目标区域并抑制背景噪声。针对水下数据集正负样本不均衡的问题,模型采用Focal Loss作为分类损失函数,以聚焦困难样本的训练,提升模型收敛速度与稳健性。在URPC数据集上的实验结果表明,YOLO11-Swin的mAP@50达到75.54%,相比基线YOLO11模型显著提升9.42%。特别地,对小目标(如扇贝)的检测平均精度(AP)提升10.16%,召回率(Recall)提高4.55%,充分验证了所提模型在复杂水下环境下的有效性与先进性。
文摘[目的/意义]针对自然环境干扰下检测模型对辣椒叶片病虫害的特征提取不充分、容易忽视目标物体的边缘信息,以及小块病斑与虫害病灶易漏检等问题,本研究提出一种轻量化辣椒叶片病害检测算法,即YOLOMDFR(You Only Look Once Version 12-MDFR)。[方法]基于YOLOv12s模型做出改进。首先用两个堆叠的3×3的深度可分离卷积代替一个5×5的深度可分离卷积以改进MobileNetV4,并将其代替YOLOv12s的原始骨干网络实现骨干网络轻量化。其次为提高小目标物体的特征提取能力,提出了多维频域互补自注意力机制模块(Dimensional Frequency Reciprocal Attention Mixing Transformer,D-F-Ramit)。最后利用D-F-Ramit与RAGConv(Residual Aggrega⁃tion Gate-Controlled Convolution)重新设计颈部网络,增强模型的特征融合能力和信息传递能力。基于以上改进提出YOLO-MDFR目标检测算法。[结果和讨论]实验结果表明,本研究提出的YOLO-MDFR模型在实验数据集上的平均识别精确度达到95.6%,与YOLOv12s模型相比,平均识别精度提高了2.0%,同时参数量下降了61.5%,计算量下降了68.5%,帧率达到43.4帧/s。[结论]本研究通过系统性的架构优化,在保持模型轻量化的同时显著提升了检测性能,实现了计算效率与检测精度的最佳平衡。
文摘目标检测是计算机视觉的基石,在医疗成像、工业缺陷检测、自动驾驶和农业监测等领域有着广泛的应用。YOLO(You Only Look Once)作为单阶段目标检测的开创性算法,以其卓越的实时性和高效性成为计算机视觉领域的核心技术。从2016年YOLOv1的首次亮相到2025年YOLOv12的发布,YOLO通过持续优化网络架构、改进损失函数设计和创新数据增强策略,显著提升了检测性能和应用适配性。本文系统回顾了YOLO长达十年的发展历程,分析了其在不同领域的应用,并探讨了其快速发展背后的驱动力,包括深度学习技术的突破、开源社区的广泛协作以及对实时性和边缘计算的迫切需求。与双阶段算法(如Faster R-CNN)和基于Transformer的方法(如DETR)相比,YOLO在速度和工程部署上展现出显著优势,但在小目标检测、密集场景处理和复杂背景下的鲁棒性方面仍面临挑战。未来YOLO或可通过整合轻量级Transformer模块、优化多任务学习框架以及引入生成式AI增强数据多样性,有望进一步提升精度和场景适应能力。