水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新...水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新型检测模型(A Novel Detection Model with Deep Integration of Swin Transformer and YOLO11 Architectures, YOLO11-Swin)。该模型以Swin Transformer作为主干特征提取网络,利用其分层设计与滑动窗口自注意力机制,有效捕获图像的全局上下文依赖关系,增强对模糊、遮挡目标的表征能力。在特征融合阶段,本文设计了一种跨层特征聚合机制(Cross-layer Feature Aggregation, CFA),通过全局池化与自适应权重计算,引导不同尺度特征图进行高效信息交互,以解决特征金字塔中的语义间隙与尺度不匹配问题。此外,在各级特征图输出端嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM),通过串行的通道与空间注意力子模块,自适应地优化特征响应,突出目标区域并抑制背景噪声。针对水下数据集正负样本不均衡的问题,模型采用Focal Loss作为分类损失函数,以聚焦困难样本的训练,提升模型收敛速度与稳健性。在URPC数据集上的实验结果表明,YOLO11-Swin的mAP@50达到75.54%,相比基线YOLO11模型显著提升9.42%。特别地,对小目标(如扇贝)的检测平均精度(AP)提升10.16%,召回率(Recall)提高4.55%,充分验证了所提模型在复杂水下环境下的有效性与先进性。展开更多
通过日常巡检对肉鸡异常状态进行及时识别,是提升集约化养殖管理效率的重要手段。相比传统人工巡检方式,基于计算机视觉的自动化巡检在检测效率和一致性方面具有明显优势,但在实际养殖环境中,肉鸡个体密集分布,小目标、多尺度变化及遮...通过日常巡检对肉鸡异常状态进行及时识别,是提升集约化养殖管理效率的重要手段。相比传统人工巡检方式,基于计算机视觉的自动化巡检在检测效率和一致性方面具有明显优势,但在实际养殖环境中,肉鸡个体密集分布,小目标、多尺度变化及遮挡现象普遍存在,给视觉检测模型的稳定应用带来挑战。针对上述问题,本研究基于YOLO11n(you only look once)模型,提出了一种改进的目标检测方法 GMA-YOLO11n(GSConv and multi-scale attention YOLO11n)。该模型在Backbone中引入GSConv轻量化卷积模块以降低计算复杂度;并通过多尺度特征融合新增160×160的高分辨率特征层,以增强对小尺度和密集目标的检测能力;同时在多尺度特征输入前引入SE(squeeze-and-excitation)通道注意力模块,提升关键特征表达。试验结果表明,该模型能够有效实现肉鸡饮水、进食、行走等日常行为及异常状态的多类别检测,在数据集Ⅰ和数据集Ⅱ上的平均精度均值mAP分别达到93.87%和90.45%,较基线模型均有所提升,且推理速度满足实际视频巡检需求。展开更多
驾驶员在实际驾驶的过程中会存在面部遮挡场景,例如戴眼镜、戴口罩等,传统单一通过提取驾驶员面部特征进行疲劳检测的Dlib算法不再适用。该文结合Dlib与YOLO11使用多阈值判定,对传统Dlib疲劳检测算法进行改进,给出戴眼镜、戴口罩等驾驶...驾驶员在实际驾驶的过程中会存在面部遮挡场景,例如戴眼镜、戴口罩等,传统单一通过提取驾驶员面部特征进行疲劳检测的Dlib算法不再适用。该文结合Dlib与YOLO11使用多阈值判定,对传统Dlib疲劳检测算法进行改进,给出戴眼镜、戴口罩等驾驶员面部遮挡场景的疲劳检测算法,并在Raspberry Pi 5硬件平台,使用公开数据集验证改进算法对于驾驶员疲劳检测的准确性。另外,改进算法还可以对吸烟、打电话等这类分心驾驶行为进行检测和语音提醒,对疲劳和分心行为实现更全面的检测和预警。展开更多
文摘水下目标检测在海洋资源开发与生态环境监测中至关重要,但水下图像的低对比度、色彩失真及复杂背景干扰为精准检测带来巨大挑战。为克服传统方法在特征提取与小目标识别上的局限,本文提出一种深度融合Swin Transformer与YOLO11架构的新型检测模型(A Novel Detection Model with Deep Integration of Swin Transformer and YOLO11 Architectures, YOLO11-Swin)。该模型以Swin Transformer作为主干特征提取网络,利用其分层设计与滑动窗口自注意力机制,有效捕获图像的全局上下文依赖关系,增强对模糊、遮挡目标的表征能力。在特征融合阶段,本文设计了一种跨层特征聚合机制(Cross-layer Feature Aggregation, CFA),通过全局池化与自适应权重计算,引导不同尺度特征图进行高效信息交互,以解决特征金字塔中的语义间隙与尺度不匹配问题。此外,在各级特征图输出端嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM),通过串行的通道与空间注意力子模块,自适应地优化特征响应,突出目标区域并抑制背景噪声。针对水下数据集正负样本不均衡的问题,模型采用Focal Loss作为分类损失函数,以聚焦困难样本的训练,提升模型收敛速度与稳健性。在URPC数据集上的实验结果表明,YOLO11-Swin的mAP@50达到75.54%,相比基线YOLO11模型显著提升9.42%。特别地,对小目标(如扇贝)的检测平均精度(AP)提升10.16%,召回率(Recall)提高4.55%,充分验证了所提模型在复杂水下环境下的有效性与先进性。
文摘通过日常巡检对肉鸡异常状态进行及时识别,是提升集约化养殖管理效率的重要手段。相比传统人工巡检方式,基于计算机视觉的自动化巡检在检测效率和一致性方面具有明显优势,但在实际养殖环境中,肉鸡个体密集分布,小目标、多尺度变化及遮挡现象普遍存在,给视觉检测模型的稳定应用带来挑战。针对上述问题,本研究基于YOLO11n(you only look once)模型,提出了一种改进的目标检测方法 GMA-YOLO11n(GSConv and multi-scale attention YOLO11n)。该模型在Backbone中引入GSConv轻量化卷积模块以降低计算复杂度;并通过多尺度特征融合新增160×160的高分辨率特征层,以增强对小尺度和密集目标的检测能力;同时在多尺度特征输入前引入SE(squeeze-and-excitation)通道注意力模块,提升关键特征表达。试验结果表明,该模型能够有效实现肉鸡饮水、进食、行走等日常行为及异常状态的多类别检测,在数据集Ⅰ和数据集Ⅱ上的平均精度均值mAP分别达到93.87%和90.45%,较基线模型均有所提升,且推理速度满足实际视频巡检需求。
文摘驾驶员在实际驾驶的过程中会存在面部遮挡场景,例如戴眼镜、戴口罩等,传统单一通过提取驾驶员面部特征进行疲劳检测的Dlib算法不再适用。该文结合Dlib与YOLO11使用多阈值判定,对传统Dlib疲劳检测算法进行改进,给出戴眼镜、戴口罩等驾驶员面部遮挡场景的疲劳检测算法,并在Raspberry Pi 5硬件平台,使用公开数据集验证改进算法对于驾驶员疲劳检测的准确性。另外,改进算法还可以对吸烟、打电话等这类分心驾驶行为进行检测和语音提醒,对疲劳和分心行为实现更全面的检测和预警。