针对目前的行人检测方法无法在复杂环境下同时满足高准确率和高检测速度的问题,提出了基于改进YOLOv7(You Only Look Once version 7)的高效行人检测方法。首先,通过鬼影混洗卷积(GSConv)与VoVGSCSP(VoVNetGS Conv Cross StagePartial)...针对目前的行人检测方法无法在复杂环境下同时满足高准确率和高检测速度的问题,提出了基于改进YOLOv7(You Only Look Once version 7)的高效行人检测方法。首先,通过鬼影混洗卷积(GSConv)与VoVGSCSP(VoVNetGS Conv Cross StagePartial)构建Slim-Neck,前者使用混洗操作将普通卷积生成的信息渗透到可分离卷积的输出中,来实现通道间信息的交互,后者采用一次聚合方法设计了跨阶段部分网络,VoVGSCSP模块降低了计算量和网络结构的复杂性,并保持了足够的精度;其次,在YOLOv7输出部分引入卷积注意力模块(CBAM),利用通道注意力和空间注意力来捕获特征之间的相关性,从而优化YOLOv7的特征表示能力,提高方法的准确性和鲁棒性。实验结果表明:在多个行人数据集上,与YOLOv5和YOLOv7相比,改进的YOLOv7方法平均精度(AP)提升了1.63~3.51个百分点,对数平均缺失率(LAMR)降低了0.54~3.97个百分点;相较于YOLOv7平均检测速度提升10FPS;同时通过弗里德曼检验结果证实改进的YOLOv7方法可用于实际数据,有效地实现了复杂环境下高精度、快速的行人检测。展开更多
为生成有效表示图像场景语义的视觉词典,提高场景语义标注性能,提出一种基于形式概念分析(FCA)的图像场景语义标注模型。该方法首先将训练图像集与其初始的视觉词典抽象为形式背景,采用信息熵标识了各视觉单词的权重,并分别构造了各场...为生成有效表示图像场景语义的视觉词典,提高场景语义标注性能,提出一种基于形式概念分析(FCA)的图像场景语义标注模型。该方法首先将训练图像集与其初始的视觉词典抽象为形式背景,采用信息熵标识了各视觉单词的权重,并分别构造了各场景类别概念格结构;然后再利用各视觉单词权重的均值刻画概念格内涵上各组合视觉单词标注图像的贡献,按照类别视觉词典生成阈值,从格结构上有效提取了标注各类场景图像语义的视觉词典;最后,利用K最近邻标注测试图像的场景语义。在Fei-Fei Scene 13类自然场景图像数据集上进行实验,并与Fei-Fei方法和Bai方法相比,结果表明该方法在β=0.05和γ=15时,标注分类精度更优。展开更多
文摘针对目前的行人检测方法无法在复杂环境下同时满足高准确率和高检测速度的问题,提出了基于改进YOLOv7(You Only Look Once version 7)的高效行人检测方法。首先,通过鬼影混洗卷积(GSConv)与VoVGSCSP(VoVNetGS Conv Cross StagePartial)构建Slim-Neck,前者使用混洗操作将普通卷积生成的信息渗透到可分离卷积的输出中,来实现通道间信息的交互,后者采用一次聚合方法设计了跨阶段部分网络,VoVGSCSP模块降低了计算量和网络结构的复杂性,并保持了足够的精度;其次,在YOLOv7输出部分引入卷积注意力模块(CBAM),利用通道注意力和空间注意力来捕获特征之间的相关性,从而优化YOLOv7的特征表示能力,提高方法的准确性和鲁棒性。实验结果表明:在多个行人数据集上,与YOLOv5和YOLOv7相比,改进的YOLOv7方法平均精度(AP)提升了1.63~3.51个百分点,对数平均缺失率(LAMR)降低了0.54~3.97个百分点;相较于YOLOv7平均检测速度提升10FPS;同时通过弗里德曼检验结果证实改进的YOLOv7方法可用于实际数据,有效地实现了复杂环境下高精度、快速的行人检测。
文摘为生成有效表示图像场景语义的视觉词典,提高场景语义标注性能,提出一种基于形式概念分析(FCA)的图像场景语义标注模型。该方法首先将训练图像集与其初始的视觉词典抽象为形式背景,采用信息熵标识了各视觉单词的权重,并分别构造了各场景类别概念格结构;然后再利用各视觉单词权重的均值刻画概念格内涵上各组合视觉单词标注图像的贡献,按照类别视觉词典生成阈值,从格结构上有效提取了标注各类场景图像语义的视觉词典;最后,利用K最近邻标注测试图像的场景语义。在Fei-Fei Scene 13类自然场景图像数据集上进行实验,并与Fei-Fei方法和Bai方法相比,结果表明该方法在β=0.05和γ=15时,标注分类精度更优。