面向多标签图像识别的语义感知增强区域金字塔模型

Semantic Perception Enhanced Region Pyramid for Multi-Label Image Recognition

下载PDF

导出

摘要现有多标签图像识别方法主要利用深层特征,忽略了多层次特征交互;由于物体类别、布局、尺度等差异性较大,现有针对单标签图像识别的区域建议方法无法充分挖掘多标签图像中语义多样性强的局部区域.为此,提出一种基于语义感知增强区域金字塔模型的多标签图像识别方法,通过有效地融合不同层次的图像特征,生成适应于多尺度目标的感兴趣区域.该方法引入2个互补的阶段:在全局阶段,通过双路径特征融合金字塔对多层次特征进行编码,有效地融合深层语义信息与浅层细节信息;在局部阶段,利用语义感知区域建议模块和区域调整模块获得具有高度语义多样性和判别性的感兴趣区域.通过联合多个局部区域与全局图像的监督学习,所提方法在MS-COCO和VOC 2007等基准数据集的评测中取得了显著的效果提升,mAP指标分别提升4.3个百分点和4.2个百分点;在缺失标签场景下的多标签学习中,该方法也以明显的优势超越了同类方法. Existing multi-label image recognition methods mainly focus on deep features,ignoring multi-level feature interactions.Due to the large variability of object categories,layouts,scales,etc.,existing region proposal methods for single-label images struggle to adequately mine local regions with high semantic diversity in multi-label images.Therefore,this paper proposes a MLIR method based on semantic perception enhanced region pyramid,which effectively fusing different levels of image features to generate region of interests adapted to multi-scale objects.Two complementary stages,global and local,are introduced.The global stage encodes multi-level features via a dual pathway feature fusion pyramid,efficiently combining high-level semantic information with low-level detail.The local stage employs a semantic-aware region proposal module as well as a region refinement module to achieve the ROI with high semantic diversity and discriminative properties.Through the supervised learning of multiple local regions in conjunction with the global image,the method achieved a significant improvement on benchmarks such as MS-COCO and VOC 2007,with the mAP improving by 4.3 percentage points and 4.2 percentage points,respectively.The method demonstrates a clear advantage over others in the context of multi-label learning with missing labels.

作者胡云青陈强龙张寅 Hu Yunqing;Chen Qianglong;Zhang Yin(College of Computer Science and Technology,Zhejiang University,Hangzhou 310058)

机构地区浙江大学计算机科学与技术学院

出处《计算机辅助设计与图形学学报》北大核心 2025年第10期1770-1786,共17页 Journal of Computer-Aided Design & Computer Graphics

基金浙江省自然科学基金(LZ23F020009) 国家自然科学基金(62072399).

关键词多标签图像识别多层次特征区域建议语义感知标签缺失 multi-label image recognition multi-level feature region proposal semantic perceptive missing labels

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1李志欣,周韬,张灿龙,马慧芳,赵卫中.利用对抗网络改进多标记图像分类[J].计算机辅助设计与图形学学报,2020,32(1):16-26. 被引量：4
2王聪,陈莹.基于全尺度特征融合的自监督单目深度估计[J].计算机辅助设计与图形学学报,2023,35(5):667-675. 被引量：3
3刘康,冼楚华,李桂清.多尺度特征融合的透明物体深度图像快速修复方法[J].计算机辅助设计与图形学学报,2023,35(2):312-319. 被引量：6
4毛琳,李雪萌,杨大伟,张汝波.金字塔频率特征融合目标检测网络[J].计算机辅助设计与图形学学报,2021,33(2):207-214. 被引量：12

二级参考文献9

1李志欣,施智平,李志清,史忠植.图像检索中语义映射方法综述[J].计算机辅助设计与图形学学报,2008,20(8):1085-1096. 被引量：36
2狄红卫,柴颖,李逵.一种快速双目视觉立体匹配算法[J].光学学报,2009,29(8):2180-2184. 被引量：39
3李志欣,施智平,李志清,史忠植.融合语义主题的图像自动标注[J].软件学报,2011,22(4):801-812. 被引量：50
4詹毅,李声杰,李梦.图像插值的自适应邻域滤波方法[J].计算机工程,2015,41(2):224-227. 被引量：3
5李志欣,郑永哲,张灿龙,史忠植.结合深度特征与多标记分类的图像语义标注[J].计算机辅助设计与图形学学报,2018,30(2):318-326. 被引量：13
6张冬明,靳国庆,代锋,袁庆升,包秀国,张勇东.基于深度融合的显著性目标检测算法[J].计算机学报,2019,42(9):2076-2086. 被引量：39
7张思宇,张轶.基于多尺度特征融合的小目标行人检测[J].计算机工程与科学,2019,41(9):1627-1634. 被引量：17
8吴博剑,黄惠.透明物体的三维重建综述[J].计算机辅助设计与图形学学报,2020,32(2):173-180. 被引量：6
9陈莹,王一良.基于密集特征融合的无监督单目深度估计[J].电子与信息学报,2021,43(10):2976-2984. 被引量：8

共引文献21

1徐光柱,匡婉,李兴维,万秋波,石勇涛,雷帮军.YOLOv3与顶点偏移估计相结合的车牌定位[J].计算机辅助设计与图形学学报,2021,33(4):569-579. 被引量：6
2耿朝晖,龚涛.基于改进Faster R-CNN的PCB板表面缺陷检测[J].现代计算机,2021,27(19):89-93. 被引量：11
3毛琳,王萌,杨大伟.内容特征一致性风格迁移网络[J].计算机辅助设计与图形学学报,2022,34(6):892-900. 被引量：4
4李志欣,侯传文,谢秀敏.利用多重相似度矩阵增强跨模态哈希检索[J].计算机辅助设计与图形学学报,2022,34(6):933-945. 被引量：7
5董美辰,杨大伟,毛琳.目标跟踪频率特征补偿网络[J].大连民族大学学报,2022,24(3):206-211. 被引量：1
6王美童,毛琳,杨大伟.视频分割中局部记忆语义特征增强算法[J].大连民族大学学报,2022,24(3):226-230.
7徐静萍,王芳.基于改进的S-ReLU激活函数的图像分类方法[J].科学技术与工程,2022,22(29):12963-12968. 被引量：25
8佟明蔚,毛琳,杨大伟.视频动作定位中密集特征金字塔主干网络[J].大连民族大学学报,2022,24(5):412-417. 被引量：1
9廖逍,王兴涛,徐海青.利用特征融合提升深度学习图像检索算法[J].机械设计与制造工程,2023,52(1):112-116. 被引量：2
10乔美英,史建柯,李冰锋,赵岩,史有强.改进损失函数的增强型FPN水下小目标检测[J].计算机辅助设计与图形学学报,2023,35(4):525-537. 被引量：13

1曾凡龙,王孟媛,董彦龙,方巍巍.县域制造业产业链韧性评估与优化路径——以浙江金华为例[J].科技和产业,2025,25(23):179-184.
2胡晓连,唐佳庆,杨志,周文,黄坤,曹亮亮,莫益军,凌贺飞,史宇轩,李建博.基于多层次去噪的水电厂监控视频跨模态语义检索[J].水利水电技术(中英文),2025,56(11):179-188.
3吕学强,王晓英,韩晶,陈玉忠.多元视觉-语义联合嵌入的人-物交互检测网络[J].计算机辅助设计与图形学学报,2025,37(10):1811-1824.
4周淑敏.昆明方言“‘打’ + N”式复合词语义研究[J].现代语言学,2025,13(11):242-250.
5刘子阳,贾惠珍,王同罕.基于稠密网络与元学习的无参考图像质量评价[J].计算机与现代化,2025(12):81-87.
6赵文豪,梅萌,王小平,罗航宇.PKHOI:利用先验知识增强人-物交互检测算法[J].计算机科学,2026,53(1):141-152.
7刘洲峰,邵昕楠,吴文涛,余淼,李春雷.基于二阶元学习策略的小样本目标检测算法[J].计算机应用,2025,45(S2):88-95.
8Jinbo Xiang,Mengsu Liu,Xinglong Wang,Mingyu Yue,Zhijie Qin,Jingwen Zhou.Combined metabolic and enzymatic engineering for de novo biosynthesis of δ-tocotrienol in Yarrowia lipolytica[J].Synthetic and Systems Biotechnology,2025,10(3):719-727.
9D.PRIYANGA,K.AMUDHA,N.SAKTHIVEL,P.SIVASAKTHIVELAN,S.UTHARASU,D.UMA,M.SUDHA.Functional and Nutraceutical Potential of Indian Rice Landraces: A Comprehensive Scientific Review[J].Rice science,2025,32(6):777-796.

计算机辅助设计与图形学学报

2025年第10期

浏览历史

内容加载中请稍等...

面向多标签图像识别的语义感知增强区域金字塔模型

参考文献4

二级参考文献9

共引文献21

相关作者

相关机构

相关主题

浏览历史