基于深度学习的图像自动标注方法综述被引量：7

A survey of image captioning methods based on deep learning

导出

摘要图像自动标注是目前计算机视觉和自然语言处理交叉研究领域的一个研究热点。对图像自动标注领域中的深度学习方法进行综述;针对图像自动标注领域的国内外研究现状,按照基于多模态空间、基于多区域、基于编码-解码、基于强化学习和基于生成式对抗网络等五个分类标准进行详细综述;介绍图像自动标注领域相关的数据集和评价标准,对比不同图像自动标注方法的优缺点;通过分析图像自动标注领域的当前研究现状,提出该领域亟待解决的3个关键问题,进一步指出未来的研究方向,并对本研究进行总结。 Image captioning is the cross-research direction of computer vision and natural language processing. This paper aimsed to summarize the deep learning methods in the field of image captioning. Imgage captioning methods based on deep learning was summarized into five categories: multimodal space based method, multi-region based method, enconder-deconder based method, reinforcement learning based method, and generative adversarial networks based method.The datasets and evaluation metrics were demonstrated, and experimental result of different methods were compared. The three key problems and future research direction for image captioning were presented and summarized.

作者常致富周风余王玉刚沈冬冬赵阳 CHANG Zhifu;ZHOU Fengyu;WANG Yugang;SHEN Dongdong;ZHAO Yang(School of Control Science and Engineering,Shandong University,Jinan 250061,Shandong,China)

机构地区山东大学控制科学与工程学院

出处《山东大学学报（工学版）》 CAS CSCD 北大核心 2019年第6期25-35,共11页 Journal of Shandong University（Engineering Science）

基金国家重点研发计划项目(2017YFB1302400) 国家自然科学基金(61773242) 山东省重大科技创新工程项目(2017CXGC0926) 山东省重点研发计划(公益类专项)项目(2017GGX30133)

关键词图像自动标注多模态空间多区域编码-解码强化学习生成式对抗网络 image captioning multimodal space multi-region enconder-deconder reinforcement learning generative adversarial networks

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：39

二级参考文献2

1张琳波,王春恒,肖柏华,邵允学.基于Bag-of-phrases的图像表示方法[J].自动化学报,2012,38(1):46-54. 被引量：25
2Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO.Cross-media analysis and reasoning: advances and directions[J].Frontiers of Information Technology & Electronic Engineering,2017,18(1):44-57. 被引量：31

共引文献38

1郭聃,崔中良.具身智能何以可能?——从意象图式视角分析[J].科学技术哲学研究,2023,40(5):51-57. 被引量：13
2周燕,曾凡智,吴臣,罗粤,刘紫琴.基于深度学习的三维形状特征提取方法[J].计算机科学,2019,46(9):47-58. 被引量：2
3刘欢,郑庆华,罗敏楠,赵洪科,肖阳,吕彦章.基于跨域对抗学习的零样本分类[J].计算机研究与发展,2019,56(12):2521-2535. 被引量：11
4黄樱,牛保宁,关虎,张树武.基于图像纹理的自适应水印算法[J].北京航空航天大学学报,2019,45(12):2403-2414. 被引量：11
5吕国俊,曹建军,郑奇斌,常宸,翁年凤.基于结构保持对抗网络的跨模态实体分辨[J].南京大学学报（自然科学版）,2020,56(2):197-205. 被引量：1
6张宇,闫幸.智能化普适多媒体服务模式与支持技术研究[J].新媒体研究,2020,6(13):25-28.
7张彩虹,刘慧敏,龚玉枝,黄红艳,魏婷,夏明,刘娟,曾永孝,郑晓丹.视频微课健康教育模式在压力性损伤患者居家照顾者中的应用[J].护理学杂志,2020,35(21):12-15. 被引量：23
8代瑾,陈莹.联合线性判别和图正则的任务导向型跨模态检索[J].计算机辅助设计与图形学学报,2021,33(1):106-115. 被引量：5
9王正,吴斌,王文哲,滕一阳,帅杰,肖云鹏,白婷.基于图像和视频信息的社交关系理解研究综述[J].计算机学报,2021,44(6):1168-1199. 被引量：7
10冯姣,陆昶谕.基于残差注意力网络的跨媒体检索方法[J].计算机科学,2021,48(S01):122-126. 被引量：5

同被引文献69

1蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：102
2南方哲,钱育蓉,行艳妮,赵京霞.基于深度学习的单图像超分辨率重建研究综述[J].计算机应用研究,2020,37(2):321-326. 被引量：24
3段媛媛.试论敦煌莫高窟十六国至北朝时期覆斗形顶(上)——莫高窟覆斗顶与晋墓顶[J].敦煌研究,2021(2):85-96. 被引量：3
4纪传俊,刘作涛,产文,周向东.一个基于语义上下文建模的图像自动标注系统[J].计算机研究与发展,2011,48(S3):441-445. 被引量：3
5赵新灿,左洪福,任勇军.眼动仪与视线跟踪技术综述[J].计算机工程与应用,2006,42(12):118-120. 被引量：102
6高阳,张庆松,原小帅,许振浩,刘斌.地质雷达在岩溶隧道超前预报中的应用[J].山东大学学报（工学版）,2009,39(4):82-86. 被引量：61
7朱松豪,邹黎明.一种改进图像标注的新方法[J].南京邮电大学学报（自然科学版）,2013,33(3):56-60. 被引量：1
8杨阳,张文生.基于深度学习的图像自动标注算法[J].数据采集与处理,2015,30(1):88-98. 被引量：27
9邢晴,张锁平,李明兵,党超群,齐占辉.融合颜色特征和对比度特征的图像显著性检测[J].半导体光电,2019,0(3):433-437. 被引量：6
10刘梦迪,陈燕俐,陈蕾.图像自动标注技术研究进展[J].计算机应用,2016,36(8):2274-2281. 被引量：4

引证文献7

1李刚.一种照片档案的人物自动标注的方法[J].电子技术与软件工程,2020(15):137-138. 被引量：3
2曹靖城,张继东,史国杰.基于深度学习的视觉图像非显著性区域增强[J].信息技术,2022,46(10):153-158.
3莫桂棋,夏益民,邢延,李卫军,蔡述庭.面向集成电路拥塞预测的版图数据扩充方法[J].计算机应用,2023,43(S02):261-267.
4杨诗曼,王中训,吴文静,于乐凯.图像自动标注技术研究进展[J].探测与控制学报,2025,47(1):24-32. 被引量：2
5邵延富,谢大为.基于深度学习的车辆部件半自动标注研究[J].科技创新与应用,2025,15(13):14-19. 被引量：1
6董明书,陈俐企,马川义,张珠皓,孙仁娟,管延华,庄培芝.沥青路面内部裂缝雷达图像智能判识算法研究[J].山东大学学报(工学版),2025,55(3):72-79. 被引量：4
7孟欣怡,殷晓晨,赵毅龙.基于LoRA标签优化的敦煌藻井图案AI生成式设计研究[J].包装工程,2026,47(2):197-210.

二级引证文献10

1徐跃.基于风格迁移学习的照片档案开发[J].兰台世界,2023(S01):134-136. 被引量：1
2钱毅,崔浩男.基于图像学理论的人物照片档案开发利用研究[J].档案与建设,2022(6):16-19. 被引量：7
3周峰.基于RK3588与C-YOLOv8的嵌入式道路病害检测系统设计与实现[J].阜阳职业技术学院学报,2025,36(3):47-53.
4翟志强,张硕,田永浩,宋鹏成,马尧,崔玉孟.大田作物行识别图像的快速标注与试验[J].农业工程学报,2025,41(18):193-199. 被引量：1
5余辉,夏文蕾,程钰,王骏阳.基于生成式人工智能的课堂教学实验设计与实践[J].实验室研究与探索,2025,44(11):121-125. 被引量：1
6庄小亚.基于车载高分辨率图像与改进U-Net的路面裂缝智能检测算法研究[J].实验室检测,2025,3(23):19-21.
7严斌,王伟良,谭复万.基于机器学习的建筑裂缝自动识别与损伤评估系统开发[J].中国建筑,2025,8(27):103-105.
8王燕楚,张君毅.面向无人机信号检测与识别的自动标注方法[J].计算机测量与控制,2026,34(1):188-195.
9董振伟,付学良,李宏慧,潘新,徐喆,罗小玲.基于改进RT-DETR的草原鼠洞智能识别与检测模型设计与试验[J].智能化农业装备学报(中英文),2026,7(1):63-74.
10周林兴,陈雨.声像档案智能著录研究综述[J].兰台世界,2026(1):27-33.

1李士国,张瑞国,孙晶明,孙俊.基于深度学习的雷达自动目标识别架构研究[J].现代雷达,2019,41(11):57-61. 被引量：13
2孙才志,郑靖伟.基于MRIO与SNA的中国水资源空间转移网络分析[J].水资源保护,2020,36(1):9-17. 被引量：20
3杨宏山,闫正龙,白穆.陕西时空大数据资源体系构建关键问题研究[J].测绘科学,2019,44(12):184-188. 被引量：10
4田枫,孙宁,刘贤梅.基于内容检索的三维模型语义标注方法研究[J].微型电脑应用,2019,35(12):1-4. 被引量：1
5王成官,楼狄明,谭丕强.基于变海拔柴油撞壁喷雾着火特性可视化研究[J].内燃机学报,2020,38(1):10-18. 被引量：1
6贾鹿,牛志杰,石国伟,李嗣旭,林道寿.油气上游领域智能化发展方向探析[J].石油科技论坛,2019,38(6):34-42. 被引量：8
7黄京菁.集中核算、平台变革与会计输入前端重塑[J].会计之友,2020,0(2):2-7. 被引量：3
8丁培.科学论文内的科学数据组织和发现研究[J].现代情报,2020,40(2):34-43. 被引量：3

山东大学学报（工学版）

2019年第6期

浏览历史

内容加载中请稍等...

基于深度学习的图像自动标注方法综述被引量：7

参考文献1

二级参考文献2

共引文献38

同被引文献69

引证文献7

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于深度学习的图像自动标注方法综述 被引量：7

参考文献1

二级参考文献2

共引文献38

同被引文献69

引证文献7

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于深度学习的图像自动标注方法综述被引量：7