期刊文献+

基于深度学习的图像自动标注方法综述 被引量:7

A survey of image captioning methods based on deep learning
原文传递
导出
摘要 图像自动标注是目前计算机视觉和自然语言处理交叉研究领域的一个研究热点。对图像自动标注领域中的深度学习方法进行综述;针对图像自动标注领域的国内外研究现状,按照基于多模态空间、基于多区域、基于编码-解码、基于强化学习和基于生成式对抗网络等五个分类标准进行详细综述;介绍图像自动标注领域相关的数据集和评价标准,对比不同图像自动标注方法的优缺点;通过分析图像自动标注领域的当前研究现状,提出该领域亟待解决的3个关键问题,进一步指出未来的研究方向,并对本研究进行总结。 Image captioning is the cross-research direction of computer vision and natural language processing. This paper aimsed to summarize the deep learning methods in the field of image captioning. Imgage captioning methods based on deep learning was summarized into five categories: multimodal space based method, multi-region based method, enconder-deconder based method, reinforcement learning based method, and generative adversarial networks based method.The datasets and evaluation metrics were demonstrated, and experimental result of different methods were compared. The three key problems and future research direction for image captioning were presented and summarized.
作者 常致富 周风余 王玉刚 沈冬冬 赵阳 CHANG Zhifu;ZHOU Fengyu;WANG Yugang;SHEN Dongdong;ZHAO Yang(School of Control Science and Engineering,Shandong University,Jinan 250061,Shandong,China)
出处 《山东大学学报(工学版)》 CAS CSCD 北大核心 2019年第6期25-35,共11页 Journal of Shandong University(Engineering Science)
基金 国家重点研发计划项目(2017YFB1302400) 国家自然科学基金(61773242) 山东省重大科技创新工程项目(2017CXGC0926) 山东省重点研发计划(公益类专项)项目(2017GGX30133)
关键词 图像自动标注 多模态空间 多区域 编码-解码 强化学习 生成式对抗网络 image captioning multimodal space multi-region enconder-deconder reinforcement learning generative adversarial networks
  • 相关文献

参考文献1

二级参考文献2

共引文献38

同被引文献69

引证文献7

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部