图像描述生成研究进展被引量：8

Research Progress on Image Captioning

下载PDF

导出

摘要图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为四大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重点讨论了基于编码器-解码器架构的各种方法及其创新思路,如多模态空间、视觉空间、语义空间、注意机制、模型优化等.接着,从实验的角度给出图像描述生成的常用数据集和评估措施,并在2个基准数据集上比较了一些典型方法的性能.最后,以提升图像描述的准确性、完整性、新颖性、多样性为依据,展示了图像描述生成的未来发展趋势. Image captioning combines the two research fields of computer vision and natural language processing.It requires not only complete image semantic understanding,but also complex natural language expression.It is a crucial task for further research on visual intelligence in line with human perception.This paper reviews the research progress on image captioning.Firstly,five key technologies involved in current deep learning based image captioning methods are summarized and analyzed,including overall architecture,learning strategy,feature mapping,language model and attention mechanism.Then,according to the development process,the existing image captioning methods are divided into four categories,i.e.template based methods,retrieval based methods,encoder-decoder architecture based methods and compositional architecture based methods.We describe the basic concepts,representative methods and research status of each category.Furthermore,we emphatically discuss the various methods based on encoder-decoder architecture and their innovative ideas,such as multimodal space,visual space,semantic space,attention mechanism,model optimization,and so on.Subsequently,from the experimental point of view,we show the common benchmark datasets and evaluation measures in the field of image captioning.In addition,we compare the performance of some typical methods on two benchmark datasets.Finally,based on improving the accuracy,integrity,novelty and diversity of image caption,several future development trends of image captioning are presented.

作者李志欣魏海洋张灿龙马慧芳史忠植 Li Zhixin;Wei Haiyang;Zhang Canlong;Ma Huifang;Shi Zhongzhi(Guangxi Key Laboratory of Multi-Source Information Mining and Security(Guangxi Normal University),Guilin,Guangxi 541004;College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070;Key Laboratory of Intelligent Information Processing(Institute of Computing Technology,Chinese Academy of Sciences),Chinese Academy of Sciences,Beijing 100190)

机构地区广西多源信息挖掘与安全重点实验室(广西师范大学) 西北师范大学计算机科学与工程学院中国科学院智能信息处理重点实验室(中国科学院计算技术研究所)

出处《计算机研究与发展》 EI CSCD 北大核心 2021年第9期1951-1974,共24页 Journal of Computer Research and Development

基金国家自然科学基金项目(61966004,61663004,61866004,61762078) 广西自然科学基金项目(2019GXNSFDA245018,2018GXNSFDA281009,2017GXNSFAA198365)。

关键词图像描述生成编码器-解码器架构复合架构注意机制卷积神经网络循环神经网络长短期记忆网络 image captioning encoder-decoder architecture compositional architecture attention mechanism convolutional neural network recurrent neural network long short-term memory

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李志欣,施智平,李志清,史忠植.图像检索中语义映射方法综述[J].计算机辅助设计与图形学学报,2008,20(8):1085-1096. 被引量：36
2彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：38
3权宇,李志欣,张灿龙,马慧芳.融合深度扩张网络和轻量化网络的目标检测模型[J].电子学报,2020,48(2):390-397. 被引量：21
4李志欣,施智平,李志清,史忠植.融合语义主题的图像自动标注[J].软件学报,2011,22(4):801-812. 被引量：50
5李志欣,魏海洋,黄飞成,张灿龙,马慧芳,史忠植.结合视觉特征和场景语义的图像描述生成[J].计算机学报,2020,43(9):1624-1640. 被引量：27

二级参考文献82

1吴洪,卢汉清,马颂德.基于内容图像检索中相关反馈技术的回顾[J].计算机学报,2005,28(12):1969-1979. 被引量：52
2施智平,李清勇,史俊,史忠植.集成视觉特征和语义信息的相关反馈方法[J].计算机辅助设计与图形学学报,2007,19(9):1138-1142. 被引量：4
3Vasconcelos N. Minimum probability of error image retrieval[J]. IEEE Transactions on Signal Processing, 2004, 52(8): 2322-2336
4Rasiwasia N, Moreno P J, Vasconcelos N. Bridging the gap: query by semantic example [J].IEEE Transactions on Multimedia, 2007, 9(5):923-938
5Goh K S, Chang E, Cheng K T. SVM binary classifier ensembles for image classification [C]//Proceedings of the 10th International Conference on Information and Knowledge Management, Atlanta, 2001:395-402
6Cusano C, Ciocca G, Schettini R. Image annotation using SVM [C]//Proceedings of SPIE, San Jose, 2004, 5304:330 -338
7Gao Y L, Fan J P, Xue X Y, et al. Automatic image annotation by incorporating feature hierarchy and boosting to scale up SVM classifiers [C] //Proceedings of the 14th ACM International Conference on Multimedia, Santa Barbara, 2006:901-910
8Chang E, Goh K, Sychay G, et al. CBSA: content-based soft annotation for multimodal image retrieval using Bayes point machines [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(1):26-38
9Town C, Sinclair D. Content based image retrieval using semantic visual categories [ R].Cambridge: AT&T Laboratories, 2001
10Li J, Wang J Z. Automatic linguistic indexing of pictures by a statistical modeling approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25 (9): 1075-1088

共引文献158

1郭聃,崔中良.具身智能何以可能?——从意象图式视角分析[J].科学技术哲学研究,2023,40(5):51-57. 被引量：9
2刘毅.一种图像局部特征的语义提取方法[J].计算机工程与科学,2010,32(6):61-64. 被引量：1
3王守觉,孙华,柳培忠,廖英豪,丁兴号,郭东辉.基于仿生形象思维方法的图像检索算法[J].电子学报,2010,38(5):993-997. 被引量：8
4江悦,王润生,王程.采用上下文金字塔特征的场景分类[J].计算机辅助设计与图形学学报,2010,22(8):1366-1373. 被引量：14
5李志欣,施智平,刘曦,史忠植.建模连续视觉特征的图像语义标注方法[J].计算机辅助设计与图形学学报,2010,22(8):1412-1420. 被引量：9
6杨丹,李博,赵红.鲁棒视觉词汇本的自适应构造与自然场景分类应用[J].电子与信息学报,2010,32(9):2139-2144. 被引量：3
7时慧琨.一种利用用户反馈日志获取图像语义标注方法[J].通化师范学院学报,2010,31(12):40-41.
8李志欣,施智平,李志清,史忠植.融合语义主题的图像自动标注[J].软件学报,2011,22(4):801-812. 被引量：50
9柳培忠,王守觉.利用多维空间同源连续性的图像检索[J].应用科学学报,2011,29(2):153-158.
10黄文宇,覃团发,唐振华.基于模糊支持向量机的面向语义图像检索算法[J].计算机应用研究,2011,28(5):1987-1990. 被引量：8

同被引文献20

1魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁.从视觉到文本:图像描述生成的研究进展综述[J].中文信息学报,2020(7):19-29. 被引量：16
2俞俊,汪亮,余宙.视觉问答技术研究[J].计算机研究与发展,2018,55(9):1946-1958. 被引量：24
3张姣,杨振宇.图像描述生成方法研究文献综述[J].智能计算机与应用,2019,9(5):45-49. 被引量：8
4成科扬,王宁,师文喜,詹永照.深度学习可解释性研究进展[J].计算机研究与发展,2020,57(6):1208-1217. 被引量：81
5程秋菊,陈国平,王璐,管春.基于卷积神经网络的毫米波图像目标检测[J].科学技术与工程,2020,20(13):5224-5229. 被引量：6
6韦人予,蒙祖强.基于注意力特征自适应校正的图像描述模型[J].计算机应用,2020,40(S01):45-50. 被引量：4
7李志欣,魏海洋,黄飞成,张灿龙,马慧芳,史忠植.结合视觉特征和场景语义的图像描述生成[J].计算机学报,2020,43(9):1624-1640. 被引量：27
8王娟,柯聪,刘敏,蔡霖康,石豪,袁旭亮.基于改进生成对抗网络的多聚焦图像融合[J].科学技术与工程,2020,20(25):10308-10312. 被引量：4
9张家硕,洪宇,李志峰,姚建民,朱巧明.基于双向注意力机制的图像描述生成[J].中文信息学报,2020,34(9):53-61. 被引量：4
10苗益,赵增顺,杨雨露,徐宁,杨皓然,孙骞.图像描述技术综述[J].计算机科学,2020,47(12):149-160. 被引量：10

引证文献8

1卓亚琦,魏家辉,李志欣.基于双注意模型的图像描述生成方法研究[J].电子学报,2022,50(5):1123-1130. 被引量：9
2李志欣,苏强.基于知识辅助的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(5):418-432. 被引量：2
3武光利,郭振洲,李雷霆.融合自上而下和自下而上注意力的图像描述生成[J].科学技术与工程,2022,22(32):14313-14320. 被引量：4
4俞艺文,施水才,王洪俊.基于Bert词向量与有序记忆网络的图像描述[J].软件导刊,2023,22(3):125-133. 被引量：2
5刘茂福,毕健旗,周冰颖,胡慧君.基于依存句法的可解释图像描述生成[J].计算机研究与发展,2023,60(9):2115-2126.
6李志欣,侯传文,谢秀敏.融合多重实例关系的无监督跨模态哈希检索[J].软件学报,2023,34(11):4973-4988. 被引量：4
7刘明阳,王若梅,周凡,林格.基于多模态知识主动学习的视频问答方案[J].计算机研究与发展,2024,61(4):889-902. 被引量：2
8江泽涛,朱文才,金鑫,廖培期,黄景帆.一种基于双重语义协作网络的图像描述方法[J].计算机研究与发展,2024,61(11):3897-3908.

二级引证文献21

1张红良,李广明.基于空间关联性注意力的图像描述生成方法[J].计算机应用研究,2023,40(4):1275-1280. 被引量：1
2彭姣丽.基于深度学习的自动生成图像描述技术研究[J].中国新技术新产品,2023(7):12-14.
3张晨,王圣焘,武光利.基于递归长短期记忆网络和镜头序列注意网络的视频摘要生成[J].科学技术与工程,2023,23(18):7852-7860.
4杨一,卢佩,刘效勇,谢峰.基于CNN-Transformer双流网络的伪脸检测[J].科学技术与工程,2023,23(19):8288-8295. 被引量：8
5周子懿,熊海灵.基于深度学习的图像描述优化策略[J].计算机科学,2023,50(8):99-110. 被引量：2
6崔衡,张海涛,杨剑,杜宝昌.基于改进Transformer的多尺度图像描述生成[J].软件导刊,2024,23(7):160-166.
7白雪冰,车进,吴金蔓,陈玉敏.基于Transformer视觉特征融合的图像描述方法[J].计算机工程,2024,50(8):229-238. 被引量：2
8刘兵,李穗,刘明明,刘浩.基于条件变分推断与内省对抗学习的多样化图像描述生成[J].电子学报,2024,52(7):2219-2227.
9华却才让,白颖,周子琦,才让当知,完么措.基于藏文音节的图像标题自动生成方法研究[J].高原科学研究,2024,8(3):102-109. 被引量：1
10刘明明,刘兵,刘浩,张海燕.融合序列变分Transformer与对比学习的多样化图像描述生成[J].计算机工程与应用,2024,60(21):164-171.

1丁建华,张永贵.基于视觉智能技术的魏家峁露天煤矿矸石破洗运系统[J].露天采矿技术,2021,36(3):42-44. 被引量：2
2张瑶,卢焕章,张路平,胡谋法.基于深度学习的视觉多目标跟踪算法综述[J].计算机工程与应用,2021,57(13):55-66. 被引量：35
3孙洋,崔霖,王盛纬.基于技术转移转化的专利价值评估与增值管理[J].科学大众（科技创新）,2021(8):415-416.
4何帆,冯明杰,苏世游,江晓.电子战辐射源基准数据集汇集管理平台设计与实现[J].电子质量,2021(8):134-138.
5王忠源,谢正言,许一虎.基于改进U-Net的眼底图像血管分割方法[J].电脑知识与技术,2021,17(23):1-3. 被引量：1
6李小琴,王詝,陈思思,张永鸿.医学检验科不合格标本管理模式改进后的效果评估[J].检验医学与临床,2021,18(16):2453-2456. 被引量：17
7刘喜凯,林鸿飞,徐博,杨亮,任玉琪.基于检索结果融合机制的对话生成模型[J].中文信息学报,2021,35(7):134-142. 被引量：1
8陈佐瓒,徐兵,丁小军,甘井中.基于深度学习和支持向量机的基因结合蛋白预测[J].济南大学学报（自然科学版）,2021,35(5):428-432. 被引量：1
9董建红,张志斌,笪晓军,张文斌,冯雪丽.“三生”空间视角下土地利用转型的生态环境效应及驱动力——以甘肃省为例[J].生态学报,2021,41(15):5919-5928. 被引量：112
10满志博,毛存礼,余正涛,李训宇,高盛祥,朱俊国.基于多语言联合训练的汉-英-缅神经机器翻译方法[J].清华大学学报（自然科学版）,2021,61(9):927-935. 被引量：14

计算机研究与发展

2021年第9期

浏览历史

内容加载中请稍等...

图像描述生成研究进展被引量：8

参考文献5

二级参考文献82

共引文献158

同被引文献20

引证文献8

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

图像描述生成研究进展 被引量：8

参考文献5

二级参考文献82

共引文献158

同被引文献20

引证文献8

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

图像描述生成研究进展被引量：8