从视觉到文本:图像描述生成的研究进展综述被引量：16

From Vision to Text: A Brief Survey for Image Captioning

下载PDF

导出

摘要近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。 In recent years, increasing attention has been attracted to the research field related to cross-modality, especially vision and language. This survey focuses on the task of image captioning and summarizes literatures from four aspects, including the overall architecture, some key questions for cross-modality research, the evaluation of image captioning and the state-of-the-art approaches to image captioning. In conclusion, we suggest three directions for future research, i.e., cross-modality representation, automatic evaluation metrics and diverse text generation.

作者魏忠钰范智昊王瑞泽承怡菁赵王榕黄萱菁 WEI Zhongyu;FAN Zhihao;WANG Ruize;CHENG Yijing;ZHAO Wangrong;HUANG Xuanjing(School of Data Science,Fudan University,Shanghai 200433,China;Academy for Engineering and Technology,Fudan University,Shanghai 200433,China;School of Computer Science and Technology,Fudan University,Shanghai 200433,China)

机构地区复旦大学大数据学院复旦大学工程与应用技术研究院复旦大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2020年第7期19-29,共11页 Journal of Chinese Information Processing

基金国家自然科学基金(71991471) 国家社会科学基金(20ZDA060) 上海市科学技术委员会(18DZ1201000,17JC1420200)

关键词图像描述生成跨模态特征对齐文献综述 image captioning cross-modality alignment literature review

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献54

1王月.浅析“表情包”兴起的特点及其影响[J].传播与版权,2016(9):116-117. 被引量：13
2陶水龙.大数据视野下档案信息化建设的新思考[J].档案学研究,2017(3):93-99. 被引量：85
3马龙龙,韩先培,孙乐.图像的文本描述方法研究综述[J].中文信息学报,2018,32(4):1-12. 被引量：6
4孙秉义,文珊珊,吴昊,蔡鸿明.基于深度学习的高分辨率遥感图像车辆检测[J].东华大学学报（自然科学版）,2018,44(4):520-525. 被引量：9
5杨来青.大数据背景下档案信息资源挖掘策略与方法研究[J].中国档案,2018(8):60-61. 被引量：36
6赵增顺,高寒旭,孙骞,滕升华,常发亮,Dapeng Oliver Wu.生成对抗网络理论框架、衍生模型与应用最新进展[J].小型微型计算机系统,2018,39(12):2602-2606. 被引量：20
7赵勤鲁,蔡晓东,李波,吕璐.基于LSTM-Attention神经网络的文本特征提取方法[J].现代电子技术,2018,41(8):167-170. 被引量：33
8魏玮.基于三维重建的全景图像自动生成技术[J].电子设计工程,2019,27(4):158-161. 被引量：5
9邓珍荣,张宝军,蒋周琴,黄文明.融合word2vec和注意力机制的图像描述模型[J].计算机科学,2019,46(4):268-273. 被引量：7
10马书磊,张国宾,焦阳,石光明.一种改进的全局注意机制图像描述方法[J].西安电子科技大学学报,2019,46(2):17-22. 被引量：6

引证文献16

1李小瑞,谢诚,李宾,柳青,胡健龙.基于知识元模型的跨模态聊天卡通表情图像合成[J].图学学报,2021,42(6):908-916. 被引量：1
2侯丽君,倪建成,张素素.改进条件生成对抗网络的文本生成图像方法[J].曲阜师范大学学报（自然科学版）,2022,48(2):63-70.
3王宇航,张灿龙,李志欣,王智文.体现用户意图和风格的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(4):91-103.
4吴佩伦,蒋勇,高琳.融合视觉特征和语义关系特征的视觉故事生成方法[J].西南科技大学学报,2022,37(3):44-51.
5林椹尠,冯菲蓉.一种用于图像描述的高效编码方法[J].西安邮电大学学报,2022,27(3):77-83. 被引量：1
6武光利,郭振洲,李雷霆.融合自上而下和自下而上注意力的图像描述生成[J].科学技术与工程,2022,22(32):14313-14320. 被引量：4
7蔺泽浩,李国趸,曾祥极,邓悦,张寅,庄越挺.基于跨媒体解纠缠表示学习的风格化图像描述生成[J].计算机学报,2022,45(12):2510-2527. 被引量：1
8牛凯,王鹏.视觉-语言导航的研究进展与发展趋势[J].计算机辅助设计与图形学学报,2022,34(12):1815-1827. 被引量：3
9彭姣丽.基于深度学习的自动生成图像描述技术研究[J].中国新技术新产品,2023(7):12-14.
10朱翌,李秀.医学图像描述综述:编码、解码及最新进展[J].中国图象图形学报,2023,28(7):1990-2010. 被引量：4

二级引证文献37

1徐绪堪,薛梦瑶,钱进.基于知识元语义描述模型的红色文化数字资源知识抽取研究[J].科技情报研究,2022,4(1):23-33. 被引量：11
2林浩,王春东,孙永杰.面向社交媒体数据的人格识别研究进展[J].计算机科学与探索,2023,17(5):1002-1016. 被引量：4
3彭姣丽.基于深度学习的自动生成图像描述技术研究[J].中国新技术新产品,2023(7):12-14.
4张晨,王圣焘,武光利.基于递归长短期记忆网络和镜头序列注意网络的视频摘要生成[J].科学技术与工程,2023,23(18):7852-7860.
5杨一,卢佩,刘效勇,谢峰.基于CNN-Transformer双流网络的伪脸检测[J].科学技术与工程,2023,23(19):8288-8295. 被引量：8
6段一琛,申晓红,王海燕,闫永胜.无监督时频信息结合的舰船辐射噪声信号抗诱饵干扰方法[J].兵工学报,2023,44(9):2722-2731. 被引量：3
7王杰峰,姜超颖,卫薇,纪元.一种PCA优化的自编码模型降阶方法[J].西安邮电大学学报,2023,28(5):86-91. 被引量：2
8杨维铠,陈长建,朱江宁,李磊,刘鹏,刘世霞.基于可视分析的训练数据质量提升综述[J].计算机辅助设计与图形学学报,2023,35(11):1629-1642. 被引量：6
9张泽宇,艾西丁·艾克白尔,迪力夏提·多力昆,孟小艳,程曦.新工科背景下神经网络与深度学习课程建设研究[J].电脑知识与技术,2023,19(36):131-133. 被引量：4
10秦俊,卢婷岚,纪柏,李雨晴.面向低剂量CT的牙齿分割网络[J].中国图象图形学报,2024,29(3):686-696. 被引量：2

1史秀聪.基于关键词指导的图像中文描述生成[J].计算机科学与应用,2020,10(6):1087-1097.
2周鹏,李环,郭美一,张丹,袁瑜鸽,吴砥.网络学习空间中教研交互评价模型及方法研究[J].电化教育研究,2020,41(5):52-58. 被引量：13
3李振华,张昭理,刘海.基于模型集成的在线学习投入评测方法研究[J].中国远程教育,2020(10):9-16. 被引量：12
4夏全洲,于国亮.兆瓦级风力发电机组机舱罩振动模态研究[J].装备维修技术,2020(9):0079-0079.
5杨林,丁继超,朱胜,王帅.融合图片信息的“标题党”新闻识别研究[J].图像与信号处理,2020,9(3):137-145. 被引量：1
6周六信,张立强,殷亚斌,李宇昊.基于参数化等距划分的蒙皮刀路自动生成研究[J].计算机时代,2020(11):1-6. 被引量：1
7冯垚,王金双,张雪涛.基于特征生成方法的Android恶意软件检测方法[J].信息技术与网络安全,2020,39(11):8-13. 被引量：2

中文信息学报

2020年第7期

浏览历史

内容加载中请稍等...

从视觉到文本:图像描述生成的研究进展综述被引量：16

同被引文献54

引证文献16

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

从视觉到文本:图像描述生成的研究进展综述 被引量：16

同被引文献54

引证文献16

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

从视觉到文本:图像描述生成的研究进展综述被引量：16