-
题名深度神经网络图像描述综述
被引量:15
- 1
-
-
作者
许昊
张凯
田英杰
种法广
王子超
-
机构
上海电力大学计算机科学与技术学院
国家电网公司上海电器科学研究院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第9期9-22,共14页
-
基金
国家自然科学基金(61872230,61802248,61802249,61702321)
上海高校青年教师培养资助计划(ZZsdl18006)。
-
文摘
深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现状进行详细综述。图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然语言描述,是场景理解的重要部分。图像描述任务中,一般采用由编码器和解码器组成的基本架构。改进编码器或解码器,应用生成对抗网络、强化学习、无监督学习以及图卷积神经网络等方法能有效提高图像描述算法的性能。对每类方法的代表模型算法的效果以及优缺点进行分析,并介绍适用的公开数据集,在此基础上进行对比实验。对图像描述面临的挑战以及未来工作的发展方向做出展望。
-
关键词
深度神经网络
计算机视觉
图像描述
编码器-解码器架构
注意力机制
-
Keywords
deep neural network
computer vision
image caption
encoder-decoder architecture
attention mechanism
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于ViLBERT与BiLSTM的图像描述算法
被引量:1
- 2
-
-
作者
许昊
张凯
田英杰
种法广
王子超
-
机构
上海电力大学计算机科学与技术学院
国家电网公司上海电器科学研究院
-
出处
《计算机系统应用》
2021年第11期195-202,共8页
-
基金
国家自然科学基金(61872230,61802248,61802249)
上海高校青年教师培养资助计划(ZZsdl18006)。
-
文摘
传统图像描述算法存在提取图像特征利用不足、缺少上下文信息学习和训练参数过多的问题,提出基于ViLBERT和双层长短期记忆网络(BiLSTM)结合的图像描述算法.使用ViLBERT作为编码器, ViLBERT模型能将图片特征和描述文本信息通过联合注意力的方式进行结合,输出图像和文本的联合特征向量.解码器使用结合注意力机制的BiLSTM来生成图像描述.该算法在MSCOCO2014数据集进行训练和测试,实验评价标准BLEU-4和BLEU得分分别达到36.9和125.2,优于基于传统图像特征提取结合注意力机制图像描述算法.通过生成文本描述对比可看出,该算法生成的图像描述能够更细致地表述图片信息.
-
关键词
图像描述
ViLBERT
BiLSTM
注意力机制
-
Keywords
image caption
Vision-and-Language BERT(ViLBERT)
Bidirectional Long Short-Term Memory(BiLSTM)
attention mechanism
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-