一种基于深度学习的中文图像描述模型被引量：6

A Chinese image caption model based on deep learning

下载PDF

导出

摘要近年来编码器和解码器组成的深度神经网络在图像描述任务中取得了很好的表现,一般编码器采用深度卷积神经网络,解码器采用循环神经网络.针对循环神经网络存在的梯度消失问题,在图像描述任务中表现为循环神经网络后续时间片生成的单词缺乏先前的信息引导,提出了记忆助手的方法,并给出了一种面向大规模中文数据集的多模态神经网络模型.该模型采用深度卷积神经网络(Inception-v4、Inception-ResNet-v2)和注意力机制提取图像视觉特征,在循环神经网络中引入记忆助手来引导句子的生成.实验证明,在AI CHALLENGER测试集中,这种模型显著地提高了各项评价指标. In recent years,deep neural networks composed of encoders and decoders have achieved good performance in image caption tasks.The general encoder uses a deep convolutional neural network,and the decoder uses a recurrent neural network.Aiming at the problem of gradient disappearance in the recurrent neural network,the words generated by the subsequent time slices of the recurrent neural network in the image caption task lack the previous information guidance and the method of memory aid is proposed,and a multimodal neural network model for a large-scale Chinese dataset is given.The model uses deep convolutional neural network(Inception-v4,Inception-ResNet-v2)and attention mechanism to extract image visual features,and introduces memory aid in the recurrent neural network to guide the generation of sentences.Experiments have shown that this model significantly improved the various evaluation indicators in the AI CHALLENGER test set.

作者郭淑涛赵德新 GUO Shu-tao;ZHAO De-xin(School of Computer Science and Engineering,Tianjin University of Technology,Tianjin 300384,China)

机构地区天津理工大学计算机科学与工程学院

出处《天津理工大学学报》 2020年第3期30-35,共6页 Journal of Tianjin University of Technology

基金国家自然科学基金(61571328).

关键词中文图像描述深度学习卷积神经网络递归神经网络 Chinese image caption deep learning convolutional neural networks recurrent neural networks

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刘泽宇,马龙龙,吴健,孙乐.基于多模态神经网络的图像中文摘要生成方法[J].中文信息学报,2017,31(6):162-171. 被引量：9

共引文献8

1陈兴.基于多模态神经网络生成图像中文描述[J].计算机系统应用,2020,29(9):191-197. 被引量：2
2李怡,刘丽君.基于大数据图像处理的产品造型智能设计探索[J].包装工程,2021,42(14):179-184. 被引量：8
3罗予东,李振坤.结合深度神经网络的网络监控系统微表情识别[J].计算机应用与软件,2023,40(7):172-179. 被引量：2
4全安坤,李红莲,张乐,吕学强.融合内容和图片特征的中文摘要生成方法研究[J].数据分析与知识发现,2024,8(3):110-119. 被引量：3
5郝子娴,汪兴建,杨有.联合视觉分组的图像中文描述[J].微电子学与计算机,2024,41(8):73-80. 被引量：1
6孟繁聪,徐伟,李海波,吴闽,郑竣杰,陈兴.融合编码器和视觉关键词搜索的图像中文描述[J].计算机应用与软件,2025,42(4):208-216.
7马雯悦,王恒友,何强,曾宪佑.基于多模态预训练大模型和细粒度特征增强的图像中文描述[J].河北工业科技,2025,42(4):314-322.
8赵博文,马廷淮.结合图片目标锚点引导的图文多模态摘要模型研究[J].计算机工程与应用,2025,61(23):181-194.

同被引文献40

1游春华,彭华,罗玉龙.弹性薄板的损伤检测[J].武汉大学学报（工学版）,2008,41(3):105-108. 被引量：5
2何钦象,杨智春,姜峰,田小红.薄板损伤检测的高斯曲率模态差方法[J].振动与冲击,2010,29(7):112-115. 被引量：20
3李晓慧,张宝峰,朱均超.基于多光谱柑桔缺陷检测方法研究[J].天津理工大学学报,2010,26(4):36-39. 被引量：2
4朱宏平,余璟,张俊兵.结构损伤动力检测与健康监测研究现状与展望[J].工程力学,2011,28(2):1-11. 被引量：183
5张波,王宗元,王赟,姜峰.利用模态曲率差法进行弹性薄板的损伤检测[J].地下空间与工程学报,2011,7(1):144-149. 被引量：7
6李德葆,陆秋海,秦权.承弯结构的曲率模态分析[J].清华大学学报（自然科学版）,2002,42(2):224-227. 被引量：83
7陈翔,彭华,张宏宇.板结构损伤识别的叠加曲率法研究[J].武汉大学学报（工学版）,2015,48(4):538-541. 被引量：5
8刘泽宇,马龙龙,吴健,孙乐.基于多模态神经网络的图像中文摘要生成方法[J].中文信息学报,2017,31(6):162-171. 被引量：9
9刘玉翠,周志强,曹玲芝.复杂光照下变电站指针式仪表图像自动识别研究[J].电工技术,2018(7):13-15. 被引量：6
10陈星.基于机器视觉的电解电容器外观检测系统设计[J].制造技术与机床,2018(8):144-148. 被引量：5

引证文献6

1周宇辉,何志琴.基于改进注意力机制的图像描述算法[J].智能计算机与应用,2022,12(2):58-63. 被引量：1
2邓珍荣,张永林,杨睿,蓝如师,黄文明,罗笑南.结合全局和局部特征的BiGRU-RA图像中文描述模型[J].计算机辅助设计与图形学学报,2021,33(1):49-58. 被引量：4
3吴梦玉,王冲,冯晶晶.基于位移模态差高斯曲率的中心固定板附加质量单元识别方法[J].天津理工大学学报,2023,39(2):1-5.
4刘宏利,于斌.基于深度学习的电解电容表面视觉检测[J].天津理工大学学报,2024,40(1):77-83.
5孟繁聪,徐伟,李海波,吴闽,郑竣杰,陈兴.融合编码器和视觉关键词搜索的图像中文描述[J].计算机应用与软件,2025,42(4):208-216.
6刘宏利,张志伟,邵磊,李季.基于深度学习的指针式仪表示数读取方法[J].天津理工大学学报,2025,41(6):108-114.

二级引证文献5

1于海涛,刘竞泽,刘乐.深度学习在情感分析领域的应用综述[J].现代信息科技,2023,7(17):50-54. 被引量：6
2郝子娴,汪兴建,杨有.联合视觉分组的图像中文描述[J].微电子学与计算机,2024,41(8):73-80. 被引量：1
3孟繁聪,徐伟,李海波,吴闽,郑竣杰,陈兴.融合编码器和视觉关键词搜索的图像中文描述[J].计算机应用与软件,2025,42(4):208-216.
4王子怡,李卫军,刘雪洋,丁建平,刘世侠,苏易礌.基于Swin Transformer与多尺度特征融合的图像描述方法[J].计算机应用,2025,45(10):3154-3160.
5杨建兴,卢照敢,赵柴学正.基于并行神经网络的疾病特征实体识别方法[J].计算机科学与应用,2024,14(10):58-66.

1丛璐文.基于双路细化注意力机制的图像描述模型[J].计算机系统应用,2020,29(5):245-251. 被引量：1
2数读天下[J].小康,2020,0(4):18-18.
3黄远,白琮,李宏凯,张敬林,陈胜勇.基于条件生成对抗网络的图像描述生成方法[J].计算机辅助设计与图形学学报,2020,32(6):911-918. 被引量：16
4谭磊.Dodge Challenger 叛逆恶魔[J].汽车知识,2020,0(2):62-67.
5高永兵,李越超.微博中的社交意图识别与分类技术研究[J].内蒙古科技大学学报,2020,39(2):187-191. 被引量：2
6游双勇.高中英语词块教学的问题与对策[J].高中生学习,2019,0(3):0096-0097.
7冯丽.新冠肺炎疫情影响甘肃省人民币跨境使用的调查与思考[J].甘肃金融,2020(6):24-26. 被引量：1
8焦扬,杨传颖,石宝.基于SIFT、K-means和BOF的鞋底痕迹检索[J].计算机应用与软件,2020,37(5):238-242. 被引量：4
9王亚刚,郗怡媛,潘晓英.改进DeepLabv3+网络的肠道息肉分割方法[J].计算机科学与探索,2020,14(7):1243-1250. 被引量：23
10Jian WANG,Yuan-gui TANG,Chuan-xu CHEN,Ji-xu LI,Cong CHEN,Ai-qun ZHANG,Yi-ping LI,Shuo LI.Terrain matching localization for hybrid underwater vehicle in the Challenger Deep of the Mariana Trench[J].Frontiers of Information Technology & Electronic Engineering,2020,21(5):749-759. 被引量：8

天津理工大学学报

2020年第3期

浏览历史

内容加载中请稍等...

一种基于深度学习的中文图像描述模型被引量：6

参考文献1

共引文献8

同被引文献40

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于深度学习的中文图像描述模型 被引量：6

参考文献1

共引文献8

同被引文献40

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于深度学习的中文图像描述模型被引量：6