文摘针对以往多模态方面级情感分析研究中数据噪声未被有效处理以及多模态数据特征融合不充分等问题,提出了一个基于图像字幕的多模态方面级情感识别网络MALERN(multimodal aspect level emotion recognition net-work)。MALERN在文本和图像做交互的同时引入了从图像数据集中提取的图像字幕作为文本数据的补充信息。为了能提取到更有效的图像字幕,MALERN采用基于无监督的BLIP2微调方法,相比于直接使用BLIP2来生成图像字幕,该方法能保证提取的图像字幕数据更加准确地描述图像信息。此外,在特征融合阶段,MALERN采用基于self-attention和LSTM的多模态特征融合网络(multimodal feature fusion network based on self-attention and LSTM,MFNSL)来实现多模态特征融合,相比于特征拼接方法,MFNSL能够有效处理图像和文本之间语义不相关的信息,从而在一定程度上缓解噪声的引入。实验结果表明,MALERN在公共数据集Twitter2015和Twitter2017上的准确率和F1值分别达到了79.36%、75.44%以及73.18%、71.30%,相较于最优基线模型分别提升了1.22、1.76个百分点以及2.04、2.14个百分点。实验说明MALERN能够充分利用多模态数据的语义信息来提高多模态方面级情感分析的预测结果。