多模态命名实体识别(multi-modal named entity recognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。...多模态命名实体识别(multi-modal named entity recognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。(2)难以实现不同模态之间的高效语义交互。因此,提出了一种融合外部知识增强多模态命名实体识别模型。在模态表示阶段,该模型引入CLIP(contrastive language-image pre-training)模型,利用模型中蕴含的文本和图像先验跨模态知识信息,增强文本和图像的语义表示,弥补模态鸿沟。在模态融合阶段,设计了跨模态交叉注意力机制和跨模态门控机制实现模态信息融合,有效排除图像中的噪声信息,进一步增强语义交互;采用条件随机场(CRF)实现命名实体的识别。所提出的方法在公开数据集Twitter2015和Twitter2017上的F1值分别达到了75.35%和86.18%,证明了该方法的有效性。展开更多
针对现有基于文本的命名实体识别方法难以有效利用视觉信息,且主流多模态命名实体识别(multimodal named entity recognition,MNER)方法存在跨模态语义关联挖掘不足、异构数据融合能力有限、易受模态语义鸿沟影响等问题,提出一种基于显...针对现有基于文本的命名实体识别方法难以有效利用视觉信息,且主流多模态命名实体识别(multimodal named entity recognition,MNER)方法存在跨模态语义关联挖掘不足、异构数据融合能力有限、易受模态语义鸿沟影响等问题,提出一种基于显隐式双路径融合的多模态命名实体识别模型DPF-MNER(dual-path fusion MNER)。该模型引入双路径融合机制实现跨模态深度对齐:在显式路径中,构建目标实体-词汇关系图,明确建模文本实体与图像区域间的语义对应关系;在隐式路径中,设计基于动量对比学习的难样本对齐机制,通过动量更新维护跨模态记忆库,引导模型在共享语义空间中拉近相关图文对、推远不相关图文对,缓解模态偏差。在构建的军事领域专用数据集ME-MNER与公开数据集Twitter-2017上的实验结果表明,DPF-MNER在F1指标上分别达到87.05%和86.35%,验证了该方法在提升实体识别精度与模型泛化能力方面的有效性。展开更多
为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement f...为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement for multimodal named entity recognition method,MSVSE).该方法提取多种视觉特征用于补全图像语义,挖掘文本特征与多种视觉特征间的语义交互关系,生成多尺度视觉语义特征并进行融合,得到多尺度视觉语义增强的多模态文本表示;使用视觉实体分类器对多尺度视觉语义特征解码,实现视觉特征的语义一致性约束;调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义,通过联合解码解决语义偏差问题,从而进一步提高命名实体识别准确度.为验证该方法的有效性,在Twitter-2015和Twitter-2017数据集上进行实验,并与其他10种方法进行对比,该方法的平均F1值得到提升.展开更多
文摘为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement for multimodal named entity recognition method,MSVSE).该方法提取多种视觉特征用于补全图像语义,挖掘文本特征与多种视觉特征间的语义交互关系,生成多尺度视觉语义特征并进行融合,得到多尺度视觉语义增强的多模态文本表示;使用视觉实体分类器对多尺度视觉语义特征解码,实现视觉特征的语义一致性约束;调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义,通过联合解码解决语义偏差问题,从而进一步提高命名实体识别准确度.为验证该方法的有效性,在Twitter-2015和Twitter-2017数据集上进行实验,并与其他10种方法进行对比,该方法的平均F1值得到提升.