目的组合零样本识别是计算机视觉领域零样本学习任务的子任务,旨在从已经见过的组合图像中学习属性和物体概念,并将其迁移到未见过的组合上。现有方法对组合图像中属性和物体的解耦合能力不足,并且未能充分发挥文本标签对于属性和物体...目的组合零样本识别是计算机视觉领域零样本学习任务的子任务,旨在从已经见过的组合图像中学习属性和物体概念,并将其迁移到未见过的组合上。现有方法对组合图像中属性和物体的解耦合能力不足,并且未能充分发挥文本标签对于属性和物体信息的解耦合作用。方法为解决组合图像中属性与物体信息纠缠的问题,针对文本与视觉模态的差异,提出双模态解耦机制:在文本端构建图神经网络以建模属性与物体间的语义关系,在视觉端引入交叉注意力机制增强对属性和物体特征的分离能力。该方法集成于语言图像预训练框架中,从语言与视觉两个层面提升模型对属性与物体概念的建模能力,从而增强未见组合的识别效果。结果在3个主流的组合零样本识别基准数据集MIT-States、UT-Zappos和C-GQA(compositional GQA)上对所提方法进行了系统评估,结果表明模型性能显著提升。以MIT-States数据集为例,在封闭世界设置下,相较于性能排名第2的模型,本文方法的AUC(area under curve)提升3.3%,HM(Harmonic mean)提升2.4%,已见组合的识别准确率提升5.3%,未见组合提升1.0%;在开放世界设置下,本文方法的AUC提升0.9%,HM提升0.7%,已见组合与未见组合准确率分别提升3.2%和1.0%。此外,在MIT-States数据集上对提出的文本与视觉解耦模块及其上下文建模组件进行了消融实验,进一步验证了各子模块对整体性能的有效贡献。结论所提出的图文双端解耦合模块提升了模型对于组合中属性和物体的学习能力,显著提升了模型在组合零样本识别任务上的表现。展开更多
文摘目的组合零样本识别是计算机视觉领域零样本学习任务的子任务,旨在从已经见过的组合图像中学习属性和物体概念,并将其迁移到未见过的组合上。现有方法对组合图像中属性和物体的解耦合能力不足,并且未能充分发挥文本标签对于属性和物体信息的解耦合作用。方法为解决组合图像中属性与物体信息纠缠的问题,针对文本与视觉模态的差异,提出双模态解耦机制:在文本端构建图神经网络以建模属性与物体间的语义关系,在视觉端引入交叉注意力机制增强对属性和物体特征的分离能力。该方法集成于语言图像预训练框架中,从语言与视觉两个层面提升模型对属性与物体概念的建模能力,从而增强未见组合的识别效果。结果在3个主流的组合零样本识别基准数据集MIT-States、UT-Zappos和C-GQA(compositional GQA)上对所提方法进行了系统评估,结果表明模型性能显著提升。以MIT-States数据集为例,在封闭世界设置下,相较于性能排名第2的模型,本文方法的AUC(area under curve)提升3.3%,HM(Harmonic mean)提升2.4%,已见组合的识别准确率提升5.3%,未见组合提升1.0%;在开放世界设置下,本文方法的AUC提升0.9%,HM提升0.7%,已见组合与未见组合准确率分别提升3.2%和1.0%。此外,在MIT-States数据集上对提出的文本与视觉解耦模块及其上下文建模组件进行了消融实验,进一步验证了各子模块对整体性能的有效贡献。结论所提出的图文双端解耦合模块提升了模型对于组合中属性和物体的学习能力,显著提升了模型在组合零样本识别任务上的表现。