-
题名文本属性激活视觉的广义零样本图像识别
- 1
-
-
作者
闫文尚
张桂梅
-
机构
南昌航空大学江西省图像处理与模式识别重点实验室
-
出处
《计算机工程与应用》
北大核心
2025年第21期265-275,共11页
-
基金
国家自然科学基金(62361043)。
-
文摘
现有的零样本学习方法存在语义信息与视觉特征无法有效对齐,且视觉特征中存在较多冗余信息,导致零样本和广义零样本图像识别精度不佳。针对该问题,提出文本属性激活视觉的广义零样本图像识别方法。借助大语言模型生成判别性语义信息-文本属性。并引入类先验估计模块,计算每个文本属性的先验权重,以增强文本属性的可解释性,优化模型的性能。利用判别性文本属性激活与其对应的视觉特征,有效去除视觉特征中的冗余信息。在先验权重的引导下,将激活的视觉特征与文本属性进行跨模态对齐,以实现更精准高效的视觉语义交互,提高模型的图像识别精度。在三个基准数据集(AWA2、CUB、SUN)上进行自监督广义零样本图像识别实验,在AWA2和SUN数据集上调和平均值均达到最优,分别比次优值提高了1.1和0.8个百分点,在CUB数据集中取得次优,实验结果证明了提出方法的有效性。
-
关键词
文本属性
先验权重
视觉激活
跨模态对齐
-
Keywords
text-attributes
prior weights
select visual token
cross-modal alignment
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-