面向视觉语言模型的多模态对抗微调方法

Multimodal adversarial fine-tuning method for vision-language models

下载PDF

导出

摘要视觉语言模型作为计算机视觉与自然语言处理交叉领域的关键技术,已在教育和艺术创作等场景中展现出广泛的应用价值。然而,此类模型易受对抗攻击影响,其安全性面临严峻挑战。传统对抗微调方法通过优化视觉编码器提升模型鲁棒性,但未充分探索与文本模态协同优化机制。为此,提出了一种面向图文对比预训练模型的多模态对抗微调方法,首次实现图像与文本编码器的同步优化,并通过学习率动态调节策略解决双编码器收敛速度不平衡的问题。实验结果表明,这种方法显著提升了视觉语言模型的对抗鲁棒性,其性能优于现有方法且实现更为高效。 Vision-Language Models(VLMs),serving as a pivotal technology in the cross-domain integration of computer vision and natural language processing,have demonstrated extensive application value in many fields,including education and artistic creation.Nevertheless,VLMs exhibit vulnerability to adversarial attacks,presenting critical security risks.While conventional adversarial fine-tuning methods can enhance robustness by optimizing visual encoders,their failure to explore synergistic optimization mechanisms with textual modalities also can limit effectiveness.To address this limitation,this study proposes a multimodal adversarial fine-tuning method for Contrastive Language-Image Pretraining(CLIP),aiming at achieving concurrent optimization of image and text encoders,alongside a dynamic learning rate adaptation strategy to mitigate convergence speed disparities between dual encoders.Experimental evaluations on benchmark datasets demonstrate that the proposed method outperforms state-of-the-art methods in adversarial robustness while maintaining superior training efficiency.

作者陈驰赵世纪韦星星 CHEN Chi;ZHAO Shiji;WEI Xingxing(School of Software,Beihang University,Beijing 100191,China;Institute of Artificial Intelligence,Beihang University,Beijing 100191,China)

机构地区北京航空航天大学软件学院北京航空航天大学人工智能学院

出处《智能安全》 2025年第2期1-10,共10页 Artificial Intelligence Security

关键词视觉语言模型对抗微调对抗鲁棒性计算机视觉自然语言处理 VLMs adversarial fine-tuning adversarial robustness computer vision natural language processing

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1方小丽.基于Transformer的中文文本情感智能分类与优化[J].智能物联技术,2025,57(3):42-45.
2任莉.完整经验建构视域下幼儿成长空间再造的园本实践[J].早期教育,2025(24):41-44.
3李军伟.一种基于改进BP算法的恶意流量代码检测方法[J].新乡学院学报,2025,42(6):45-48. 被引量：1
4胡慧君,丁子毅,张耀峰,刘茂福.基于联合交互注意力的图文情感分析方法[J].北京航空航天大学学报,2025,51(7):2262-2270. 被引量：1
5车美龄,南嘉乐,林建海,高东平.多模态营养知识图谱构建[J].中国现代医生,2025,63(17):12-15.
6高艳娜,郭卫娜.三维赋能构建县公司人才发展新生态[J].中国电力教育,2025(4):26-27.
7丁嘉琦,谢艳新,鲍俊羽,白一锐,覃伟锋.基于HiPPO-YOLOv5的食品仓库检测系统[J].无线互联科技,2025,22(11):94-98.
8李义霖,王由斌.林草湿综合监测与国土变更调查数据衔接方法实践[J].智慧中国,2025(5):124-125. 被引量：2
9陈如意.空间叙事学视角下的仇英《桃花源图》研究[J].艺术与设计(理论版),2025(6):105-108.
10李圣龙,卫宇坤,刘波,王明羽.一种基于线程束级分支发散度的GPGPU自适应检错架构[J].空间控制技术与应用,2025,51(3):89-99.

智能安全

2025年第2期

浏览历史

内容加载中请稍等...

面向视觉语言模型的多模态对抗微调方法

相关作者

相关机构

相关主题

浏览历史