A Review on Vision-Language-Based Approaches: Challenges and Applications

下载PDF

导出

摘要 In multimodal learning, Vision-Language Models (VLMs) have become a critical research focus, enabling the integration of textual and visual data. These models have shown significant promise across various natural language processing tasks, such as visual question answering and computer vision applications, including image captioning and image-text retrieval, highlighting their adaptability for complex, multimodal datasets. In this work, we review the landscape of Bootstrapping Language-Image Pre-training (BLIP) and other VLM techniques. A comparative analysis is conducted to assess VLMs’ strengths, limitations, and applicability across tasks while examining challenges such as scalability, data quality, and fine-tuning complexities. The work concludes by outlining potential future directions in VLM research, focusing on enhancing model interpretability, addressing ethical implications, and advancing multimodal integration in real-world applications.

作者 Huu-Tuong Ho Luong Vuong Nguyen Minh-Tien Pham Quang-Huy Pham Quang-Duong Tran Duong Nguyen Minh Huy Tri-Hai Nguyen

机构地区 Department of Artificial Intelligence Department of Business Faculty of Information Technology

出处《Computers, Materials & Continua》 2025年第2期1733-1756,共24页 计算机、材料和连续体(英文)

关键词 Bootstrapping language-image pre-training(BLIP) multimodal learning vision-language model(VLM) vision-language pre-training(VLP)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1理想汽车到底谁懂智驾?——理想AI Talk访谈实录02[J].世界汽车,2025(1):72-75.
2刘小伟,付正阳,刘丽娟,慕凯迪,宾冬松.ChatGPT在体育科学中的发展和应用价值[J].冰雪体育创新研究,2024(23):188-190.
3陈名,李健.基于生成对抗网络的雷达信号分选识别方法[J].电子制作,2025,33(3):43-47.
4俞琰,郑斯煜,葛萌.基于关键词语义功能的领域主题演化分析[J].情报杂志,2025,44(1):187-197.
5蒋沛,马新露,李一博,陈坚.网联车辆复用公交专用道建模与仿真研究[J].交通运输系统工程与信息,2025,25(1):67-75. 被引量：1
6Tao Zhang,Yu Zhang.CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval[J].Journal of Computer and Communications,2024,12(11):26-36.
7Qun LI,Haixin SUN,Fu XIAO,Yiming WANG,Xinping GAO,Bir BHANU.PS-CoT-Adapter:adapting plan-and-solve chain-of-thought for ScienceQA[J].Science China(Information Sciences),2025,68(1):389-390.
8李炳楠,丁濛.基于预训练大模型的无监督图像字幕生成优化[J].北京信息科技大学学报(自然科学版),2025,40(1):11-19. 被引量：1
9Yue Zhang,Wanshu Fan,Peixi Peng,Xin Yang,Dongsheng Zhou,Xiaopeng Wei.Dual modality prompt learning for visual question-grounded answering in robotic surgery[J].Visual Computing for Industry,Biomedicine,and Art,2024,7(1):316-328. 被引量：1
10李德伦,田喜亮,殷川俊,张允飞.关于铁路车站的安全标线的研究[J].应用数学进展,2025,14(1):33-40.

Computers, Materials & Continua

2025年第2期

浏览历史

内容加载中请稍等...

A Review on Vision-Language-Based Approaches: Challenges and Applications

相关作者

相关机构

相关主题

浏览历史