期刊文献+
共找到89篇文章
< 1 2 5 >
每页显示 20 50 100
Video action recognition meets vision-language models exploring human factors in scene interaction: a review
1
作者 GUO Yuping GAO Hongwei +3 位作者 YU Jiahui GE Jinchao HAN Meng JU Zhaojie 《Optoelectronics Letters》 2025年第10期626-640,共15页
Video action recognition(VAR)aims to analyze dynamic behaviors in videos and achieve semantic understanding.VAR faces challenges such as temporal dynamics,action-scene coupling,and the complexity of human interactions... Video action recognition(VAR)aims to analyze dynamic behaviors in videos and achieve semantic understanding.VAR faces challenges such as temporal dynamics,action-scene coupling,and the complexity of human interactions.Existing methods can be categorized into motion-level,event-level,and story-level ones based on spatiotemporal granularity.However,single-modal approaches struggle to capture complex behavioral semantics and human factors.Therefore,in recent years,vision-language models(VLMs)have been introduced into this field,providing new research perspectives for VAR.In this paper,we systematically review spatiotemporal hierarchical methods in VAR and explore how the introduction of large models has advanced the field.Additionally,we propose the concept of“Factor”to identify and integrate key information from both visual and textual modalities,enhancing multimodal alignment.We also summarize various multimodal alignment methods and provide in-depth analysis and insights into future research directions. 展开更多
关键词 human factors video action recognition vision language models analyze dynamic behaviors spatiotemporal granularity video action recognition var aims multimodal alignment scene interaction
原文传递
Leveraging Vision-Language Pre-Trained Model and Contrastive Learning for Enhanced Multimodal Sentiment Analysis
2
作者 Jieyu An Wan Mohd Nazmee Wan Zainon Binfen Ding 《Intelligent Automation & Soft Computing》 SCIE 2023年第8期1673-1689,共17页
Multimodal sentiment analysis is an essential area of research in artificial intelligence that combines multiple modes,such as text and image,to accurately assess sentiment.However,conventional approaches that rely on... Multimodal sentiment analysis is an essential area of research in artificial intelligence that combines multiple modes,such as text and image,to accurately assess sentiment.However,conventional approaches that rely on unimodal pre-trained models for feature extraction from each modality often overlook the intrinsic connections of semantic information between modalities.This limitation is attributed to their training on unimodal data,and necessitates the use of complex fusion mechanisms for sentiment analysis.In this study,we present a novel approach that combines a vision-language pre-trained model with a proposed multimodal contrastive learning method.Our approach harnesses the power of transfer learning by utilizing a vision-language pre-trained model to extract both visual and textual representations in a unified framework.We employ a Transformer architecture to integrate these representations,thereby enabling the capture of rich semantic infor-mation in image-text pairs.To further enhance the representation learning of these pairs,we introduce our proposed multimodal contrastive learning method,which leads to improved performance in sentiment analysis tasks.Our approach is evaluated through extensive experiments on two publicly accessible datasets,where we demonstrate its effectiveness.We achieve a significant improvement in sentiment analysis accuracy,indicating the supe-riority of our approach over existing techniques.These results highlight the potential of multimodal sentiment analysis and underscore the importance of considering the intrinsic semantic connections between modalities for accurate sentiment assessment. 展开更多
关键词 Multimodal sentiment analysis visionlanguage pre-trained model contrastive learning sentiment classification
在线阅读 下载PDF
PowerVLM:基于Federated Learning与模型剪枝的电力视觉语言大模型
3
作者 欧阳旭东 雒鹏鑫 +3 位作者 何绍洋 崔艺林 张中超 闫云凤 《全球能源互联网》 北大核心 2026年第1期101-111,共11页
智能电网的快速发展衍生出多模态、多源异构的海量电力数据,给人工智能模型在复杂电力场景感知带来了挑战,同时行业数据的敏感性和隐私保护需求进一步限制了通用模型在电力领域的跨场景迁移能力。对此,提出了一种基于Federated Learnin... 智能电网的快速发展衍生出多模态、多源异构的海量电力数据,给人工智能模型在复杂电力场景感知带来了挑战,同时行业数据的敏感性和隐私保护需求进一步限制了通用模型在电力领域的跨场景迁移能力。对此,提出了一种基于Federated Learning与模型剪枝的电力视觉语言大模型。提出了一种基于类别引导的电力视觉语言大模型PowerVLM,设计了类别引导增强模块,增强模型对电力图文数据的理解和问答能力;采用FL的强化学习训练策略,在满足数据隐私保护下,降低域间差异对模型性能的影响;最后,提出了一种基于信息决议的模型剪枝算法,可实现低训练参数的模型高效微调。分别在变电巡检、输电任务、作业安监3种典型电力场景开展实验,结果表明,该方法在电力场景多模态问答任务中的METEOR、BLEU和CIDEr等各项指标均表现优异,为电力场景智能感知提供了新的技术思路和方法支撑。 展开更多
关键词 智能电网 人工智能 视觉语言大模型 Federated Learning 模型剪枝
在线阅读 下载PDF
Special Topic on Security of Large Models
4
作者 SU Zhou DU Linkang 《ZTE Communications》 2025年第3期1-2,共2页
Large models,such as large language models(LLMs),vision-language models(VLMs),and multimodal agents,have become key elements in artificial intelli⁃gence(AI)systems.Their rapid development has greatly improved percepti... Large models,such as large language models(LLMs),vision-language models(VLMs),and multimodal agents,have become key elements in artificial intelli⁃gence(AI)systems.Their rapid development has greatly improved perception,generation,and decision-making in various fields.However,their vast scale and complexity bring about new security challenges.Issues such as backdoor vulnerabilities during training,jailbreaking in multimodal rea⁃soning,and data provenance and copyright auditing have made security a critical focus for both academia and industry. 展开更多
关键词 large modelssuch SECURITY multimodal agentshave multimodal rea soningand large language models llms vision language data provenance copyright auditing backdoor vulnerabilities vision language models
在线阅读 下载PDF
Foundation models:Insights and implications for gastrointestinal cancer
5
作者 Lei Shi Rui Huang +1 位作者 Li-Ling Zhao An-Jie Guo 《World Journal of Gastroenterology》 2025年第47期7-34,共28页
Gastrointestinal(GI)cancers represent a major global health concern due to their high incidence and mortality rates.Foundation models(FMs),also referred to as large models,represent a novel class of artificial intelli... Gastrointestinal(GI)cancers represent a major global health concern due to their high incidence and mortality rates.Foundation models(FMs),also referred to as large models,represent a novel class of artificial intelligence technologies that have demonstrated considerable potential in addressing these challenges.These models encompass large language models(LLMs),vision FMs(VFMs),and multimodal LLMs(MLLMs),all of which utilize transformer architectures and self-supervised pre-training on extensive unlabeled datasets to achieve robust cross-domain generalization.This review delineates the principal applications of these models:LLMs facilitate the structuring of clinical narratives,extraction of insights from medical records,and enhancement of physician-patient communication;VFMs are employed in the analysis of endoscopic,radiological,and pathological images for lesion detection and staging;MLLMs integrate heterogeneous data modalities,including imaging,textual information,and genomic data,to support diagnostic processes,treatment prediction,and prognostic evaluation.Despite these promising developments,several challenges remain,such as the need for data standardization,limited diversity within training datasets,substantial computational resource requirements,and ethical-legal concerns.In conclusion,FMs exhibit significant potential to advance research and clinical management of GI cancers.Future research efforts should prioritize the refinement of these models,promote international collaborations,and adopt interdisciplinary approaches.Such a comprehensive strategy is essential to fully harness the capabilities of FMs,driving substantial progress in the fight against GI malignancies. 展开更多
关键词 Foundation models Gastrointestinal cancers Large language models vision foundation models Multimodal large language models
在线阅读 下载PDF
多模态对地观测大模型:架构、关键技术和未来展望
6
作者 许文嘉 于睿卿 +6 位作者 薛铭浩 汪雪怡 张源奔 魏智威 张柘 彭木根 吴一戎 《雷达学报(中英文)》 北大核心 2026年第1期361-386,共26页
近年来,人工智能技术和对地观测领域的结合已成为领域发展的前沿热点,多模态大语言模型(MLLM)的快速发展为智能解译带来新的机遇和挑战。多模态对地观测大模型通过构建大语言模型与视觉模型之间的桥接机制并采用联合训练方式,深度融合... 近年来,人工智能技术和对地观测领域的结合已成为领域发展的前沿热点,多模态大语言模型(MLLM)的快速发展为智能解译带来新的机遇和挑战。多模态对地观测大模型通过构建大语言模型与视觉模型之间的桥接机制并采用联合训练方式,深度融合光学影像、合成孔径雷达影像与文本等多模态信息,有效推动对地观测智能解译由浅层语义匹配向高层的世界知识理解跃迁。该文系统性回顾了多模态对地观测大模型的相关研究成果,以期为新的研究方向提供依据。具体而言,该文首先明确了多模态对地观测大模型(EO-MLLM)的概念定义,并梳理了多模态对地观测大模型的发展脉络。随后,详细阐述了多模态对地观测大模型的模型架构、训练方法、适用任务及其对应的基准数据集,并介绍了对地观测智能体。最后,探讨了多模态对地观测大模型的研究现状和未来发展方向。 展开更多
关键词 大语言模型 多模态大语言模型 多模态对地观测大模型 视觉语言模型 对地观测智能体
在线阅读 下载PDF
融合视觉语言模型的柚子分形树图像生成增强方法
7
作者 赖力潜 段洁利 +1 位作者 杨洲 袁浩天 《农业机械学报》 北大核心 2026年第1期311-318,338,共9页
为了降低柚子等水果目标检测对大量标注数据的依赖,本文提出了一种融合视觉语言模型的柚子分形树图像生成增强方法。该方法仅需3~5幅无标注真实图像,即可在无训练条件下生成大规模带标注的训练数据集。首先利用基于文本提示的零样本分... 为了降低柚子等水果目标检测对大量标注数据的依赖,本文提出了一种融合视觉语言模型的柚子分形树图像生成增强方法。该方法仅需3~5幅无标注真实图像,即可在无训练条件下生成大规模带标注的训练数据集。首先利用基于文本提示的零样本分割模型(Grounded segment anything model,Grounded SAM)提取柚树组件,然后结合稳定扩散模型Stable Diffusion使用文本提示生成随机背景,最后使用改进的分形树算法生成柚树以提升多样性及真实感。试验采用YOLO v10轻量化版本进行验证,在自建的非结构化环境柚子目标检测数据集上,当训练集真实图像数量分别为0、8、16、32、64幅时,使用本文方法后模型多阈值平均精度均值(Mean average precision at intersection over union thresholds from 0.50 to 0.95,mAP50-95)提升率依次达到662.3%、24.9%、13.7%、8.8%、1.8%。当训练集中真实图像数量为221幅,生成图像数量为512幅时,模型达到最优性能:精确率为76.9%,召回率为62.7%,mAP50为70.3%,mAP50-95为38.4%。迁移到橙子目标检测任务,相同数据规模下的性能提升分别为212.9%、16.5%、14.0%、5.2%、4.1%。当训练集中真实图像数量为1302幅,生成图像数量为512幅时,模型同样达到最优性能:精确率为90.3%,召回率为87.8%,mAP50为94.0%,mAP50-95为54.0%。试验结果表明,该图像生成增强方法在零样本和少样本学习场景中能够有效扩展训练数据,提高YOLO v10轻量化版本目标检测的性能,并展现出良好的泛化能力。 展开更多
关键词 柚子目标检测 生成式数据增强 少样本学习 视觉语言模型
在线阅读 下载PDF
视觉语言模型驱动的目标计数
8
作者 曹锋 张孝文 +2 位作者 岳子杰 李莉 史淼晶 《中国图象图形学报》 北大核心 2026年第1期289-302,共14页
目的大型视觉语言模型的进展给解决基于文本提示的目标计数问题带来新的思路。然而,现有方法仍面临类别语义错位与解码器架构局限两大挑战。前者导致模型易将相似背景或无关类别误检为目标,后者依赖单一卷积神经网络(convolutional neur... 目的大型视觉语言模型的进展给解决基于文本提示的目标计数问题带来新的思路。然而,现有方法仍面临类别语义错位与解码器架构局限两大挑战。前者导致模型易将相似背景或无关类别误检为目标,后者依赖单一卷积神经网络(convolutional neural network,CNN)架构的局部特征提取,可能引发全局语义与局部细节的割裂,严重制约复杂场景下的计数鲁棒性。针对上述问题,提出跨分支协作对齐网络(cross-branch cooperative alignment net⁃work,CANet)。方法其核心包括:1)双分支解码器架构:通过并行Transformer分支(建模全局上下文依赖)与CNN分支(提取细粒度局部特征),结合信息互馈模块实现跨分支的特征交互和密度图预测;2)视觉—文本类别对齐损失:通过约束图像与文本特征的跨模态对齐,迫使模型区分目标与干扰语义,实现对类别的准确检测。结果在5个基准数据集上与先进的4种基于文本的目标计数方法进行比较实验。在FSC-147(few-shot counting-147)数据集上,CANet相较于性能第2的模型,在测试集上的平均绝对误差(mean absolute error,MAE)和均方根误差(root mean squared error,RMSE)分别降低1.22和8.45;在CARPK(car parking lot dataset)和PUCPR+(Pontifical Catholic Univer⁃sity of Parana+dataset)数据集的交叉验证实验上,相较于性能第2的模型,MAE分别降低0.08和3.58;在SHA(ShanghaiTech part-A)和SHB(ShanghaiTech part-B)数据集的交叉验证实验上,相较于性能第2的模型,MAE分别降低了47.0和9.8。同时也在FSC-147数据集上进行丰富的消融实验以验证算法的有效性,消融实验结果表明提出的方法针对两个问题做出了有效改进。结论本文方法能够解决现有方法所面临的两个问题,使计数结果更加准确。本文方法在4个数据集的交叉验证实验均取得SOTA(state-of-the-art)的性能,表明了CANet在零样本目标计数任务中的强大泛化能力。 展开更多
关键词 目标计数 视觉语言模型(vlm) 文本提示 双分支解码器 信息互馈
原文传递
开源情报多模态智能处理系统设计与工程实现
9
作者 董泽云 甘莅豪 +1 位作者 薛楠 陆泰廷 《大数据》 2026年第1期71-83,共13页
针对开源情报系统存在的模态割裂、结构化能力不足及用户交互性差等问题,提出一种融合计算机视觉、自然语言处理与文本转语音技术的智能信息处理系统。基于多源异构数据设计了涵盖数据采集、预处理、深度建模、智能决策与用户交互反馈... 针对开源情报系统存在的模态割裂、结构化能力不足及用户交互性差等问题,提出一种融合计算机视觉、自然语言处理与文本转语音技术的智能信息处理系统。基于多源异构数据设计了涵盖数据采集、预处理、深度建模、智能决策与用户交互反馈的完整闭环流程,重点突破跨模态数据融合、情报内容结构化处理、语音播报与多媒体可视化呈现等关键技术。实验结果表明,系统在情报抽取准确率、响应时间及用户可解释反馈等关键指标上表现优异,具备模块化与可扩展性,适配政务安全、金融风控与公共舆情等场景。 展开更多
关键词 开源情报 计算机视觉 自然语言处理 文本转语音 语音识别 多模态融合 大语言模型 人工智能
在线阅读 下载PDF
CAFE-GAN: CLIP-Projected GAN with Attention-Aware Generation and Multi-Scale Discrimination
10
作者 Xuanhong Wang Hongyu Guo +3 位作者 Jiazhen Li Mingchen Wang Xian Wang Yijun Zhang 《Computers, Materials & Continua》 2026年第1期1742-1760,共19页
Over the past decade,large-scale pre-trained autoregressive and diffusion models rejuvenated the field of text-guided image generation.However,these models require enormous datasets and parameters,and their multi-step... Over the past decade,large-scale pre-trained autoregressive and diffusion models rejuvenated the field of text-guided image generation.However,these models require enormous datasets and parameters,and their multi-step generation processes are often inefficient and difficult to control.To address these challenges,we propose CAFE-GAN,a CLIP-Projected GAN with Attention-Aware Generation and Multi-Scale Discrimination,which incorporates a pretrained CLIP model along with several key architectural innovations.First,we embed a coordinate attention mechanism into the generator to capture long-range dependencies and enhance feature representation.Second,we introduce a trainable linear projection layer after the CLIP text encoder,which aligns textual embeddings with the generator’s semantic space.Third,we design a multi-scale discriminator that leverages pre-trained visual features and integrates a feature regularization strategy,thereby improving training stability and discrimination performance.Experiments on the CUB and COCO datasets demonstrate that CAFE-GAN outperforms existing text-to-image generation methods,achieving lower Fréchet Inception Distance(FID)scores and generating images with superior visual quality and semantic fidelity,with FID scores of 9.84 and 5.62 on the CUB and COCO datasets,respectively,surpassing current state-of-the-art text-to-image models by varying degrees.These findings offer valuable insights for future research on efficient,controllable text-to-image synthesis. 展开更多
关键词 Large vision language models deep learning computer vision text-to-image generation
在线阅读 下载PDF
面向遥感图像解译的参数高效微调研究综述
11
作者 陈诗琪 杨学 +2 位作者 朱荣强 廖宁 赵卫伟 《中国图象图形学报》 北大核心 2026年第1期212-242,共31页
海量遥感数据的获取和AI大模型的发展极大程度地推动了智能化遥感图像解译的下游应用落地。“预训练+微调”是视觉语言基础大模型适配下游领域的经典范式,能有效将基础模型的知识迁移至新任务中。尽管遥感大模型发展如火如荼且在下游任... 海量遥感数据的获取和AI大模型的发展极大程度地推动了智能化遥感图像解译的下游应用落地。“预训练+微调”是视觉语言基础大模型适配下游领域的经典范式,能有效将基础模型的知识迁移至新任务中。尽管遥感大模型发展如火如荼且在下游任务中表现突出,扩展的模型规模和高昂的训练成本使其难以适用于资源受限、标签不足、需求动态的实际应用场景。为使模型快速适应特定下游任务且有效避免额外训练资源消耗,参数高效微调方法得以广泛研究,并逐渐应用于遥感图像解译当中,成为当下的研究热点。本文面向不同类型的参数高效微调方法和解译任务,对提示词微调、适配器微调和低秩自适应微调三大类方法展开调研并梳理了现有研究工作。此外,本文收集归纳并总结了多个代表性数据集上30余种用于遥感图像解译任务的参数高效微调方法的性能,并从模型精度、训练参数量和推理耗时角度综合评估了方法性能,有助于启发研究者提出新方法并进行公平比较。最后,本文结合当前现状从多模态生成式任务、模型可解释性、边缘端部署应用的角度,展望并讨论了该交叉领域的未来研究方向,旨在为打造“AI+遥感”的下游应用生态提供理论参考与研究思路。 展开更多
关键词 视觉语言大模型 参数高效微调(PEFT) 遥感图像解译 提示词 适配器 低秩自适应
原文传递
视觉—语言—动作模型综述:从前史到前沿 被引量:5
12
作者 张慧 梁姝彤 +5 位作者 李明轩 田永林 葛经纬 于慧 李灵犀 王飞跃 《自动化学报》 北大核心 2025年第9期1922-1950,共29页
视觉-语言-动作(VLA)模型作为具身智能发展的核心方向,旨在构建统一的多模态表示与感知–决策–执行一体化架构,以突破传统模块化系统在功能割裂、语义对齐不足及泛化能力有限等方面的瓶颈.本文系统回顾前VLA时代的技术积淀,梳理模块化... 视觉-语言-动作(VLA)模型作为具身智能发展的核心方向,旨在构建统一的多模态表示与感知–决策–执行一体化架构,以突破传统模块化系统在功能割裂、语义对齐不足及泛化能力有限等方面的瓶颈.本文系统回顾前VLA时代的技术积淀,梳理模块化、端到端和混合三类主流建模范式,分析其结构特点、能力优势与面临的关键挑战.在此基础上,总结当前代表性VLA模型的体系结构、训练机制、多模态融合策略及应用成效,并对典型数据集与评测基准进行分类比较.最后,结合跨模态协同、知识注入、长时序规划与真实环境泛化等方面,展望未来VLA模型的发展趋势与研究方向. 展开更多
关键词 具身智能 视觉—语言—动作模型 多模态融合 端到端学习 任务泛化
在线阅读 下载PDF
Object Detection Meets LLMs: Model Fusion for Safety and Security
13
作者 Zeba Mohsin Wase Vijay K. Madisetti Arshdeep Bahga 《Journal of Software Engineering and Applications》 2023年第12期672-684,共13页
This paper proposes a novel model fusion approach to enhance predictive capabilities of vision and language models by strategically integrating object detection and large language models. We have named this multimodal... This paper proposes a novel model fusion approach to enhance predictive capabilities of vision and language models by strategically integrating object detection and large language models. We have named this multimodal integration approach as VOLTRON (Vision Object Linguistic Translation for Responsive Observation and Narration). VOLTRON is aimed at improving responses for self-driving vehicles in detecting small objects crossing roads and identifying merged or narrower lanes. The models are fused using a single layer to provide LLaMA2 (Large Language Model Meta AI) with object detection probabilities from YoloV8-n (You Only Look Once) translated into sentences. Experiments using specialized datasets showed accuracy improvements up to 88.16%. We provide a comprehensive exploration of the theoretical aspects that inform our model fusion approach, detailing the fundamental principles upon which it is built. Moreover, we elucidate the intricacies of the methodologies employed for merging these two disparate models, shedding light on the techniques and strategies used. 展开更多
关键词 Computer vision Large language models Self Driving Vehicles
在线阅读 下载PDF
医疗领域的大型语言模型综述 被引量:1
14
作者 肖建力 许东舟 +4 位作者 王浩 刘敏 周雷 朱林 顾松 《智能系统学报》 北大核心 2025年第3期530-547,共18页
深度学习是人工智能领域的热门研究方向之一,它通过构建多层人工神经网络模仿人脑对数据的处理机制。大型语言模型(large language model,LLM)基于深度学习的架构,在无需编程指令的情况下,能通过分析大量数据以获得理解和生成人类语言... 深度学习是人工智能领域的热门研究方向之一,它通过构建多层人工神经网络模仿人脑对数据的处理机制。大型语言模型(large language model,LLM)基于深度学习的架构,在无需编程指令的情况下,能通过分析大量数据以获得理解和生成人类语言的能力,被广泛应用于自然语言处理、计算机视觉、智慧医疗、智慧交通等诸多领域。文章总结了LLM在医疗领域的应用,涵盖了LLM针对医疗任务的基本训练流程、特殊策略以及在具体医疗场景中的应用。同时,进一步讨论了LLM在应用中面临的挑战,包括决策过程缺乏透明度、输出准确性以及隐私、伦理问题等,随后列举了相应的改进策略。最后,文章展望了LLM在医疗领域的未来发展趋势,及其对人类健康事业发展的潜在影响。 展开更多
关键词 人工智能 深度学习 TRANSFORMER 大型语言模型 智慧医疗 数据分析 图像处理 计算机视觉
在线阅读 下载PDF
面向智能生化实验室的机器人感知、规划与控制技术
15
作者 张辉 李康 +4 位作者 刘立柱 陈波 樊叶心 江一鸣 王耀南 《自动化学报》 北大核心 2025年第9期1899-1921,共23页
生物制药在保障国计民生和国家安全方面发挥着至关重要的作用,加快机器人技术、人工智能与生物医学的深度融合,对于提升新药研发效率、应对公共卫生危机具有重要意义.在生化实验室中,随着新药制备流程日益复杂,机器人技术在高精度液体... 生物制药在保障国计民生和国家安全方面发挥着至关重要的作用,加快机器人技术、人工智能与生物医学的深度融合,对于提升新药研发效率、应对公共卫生危机具有重要意义.在生化实验室中,随着新药制备流程日益复杂,机器人技术在高精度液体处理、样品分析和实验自动化等关键操作中发挥着至关重要的作用.然而,现有机器人技术在环境感知、协同工作以及动态适应能力等方面仍存在局限性.近年来,深度学习、跨模态感知和大模型等领域的快速发展,使得机器人在复杂生化实验室场景中的应用前景愈加广阔.本文从智能生化实验室的具体需求出发,重点探讨机器人在环境感知、任务与运动规划以及协同控制等关键技术方面的最新进展.随后,列举在智能生化实验室领域的国内外应用案例,深入分析机器人技术在实验室环境中的实际应用现状.最后,总结智能生化实验室的技术发展趋势及面临的挑战,为未来研究方向提供参考. 展开更多
关键词 机器人技术 智能生化实验室 环境感知 多机器人系统 多机器人协同 多机器人控制 大语言模型 视觉语言模型
在线阅读 下载PDF
视觉语言模型引导的青瓷跨模态知识图谱构建
16
作者 肖刚 方静雯 +3 位作者 张豪 刘莹 周晓峰 徐俊 《中国图象图形学报》 北大核心 2025年第5期1318-1333,共16页
目的青瓷是中华民族文化瑰宝中的璀璨明珠,也是中外交流的文化使者。在文化数智化背景下,构建青瓷跨模态知识图谱是推动青瓷文化保护传承的关键技术之一。在此过程中,实现不同模态间相同实体的匹配至关重要,涉及到对齐等价实体的不同模... 目的青瓷是中华民族文化瑰宝中的璀璨明珠,也是中外交流的文化使者。在文化数智化背景下,构建青瓷跨模态知识图谱是推动青瓷文化保护传承的关键技术之一。在此过程中,实现不同模态间相同实体的匹配至关重要,涉及到对齐等价实体的不同模态特征。为最大程度地提升青瓷图像与文本间的匹配度,提出了一种基于视觉语言预训练(vision-language pretraining,VLP)模型的图像多特征映射的跨模态实体对齐方法。方法首先从青瓷图像中提取轮廓、纹理和色彩方面的局部特征。接着引入带门控的多元融合器来动态地融合多个图像特征。进一步通过多层全连接网络,学习将融合特征映射到一个合适的中间表示空间,以引导文本编码器生成与图像特征更加匹配的文本特征。最后借助InfoNCE(information noise contrastive estimation)损失函数对模型进行训练和优化。结果在自建的ChinaWare数据集上,将本文方法与基准方法CN-CLIP(contrastive vision-language pretraining in Chinese)、CoOp(context optimization)、CoCoOp(conditional context optimization)和Pic2Word(mapping pictures to words)进行实验对比。在跨模态对齐任务中,本文方法在MR(mean recall)指标上相较于上述方法,在最佳情况下分别提升了3.2%和5.6%。结论本文提出的跨模态实体对齐方法可以在不改变VLP模型参数的前提下,充分挖掘图像特征有效的中间表示来完成文本特征的重构,提高了青瓷细节特征的跨模态识别准确度。最终利用所提方法成功构建了一个包含8949个节点和18211条关系的青瓷跨模态知识图谱。 展开更多
关键词 视觉语言模型 跨模态 实体对齐 知识图谱(KG) 青瓷
原文传递
基于视觉语言模型的多模态无人机跨视图地理定位
17
作者 陈鹏 陈旭 +1 位作者 罗文 林斌 《机器人》 北大核心 2025年第3期416-426,共11页
无人机跨视图地理定位通过在卫星拒止条件下匹配机载图像与地理参照图像实现自主定位,主要挑战在于跨视图图像间的显著外观差异。现有方法多局限于局部特征提取,缺乏对上下文关联和全局语义的深入挖掘。为此,本文提出了一种基于视觉语... 无人机跨视图地理定位通过在卫星拒止条件下匹配机载图像与地理参照图像实现自主定位,主要挑战在于跨视图图像间的显著外观差异。现有方法多局限于局部特征提取,缺乏对上下文关联和全局语义的深入挖掘。为此,本文提出了一种基于视觉语言模型的多模态无人机跨视图地理定位模型。利用CLIP(contrastive language-image pre-training)模型构造了一个视图文本描述生成模块,将CLIP模型从海量数据集中学习到的图像级视觉概念作为外部知识,引导模型的特征提取过程。采用混合ViT(视觉Transformer)架构作为骨干网络,使模型在提取图像特征时兼顾局部特征与全局上下文特征的提取。此外,为了使模型能够更有效地学习到不同视图间的关联,还引入了基于逻辑得分标准化KL(Kullback-Leibler)散度的互学习损失函数来监督模型的训练过程。实验结果表明,在CLIP模型生成的文本描述结果引导下,所提模型更容易学习到深层语义信息,从而能够更好地应对跨视图地理定位过程中存在的视角差异、拍摄时间差异等挑战。 展开更多
关键词 跨视图地理定位 视觉语言模型 多模态 图像匹配 无人机
原文传递
基于视觉语言多模态的建筑施工安全智能问答模型
18
作者 王喆 黄海辰 +1 位作者 李瑞钦 魏永长 《中国安全科学学报》 北大核心 2025年第10期106-114,共9页
为提升建筑施工复杂环境下安全问题的智能化诊断水平,提出一种基于视觉语言多模态的建筑施工安全智能问答模型,构建建筑施工安全隐患图文对数据集,采用视觉编码器完成安全隐患图像的视觉编码,利用语言模型实现安全隐患问答文本的编码,... 为提升建筑施工复杂环境下安全问题的智能化诊断水平,提出一种基于视觉语言多模态的建筑施工安全智能问答模型,构建建筑施工安全隐患图文对数据集,采用视觉编码器完成安全隐患图像的视觉编码,利用语言模型实现安全隐患问答文本的编码,通过多模态特征融合模块达成图像与文本信息的有效交互;构建适配建筑施工安全隐患场景视觉问答的特定提示模板,基于矩阵低秩分解对模型微调训练,并通过多轮提示词引导模型生成精确答案。结果表明:相较于现有对比模型,建筑施工安全智能问答模型在自动评估指标、GPT-4评价和专家评价中均表现更优,生成文本的流畅性与语义相关性显著提升;消融试验进一步验证了各子模块的有效性,证实矩阵低秩分解微调和多轮推理的协同作用是模型达成最优性能的关键,且合理设置低秩矩阵的秩参数可有效避免过拟合问题。 展开更多
关键词 视觉语言 多模态 建筑施工安全 安全隐患 智能问答模型 矩阵低秩分解
原文传递
基于大语言模型双向协同的跨模态交互式图像编辑方法
19
作者 石慧 金聪慧 《模式识别与人工智能》 北大核心 2025年第7期596-612,共17页
扩散模型在图像生成任务中表现出较高的视觉保真度,但在图像编辑方面仍面临用户意图理解偏差、局部细节控制不足、交互响应滞后等的问题.为此,文中提出基于大语言模型双向协同的跨模态交互式图像编辑方法(Cross-Modal Interactive Image... 扩散模型在图像生成任务中表现出较高的视觉保真度,但在图像编辑方面仍面临用户意图理解偏差、局部细节控制不足、交互响应滞后等的问题.为此,文中提出基于大语言模型双向协同的跨模态交互式图像编辑方法(Cross-Modal Interactive Image Editing Method Based on Bidirectional Collaboration between Large Language Models and User Interaction,BiC-LLM),其核心是一种双向协同控制机制,将大语言模型自顶向下的高级语义引导与用户直接参与的自底向上底层视觉控制有机融合,通过语义增强、特征解耦与动态反馈机制提升图像编辑的可控性与精度.首先,设计层次化语义驱动模块,使用大语言模型对用户输入文本进行语义解耦与推理,生成细粒度语义向量,精准理解用户意图.然后,构建视觉-结构解耦的动态控制模块,结合多层视觉特征提取器与对象级建模,实现图像全局结构与局部风格的独立控制.最后,引入实时交互机制,支持掩膜标注与参数调节,实现图像编辑过程的动态优化.在LSUN、CelebA-HQ、COCO数据集上的实验表明,BiC-LLM在文本一致性、结构稳定性与交互控制方面均较优,能实现复杂场景下的多对象语义编辑,并保持非编辑区域的内容一致性,由此验证其在图像编辑任务中的有效性与鲁棒性. 展开更多
关键词 交互式图像编辑 跨模态语义引导 大语言模型(LLM) 视觉-结构解耦 动态控制
在线阅读 下载PDF
视觉语言大模型的幻觉综述:成因、评估与治理 被引量:2
20
作者 李煦 朱睿 +6 位作者 陈小磊 伍瑾轩 郑毅 赖承杭 梁宇轩 李斌 薛向阳 《计算机研究与发展》 北大核心 2025年第12期2929-2950,共22页
视觉语言大模型(large vision-language models,LVLMs)代表了自然语言处理与计算机视觉交叉领域的一项重要进展.通过结合预训练的视觉编码器、视觉语言适配器和大语言模型,LVLMs能够同时理解图像与文本信息,并通过自然语言进行响应,适... 视觉语言大模型(large vision-language models,LVLMs)代表了自然语言处理与计算机视觉交叉领域的一项重要进展.通过结合预训练的视觉编码器、视觉语言适配器和大语言模型,LVLMs能够同时理解图像与文本信息,并通过自然语言进行响应,适用于图像描述、视觉问答等多种视觉语言下游任务.然而,这类模型普遍存在幻觉现象,即模型对于图像内容进行了错误感知,制约了其在医学图像诊断、自动驾驶等高风险领域的赋能应用.旨在系统梳理并深入分析幻觉成因、评估方法及治理策略,为LVLMs的可靠性研究提供指导.首先,介绍LVLMs的基础概念及其幻觉现象的定义与分类;随后,从训练数据、训练任务、视觉编码、文本生成4方面分析LVLMs的幻觉成因,并讨论这些成因间的交互关系;接着,从任务形式、数据构建和评估指标3方面介绍LVLMs的幻觉评估策略;此外,从训练数据、视觉感知、训练策略、模型推理、事后修正5方面讨论LVLMs的幻觉治理技术;最后,为这类幻觉的成因分析、评估和治理3方面提供未来的研究方向. 展开更多
关键词 自然语言处理 计算机视觉 视觉语言大模型 多模态大语言模型 幻觉
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部