期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
Video action recognition meets vision-language models exploring human factors in scene interaction: a review
1
作者 GUO Yuping GAO Hongwei +3 位作者 YU Jiahui GE Jinchao HAN Meng JU Zhaojie 《Optoelectronics Letters》 2025年第10期626-640,共15页
Video action recognition(VAR)aims to analyze dynamic behaviors in videos and achieve semantic understanding.VAR faces challenges such as temporal dynamics,action-scene coupling,and the complexity of human interactions... Video action recognition(VAR)aims to analyze dynamic behaviors in videos and achieve semantic understanding.VAR faces challenges such as temporal dynamics,action-scene coupling,and the complexity of human interactions.Existing methods can be categorized into motion-level,event-level,and story-level ones based on spatiotemporal granularity.However,single-modal approaches struggle to capture complex behavioral semantics and human factors.Therefore,in recent years,vision-language models(VLMs)have been introduced into this field,providing new research perspectives for VAR.In this paper,we systematically review spatiotemporal hierarchical methods in VAR and explore how the introduction of large models has advanced the field.Additionally,we propose the concept of“Factor”to identify and integrate key information from both visual and textual modalities,enhancing multimodal alignment.We also summarize various multimodal alignment methods and provide in-depth analysis and insights into future research directions. 展开更多
关键词 human factors video action recognition vision language models analyze dynamic behaviors spatiotemporal granularity video action recognition var aims multimodal alignment scene interaction
原文传递
Leveraging Vision-Language Pre-Trained Model and Contrastive Learning for Enhanced Multimodal Sentiment Analysis
2
作者 Jieyu An Wan Mohd Nazmee Wan Zainon Binfen Ding 《Intelligent Automation & Soft Computing》 SCIE 2023年第8期1673-1689,共17页
Multimodal sentiment analysis is an essential area of research in artificial intelligence that combines multiple modes,such as text and image,to accurately assess sentiment.However,conventional approaches that rely on... Multimodal sentiment analysis is an essential area of research in artificial intelligence that combines multiple modes,such as text and image,to accurately assess sentiment.However,conventional approaches that rely on unimodal pre-trained models for feature extraction from each modality often overlook the intrinsic connections of semantic information between modalities.This limitation is attributed to their training on unimodal data,and necessitates the use of complex fusion mechanisms for sentiment analysis.In this study,we present a novel approach that combines a vision-language pre-trained model with a proposed multimodal contrastive learning method.Our approach harnesses the power of transfer learning by utilizing a vision-language pre-trained model to extract both visual and textual representations in a unified framework.We employ a Transformer architecture to integrate these representations,thereby enabling the capture of rich semantic infor-mation in image-text pairs.To further enhance the representation learning of these pairs,we introduce our proposed multimodal contrastive learning method,which leads to improved performance in sentiment analysis tasks.Our approach is evaluated through extensive experiments on two publicly accessible datasets,where we demonstrate its effectiveness.We achieve a significant improvement in sentiment analysis accuracy,indicating the supe-riority of our approach over existing techniques.These results highlight the potential of multimodal sentiment analysis and underscore the importance of considering the intrinsic semantic connections between modalities for accurate sentiment assessment. 展开更多
关键词 Multimodal sentiment analysis visionlanguage pre-trained model contrastive learning sentiment classification
在线阅读 下载PDF
PowerVLM:基于Federated Learning与模型剪枝的电力视觉语言大模型
3
作者 欧阳旭东 雒鹏鑫 +3 位作者 何绍洋 崔艺林 张中超 闫云凤 《全球能源互联网》 北大核心 2026年第1期101-111,共11页
智能电网的快速发展衍生出多模态、多源异构的海量电力数据,给人工智能模型在复杂电力场景感知带来了挑战,同时行业数据的敏感性和隐私保护需求进一步限制了通用模型在电力领域的跨场景迁移能力。对此,提出了一种基于Federated Learnin... 智能电网的快速发展衍生出多模态、多源异构的海量电力数据,给人工智能模型在复杂电力场景感知带来了挑战,同时行业数据的敏感性和隐私保护需求进一步限制了通用模型在电力领域的跨场景迁移能力。对此,提出了一种基于Federated Learning与模型剪枝的电力视觉语言大模型。提出了一种基于类别引导的电力视觉语言大模型PowerVLM,设计了类别引导增强模块,增强模型对电力图文数据的理解和问答能力;采用FL的强化学习训练策略,在满足数据隐私保护下,降低域间差异对模型性能的影响;最后,提出了一种基于信息决议的模型剪枝算法,可实现低训练参数的模型高效微调。分别在变电巡检、输电任务、作业安监3种典型电力场景开展实验,结果表明,该方法在电力场景多模态问答任务中的METEOR、BLEU和CIDEr等各项指标均表现优异,为电力场景智能感知提供了新的技术思路和方法支撑。 展开更多
关键词 智能电网 人工智能 视觉语言大模型 Federated Learning 模型剪枝
在线阅读 下载PDF
基于STM32微控制器的MCUVLM⁃RWKV视觉⁃语言模型研究
4
作者 朱忠诺 邵星灵 +3 位作者 李秀源 邓瑞祥 徐悦梅 张强 《中北大学学报(自然科学版)》 2026年第1期71-79,共9页
随着人工智能在安防、工业和农业等领域的广泛应用,边缘设备在视觉推理任务中的需求不断增长。然而,受限于硬件资源,针对STM32的视觉-语言模型部署方案仍相对缺乏。为应对这一问题,本文提出了一种面向STM32的视觉-语言模型MCUVLM-RWKV... 随着人工智能在安防、工业和农业等领域的广泛应用,边缘设备在视觉推理任务中的需求不断增长。然而,受限于硬件资源,针对STM32的视觉-语言模型部署方案仍相对缺乏。为应对这一问题,本文提出了一种面向STM32的视觉-语言模型MCUVLM-RWKV。该模型融合了轻量化视觉编码器、轻量化视觉特征映射器和具备双模式运行机制的RWKV解码器三大核心模块,可完成图像描述任务。实验结果表明,在STM32的运行内存与存储限制下,MCUVLM-RWKV在BLEU-4、ROUGE-L和METEOR等评价指标上均优于多种主流模型,其中ROUGE-L指标达到55.7,显著高于其他对比模型,表明该模型在长序列推理任务中具有更强的建模能力。此外,MCUVLM-RWKV在参数规模与推理内存占用方面表现优异,进一步验证了其在微控制器场景下的推理性能与部署可行性。 展开更多
关键词 STM32 视觉-语言模型 边缘计算 内存优化 RWKV 图像描述
在线阅读 下载PDF
Special Topic on Security of Large Models
5
作者 SU Zhou DU Linkang 《ZTE Communications》 2025年第3期1-2,共2页
Large models,such as large language models(LLMs),vision-language models(VLMs),and multimodal agents,have become key elements in artificial intelli⁃gence(AI)systems.Their rapid development has greatly improved percepti... Large models,such as large language models(LLMs),vision-language models(VLMs),and multimodal agents,have become key elements in artificial intelli⁃gence(AI)systems.Their rapid development has greatly improved perception,generation,and decision-making in various fields.However,their vast scale and complexity bring about new security challenges.Issues such as backdoor vulnerabilities during training,jailbreaking in multimodal rea⁃soning,and data provenance and copyright auditing have made security a critical focus for both academia and industry. 展开更多
关键词 large modelssuch SECURITY multimodal agentshave multimodal rea soningand large language models llms vision language data provenance copyright auditing backdoor vulnerabilities vision language models
在线阅读 下载PDF
Foundation models:Insights and implications for gastrointestinal cancer
6
作者 Lei Shi Rui Huang +1 位作者 Li-Ling Zhao An-Jie Guo 《World Journal of Gastroenterology》 2025年第47期7-34,共28页
Gastrointestinal(GI)cancers represent a major global health concern due to their high incidence and mortality rates.Foundation models(FMs),also referred to as large models,represent a novel class of artificial intelli... Gastrointestinal(GI)cancers represent a major global health concern due to their high incidence and mortality rates.Foundation models(FMs),also referred to as large models,represent a novel class of artificial intelligence technologies that have demonstrated considerable potential in addressing these challenges.These models encompass large language models(LLMs),vision FMs(VFMs),and multimodal LLMs(MLLMs),all of which utilize transformer architectures and self-supervised pre-training on extensive unlabeled datasets to achieve robust cross-domain generalization.This review delineates the principal applications of these models:LLMs facilitate the structuring of clinical narratives,extraction of insights from medical records,and enhancement of physician-patient communication;VFMs are employed in the analysis of endoscopic,radiological,and pathological images for lesion detection and staging;MLLMs integrate heterogeneous data modalities,including imaging,textual information,and genomic data,to support diagnostic processes,treatment prediction,and prognostic evaluation.Despite these promising developments,several challenges remain,such as the need for data standardization,limited diversity within training datasets,substantial computational resource requirements,and ethical-legal concerns.In conclusion,FMs exhibit significant potential to advance research and clinical management of GI cancers.Future research efforts should prioritize the refinement of these models,promote international collaborations,and adopt interdisciplinary approaches.Such a comprehensive strategy is essential to fully harness the capabilities of FMs,driving substantial progress in the fight against GI malignancies. 展开更多
关键词 Foundation models Gastrointestinal cancers Large language models vision foundation models Multimodal large language models
在线阅读 下载PDF
面向具身操作的视觉-语言-动作模型综述
7
作者 李浩然 陈宇辉 +5 位作者 崔文博 刘卫恒 刘锴 周明才 张正涛 赵冬斌 《自动化学报》 北大核心 2026年第1期18-51,共34页
具身智能系统通过智能体与环境不断交互,从而提升智能体能力,受到学术界和产业界的广泛关注.视觉-语言-动作模型作为一种受到大模型发展启发的机器人通用控制模型,提高了具身智能系统中智能体与环境交互的能力,大大扩展了具身智能机器... 具身智能系统通过智能体与环境不断交互,从而提升智能体能力,受到学术界和产业界的广泛关注.视觉-语言-动作模型作为一种受到大模型发展启发的机器人通用控制模型,提高了具身智能系统中智能体与环境交互的能力,大大扩展了具身智能机器人的应用场景.本文对具身操作中的视觉-语言-动作模型进行综述.首先,详细介绍视觉-语言-动作模型的发展历程.然后,对视觉-语言-动作模型架构、训练数据、预训练方法、后训练方法和模型评估5个方面的研究现状进行详细分析.最后,针对视觉-语言-动作模型发展过程和落地应用中面临的挑战和未来可能的发展方向进行总结. 展开更多
关键词 具身智能 视觉-语言-动作模型 机器人 基础模型
在线阅读 下载PDF
面向空间机器人的多模态大模型研究现状及应用前景
8
作者 罗涛 张亚航 王耀兵 《航天器工程》 北大核心 2026年第1期128-136,共9页
随着载人航天、深空探测和在轨服务等航天任务的快速推进,空间智能机器人的高自主性、强鲁棒性与复杂环境适应性需求日益凸显。文章系统梳理视觉-语言-动作模型关键技术,总结国内外主要研究进展,从任务规划策略和端到端控制策略两个维... 随着载人航天、深空探测和在轨服务等航天任务的快速推进,空间智能机器人的高自主性、强鲁棒性与复杂环境适应性需求日益凸显。文章系统梳理视觉-语言-动作模型关键技术,总结国内外主要研究进展,从任务规划策略和端到端控制策略两个维度分析其代表性工作,并结合空间机器人作业场景,深入分析其在空间机器人环境感知、语义理解、任务规划和操作执行等场景的突出应用潜力,重点探讨了空间机器人对多模态大模型的应用需求。在此基础上,结合我国空间机器人技术的发展现状,研究着重提出了从软硬件设计、模型应用能力与智能生态建设等多角度的面向未来空间智能机器人的多模态大模型技术发展策略,为后续空间机器人在载人航天、深空探测、在轨服务等领域的复杂作业任务中智能化应用提供参考。 展开更多
关键词 空间机器人 具身智能 视觉-语言-动作模型
在线阅读 下载PDF
语义驱动的4D雷达与相机融合目标检测
9
作者 郑联庆 艾文瑾 +6 位作者 马志雄 任洪泽 卢守义 刘瑞 闫晟煜 朱西产 白傑 《汽车工程》 北大核心 2026年第2期342-351,共10页
融合相机与4D雷达实现鲁棒的三维目标检测对于自动驾驶的安全性至关重要。然而,现有的融合方法主要集中在低维度的雷达几何特征与图像像素特征对齐,缺乏对于整个场景级语义信息的利用,导致次优的检测性能。为此,本文首次提出视觉语言模... 融合相机与4D雷达实现鲁棒的三维目标检测对于自动驾驶的安全性至关重要。然而,现有的融合方法主要集中在低维度的雷达几何特征与图像像素特征对齐,缺乏对于整个场景级语义信息的利用,导致次优的检测性能。为此,本文首次提出视觉语言模型(vision-language model,VLM)辅助的4D雷达与相机融合框架RCT-Net,用于三维目标检测。首先,通过精心设计的用户提示来引导VLM生成包含感兴趣目标的场景文本描述,其通过文本编码器生成场景级语义特征。然后,设计了一个TBFusion(Text-BEV Fusion)模块,其通过新颖的跨模态注意力机制,将场景语义特征深度整合到鸟瞰图(Bird's-Eye-View)空间。该模块一方面提供先验知识来引导图像特征视角转换,另一方面在最终的特征融合阶段进一步对多模态BEV特征进行语义增强。最后,由三维检测头对增强后的特征进行解码,实现目标属性预测。在公开的4D雷达数据集TJ4DRadSet和View-of-Delft的大量实验表明,RCT-Net实现了优异的性能,其3D mAP分别达到了41.34%和57.02%,验证了本框架的有效性与先进性。 展开更多
关键词 自动驾驶 多模态融合 三维目标检测 4D毫米波雷达 视觉语言模型
在线阅读 下载PDF
多模态对地观测大模型:架构、关键技术和未来展望
10
作者 许文嘉 于睿卿 +6 位作者 薛铭浩 汪雪怡 张源奔 魏智威 张柘 彭木根 吴一戎 《雷达学报(中英文)》 北大核心 2026年第1期361-386,共26页
近年来,人工智能技术和对地观测领域的结合已成为领域发展的前沿热点,多模态大语言模型(MLLM)的快速发展为智能解译带来新的机遇和挑战。多模态对地观测大模型通过构建大语言模型与视觉模型之间的桥接机制并采用联合训练方式,深度融合... 近年来,人工智能技术和对地观测领域的结合已成为领域发展的前沿热点,多模态大语言模型(MLLM)的快速发展为智能解译带来新的机遇和挑战。多模态对地观测大模型通过构建大语言模型与视觉模型之间的桥接机制并采用联合训练方式,深度融合光学影像、合成孔径雷达影像与文本等多模态信息,有效推动对地观测智能解译由浅层语义匹配向高层的世界知识理解跃迁。该文系统性回顾了多模态对地观测大模型的相关研究成果,以期为新的研究方向提供依据。具体而言,该文首先明确了多模态对地观测大模型(EO-MLLM)的概念定义,并梳理了多模态对地观测大模型的发展脉络。随后,详细阐述了多模态对地观测大模型的模型架构、训练方法、适用任务及其对应的基准数据集,并介绍了对地观测智能体。最后,探讨了多模态对地观测大模型的研究现状和未来发展方向。 展开更多
关键词 大语言模型 多模态大语言模型 多模态对地观测大模型 视觉语言模型 对地观测智能体
在线阅读 下载PDF
融合视觉语言模型的柚子分形树图像生成增强方法
11
作者 赖力潜 段洁利 +1 位作者 杨洲 袁浩天 《农业机械学报》 北大核心 2026年第1期311-318,338,共9页
为了降低柚子等水果目标检测对大量标注数据的依赖,本文提出了一种融合视觉语言模型的柚子分形树图像生成增强方法。该方法仅需3~5幅无标注真实图像,即可在无训练条件下生成大规模带标注的训练数据集。首先利用基于文本提示的零样本分... 为了降低柚子等水果目标检测对大量标注数据的依赖,本文提出了一种融合视觉语言模型的柚子分形树图像生成增强方法。该方法仅需3~5幅无标注真实图像,即可在无训练条件下生成大规模带标注的训练数据集。首先利用基于文本提示的零样本分割模型(Grounded segment anything model,Grounded SAM)提取柚树组件,然后结合稳定扩散模型Stable Diffusion使用文本提示生成随机背景,最后使用改进的分形树算法生成柚树以提升多样性及真实感。试验采用YOLO v10轻量化版本进行验证,在自建的非结构化环境柚子目标检测数据集上,当训练集真实图像数量分别为0、8、16、32、64幅时,使用本文方法后模型多阈值平均精度均值(Mean average precision at intersection over union thresholds from 0.50 to 0.95,mAP50-95)提升率依次达到662.3%、24.9%、13.7%、8.8%、1.8%。当训练集中真实图像数量为221幅,生成图像数量为512幅时,模型达到最优性能:精确率为76.9%,召回率为62.7%,mAP50为70.3%,mAP50-95为38.4%。迁移到橙子目标检测任务,相同数据规模下的性能提升分别为212.9%、16.5%、14.0%、5.2%、4.1%。当训练集中真实图像数量为1302幅,生成图像数量为512幅时,模型同样达到最优性能:精确率为90.3%,召回率为87.8%,mAP50为94.0%,mAP50-95为54.0%。试验结果表明,该图像生成增强方法在零样本和少样本学习场景中能够有效扩展训练数据,提高YOLO v10轻量化版本目标检测的性能,并展现出良好的泛化能力。 展开更多
关键词 柚子目标检测 生成式数据增强 少样本学习 视觉语言模型
在线阅读 下载PDF
视觉语言模型驱动的目标计数
12
作者 曹锋 张孝文 +2 位作者 岳子杰 李莉 史淼晶 《中国图象图形学报》 北大核心 2026年第1期289-302,共14页
目的大型视觉语言模型的进展给解决基于文本提示的目标计数问题带来新的思路。然而,现有方法仍面临类别语义错位与解码器架构局限两大挑战。前者导致模型易将相似背景或无关类别误检为目标,后者依赖单一卷积神经网络(convolutional neur... 目的大型视觉语言模型的进展给解决基于文本提示的目标计数问题带来新的思路。然而,现有方法仍面临类别语义错位与解码器架构局限两大挑战。前者导致模型易将相似背景或无关类别误检为目标,后者依赖单一卷积神经网络(convolutional neural network,CNN)架构的局部特征提取,可能引发全局语义与局部细节的割裂,严重制约复杂场景下的计数鲁棒性。针对上述问题,提出跨分支协作对齐网络(cross-branch cooperative alignment net⁃work,CANet)。方法其核心包括:1)双分支解码器架构:通过并行Transformer分支(建模全局上下文依赖)与CNN分支(提取细粒度局部特征),结合信息互馈模块实现跨分支的特征交互和密度图预测;2)视觉—文本类别对齐损失:通过约束图像与文本特征的跨模态对齐,迫使模型区分目标与干扰语义,实现对类别的准确检测。结果在5个基准数据集上与先进的4种基于文本的目标计数方法进行比较实验。在FSC-147(few-shot counting-147)数据集上,CANet相较于性能第2的模型,在测试集上的平均绝对误差(mean absolute error,MAE)和均方根误差(root mean squared error,RMSE)分别降低1.22和8.45;在CARPK(car parking lot dataset)和PUCPR+(Pontifical Catholic Univer⁃sity of Parana+dataset)数据集的交叉验证实验上,相较于性能第2的模型,MAE分别降低0.08和3.58;在SHA(ShanghaiTech part-A)和SHB(ShanghaiTech part-B)数据集的交叉验证实验上,相较于性能第2的模型,MAE分别降低了47.0和9.8。同时也在FSC-147数据集上进行丰富的消融实验以验证算法的有效性,消融实验结果表明提出的方法针对两个问题做出了有效改进。结论本文方法能够解决现有方法所面临的两个问题,使计数结果更加准确。本文方法在4个数据集的交叉验证实验均取得SOTA(state-of-the-art)的性能,表明了CANet在零样本目标计数任务中的强大泛化能力。 展开更多
关键词 目标计数 视觉语言模型(vlm) 文本提示 双分支解码器 信息互馈
原文传递
开源情报多模态智能处理系统设计与工程实现
13
作者 董泽云 甘莅豪 +1 位作者 薛楠 陆泰廷 《大数据》 2026年第1期71-83,共13页
针对开源情报系统存在的模态割裂、结构化能力不足及用户交互性差等问题,提出一种融合计算机视觉、自然语言处理与文本转语音技术的智能信息处理系统。基于多源异构数据设计了涵盖数据采集、预处理、深度建模、智能决策与用户交互反馈... 针对开源情报系统存在的模态割裂、结构化能力不足及用户交互性差等问题,提出一种融合计算机视觉、自然语言处理与文本转语音技术的智能信息处理系统。基于多源异构数据设计了涵盖数据采集、预处理、深度建模、智能决策与用户交互反馈的完整闭环流程,重点突破跨模态数据融合、情报内容结构化处理、语音播报与多媒体可视化呈现等关键技术。实验结果表明,系统在情报抽取准确率、响应时间及用户可解释反馈等关键指标上表现优异,具备模块化与可扩展性,适配政务安全、金融风控与公共舆情等场景。 展开更多
关键词 开源情报 计算机视觉 自然语言处理 文本转语音 语音识别 多模态融合 大语言模型 人工智能
在线阅读 下载PDF
从专用到智用:智能体在图像复原中的进展与挑战
14
作者 孙伟雄 殷翔 +2 位作者 肖宏明 顾津锦 董超 《集成技术》 2026年第2期1-21,共21页
图像复原作为计算机底层视觉的重要研究方向之一,涵盖去噪、去雾、超分辨率重建等多种任务,其核心目标在于从多重退化的图像中重建高质量图像。传统图像复原方法经历了从专用模型到通用模型的演进,虽提升了泛化能力,但在复原精度和跨域... 图像复原作为计算机底层视觉的重要研究方向之一,涵盖去噪、去雾、超分辨率重建等多种任务,其核心目标在于从多重退化的图像中重建高质量图像。传统图像复原方法经历了从专用模型到通用模型的演进,虽提升了泛化能力,但在复原精度和跨域场景适应性等方面仍存在显著局限。近年来,智能体技术,尤其是大语言模型驱动的智能体系统,凭借其强大的跨模态理解、通用推理与自然语言交互能力,为图像复原带来了全新的解决思路。本文系统梳理了图像复原任务及智能体技术的发展脉络,总结了该领域“专用、通用、智用”的发展路径,重点分析了大语言模型智能体的认知架构与核心技术,并提出了图像复原智能体系统的智能化层级标准。最后,本文探讨了智能体在效率、泛化性、质量评估、认知架构及伦理安全等方面面临的挑战,并展望了效率优化与自主进化等未来研究方向,为图像复原的智能化发展提供理论与实践参考。 展开更多
关键词 图像复原 底层视觉 智能体 大语言模型 认知架构
在线阅读 下载PDF
CAFE-GAN: CLIP-Projected GAN with Attention-Aware Generation and Multi-Scale Discrimination
15
作者 Xuanhong Wang Hongyu Guo +3 位作者 Jiazhen Li Mingchen Wang Xian Wang Yijun Zhang 《Computers, Materials & Continua》 2026年第1期1742-1760,共19页
Over the past decade,large-scale pre-trained autoregressive and diffusion models rejuvenated the field of text-guided image generation.However,these models require enormous datasets and parameters,and their multi-step... Over the past decade,large-scale pre-trained autoregressive and diffusion models rejuvenated the field of text-guided image generation.However,these models require enormous datasets and parameters,and their multi-step generation processes are often inefficient and difficult to control.To address these challenges,we propose CAFE-GAN,a CLIP-Projected GAN with Attention-Aware Generation and Multi-Scale Discrimination,which incorporates a pretrained CLIP model along with several key architectural innovations.First,we embed a coordinate attention mechanism into the generator to capture long-range dependencies and enhance feature representation.Second,we introduce a trainable linear projection layer after the CLIP text encoder,which aligns textual embeddings with the generator’s semantic space.Third,we design a multi-scale discriminator that leverages pre-trained visual features and integrates a feature regularization strategy,thereby improving training stability and discrimination performance.Experiments on the CUB and COCO datasets demonstrate that CAFE-GAN outperforms existing text-to-image generation methods,achieving lower Fréchet Inception Distance(FID)scores and generating images with superior visual quality and semantic fidelity,with FID scores of 9.84 and 5.62 on the CUB and COCO datasets,respectively,surpassing current state-of-the-art text-to-image models by varying degrees.These findings offer valuable insights for future research on efficient,controllable text-to-image synthesis. 展开更多
关键词 Large vision language models deep learning computer vision text-to-image generation
在线阅读 下载PDF
A generation-based defect detection system for rail transit infrastructure
16
作者 Xinyu Zheng Lingfeng Zhang +1 位作者 Yuhao Luo Tiange Wang 《High-Speed Railway》 2026年第1期1-9,共9页
The use of Unmanned Aerial Vehicles(UAVs)for defect detection on railway slopes is becoming increasingly widespread due to their ability to capture high-resolution images over large,inaccessible,and topographically co... The use of Unmanned Aerial Vehicles(UAVs)for defect detection on railway slopes is becoming increasingly widespread due to their ability to capture high-resolution images over large,inaccessible,and topographically complex areas.However,current UAV-based detection methods face several critical limitations,including constrained deployment frequency,limited availability of annotated defect data,and the lack of mature risk assessment frameworks.To address these challenges,this study introduces a novel approach that integrates diffusion models with Large Language Models(LLMs)to generate highquality synthetic defect images tailored to railway slope scenarios.Furthermore,an improved transformerbased architecture is proposed,incorporating attention mechanisms and LLM-guided diffusion-generated imagery to enhance defect recognition performance under complex environmental conditions.Experimental evaluations conducted on a dataset of 300 field-collected images from high-risk railway slopes demonstrate that the proposed method significantly outperforms existing baselines in terms of precision,recall,and robustness,indicating strong applicability for real-world railway infrastructure monitoring and disaster prevention. 展开更多
关键词 RAILWAY Large language models Computer vision Object detection
在线阅读 下载PDF
面向遥感图像解译的参数高效微调研究综述
17
作者 陈诗琪 杨学 +2 位作者 朱荣强 廖宁 赵卫伟 《中国图象图形学报》 北大核心 2026年第1期212-242,共31页
海量遥感数据的获取和AI大模型的发展极大程度地推动了智能化遥感图像解译的下游应用落地。“预训练+微调”是视觉语言基础大模型适配下游领域的经典范式,能有效将基础模型的知识迁移至新任务中。尽管遥感大模型发展如火如荼且在下游任... 海量遥感数据的获取和AI大模型的发展极大程度地推动了智能化遥感图像解译的下游应用落地。“预训练+微调”是视觉语言基础大模型适配下游领域的经典范式,能有效将基础模型的知识迁移至新任务中。尽管遥感大模型发展如火如荼且在下游任务中表现突出,扩展的模型规模和高昂的训练成本使其难以适用于资源受限、标签不足、需求动态的实际应用场景。为使模型快速适应特定下游任务且有效避免额外训练资源消耗,参数高效微调方法得以广泛研究,并逐渐应用于遥感图像解译当中,成为当下的研究热点。本文面向不同类型的参数高效微调方法和解译任务,对提示词微调、适配器微调和低秩自适应微调三大类方法展开调研并梳理了现有研究工作。此外,本文收集归纳并总结了多个代表性数据集上30余种用于遥感图像解译任务的参数高效微调方法的性能,并从模型精度、训练参数量和推理耗时角度综合评估了方法性能,有助于启发研究者提出新方法并进行公平比较。最后,本文结合当前现状从多模态生成式任务、模型可解释性、边缘端部署应用的角度,展望并讨论了该交叉领域的未来研究方向,旨在为打造“AI+遥感”的下游应用生态提供理论参考与研究思路。 展开更多
关键词 视觉语言大模型 参数高效微调(PEFT) 遥感图像解译 提示词 适配器 低秩自适应
原文传递
开放词汇目标检测大模型在智能监控中的探索
18
作者 陈智扬 《电信工程技术与标准化》 2026年第2期7-11,共5页
为解决传统小模型在泛化能力、迁移成本及小目标识别上的瓶颈,本文聚焦高价值视觉场景,提出“小模型+视觉语言大模型”协同检测体系。该体系融合小模型高效专用检测能力与大模型提示词驱动开放语义理解能力,依托视觉语言模型未知类别动... 为解决传统小模型在泛化能力、迁移成本及小目标识别上的瓶颈,本文聚焦高价值视觉场景,提出“小模型+视觉语言大模型”协同检测体系。该体系融合小模型高效专用检测能力与大模型提示词驱动开放语义理解能力,依托视觉语言模型未知类别动态定义及零样本适应特性,实现无需重标注、重训练的误报抑制、类别扩展与跨域鲁棒检测,大幅降低运维成本并提升复杂环境感知可靠性。该框架推动目标检测从封闭静态向开放动态范式跃迁,为智能制造等国家战略领域的AI视觉技术规模化智能落地提供支撑,助力构建“感知无界、认知自主”的新一代智能系统。 展开更多
关键词 目标检测 开放词汇检测 视觉语言模型 智能监控
在线阅读 下载PDF
基于像素级特征调制与文本引导增强的组合零样本学习模型
19
作者 赵薇 包象琳 +1 位作者 杜文龙 徐晓峰 《湖北民族大学学报(自然科学版)》 2026年第1期75-81,共7页
针对组合零样本学习(compositional zero-shot learning, CZSL)中未见属性-对象组合泛化能力不足的问题,提出基于像素级特征调制与文本引导增强的组合零样本学习(pixel-level feature modulation and text-guided refinement for compos... 针对组合零样本学习(compositional zero-shot learning, CZSL)中未见属性-对象组合泛化能力不足的问题,提出基于像素级特征调制与文本引导增强的组合零样本学习(pixel-level feature modulation and text-guided refinement for compositional zero-shot learning, PFMTR)模型,旨在提升模型对未知组合的识别性能。首先,设计像素级特征调制(pixel-level feature modulation, PLFM)模块,通过像素级与块级特征的双重注意力机制,实现图像特征的精细化重组与语义增强。其次,提出文本引导特征增强(text-guided refinement, TGR)模块,以文本特征为查询、视觉特征为键值,借助跨模态注意力机制计算语义关注权重,实现文本对视觉特征的动态语义引导与跨模态对齐。结果表明,与其他前沿模型相比,PFMTR模型在得克萨斯大学Zappos(University of Texas Zappos, UT-Zappos)数据集上表现突出,曲线下面积(area under curve, AUC)、调和均值(harmonic mean, HM)分别为35.7%、49.7%。该研究证明通过融合像素级局部特征调制与跨模态语义引导,能够有效增强模型对未见组合的识别性能,为复杂场景下的组合零样本学习提供了可行的技术路径。 展开更多
关键词 组合零样本学习 像素级 跨模态对齐 注意力机制 视觉-语言模型
在线阅读 下载PDF
视觉—语言—动作模型综述:从前史到前沿 被引量:5
20
作者 张慧 梁姝彤 +5 位作者 李明轩 田永林 葛经纬 于慧 李灵犀 王飞跃 《自动化学报》 北大核心 2025年第9期1922-1950,共29页
视觉-语言-动作(VLA)模型作为具身智能发展的核心方向,旨在构建统一的多模态表示与感知–决策–执行一体化架构,以突破传统模块化系统在功能割裂、语义对齐不足及泛化能力有限等方面的瓶颈.本文系统回顾前VLA时代的技术积淀,梳理模块化... 视觉-语言-动作(VLA)模型作为具身智能发展的核心方向,旨在构建统一的多模态表示与感知–决策–执行一体化架构,以突破传统模块化系统在功能割裂、语义对齐不足及泛化能力有限等方面的瓶颈.本文系统回顾前VLA时代的技术积淀,梳理模块化、端到端和混合三类主流建模范式,分析其结构特点、能力优势与面临的关键挑战.在此基础上,总结当前代表性VLA模型的体系结构、训练机制、多模态融合策略及应用成效,并对典型数据集与评测基准进行分类比较.最后,结合跨模态协同、知识注入、长时序规划与真实环境泛化等方面,展望未来VLA模型的发展趋势与研究方向. 展开更多
关键词 具身智能 视觉—语言—动作模型 多模态融合 端到端学习 任务泛化
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部