期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
考虑水动力升力效应的船舶随浪中纯稳性丧失运动预报分析
1
作者 张晋雅 马宁 +1 位作者 段建文 史琪琪 《中国舰船研究》 北大核心 2026年第1期12-22,共11页
[目的]旨在研究随浪中横倾与航速共同作用下水动力升力效应的影响,提升纯稳性丧失的数值预报精度。[方法]首先,发展基于统一理论的六自由度弱非线性运动模型的数值计算方法,该方法不仅耦合耐波性与操纵性的动力学特征,还通过涡格法(VLM... [目的]旨在研究随浪中横倾与航速共同作用下水动力升力效应的影响,提升纯稳性丧失的数值预报精度。[方法]首先,发展基于统一理论的六自由度弱非线性运动模型的数值计算方法,该方法不仅耦合耐波性与操纵性的动力学特征,还通过涡格法(VLM)引入升力项,以表征横倾角和航速变化所引起的横向流体作用;其次,针对涡格法可能导致升力项高估的问题,采用计算流体力学(CFD)方法,对船舶自航时的涡脱落情况进行定量分析,进而对涡格法所计算的升力项进行修正;最后,将修正后的六自由度运动模型预报结果与公开发表的模型试验数据进行对比验证。[结果]结果显示,当船速增高时,升力对船舶横摇响应具有显著的放大效应;经CFD修正后的升力项可有效降低涡格法的高估偏差,提升六自由度运动模型对船舶随浪非线性横摇运动的预报精度。[结论]所做研究明确了升力效应对船舶随浪非线性横摇运动的影响规律,验证了基于涡格法和CFD修正的六自由度弱非线性运动模型在船舶横摇运动预报中的有效性,可为船舶稳性评估及航行策略制定提供技术支持。 展开更多
关键词 船舶稳性 横摇运动 弱非线性运动模型 六自由度 涡格法 水动力升力 计算流体力学
在线阅读 下载PDF
视觉语言模型驱动的目标计数
2
作者 曹锋 张孝文 +2 位作者 岳子杰 李莉 史淼晶 《中国图象图形学报》 北大核心 2026年第1期289-302,共14页
目的大型视觉语言模型的进展给解决基于文本提示的目标计数问题带来新的思路。然而,现有方法仍面临类别语义错位与解码器架构局限两大挑战。前者导致模型易将相似背景或无关类别误检为目标,后者依赖单一卷积神经网络(convolutional neur... 目的大型视觉语言模型的进展给解决基于文本提示的目标计数问题带来新的思路。然而,现有方法仍面临类别语义错位与解码器架构局限两大挑战。前者导致模型易将相似背景或无关类别误检为目标,后者依赖单一卷积神经网络(convolutional neural network,CNN)架构的局部特征提取,可能引发全局语义与局部细节的割裂,严重制约复杂场景下的计数鲁棒性。针对上述问题,提出跨分支协作对齐网络(cross-branch cooperative alignment net⁃work,CANet)。方法其核心包括:1)双分支解码器架构:通过并行Transformer分支(建模全局上下文依赖)与CNN分支(提取细粒度局部特征),结合信息互馈模块实现跨分支的特征交互和密度图预测;2)视觉—文本类别对齐损失:通过约束图像与文本特征的跨模态对齐,迫使模型区分目标与干扰语义,实现对类别的准确检测。结果在5个基准数据集上与先进的4种基于文本的目标计数方法进行比较实验。在FSC-147(few-shot counting-147)数据集上,CANet相较于性能第2的模型,在测试集上的平均绝对误差(mean absolute error,MAE)和均方根误差(root mean squared error,RMSE)分别降低1.22和8.45;在CARPK(car parking lot dataset)和PUCPR+(Pontifical Catholic Univer⁃sity of Parana+dataset)数据集的交叉验证实验上,相较于性能第2的模型,MAE分别降低0.08和3.58;在SHA(ShanghaiTech part-A)和SHB(ShanghaiTech part-B)数据集的交叉验证实验上,相较于性能第2的模型,MAE分别降低了47.0和9.8。同时也在FSC-147数据集上进行丰富的消融实验以验证算法的有效性,消融实验结果表明提出的方法针对两个问题做出了有效改进。结论本文方法能够解决现有方法所面临的两个问题,使计数结果更加准确。本文方法在4个数据集的交叉验证实验均取得SOTA(state-of-the-art)的性能,表明了CANet在零样本目标计数任务中的强大泛化能力。 展开更多
关键词 目标计数 视觉语言模型(vlm) 文本提示 双分支解码器 信息互馈
原文传递
多模态对地观测大模型:架构、关键技术和未来展望
3
作者 许文嘉 于睿卿 +6 位作者 薛铭浩 汪雪怡 张源奔 魏智威 张柘 彭木根 吴一戎 《雷达学报(中英文)》 北大核心 2026年第1期361-386,共26页
近年来,人工智能技术和对地观测领域的结合已成为领域发展的前沿热点,多模态大语言模型(MLLM)的快速发展为智能解译带来新的机遇和挑战。多模态对地观测大模型通过构建大语言模型与视觉模型之间的桥接机制并采用联合训练方式,深度融合... 近年来,人工智能技术和对地观测领域的结合已成为领域发展的前沿热点,多模态大语言模型(MLLM)的快速发展为智能解译带来新的机遇和挑战。多模态对地观测大模型通过构建大语言模型与视觉模型之间的桥接机制并采用联合训练方式,深度融合光学影像、合成孔径雷达影像与文本等多模态信息,有效推动对地观测智能解译由浅层语义匹配向高层的世界知识理解跃迁。该文系统性回顾了多模态对地观测大模型的相关研究成果,以期为新的研究方向提供依据。具体而言,该文首先明确了多模态对地观测大模型(EO-MLLM)的概念定义,并梳理了多模态对地观测大模型的发展脉络。随后,详细阐述了多模态对地观测大模型的模型架构、训练方法、适用任务及其对应的基准数据集,并介绍了对地观测智能体。最后,探讨了多模态对地观测大模型的研究现状和未来发展方向。 展开更多
关键词 大语言模型 多模态大语言模型 多模态对地观测大模型 视觉语言模型 对地观测智能体
在线阅读 下载PDF
多粒度提示驱动的野生动物识别 被引量:1
4
作者 李鹏飞 邵一飞 +3 位作者 裴生雷 祁清 贾国庆 余炼 《闽南师范大学学报(自然科学版)》 2025年第2期35-48,共14页
现有的野生动物识别方法主要依赖于静态数据集,难以适应物种动态迁移和新增类别识别的需求,导致监测效率低下。针对这一问题,提出多粒度提示驱动的野生动物识别方法(multi-granularity prompt-driven for wildlife recognition,MGP-WILD... 现有的野生动物识别方法主要依赖于静态数据集,难以适应物种动态迁移和新增类别识别的需求,导致监测效率低下。针对这一问题,提出多粒度提示驱动的野生动物识别方法(multi-granularity prompt-driven for wildlife recognition,MGP-WILD)。通过云端大语言模型生成层次化语义描述(粗粒度生物分类+细粒度形态特征),由边缘节点协同维护动态知识表。具体而言,MGP-WILD利用大语言模型生成多粒度文本提示,相较于传统单粒度提示方法,本工作通过多粒度语义描述生成,实现了粗细粒度特征的深度融合,并结合视觉语言模型的跨模态对齐能力,实现了零样本精准识别。实验结果表明,该方法在多个数据集上均有较大提升,尤其在开放集识别任务中展现了较强的适应性。该系统已成功应用于青海野生动物栖息地保护,构建了基于真实场景的动物图像数据集,为生态脆弱区的生物多样性保护提供了创新技术范式。代码及部分数据集将在GitHub上公开。 展开更多
关键词 野生动物识别 云边协同 大型语言模型(LLM) 视觉语言模型(vlm) 多粒度提示
在线阅读 下载PDF
基于多粒度共享语义中心关联的文本到人物检索方法 被引量:1
5
作者 康斌 陈斌 +3 位作者 王俊杰 李昱林 赵军智 咸伟志 《计算机应用》 北大核心 2025年第3期808-814,共7页
基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入... 基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入探索全局对齐和局部对齐之间的促进和抑制效应。首先,引入一个多粒度交叉对齐模块,并通过增强图像-句子和局部区域-分词之间的交互,实现跨模态数据在联合嵌入空间的多层次对齐;其次,建立一个共享语义中心,将它作为一个可学习的语义枢纽,并通过全局特征和局部特征的关联,增强不同对齐机制之间的语义一致性,促进全局和局部特征的协同作用。在共享语义中心内,计算图像特征和文本特征之间的局部和全局跨模态相似性关系,提供一种全局视角与局部视角的互补度量,并最大限度地促进多种对齐机制之间的正向效应;最后,在CUHK-PEDES数据集上进行实验。结果表明:所提方法在Rank-1指标上较基线方法显著提升了8.69个百分点,平均精度均值(mAP)提升了6.85个百分点。在ICFG-PEDES和RSTPReid数据集上所提方法也取得了优异的性能,明显超越了所有对比方法。 展开更多
关键词 视觉-语言模型 人物检索 全局对齐 局部对齐 共享语义中心
在线阅读 下载PDF
军事指挥系统视觉语言模型提示注入攻击与防御
6
作者 姜碧怡 宋振波 +1 位作者 陆建峰 陆辰 《指挥信息系统与技术》 2025年第6期23-29,共7页
视觉语言模型(VLM)凭借军事领域专业知识,在军事指挥系统中承担关键角色,可提升目标识别与战场分析效率。针对现有VLM安全研究多聚焦通用领域、军事场景专项探索不足的问题,对GPT-4o、Claude-3.5-Sonnet、Claude-Sonnet-4和Qwen2.5-VL这... 视觉语言模型(VLM)凭借军事领域专业知识,在军事指挥系统中承担关键角色,可提升目标识别与战场分析效率。针对现有VLM安全研究多聚焦通用领域、军事场景专项探索不足的问题,对GPT-4o、Claude-3.5-Sonnet、Claude-Sonnet-4和Qwen2.5-VL这4种先进VLM开展定量研究,模拟文本、视觉与延迟视觉3类提示注入攻击。试验结果表明,所有模型均易受攻击,亚视觉提示会显著提升有害信息输出概率。提出的防御策略包括伦理约束、监督模型及混合策略3类方法,均可有效缓解攻击危害,其中混合策略对多数模型的威胁漏检率降低30%~40%,普适性最优。 展开更多
关键词 视觉语言模型(vlm) 军事指挥系统 提示注入攻击 提示注入攻击防御
在线阅读 下载PDF
A Review on Vision-Language-Based Approaches: Challenges and Applications
7
作者 Huu-Tuong Ho Luong Vuong Nguyen +4 位作者 Minh-Tien Pham Quang-Huy Pham Quang-Duong Tran Duong Nguyen Minh Huy Tri-Hai Nguyen 《Computers, Materials & Continua》 2025年第2期1733-1756,共24页
In multimodal learning, Vision-Language Models (VLMs) have become a critical research focus, enabling the integration of textual and visual data. These models have shown significant promise across various natural lang... In multimodal learning, Vision-Language Models (VLMs) have become a critical research focus, enabling the integration of textual and visual data. These models have shown significant promise across various natural language processing tasks, such as visual question answering and computer vision applications, including image captioning and image-text retrieval, highlighting their adaptability for complex, multimodal datasets. In this work, we review the landscape of Bootstrapping Language-Image Pre-training (BLIP) and other VLM techniques. A comparative analysis is conducted to assess VLMs’ strengths, limitations, and applicability across tasks while examining challenges such as scalability, data quality, and fine-tuning complexities. The work concludes by outlining potential future directions in VLM research, focusing on enhancing model interpretability, addressing ethical implications, and advancing multimodal integration in real-world applications. 展开更多
关键词 Bootstrapping language-image pre-training(BLIP) multimodal learning vision-language model(vlm) vision-language pre-training(VLP)
在线阅读 下载PDF
静水中摆推式水翼的水动力分析与实验研究
8
作者 杨侠 叶恒奎 +2 位作者 张向明 杨向辉 孙江龙 《水动力学研究与进展(A辑)》 CSCD 北大核心 2006年第5期654-659,共6页
针对静水中作摆动推进的水翼,采用用非定常涡格法对其进行水动力分析,并进行了静水中的相关推进实验。在理论计算中作者提出了一种非线性尾涡面模型处理办法,并将这种尾涡面模型下的计算结果与试验结果进行了对比,对比表明在计算中采用... 针对静水中作摆动推进的水翼,采用用非定常涡格法对其进行水动力分析,并进行了静水中的相关推进实验。在理论计算中作者提出了一种非线性尾涡面模型处理办法,并将这种尾涡面模型下的计算结果与试验结果进行了对比,对比表明在计算中采用这种非线性尾涡面效果理想。最后,针对提出的这种非线性尾涡模型处理方法展开了进一步的探讨,并按此计算了有来流工况下的尾涡面形状,给出了计算结果。 展开更多
关键词 静水 水翼 涡格法 非定常流 尾涡面模型
在线阅读 下载PDF
Vision-Language Model-Driven Human-Vehicle Interaction for Autonomous Driving:Status,Challenge,and Innovation
9
作者 Rongfeng Zhao Aimin Du +2 位作者 Mobing Cai Zhongpan Zhu Bin He 《Big Data Mining and Analytics》 2026年第2期425-447,共23页
This paper investigates the potential of Vision-Language Models(VLMs)to enhance Human–Vehicle Interaction(HVI)in Autonomous Driving(AD)scenarios,particularly in interactions between vehicles and other traffic partici... This paper investigates the potential of Vision-Language Models(VLMs)to enhance Human–Vehicle Interaction(HVI)in Autonomous Driving(AD)scenarios,particularly in interactions between vehicles and other traffic participants,with a focus on rationality and safety in external HVI.Leveraging recent advancements in large language models,VLMs demonstrate remarkable capabilities in understanding real-world contexts and generating significant interest in HVI applications.This paper provides an overview of AD,HVI,and VLMs,along with the historical context of large language model applications in HVI.The HVI discussed herein involves dynamic game processes encompassing perception and decision-making between vehicles and traffic participants,such as pedestrians.Furthermore,we examine the perceptual challenges associated with applying VLMs to HVI and compile relevant datasets.This research fills a gap in the existing literature by systematically analyzing the current status,challenges,and future opportunities of VLM applications in HVI.To advance VLM integration in AD,various implementation strategies are discussed.The findings highlight the potential of VLMs to transform HVI in AD,improving both passenger experience and driving safety.Overall,this study contributes to a comprehensive understanding of VLM applications in HVI and provides insights to guide future research and development. 展开更多
关键词 Human-Vehicle Interaction(HVI) Large Language model(LLM) Vision-Language large model(vlm) Autonomous Driving(AD) perception technology
原文传递
基于空间感知增强VLM的自动驾驶轨迹规划
10
作者 蒋正信 牛铭奎 +1 位作者 韩佩伦 高炳钊 《中国公路学报》 2026年第3期135-144,共10页
在智能驾驶系列任务中,使用视觉大语言模型(Vision Large Language Model,VLM)进行轨迹规划任务时面对的主要技术难题是:如何感知周围的世界并根据这些信息处理复杂的任务。现有开源视觉大语言模型在预训练阶段缺乏驾驶场景的空间先验,... 在智能驾驶系列任务中,使用视觉大语言模型(Vision Large Language Model,VLM)进行轨迹规划任务时面对的主要技术难题是:如何感知周围的世界并根据这些信息处理复杂的任务。现有开源视觉大语言模型在预训练阶段缺乏驾驶场景的空间先验,导致其对空间信息的理解能力显著不足,难以直接胜任轨迹规划任务。为此,提出一种“空间问答微调+鸟瞰图感知输入”双重增强的端到端轨迹规划框架:首先是第一重增强,即基于数据集的可用标注数据构建驾驶场景空间问答微调数据集,使2B参数的Qwen2-VL在障碍物类别辨识、相对距离及尺度估计方面获得显式空间先验;随后为第二重增强,即利用环视摄像头实时生成动态鸟瞰图(Bird Eye View,BEV),完成轻量级空间重建;最终,将鸟瞰图图像、原始环视帧及文本指令共同输入经LoRA微调的视觉大语言模型,以问答形式直接输出规范化轨迹。所提方法的有效性在nuScenes数据集和NAVSIM数据集上得到验证。研究结果表明:该方法在现实世界中具有优秀的轨迹规划能力,更符合真实人驾的驾驶习惯,具备多种场景的泛化能力。 展开更多
关键词 汽车工程 智能驾驶 视觉大语言模型 空间感知增强 鸟瞰图
原文传递
氙离子辐照后Hastelloy N合金的纳米硬度及其数值模拟 被引量:2
11
作者 刘继召 黄鹤飞 +2 位作者 朱振博 刘阿文 李燕 《金属学报》 SCIE EI CAS CSCD 北大核心 2020年第5期753-759,共7页
利用纳米压痕仪的连续刚度测量模式测试了常温氙离子辐照后Hastelloy N合金的纳米硬度。结果表明,辐照样品的纳米硬度均大于未辐照样品的纳米硬度,且辐照剂量在0.5~3.0 dpa这一范围内时,辐照样品的纳米硬度处于饱和状态。在Nix-Gao模型... 利用纳米压痕仪的连续刚度测量模式测试了常温氙离子辐照后Hastelloy N合金的纳米硬度。结果表明,辐照样品的纳米硬度均大于未辐照样品的纳米硬度,且辐照剂量在0.5~3.0 dpa这一范围内时,辐照样品的纳米硬度处于饱和状态。在Nix-Gao模型的基础上,分离出未辐照样品和辐照样品的压痕尺寸效应,并通过VLM(volume law of mixture)模型来模拟实验测得的纳米硬度。由于随着压头压入深度的增加,塑性影响区中将同时包含辐照损伤层与基体,在VLM模型中引入“界面参数”(χ)以修正基体的形变量,改进后的模型能够更好地模拟纳米压痕的实验结果。 展开更多
关键词 辐照硬化 纳米压痕 vlm模型 数值模拟
原文传递
基于显著图加权视觉语言模型的图像分类方法 被引量:1
12
作者 王挺进 赵永威 李弼程 《计算机工程》 CAS CSCD 北大核心 2015年第3期204-210,共7页
传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的... 传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的显著区域和背景区域,构建的图像带有显著图标识的视觉文档,训练视觉单词的显著度权重和条件概率,并使用显著图加权视觉语言模型进行图像分类。实验结果表明,与传统VLM等方法相比,该方法能有效克服图像背景噪声的影响,增强视觉单词的区分性,提高分类准确率。 展开更多
关键词 图像信息 视觉语言模型 图像分类 背景区域 显著图
在线阅读 下载PDF
基于大语言模型与视觉语言模型的多模态事实核查 被引量:2
13
作者 张芃芃 彭勃 +1 位作者 董晶 程皓楠 《中国传媒大学学报(自然科学版)》 2024年第4期30-37,54,共9页
多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的... 多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的多模态事实核查自动化方法,并在公开数据集COSMOS上进行了实验。结果表明该方法达到了0.859的正确率,且在每次核查时都能提供清晰的理由,相较于传统的基线方法具有更高的准确性和更强的可解释性。此外,还深入分析了不同的方法变体,以及数据集中各种虚假信息的判别场景,验证了本方法凭借在多模态信息语义理解方面的强大能力,可以灵活应对不同情境下的脱离上下文检测。本文方法为社交网络中多模态媒体内容的事实核查工作提供有力的技术支持和新的思考方向。 展开更多
关键词 深度学习 大语言模型 视觉语言模型 多模态 事实核查
在线阅读 下载PDF
CLIP-SP:Vision-language model with adaptive prompting for scene parsing
14
作者 Jiaao Li Yixiang Huang +3 位作者 Ming Wu Bin Zhang Xu Ji Chuang Zhang 《Computational Visual Media》 SCIE EI CSCD 2024年第4期741-752,共12页
We present a novel framework,CLIPSP,and a novel adaptive prompt method to leverage pre-trained knowledge from CLIP for scene parsing.Our approach addresses the limitations of DenseCLIP,which demonstrates the superior ... We present a novel framework,CLIPSP,and a novel adaptive prompt method to leverage pre-trained knowledge from CLIP for scene parsing.Our approach addresses the limitations of DenseCLIP,which demonstrates the superior image segmentation provided by CLIP pre-trained models over ImageNet pre-trained models,but struggles with rough pixel-text score maps for complex scene parsing.We argue that,as they contain all textual information in a dataset,the pixel-text score maps,i.e.,dense prompts,are inevitably mixed with noise.To overcome this challenge,we propose a two-step method.Firstly,we extract visual and language features and perform multi-label classification to identify the most likely categories in the input images.Secondly,based on the top-k categories and confidence scores,our method generates scene tokens which can be treated as adaptive prompts for implicit modeling of scenes,and incorporates them into the visual features fed into the decoder for segmentation.Our method imposes a constraint on prompts and suppresses the probability of irrelevant categories appearing in the scene parsing results.Our method achieves competitive performance,limited by the available visual-language pre-trained models.Our CLIP-SP performs 1.14%better(in terms of mIoU)than DenseCLIP on ADE20K,using a ResNet-50 backbone. 展开更多
关键词 visual-language pre-trained model scene parsing adaptive prompt
原文传递
基于视觉语言模型的SAR图像目标解译综述
15
作者 王君宇 孙浩 +2 位作者 黄启灏 计科峰 匡纲要 《雷达学报(中英文)》 2026年第2期409-440,共32页
合成孔径雷达(SAR)在军事和民用领域应用广泛,SAR图像目标智能解译是SAR应用的重要组成部分。视觉语言模型在SAR目标解译过程中发挥了关键作用,通过引入自然语言理解有效弥补了SAR目标特性差异大和高质量标注样本稀缺的挑战,实现了从纯... 合成孔径雷达(SAR)在军事和民用领域应用广泛,SAR图像目标智能解译是SAR应用的重要组成部分。视觉语言模型在SAR目标解译过程中发挥了关键作用,通过引入自然语言理解有效弥补了SAR目标特性差异大和高质量标注样本稀缺的挑战,实现了从纯视觉解译到目标语义理解的发展。该文结合团队在SAR目标解译理论、算法及应用等方面的长期研究积累,对基于视觉语言的SAR图像目标智能解译进行了全面回顾和综述,深入分析了现有挑战和任务并总结了研究现状,汇总整理了公开数据集,系统梳理了从特定任务的视觉语言模型到对比式、对话式和生成式视觉语言模型和基础模型的发展历程,最后探讨了该领域的最新挑战与展望。 展开更多
关键词 合成孔径雷达 目标智能解译 视觉语言模型 人工智能 基础模型
在线阅读 下载PDF
渐进式双阶段模态交互的单域泛化目标检测
16
作者 张永兵 闫丽蓉 唐晓芬 《计算机应用》 2026年第4期1264-1274,共11页
针对现有基于视觉语言的单域泛化模型采用固定的单向文本引导视觉局部对齐操作,导致局部-全局上下文建模能力不足的问题,提出一种渐进式双阶段模态交互(PDMI)框架。PDMI能够在模态内以多层次方式提取全局域不变特征,在模态间充分挖掘视... 针对现有基于视觉语言的单域泛化模型采用固定的单向文本引导视觉局部对齐操作,导致局部-全局上下文建模能力不足的问题,提出一种渐进式双阶段模态交互(PDMI)框架。PDMI能够在模态内以多层次方式提取全局域不变特征,在模态间充分挖掘视觉和文本互补语义,以获得细粒度语义知识。首先,结合固定域无关提示和可学习的自适应域提示(ADP)引导样本获得对特定域的语义感知能力;同时,在视觉主干网络ResNet-101基础上,设计多层级的模态内交互(MIMI)模块,基于自适应视觉提示引导,对源域图像进行模态内Mamba交互(IMMI)以提取图像的全局域不变特征,改善视觉特征表示的分布。其次,提出跨模态双向交互融合(CMBIF)机制,提取并对齐细粒度的跨模态特征,以视觉或文本双向引导实现细粒度模态间交互。最后,采用跨模态自适应融合(CMAF)模块自动搜索模态间信息的最佳组合,进一步减小模态间交互的冗余特征。在3个具有挑战性的领域偏移数据集Diverse Weather、Virtual-to-Reality和UAV-OD上的实验结果显示:PDMI在目标域上的平均精度(mPT)比C-Gap、SRCD(Semantic Reasoning with Compound Domains)和FDD(Frequency Domain Disentanglement)方法分别平均提高了2.0、4.0和4.2个百分点。可见,PDMI能够有效提取全局-局部域不变特征提升对未见目标域的泛化能力,这对目标域和源域存在显著分布偏移且目标域数据受限的场景至关重要。 展开更多
关键词 单域泛化目标检测 视觉语言模型 提示学习 多模态融合
在线阅读 下载PDF
视觉语义引导的路侧多模态感知动态自适应均衡优化框架
17
作者 张国宇 陈前 +1 位作者 孙剑 杭鹏 《中国公路学报》 2026年第3期88-100,共13页
随着车路协同系统对全域感知需求的增加,路侧多模态感知技术成为突破车载端感知局限的关键。基于此,提出一种基于视觉语言模型(VLM)语义引导的多模态感知自适应均衡优化框架,旨在提升路侧感知系统性能。框架设计了动态权重分配模块,通... 随着车路协同系统对全域感知需求的增加,路侧多模态感知技术成为突破车载端感知局限的关键。基于此,提出一种基于视觉语言模型(VLM)语义引导的多模态感知自适应均衡优化框架,旨在提升路侧感知系统性能。框架设计了动态权重分配模块,通过跨模态注意力与帧级残差建模,实现空间自适应的多模态融合。提出的梯度敏感异步优化器精细调控各模态学习率,解决了模态收敛不均的问题。轻量级门控调度机制根据模态状态和场景语义熵动态触发视觉语言模型校准,减少了计算开销。试验结果表明:所提方法在DAIR-V2X-I与RCooper数据集上分别达到79.20%与80.16%的3D目标检测精度,相较于对比的同类方法平均提升3.9%(最高可达7.51%)。同时,门控调度机制使视觉语言模型模块的平均调用频率下降41.2%,有效削减了冗余计算;整体模型显存占用较基线模型仅增加约4.0%。所提方法为车路协同系统的技术发展提供了新的解决思路。 展开更多
关键词 交通工程 路侧多模态感知 多模态融合 视觉语言模型(vlm) 动态优化 门控调度
原文传递
Concept-Guided Open-Vocabulary Temporal Action Detection
18
作者 Song-Miao Wang Rui-Ze Han Wei Feng 《Journal of Computer Science & Technology》 2025年第5期1270-1284,共15页
Vision-language models(VLMs)have shown strong open-vocabulary learning abilities in various video understanding tasks.However,when applied to open-vocabulary temporal action detection(OV-TAD),existing OV-TAD methods o... Vision-language models(VLMs)have shown strong open-vocabulary learning abilities in various video understanding tasks.However,when applied to open-vocabulary temporal action detection(OV-TAD),existing OV-TAD methods often face challenges in generalizing to unseen action categories due to their reliance on visual features,resulting in limited generalization.In this paper,we propose a novel framework,Concept-Guided Semantic Projection(CSP),to enhance the generalization ability of OV-TAD methods.By projecting video features into a unified action concept space,CSP enables the use of abstracted action concepts for action detection,rather than solely relying on visual details.To further improve feature consistency across action categories,we introduce a mutual contrastive loss(MCL),ensuring semantic coherence and better feature discrimination.Extensive experiments on the ActivityNet and THUMOS14 benchmarks demonstrate that our method outperforms state-of-the-art OV-TAD methods.Code and data are available at Concept-Guided-OV-TAD. 展开更多
关键词 open-vocabulary temporal action detection(TAD) visual-language model
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部