期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
多粒度提示驱动的野生动物识别
1
作者 李鹏飞 邵一飞 +3 位作者 裴生雷 祁清 贾国庆 余炼 《闽南师范大学学报(自然科学版)》 2025年第2期35-48,共14页
现有的野生动物识别方法主要依赖于静态数据集,难以适应物种动态迁移和新增类别识别的需求,导致监测效率低下。针对这一问题,提出多粒度提示驱动的野生动物识别方法(multi-granularity prompt-driven for wildlife recognition,MGP-WILD... 现有的野生动物识别方法主要依赖于静态数据集,难以适应物种动态迁移和新增类别识别的需求,导致监测效率低下。针对这一问题,提出多粒度提示驱动的野生动物识别方法(multi-granularity prompt-driven for wildlife recognition,MGP-WILD)。通过云端大语言模型生成层次化语义描述(粗粒度生物分类+细粒度形态特征),由边缘节点协同维护动态知识表。具体而言,MGP-WILD利用大语言模型生成多粒度文本提示,相较于传统单粒度提示方法,本工作通过多粒度语义描述生成,实现了粗细粒度特征的深度融合,并结合视觉语言模型的跨模态对齐能力,实现了零样本精准识别。实验结果表明,该方法在多个数据集上均有较大提升,尤其在开放集识别任务中展现了较强的适应性。该系统已成功应用于青海野生动物栖息地保护,构建了基于真实场景的动物图像数据集,为生态脆弱区的生物多样性保护提供了创新技术范式。代码及部分数据集将在GitHub上公开。 展开更多
关键词 野生动物识别 云边协同 大型语言模型(LLM) 视觉语言模型(vlm) 多粒度提示
在线阅读 下载PDF
基于多粒度共享语义中心关联的文本到人物检索方法
2
作者 康斌 陈斌 +3 位作者 王俊杰 李昱林 赵军智 咸伟志 《计算机应用》 北大核心 2025年第3期808-814,共7页
基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入... 基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入探索全局对齐和局部对齐之间的促进和抑制效应。首先,引入一个多粒度交叉对齐模块,并通过增强图像-句子和局部区域-分词之间的交互,实现跨模态数据在联合嵌入空间的多层次对齐;其次,建立一个共享语义中心,将它作为一个可学习的语义枢纽,并通过全局特征和局部特征的关联,增强不同对齐机制之间的语义一致性,促进全局和局部特征的协同作用。在共享语义中心内,计算图像特征和文本特征之间的局部和全局跨模态相似性关系,提供一种全局视角与局部视角的互补度量,并最大限度地促进多种对齐机制之间的正向效应;最后,在CUHK-PEDES数据集上进行实验。结果表明:所提方法在Rank-1指标上较基线方法显著提升了8.69个百分点,平均精度均值(mAP)提升了6.85个百分点。在ICFG-PEDES和RSTPReid数据集上所提方法也取得了优异的性能,明显超越了所有对比方法。 展开更多
关键词 视觉-语言模型 人物检索 全局对齐 局部对齐 共享语义中心
在线阅读 下载PDF
A Review on Vision-Language-Based Approaches: Challenges and Applications
3
作者 Huu-Tuong Ho Luong Vuong Nguyen +4 位作者 Minh-Tien Pham Quang-Huy Pham Quang-Duong Tran Duong Nguyen Minh Huy Tri-Hai Nguyen 《Computers, Materials & Continua》 2025年第2期1733-1756,共24页
In multimodal learning, Vision-Language Models (VLMs) have become a critical research focus, enabling the integration of textual and visual data. These models have shown significant promise across various natural lang... In multimodal learning, Vision-Language Models (VLMs) have become a critical research focus, enabling the integration of textual and visual data. These models have shown significant promise across various natural language processing tasks, such as visual question answering and computer vision applications, including image captioning and image-text retrieval, highlighting their adaptability for complex, multimodal datasets. In this work, we review the landscape of Bootstrapping Language-Image Pre-training (BLIP) and other VLM techniques. A comparative analysis is conducted to assess VLMs’ strengths, limitations, and applicability across tasks while examining challenges such as scalability, data quality, and fine-tuning complexities. The work concludes by outlining potential future directions in VLM research, focusing on enhancing model interpretability, addressing ethical implications, and advancing multimodal integration in real-world applications. 展开更多
关键词 Bootstrapping language-image pre-training(BLIP) multimodal learning vision-language model(vlm) vision-language pre-training(VLP)
在线阅读 下载PDF
基于大语言模型与视觉语言模型的多模态事实核查 被引量:2
4
作者 张芃芃 彭勃 +1 位作者 董晶 程皓楠 《中国传媒大学学报(自然科学版)》 2024年第4期30-37,54,共9页
多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的... 多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的多模态事实核查自动化方法,并在公开数据集COSMOS上进行了实验。结果表明该方法达到了0.859的正确率,且在每次核查时都能提供清晰的理由,相较于传统的基线方法具有更高的准确性和更强的可解释性。此外,还深入分析了不同的方法变体,以及数据集中各种虚假信息的判别场景,验证了本方法凭借在多模态信息语义理解方面的强大能力,可以灵活应对不同情境下的脱离上下文检测。本文方法为社交网络中多模态媒体内容的事实核查工作提供有力的技术支持和新的思考方向。 展开更多
关键词 深度学习 大语言模型 视觉语言模型 多模态 事实核查
在线阅读 下载PDF
静水中摆推式水翼的水动力分析与实验研究
5
作者 杨侠 叶恒奎 +2 位作者 张向明 杨向辉 孙江龙 《水动力学研究与进展(A辑)》 CSCD 北大核心 2006年第5期654-659,共6页
针对静水中作摆动推进的水翼,采用用非定常涡格法对其进行水动力分析,并进行了静水中的相关推进实验。在理论计算中作者提出了一种非线性尾涡面模型处理办法,并将这种尾涡面模型下的计算结果与试验结果进行了对比,对比表明在计算中采用... 针对静水中作摆动推进的水翼,采用用非定常涡格法对其进行水动力分析,并进行了静水中的相关推进实验。在理论计算中作者提出了一种非线性尾涡面模型处理办法,并将这种尾涡面模型下的计算结果与试验结果进行了对比,对比表明在计算中采用这种非线性尾涡面效果理想。最后,针对提出的这种非线性尾涡模型处理方法展开了进一步的探讨,并按此计算了有来流工况下的尾涡面形状,给出了计算结果。 展开更多
关键词 静水 水翼 涡格法 非定常流 尾涡面模型
在线阅读 下载PDF
氙离子辐照后Hastelloy N合金的纳米硬度及其数值模拟 被引量:2
6
作者 刘继召 黄鹤飞 +2 位作者 朱振博 刘阿文 李燕 《金属学报》 SCIE EI CAS CSCD 北大核心 2020年第5期753-759,共7页
利用纳米压痕仪的连续刚度测量模式测试了常温氙离子辐照后Hastelloy N合金的纳米硬度。结果表明,辐照样品的纳米硬度均大于未辐照样品的纳米硬度,且辐照剂量在0.5~3.0 dpa这一范围内时,辐照样品的纳米硬度处于饱和状态。在Nix-Gao模型... 利用纳米压痕仪的连续刚度测量模式测试了常温氙离子辐照后Hastelloy N合金的纳米硬度。结果表明,辐照样品的纳米硬度均大于未辐照样品的纳米硬度,且辐照剂量在0.5~3.0 dpa这一范围内时,辐照样品的纳米硬度处于饱和状态。在Nix-Gao模型的基础上,分离出未辐照样品和辐照样品的压痕尺寸效应,并通过VLM(volume law of mixture)模型来模拟实验测得的纳米硬度。由于随着压头压入深度的增加,塑性影响区中将同时包含辐照损伤层与基体,在VLM模型中引入“界面参数”(χ)以修正基体的形变量,改进后的模型能够更好地模拟纳米压痕的实验结果。 展开更多
关键词 辐照硬化 纳米压痕 vlm模型 数值模拟
原文传递
基于显著图加权视觉语言模型的图像分类方法 被引量:1
7
作者 王挺进 赵永威 李弼程 《计算机工程》 CAS CSCD 北大核心 2015年第3期204-210,共7页
传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的... 传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的显著区域和背景区域,构建的图像带有显著图标识的视觉文档,训练视觉单词的显著度权重和条件概率,并使用显著图加权视觉语言模型进行图像分类。实验结果表明,与传统VLM等方法相比,该方法能有效克服图像背景噪声的影响,增强视觉单词的区分性,提高分类准确率。 展开更多
关键词 图像信息 视觉语言模型 图像分类 背景区域 显著图
在线阅读 下载PDF
CLIP-SP:Vision-language model with adaptive prompting for scene parsing
8
作者 Jiaao Li Yixiang Huang +3 位作者 Ming Wu Bin Zhang Xu Ji Chuang Zhang 《Computational Visual Media》 SCIE EI CSCD 2024年第4期741-752,共12页
We present a novel framework,CLIPSP,and a novel adaptive prompt method to leverage pre-trained knowledge from CLIP for scene parsing.Our approach addresses the limitations of DenseCLIP,which demonstrates the superior ... We present a novel framework,CLIPSP,and a novel adaptive prompt method to leverage pre-trained knowledge from CLIP for scene parsing.Our approach addresses the limitations of DenseCLIP,which demonstrates the superior image segmentation provided by CLIP pre-trained models over ImageNet pre-trained models,but struggles with rough pixel-text score maps for complex scene parsing.We argue that,as they contain all textual information in a dataset,the pixel-text score maps,i.e.,dense prompts,are inevitably mixed with noise.To overcome this challenge,we propose a two-step method.Firstly,we extract visual and language features and perform multi-label classification to identify the most likely categories in the input images.Secondly,based on the top-k categories and confidence scores,our method generates scene tokens which can be treated as adaptive prompts for implicit modeling of scenes,and incorporates them into the visual features fed into the decoder for segmentation.Our method imposes a constraint on prompts and suppresses the probability of irrelevant categories appearing in the scene parsing results.Our method achieves competitive performance,limited by the available visual-language pre-trained models.Our CLIP-SP performs 1.14%better(in terms of mIoU)than DenseCLIP on ADE20K,using a ResNet-50 backbone. 展开更多
关键词 visual-language pre-trained model scene parsing adaptive prompt
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部