期刊文献+
共找到135篇文章
< 1 2 7 >
每页显示 20 50 100
Enhanced Panoramic Image Generation with GAN and CLIP Models
1
作者 Shilong Li Qiang Zhao 《Journal of Beijing Institute of Technology》 2025年第1期91-101,共11页
Panoramic images, offering a 360-degree view, are essential in virtual reality(VR) and augmented reality(AR), enhancing realism with high-quality textures. However, acquiring complete and high-quality panoramic textur... Panoramic images, offering a 360-degree view, are essential in virtual reality(VR) and augmented reality(AR), enhancing realism with high-quality textures. However, acquiring complete and high-quality panoramic textures is challenging. This paper introduces a method using generative adversarial networks(GANs) and the contrastive language-image pretraining(CLIP) model to restore and control texture in panoramic images. The GAN model captures complex structures and maintains consistency, while CLIP enables fine-grained texture control via semantic text-image associations. GAN inversion optimizes latent codes for precise texture details. The resulting low dynamic range(LDR) images are converted to high dynamic range(HDR) using the Blender engine for seamless texture blending. Experimental results demonstrate the effectiveness and flexibility of this method in panoramic texture restoration and generation. 展开更多
关键词 panoramic images environment texture generative adversarial networks(GANs) contrastive language-image pretraining(clip)model blender engine fine-grained control texture generation
在线阅读 下载PDF
基于CLIP-LDAGV多模态信息融合的颠覆性技术主题识别研究——以新能源领域为例 被引量:2
2
作者 吕鲲 张未旭 靖继鹏 《情报学报》 北大核心 2025年第3期353-368,共16页
当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contr... 当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contrastive language-image pre-training)和LDAGV(linear discriminant analysis&global vectors for word representation)模型构建新闻文本与图像特征融合向量,通过k-means聚类迭代并结合3个颠覆性技术主题指标进行筛选,实现了多模态信息的融合以及主题的精准识别。以新能源领域为例,验证了该模型在颠覆性技术主题识别方面的可行性和有效性。与其他单一模态模型相比,多模态信息融合模型在颠覆性技术主题识别方面更具优势。 展开更多
关键词 颠覆性技术 主题识别 多模态融合 clip-LDAGV模型
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:2
3
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 clip模型 知识数据库
在线阅读 下载PDF
混合对比学习和多视角CLIP的多模态图文情感分析
4
作者 叶佳乐 普园媛 +3 位作者 赵征鹏 冯珏 周联敏 谷金晶 《计算机科学》 北大核心 2025年第S1期224-230,共7页
以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联... 以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联和互补性,进而降低了情感分析的准确性。针对上述问题,文中提出了混合对比学习和多视角CLIP的多模态图文情感分析方法。具体来说,多视角CLIP特征编码模块采用CLIP对图像和文本进行联合编码表示,以提升特征的语义一致性,从图像、文本和图文交互等多个视角进行多模态情感分析。此外,通过混合对比学习模块使模型提取更具有情感特性以及有效信息的特征,提升模型的鲁棒性。其中,在图文交互时为了去除冗余信息,采用CNN和Transformer级联的融合策略,充分利用图文局部和全局信息来提高特征表示能力。最后,在3个公开数据集上进行综合实验,验证了所提方法的优越性,通过消融实验证明了所提方法各组件的有效性。 展开更多
关键词 多模态 clip 对比学习 预训练模型 情感分析
在线阅读 下载PDF
基于CLIP多模态预训练模型的动画自动剪辑研究
5
作者 李海燕 陈新生 《佳木斯大学学报(自然科学版)》 2025年第7期137-139,136,共4页
动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态... 动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态特征对齐,实现动画帧的语义级筛选与场景分割。模型以CLIP预训练特征为基础,设计动态阈值调整策略优化帧选择精度,结合时间轴分析与视觉焦点追踪算法增强剪辑连贯性。实验结果表明,在四类典型场景(战斗、对话、风景、特写)中平均相似度达0.82,较传统关键词匹配法(KWM)与单模态CNN模型分别提升35.6%与18.3%。热力图显示其帧-文本关联精度超过90%,场景切换节奏密度曲线符合人类视觉感知规律。真实动画测试中,剪辑耗时较人工处理缩短87%,且用户满意度评分达4.6/5.0。 展开更多
关键词 clip模型 多模态学习 动画剪辑 语义对齐
在线阅读 下载PDF
PixCLIP:多层次特征融合的手写汉字骨架提取
6
作者 梁晓中 王涛 《计算机技术与发展》 2025年第1期21-29,共9页
针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-... 针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-Image Pre-training)的视觉Transformer分支与Pix2Pix条件生成对抗网络进行多层次特征融合,增强模型整体的全局上下文信息提取能力。对CLIP使用视觉提示微调技术(VPT),仅需微调极少数额外参数即可增强其在骨架提取任务的表现。提出多维度特征聚合(MDFA)模块,充分促进CLIP的全局特征与Pix2Pix局部特征之间多维度特征的自适应融合。引入多头注意力机制与卷积块注意力模块(CBAM),在通道和空间维度上抑制冗余信息。基于在线手写汉字数据集,构建手写汉字图像数据集用于实验。实验表明,与现有最优的骨架提取算法相比,该算法在测试数据集与真实手写汉字图像中均能更好地提取出流畅、完整的汉字骨架;在测试数据集上,此模型F1值与联合交并比(IoU)分别达到了85.62%和75.45%。 展开更多
关键词 骨架提取 条件生成对抗网络 多模态 clip模型 视觉提示微调
在线阅读 下载PDF
基于Chinese-CLIP模型和Prompt提示机制的图文检索方法 被引量:1
7
作者 陈道彬 张子诺 +2 位作者 付裕彬 黎晋铭 林彬 《现代信息科技》 2025年第6期130-134,共5页
为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到... 为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到的文本与图像特征进行序列化,以实现多模态特征融合。模型训练时,先使用Chinese-CLIP大模型进行初步训练,再引入Prompt提示机制对模型进行微调。实验结果表明,所提方法在文搜图和图搜文两个任务上均有效地提升了准确率与召回率。 展开更多
关键词 图文检索 多模态特征融合 Chinese-clip模型 Prompt提示机制
在线阅读 下载PDF
基于CLIP模型和迁移学习的遥感图像描述方法
8
作者 王振宇 万刚 王孜妍 《地理空间信息》 2025年第9期1-5,共5页
遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微... 遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微调后的视觉大模型CLIP对遥感图像进行特征编码,构建一个高效的遥感领域的视觉—语言编码器,再配合Transformer架构的解码器生成图像描述。在3个公开遥感图像描述数据集上的实验结果表明,该方法能明显提升生成图像描述语句的质量,具有一定的竞争力。 展开更多
关键词 遥感图像描述 clip模型 迁移学习 Transformer架构
在线阅读 下载PDF
基于CLIP和交叉注意力的多模态情感分析模型 被引量:1
9
作者 陈燕 赖宇斌 +2 位作者 肖澳 廖宇翔 陈宁江 《郑州大学学报(工学版)》 CAS 北大核心 2024年第2期42-50,共9页
针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提... 针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。 展开更多
关键词 情感分析 多模态学习 交叉注意力 clip模型 TRANSFORMER 特征融合
在线阅读 下载PDF
基于CLIP和双空间自适应归一化的图像翻译 被引量:3
10
作者 李田芳 普园媛 +2 位作者 赵征鹏 徐丹 钱文华 《计算机工程》 CAS CSCD 北大核心 2024年第5期229-240,共12页
现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习... 现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习语言-图像预训练(CLIP)的无监督图像翻译模型。首先,引入CLIP相似性损失对图像的风格特征施加约束,以在不使用数据集域标签的情况下增强模型传递图像风格信息的能力和准确性;其次,对自适应实例归一化(AdaIN)进行改进,设计一个新的双空间自适应归一化(DSAdaIN)模块,在特征的风格化阶段添加网络的学习和自适应交互过程,以加强对内容源域信息的保留;最后,设计一个鉴别器对比损失来平衡对抗网络损失的训练和优化过程。在多个公开数据集上的实验结果表明,与Star GANv2、Style DIS等模型相比,该模型可在准确传递图像风格信息的同时保留一定的源域信息,且在定量评估指标FID分数和KID分数上分别提升了近3.35和0.57×102,实现了较好的图像翻译性能。 展开更多
关键词 图像翻译 生成对抗网络 对比学习语言-图像预训练模型 自适应实例归一化 对比学习
在线阅读 下载PDF
CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval
11
作者 Tao Zhang Yu Zhang 《Journal of Computer and Communications》 2024年第11期26-36,共11页
Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval per... Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval performance, as it determines the quality of the visual content representation. Traditional sampling methods, such as uniform sampling and optical flow-based techniques, often fail to capture the full semantic range of videos, leading to redundancy and inefficiencies. In this work, we propose CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval, a global semantics-guided multi-granularity frame sampling strategy designed to optimize both computational efficiency and retrieval accuracy. By integrating multi-scale global and local temporal sampling and leveraging the CLIP (Contrastive Language-Image Pre-training) model’s powerful feature extraction capabilities, our method significantly outperforms existing approaches in both zero-shot and fine-tuned video-text retrieval tasks on popular datasets. CLIP4Video-Sampling reduces redundancy, ensures keyframe coverage, and serves as an adaptable pre-processing module for multimodal models. 展开更多
关键词 Video Sampling Multimodal Large Language model Text-Video Retrieval clip model
在线阅读 下载PDF
基于情感隐空间学习与CLIP模型的身体动作情感识别方法
12
作者 罗红 慎煜杰 +1 位作者 陈娟娟 王丹 《计算机应用》 CSCD 北大核心 2024年第S2期44-49,共6页
身体动作情感识别的关键是提取人物身体动作蕴含的情感特征。针对现有模型情感特征学习能力较差且情感识别精度难以提升的问题,提出一种基于情感隐空间学习与对比语言-图像预训练(CLIP)模型的身体动作情感识别方法。首先,引入CLIP模型,... 身体动作情感识别的关键是提取人物身体动作蕴含的情感特征。针对现有模型情感特征学习能力较差且情感识别精度难以提升的问题,提出一种基于情感隐空间学习与对比语言-图像预训练(CLIP)模型的身体动作情感识别方法。首先,引入CLIP模型,从而增强模型的情感特征学习能力。其次,针对细粒度多标签情感分类任务,提出情感隐空间学习(ELSL)方法。该方法能通过学习情感隐空间向各个子空间的判别映射,在各个情感子空间上捕获情感类别之间的细微差异和对各情感类别的分类有益的特征信息。在面向真实世界开放场景的肢体语言数据集(BoLD)上的实验结果表明,所提方法充分利用了CLIP模型与隐空间学习在特征学习上的优势,取得了显著的性能提升。具体地,相较于运动分析网络(MANet),所提方法的平均精度均值(mAP)提高了1.08个百分点,平均受试者工作特征曲线下方面积(mRA)提高了1.32个百分点。 展开更多
关键词 身体动作情感识别 对比语言-图像预训练模型 隐空间学习 提示学习 多标签分类
在线阅读 下载PDF
Three-Dimensional Cerebral Aneurysm Models for Surgical Simulation and Education—Development of Aneurysm Models with Perforating Arteries and for Application of Fenestrated Clips
13
作者 Tatsuya Ishikawa Akio Morita +1 位作者 Takanori Fukushima Hidenori Ono 《Open Journal of Modern Neurosurgery》 2014年第2期59-63,共5页
We modified a three-dimensional cerebral aneurysm model for surgical simulation and educational demonstration. Novel models are made showing perforating arteries arising around the aneurysm. Information about perforat... We modified a three-dimensional cerebral aneurysm model for surgical simulation and educational demonstration. Novel models are made showing perforating arteries arising around the aneurysm. Information about perforating arteries is difficult to obtain from individual radiological data sets. Perforators are therefore reproduced based on previous anatomical knowledge instead of personal data. Due to their fragility, perforating arteries are attached to the model using hard materials. At the same time, hollow models are useful for practicing clip application. We made a model for practicing the application of fenestrated clips for paraclinoid internal carotid aneurysms. Situating aneurysm models in the fissure of a brain model simulates the real surgical field and is helpful for educational demonstrations. 展开更多
关键词 THREE-DIMENSIONAL Cerebral ANEURYSM model clipPING Surgery Simulation PERFORATING Artery FENESTRATED clip
暂未订购
多尺度感知的单文本条件图像风格迁移
14
作者 贵向泉 李琪 +2 位作者 李立 张继续 张斌轩 《计算机技术与发展》 2025年第9期46-54,共9页
针对现有图像风格迁移方法生成图像质量不均匀、风格化效果不平衡等问题,提出一种基于CLIP的多尺度感知单文本条件融合的图像风格迁移模型─CLIP-TextFusion。该模型充分利用CLIP的文本─图像对齐能力,无需依赖目标风格图像,仅通过文本... 针对现有图像风格迁移方法生成图像质量不均匀、风格化效果不平衡等问题,提出一种基于CLIP的多尺度感知单文本条件融合的图像风格迁移模型─CLIP-TextFusion。该模型充分利用CLIP的文本─图像对齐能力,无需依赖目标风格图像,仅通过文本描述即可生成与目标风格匹配的图像。模型设计了特征提取与增强网络FENet,结合编码器、多尺度感知解码器以及通道注意力和空间注意力机制,动态调整特征权重和多尺度特征融合,实现内容图像细节的高效保留与风格纹理的精准传递。为进一步优化风格迁移效果,模型引入定向CLIP损失、多尺度感知损失、风格特征提取损失及对抗性损失,分别约束生成图像与文本描述的全局风格一致性、局部细节匹配度以及视觉真实性。实验结果表明,CLIP-TextFusion生成的图像风格鲜明、纹理细腻,在视觉效果和风格一致性上优于现有方法,能够广泛应用于艺术创作和个性化图像生成等领域。 展开更多
关键词 文本引导 图像风格迁移 clip模型 多尺度感知 特征提取与增强
在线阅读 下载PDF
Model Builder在可再生能源规划设计平台的应用
15
作者 付佳珂 《中国高新科技》 2024年第10期83-85,共3页
文章在风能资源规划设计平台中,基于ArcGISDesktop中的ModelBuilder(模型构建器)将单一多样的地理处理工具组合成复杂的空间数据处理工作流,并以GP服务提供给前端进行调用,实现了栅格数据按风资源规划选址的优选区域进行实时裁剪并进行... 文章在风能资源规划设计平台中,基于ArcGISDesktop中的ModelBuilder(模型构建器)将单一多样的地理处理工具组合成复杂的空间数据处理工作流,并以GP服务提供给前端进行调用,实现了栅格数据按风资源规划选址的优选区域进行实时裁剪并进行Web端渲染可视化。同时,按范围批量提取了风资源相关栅格数据(如WeibullA、风功率密度),用于风机布置优化迭代接口进行运算。此方法便于修改、复用和扩展,验证了模型构建器作为一种用于建立地理处理流程的图形编程语言在能源规划设计平台应用的可能性。 展开更多
关键词 ArcGIS model Builder 栅格数据 裁剪 能源规划设计
在线阅读 下载PDF
改良结扎法用于脊髓损伤造模的优势分析 被引量:1
16
作者 李道辉 徐晓霜 +5 位作者 李郑涛 田新鹏 毕航川 刘源 戴永文 陈凌强 《中国组织工程研究》 CAS 北大核心 2025年第2期379-384,共6页
背景:目前根据脊髓损伤的损伤方式不同衍生出不同的模型构建方法,传统物理损伤造模方法都有各自的优缺点,尚缺乏较为有效和稳定的脊髓损伤动物模型。目的:建立一种可复制、可调控、创伤小、死亡率低、模型更稳定、适用范围广、术后护理... 背景:目前根据脊髓损伤的损伤方式不同衍生出不同的模型构建方法,传统物理损伤造模方法都有各自的优缺点,尚缺乏较为有效和稳定的脊髓损伤动物模型。目的:建立一种可复制、可调控、创伤小、死亡率低、模型更稳定、适用范围广、术后护理时间短的脊髓损伤大鼠模型。方法:将体质量和鼠龄相似的40只SD大鼠随机分为对照组和改良组,每组20只,对照组采用钳夹造模法构建脊髓损伤模型,改良组选用基于压迫法改良的结扎法,在开窗的基础上使用缝线结扎的方法进行脊髓损伤的造模。比较两组大鼠的排尿行为、血尿、脓尿(感染率)、死亡率、脊柱畸形率及术后1,3,5,7 d的BBB运动功能学评分。结果与结论:基于压迫法改良的结扎法建立的脊髓损伤大鼠模型比常规建模方法排尿行为恢复较快、血尿率低、感染率低、死亡率低、脊柱畸形率低,BBB评分结果更集中稳定(1周内均<2分),由此可证明基于压迫法改良的结扎法更适用于脊髓损伤大鼠模型的建立。 展开更多
关键词 改良 脊髓损伤模型 钳夹造模法 结扎法 排尿反射 排尿行为 脊柱畸形 BBB评分
暂未订购
大语言模型知识引导的开放域多标签动作识别
17
作者 朱荣江 石语珩 +2 位作者 杨硕 王子奕 吴心筱 《计算机研究与发展》 北大核心 2025年第8期1875-1883,共9页
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了... 开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法.该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本动作类别(base action classes)与新动作类别(novel action classes)之间的信息传递,从而提升新类别的识别性能.在实验中将基本动作类别和新动作类别的比例设置为3∶1和1∶1,分别表示为“75%可见”和“50%可见”.在AVA和Movie Net数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在2个数据集的新动作类别识别指标m AP上分别提升了1.95个百分点和1.21个百分点;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标m AP上分别提升了2.59个百分点和1.06个百分点. 展开更多
关键词 开放域动作识别 多标签分类 提示学习 大语言模型 clip模型
在线阅读 下载PDF
基于扩散模型的轮廓生成式信息隐藏方法
18
作者 李爽 张春玉 冯宇舒 《科技创新与应用》 2025年第30期134-137,共4页
针对生成式信息隐藏方法存在载密图像质量差的问题,该文提出一种基于扩散模型的轮廓生成式信息隐藏方法,发送方首先从图像中提取出轮廓点,基于轮廓点构建轮廓候选列表,随后构造哈夫曼编码,根据秘密信息选取相应轮廓点,利用可微分光栅器... 针对生成式信息隐藏方法存在载密图像质量差的问题,该文提出一种基于扩散模型的轮廓生成式信息隐藏方法,发送方首先从图像中提取出轮廓点,基于轮廓点构建轮廓候选列表,随后构造哈夫曼编码,根据秘密信息选取相应轮廓点,利用可微分光栅器将所有轮廓点生成一系列轮廓线,对轮廓线进行渲染,生成载密轮廓图像。为确保载密轮廓图像能够较好地保留原始图像的轮廓特征,采用CLIP模型对其进行优化处理。接着通过结合无分类引导的扩散模型将载密轮廓图像生成载密图像。接收方得到载密图像后,首先提取出载密轮廓图像,再从中提取出轮廓点并构造哈夫曼编码,从而提取出秘密信息。实验结果表明,该方法整体性能优于当前主流的生成式图像隐藏方案,尤其是生成的载密图像质量更高,提取准确率和鲁棒性也能得到兼顾。 展开更多
关键词 生成式信息隐藏 扩散模型 clip模型 载密图像 隐藏方法
在线阅读 下载PDF
基于CLIP模型的多元回归边缘检测
19
作者 赵景秀 林毓材 杨秀国 《计算机工程与应用》 CSCD 北大核心 2004年第4期48-50,55,共4页
20世纪80年代中期由Jourlin和Pinoli提出的对数图像处理LIP模型颇具特色,该模型中的方法对低亮度图像敏感,并且对灰度有界图像的加法运算是封闭的,在边缘检测等方面有着其他方法所不具备的优点。该文基于灰度图像的对数图像处理LIP模型... 20世纪80年代中期由Jourlin和Pinoli提出的对数图像处理LIP模型颇具特色,该模型中的方法对低亮度图像敏感,并且对灰度有界图像的加法运算是封闭的,在边缘检测等方面有着其他方法所不具备的优点。该文基于灰度图像的对数图像处理LIP模型,建立了彩色图像的对数图像处理CLIP模型,并在此模型上进行了对彩色图像边缘检测技术的系统研究。首先,文章在彩色图像的红、绿、蓝、色彩、饱和度、明度以及灰度等各分量场上进行了CLIP模型上的边缘检测的研究,然后,在人机交互的边缘像素采样的基础上,用多元回归的方法,得出了对各分量进行加权组合时各分量的权重系数,再将其用于不同类型样品图像的边缘检测,得到了更理想的结果。 展开更多
关键词 彩色图像 边缘检测 clip模型 多元回归
在线阅读 下载PDF
基于CLIP生成多事件表示的视频文本检索方法 被引量:2
20
作者 涂荣成 毛先领 +4 位作者 孔伟杰 蔡成飞 赵文哲 王红法 黄河燕 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2169-2179,共11页
视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略... 视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略了视频、文本数据都是由一个个事件组合而成.倘若能捕捉视频事件与文本事件之间的细粒度相似性关系,将能帮助模型计算出更准确的文本与视频之间的语义相似性关系,进而提升文本视频间跨模态检索效果.因此,提出了一种基于CLIP生成多事件表示的视频文本检索方法(CLIP based multi-event representation generation for video-text retrieval,CLIPMERG).首先,通过利用大规模图文预训练模型CLIP的视频编码器(ViT)以及文本编码器(Tansformer)分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列;然后,通过视频事件生成器(文本事件生成器)将视频帧token序列(单词token序列)转换成k个视频事件表示(k个文本事件表示);最后,通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的语义相似性关系.在3个常用的公开视频文本检索数据集MSR-VTT,DiDeMo,LSMDC上的实验结果表明所提的CLIPMERG优于现有的视频文本检索方法. 展开更多
关键词 预训练模型 视频文本检索 事件表示 clip模型 Transformer模型
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部