期刊文献+
共找到138篇文章
< 1 2 7 >
每页显示 20 50 100
Enhanced Panoramic Image Generation with GAN and CLIP Models
1
作者 Shilong Li Qiang Zhao 《Journal of Beijing Institute of Technology》 2025年第1期91-101,共11页
Panoramic images, offering a 360-degree view, are essential in virtual reality(VR) and augmented reality(AR), enhancing realism with high-quality textures. However, acquiring complete and high-quality panoramic textur... Panoramic images, offering a 360-degree view, are essential in virtual reality(VR) and augmented reality(AR), enhancing realism with high-quality textures. However, acquiring complete and high-quality panoramic textures is challenging. This paper introduces a method using generative adversarial networks(GANs) and the contrastive language-image pretraining(CLIP) model to restore and control texture in panoramic images. The GAN model captures complex structures and maintains consistency, while CLIP enables fine-grained texture control via semantic text-image associations. GAN inversion optimizes latent codes for precise texture details. The resulting low dynamic range(LDR) images are converted to high dynamic range(HDR) using the Blender engine for seamless texture blending. Experimental results demonstrate the effectiveness and flexibility of this method in panoramic texture restoration and generation. 展开更多
关键词 panoramic images environment texture generative adversarial networks(GANs) contrastive language-image pretraining(clip)model blender engine fine-grained control texture generation
在线阅读 下载PDF
基于CLIP-LDAGV多模态信息融合的颠覆性技术主题识别研究——以新能源领域为例 被引量:4
2
作者 吕鲲 张未旭 靖继鹏 《情报学报》 北大核心 2025年第3期353-368,共16页
当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contr... 当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contrastive language-image pre-training)和LDAGV(linear discriminant analysis&global vectors for word representation)模型构建新闻文本与图像特征融合向量,通过k-means聚类迭代并结合3个颠覆性技术主题指标进行筛选,实现了多模态信息的融合以及主题的精准识别。以新能源领域为例,验证了该模型在颠覆性技术主题识别方面的可行性和有效性。与其他单一模态模型相比,多模态信息融合模型在颠覆性技术主题识别方面更具优势。 展开更多
关键词 颠覆性技术 主题识别 多模态融合 clip-LDAGV模型
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:3
3
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 clip模型 知识数据库
在线阅读 下载PDF
混合对比学习和多视角CLIP的多模态图文情感分析
4
作者 叶佳乐 普园媛 +3 位作者 赵征鹏 冯珏 周联敏 谷金晶 《计算机科学》 北大核心 2025年第S1期224-230,共7页
以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联... 以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联和互补性,进而降低了情感分析的准确性。针对上述问题,文中提出了混合对比学习和多视角CLIP的多模态图文情感分析方法。具体来说,多视角CLIP特征编码模块采用CLIP对图像和文本进行联合编码表示,以提升特征的语义一致性,从图像、文本和图文交互等多个视角进行多模态情感分析。此外,通过混合对比学习模块使模型提取更具有情感特性以及有效信息的特征,提升模型的鲁棒性。其中,在图文交互时为了去除冗余信息,采用CNN和Transformer级联的融合策略,充分利用图文局部和全局信息来提高特征表示能力。最后,在3个公开数据集上进行综合实验,验证了所提方法的优越性,通过消融实验证明了所提方法各组件的有效性。 展开更多
关键词 多模态 clip 对比学习 预训练模型 情感分析
在线阅读 下载PDF
基于CLIP多模态预训练模型的动画自动剪辑研究
5
作者 李海燕 陈新生 《佳木斯大学学报(自然科学版)》 2025年第7期137-139,136,共4页
动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态... 动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态特征对齐,实现动画帧的语义级筛选与场景分割。模型以CLIP预训练特征为基础,设计动态阈值调整策略优化帧选择精度,结合时间轴分析与视觉焦点追踪算法增强剪辑连贯性。实验结果表明,在四类典型场景(战斗、对话、风景、特写)中平均相似度达0.82,较传统关键词匹配法(KWM)与单模态CNN模型分别提升35.6%与18.3%。热力图显示其帧-文本关联精度超过90%,场景切换节奏密度曲线符合人类视觉感知规律。真实动画测试中,剪辑耗时较人工处理缩短87%,且用户满意度评分达4.6/5.0。 展开更多
关键词 clip模型 多模态学习 动画剪辑 语义对齐
在线阅读 下载PDF
PixCLIP:多层次特征融合的手写汉字骨架提取
6
作者 梁晓中 王涛 《计算机技术与发展》 2025年第1期21-29,共9页
针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-... 针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-Image Pre-training)的视觉Transformer分支与Pix2Pix条件生成对抗网络进行多层次特征融合,增强模型整体的全局上下文信息提取能力。对CLIP使用视觉提示微调技术(VPT),仅需微调极少数额外参数即可增强其在骨架提取任务的表现。提出多维度特征聚合(MDFA)模块,充分促进CLIP的全局特征与Pix2Pix局部特征之间多维度特征的自适应融合。引入多头注意力机制与卷积块注意力模块(CBAM),在通道和空间维度上抑制冗余信息。基于在线手写汉字数据集,构建手写汉字图像数据集用于实验。实验表明,与现有最优的骨架提取算法相比,该算法在测试数据集与真实手写汉字图像中均能更好地提取出流畅、完整的汉字骨架;在测试数据集上,此模型F1值与联合交并比(IoU)分别达到了85.62%和75.45%。 展开更多
关键词 骨架提取 条件生成对抗网络 多模态 clip模型 视觉提示微调
在线阅读 下载PDF
基于Chinese-CLIP模型和Prompt提示机制的图文检索方法 被引量:1
7
作者 陈道彬 张子诺 +2 位作者 付裕彬 黎晋铭 林彬 《现代信息科技》 2025年第6期130-134,共5页
为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到... 为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到的文本与图像特征进行序列化,以实现多模态特征融合。模型训练时,先使用Chinese-CLIP大模型进行初步训练,再引入Prompt提示机制对模型进行微调。实验结果表明,所提方法在文搜图和图搜文两个任务上均有效地提升了准确率与召回率。 展开更多
关键词 图文检索 多模态特征融合 Chinese-clip模型 Prompt提示机制
在线阅读 下载PDF
Three-Dimensional Cerebral Aneurysm Models for Surgical Simulation and Education—Development of Aneurysm Models with Perforating Arteries and for Application of Fenestrated Clips
8
作者 Tatsuya Ishikawa Akio Morita +1 位作者 Takanori Fukushima Hidenori Ono 《Open Journal of Modern Neurosurgery》 2014年第2期59-63,共5页
We modified a three-dimensional cerebral aneurysm model for surgical simulation and educational demonstration. Novel models are made showing perforating arteries arising around the aneurysm. Information about perforat... We modified a three-dimensional cerebral aneurysm model for surgical simulation and educational demonstration. Novel models are made showing perforating arteries arising around the aneurysm. Information about perforating arteries is difficult to obtain from individual radiological data sets. Perforators are therefore reproduced based on previous anatomical knowledge instead of personal data. Due to their fragility, perforating arteries are attached to the model using hard materials. At the same time, hollow models are useful for practicing clip application. We made a model for practicing the application of fenestrated clips for paraclinoid internal carotid aneurysms. Situating aneurysm models in the fissure of a brain model simulates the real surgical field and is helpful for educational demonstrations. 展开更多
关键词 THREE-DIMENSIONAL Cerebral ANEURYSM model clipPING Surgery Simulation PERFORATING Artery FENESTRATED clip
暂未订购
基于CLIP模型和迁移学习的遥感图像描述方法
9
作者 王振宇 万刚 王孜妍 《地理空间信息》 2025年第9期1-5,共5页
遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微... 遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微调后的视觉大模型CLIP对遥感图像进行特征编码,构建一个高效的遥感领域的视觉—语言编码器,再配合Transformer架构的解码器生成图像描述。在3个公开遥感图像描述数据集上的实验结果表明,该方法能明显提升生成图像描述语句的质量,具有一定的竞争力。 展开更多
关键词 遥感图像描述 clip模型 迁移学习 Transformer架构
在线阅读 下载PDF
基于CLIP与复杂网络理论的“四共四育”教学模式研究
10
作者 孔曼璐 《成都工业学院学报》 2025年第6期76-82,共7页
针对动画设计专业教育中个性化学习需求与教学资源适配不足的问题,提出一种融合多模态深度强化学习(MDRL)、视觉语言(CLIP)模型与复杂网络理论的自适应课程体系,并创新性设计“四共四育”教学模式。通过CLIP模型实现视觉与语言模态的高... 针对动画设计专业教育中个性化学习需求与教学资源适配不足的问题,提出一种融合多模态深度强化学习(MDRL)、视觉语言(CLIP)模型与复杂网络理论的自适应课程体系,并创新性设计“四共四育”教学模式。通过CLIP模型实现视觉与语言模态的高效融合,动态生成适配学生认知水平与兴趣的动画教学内容;结合深度强化学习的奖励机制,构建以学生为智能代理的自适应决策系统,实时优化教学策略;利用复杂网络理论分析学生行为与教学资源间的动态关联,优化资源配置。实验表明,相较于传统教学,采用该模式的实验组在学业成绩提升率、学习参与度、满意度及作品创造力评分等维度均显著优于对照组。通过多模态数据驱动与智能反馈机制,为动画教育提供了可动态调整、精准适配的解决方案,推动了教育智能化转型的理论创新与实践应用。 展开更多
关键词 自适应课程体系 多模态深度强化学习 视觉语言模型 复杂网络理论 智能教育转型
在线阅读 下载PDF
基于CLIP和交叉注意力的多模态情感分析模型 被引量:2
11
作者 陈燕 赖宇斌 +2 位作者 肖澳 廖宇翔 陈宁江 《郑州大学学报(工学版)》 CAS 北大核心 2024年第2期42-50,共9页
针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提... 针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。 展开更多
关键词 情感分析 多模态学习 交叉注意力 clip模型 TRANSFORMER 特征融合
在线阅读 下载PDF
基于CLIP模型的多元回归边缘检测
12
作者 赵景秀 林毓材 杨秀国 《计算机工程与应用》 CSCD 北大核心 2004年第4期48-50,55,共4页
20世纪80年代中期由Jourlin和Pinoli提出的对数图像处理LIP模型颇具特色,该模型中的方法对低亮度图像敏感,并且对灰度有界图像的加法运算是封闭的,在边缘检测等方面有着其他方法所不具备的优点。该文基于灰度图像的对数图像处理LIP模型... 20世纪80年代中期由Jourlin和Pinoli提出的对数图像处理LIP模型颇具特色,该模型中的方法对低亮度图像敏感,并且对灰度有界图像的加法运算是封闭的,在边缘检测等方面有着其他方法所不具备的优点。该文基于灰度图像的对数图像处理LIP模型,建立了彩色图像的对数图像处理CLIP模型,并在此模型上进行了对彩色图像边缘检测技术的系统研究。首先,文章在彩色图像的红、绿、蓝、色彩、饱和度、明度以及灰度等各分量场上进行了CLIP模型上的边缘检测的研究,然后,在人机交互的边缘像素采样的基础上,用多元回归的方法,得出了对各分量进行加权组合时各分量的权重系数,再将其用于不同类型样品图像的边缘检测,得到了更理想的结果。 展开更多
关键词 彩色图像 边缘检测 clip模型 多元回归
在线阅读 下载PDF
基于CLIP和双空间自适应归一化的图像翻译 被引量:3
13
作者 李田芳 普园媛 +2 位作者 赵征鹏 徐丹 钱文华 《计算机工程》 CAS CSCD 北大核心 2024年第5期229-240,共12页
现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习... 现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习语言-图像预训练(CLIP)的无监督图像翻译模型。首先,引入CLIP相似性损失对图像的风格特征施加约束,以在不使用数据集域标签的情况下增强模型传递图像风格信息的能力和准确性;其次,对自适应实例归一化(AdaIN)进行改进,设计一个新的双空间自适应归一化(DSAdaIN)模块,在特征的风格化阶段添加网络的学习和自适应交互过程,以加强对内容源域信息的保留;最后,设计一个鉴别器对比损失来平衡对抗网络损失的训练和优化过程。在多个公开数据集上的实验结果表明,与Star GANv2、Style DIS等模型相比,该模型可在准确传递图像风格信息的同时保留一定的源域信息,且在定量评估指标FID分数和KID分数上分别提升了近3.35和0.57×102,实现了较好的图像翻译性能。 展开更多
关键词 图像翻译 生成对抗网络 对比学习语言-图像预训练模型 自适应实例归一化 对比学习
在线阅读 下载PDF
CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval
14
作者 Tao Zhang Yu Zhang 《Journal of Computer and Communications》 2024年第11期26-36,共11页
Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval per... Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval performance, as it determines the quality of the visual content representation. Traditional sampling methods, such as uniform sampling and optical flow-based techniques, often fail to capture the full semantic range of videos, leading to redundancy and inefficiencies. In this work, we propose CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval, a global semantics-guided multi-granularity frame sampling strategy designed to optimize both computational efficiency and retrieval accuracy. By integrating multi-scale global and local temporal sampling and leveraging the CLIP (Contrastive Language-Image Pre-training) model’s powerful feature extraction capabilities, our method significantly outperforms existing approaches in both zero-shot and fine-tuned video-text retrieval tasks on popular datasets. CLIP4Video-Sampling reduces redundancy, ensures keyframe coverage, and serves as an adaptable pre-processing module for multimodal models. 展开更多
关键词 Video Sampling Multimodal Large Language model Text-Video Retrieval clip model
在线阅读 下载PDF
基于CLIP生成多事件表示的视频文本检索方法 被引量:2
15
作者 涂荣成 毛先领 +4 位作者 孔伟杰 蔡成飞 赵文哲 王红法 黄河燕 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2169-2179,共11页
视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略... 视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略了视频、文本数据都是由一个个事件组合而成.倘若能捕捉视频事件与文本事件之间的细粒度相似性关系,将能帮助模型计算出更准确的文本与视频之间的语义相似性关系,进而提升文本视频间跨模态检索效果.因此,提出了一种基于CLIP生成多事件表示的视频文本检索方法(CLIP based multi-event representation generation for video-text retrieval,CLIPMERG).首先,通过利用大规模图文预训练模型CLIP的视频编码器(ViT)以及文本编码器(Tansformer)分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列;然后,通过视频事件生成器(文本事件生成器)将视频帧token序列(单词token序列)转换成k个视频事件表示(k个文本事件表示);最后,通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的语义相似性关系.在3个常用的公开视频文本检索数据集MSR-VTT,DiDeMo,LSMDC上的实验结果表明所提的CLIPMERG优于现有的视频文本检索方法. 展开更多
关键词 预训练模型 视频文本检索 事件表示 clip模型 Transformer模型
在线阅读 下载PDF
基于CLIPS工具ICAD的研究
16
作者 陈敏 陈岳坪 《中国制造业信息化(学术版)》 2003年第8期120-121,共2页
提出了用专家系统工具CLIPS来开发ICAD的方法 ,用ES生命 -周期模型建立了系统的体系结构 ,以动态链接方法解决了CLIPS与造型软件AutoCAD之间的接口问题。
关键词 专家系统 clipS ICAD ES生命-周期模型 动态链接 AUTOCAD 人工智能
在线阅读 下载PDF
基于情感隐空间学习与CLIP模型的身体动作情感识别方法
17
作者 罗红 慎煜杰 +1 位作者 陈娟娟 王丹 《计算机应用》 CSCD 北大核心 2024年第S2期44-49,共6页
身体动作情感识别的关键是提取人物身体动作蕴含的情感特征。针对现有模型情感特征学习能力较差且情感识别精度难以提升的问题,提出一种基于情感隐空间学习与对比语言-图像预训练(CLIP)模型的身体动作情感识别方法。首先,引入CLIP模型,... 身体动作情感识别的关键是提取人物身体动作蕴含的情感特征。针对现有模型情感特征学习能力较差且情感识别精度难以提升的问题,提出一种基于情感隐空间学习与对比语言-图像预训练(CLIP)模型的身体动作情感识别方法。首先,引入CLIP模型,从而增强模型的情感特征学习能力。其次,针对细粒度多标签情感分类任务,提出情感隐空间学习(ELSL)方法。该方法能通过学习情感隐空间向各个子空间的判别映射,在各个情感子空间上捕获情感类别之间的细微差异和对各情感类别的分类有益的特征信息。在面向真实世界开放场景的肢体语言数据集(BoLD)上的实验结果表明,所提方法充分利用了CLIP模型与隐空间学习在特征学习上的优势,取得了显著的性能提升。具体地,相较于运动分析网络(MANet),所提方法的平均精度均值(mAP)提高了1.08个百分点,平均受试者工作特征曲线下方面积(mRA)提高了1.32个百分点。 展开更多
关键词 身体动作情感识别 对比语言-图像预训练模型 隐空间学习 提示学习 多标签分类
在线阅读 下载PDF
基于CLIP模型的军事领域图片资源多模态搜索工具研究 被引量:1
18
作者 赵晋巍 刘晓鹏 +3 位作者 罗威 程瑾 毛彬 宋宇 《中华医学图书情报杂志》 CAS 2022年第8期14-20,共7页
深入调研梳理了OpenAI CLIP多模态模型和相关应用研究。借助CLIP模型,通过大规模军事相关图片数据集开展实验,设计开发了具有以文搜图和以图搜图功能的多模态搜索工具,且在实际测试中表现良好,可以为后续围绕军事相关图片的事件分类、... 深入调研梳理了OpenAI CLIP多模态模型和相关应用研究。借助CLIP模型,通过大规模军事相关图片数据集开展实验,设计开发了具有以文搜图和以图搜图功能的多模态搜索工具,且在实际测试中表现良好,可以为后续围绕军事相关图片的事件分类、目标检测、任务轨迹跟踪等方面的分析研究奠定基础。 展开更多
关键词 clip模型 多模态 图文检索 以图搜图
在线阅读 下载PDF
基于CLIP模型的跨模态哈希检索研究 被引量:3
19
作者 张程皓 蒋政 《信息与电脑》 2022年第15期85-87,共3页
随着移动互联网的快速发展,不同种类的媒体数据在互联网上迅速增长,如何快速高效地检索不同模态数据成为了人们关心的问题。目前,预训练模型在学习文本和视觉特征上的表现让人印象深刻。使用对比性语言-图像预训练(Contrastive Language... 随着移动互联网的快速发展,不同种类的媒体数据在互联网上迅速增长,如何快速高效地检索不同模态数据成为了人们关心的问题。目前,预训练模型在学习文本和视觉特征上的表现让人印象深刻。使用对比性语言-图像预训练(Contrastive Language-Image Pre-Training,CLIP)模型作为主干网络执行多模态哈希检索任务,预先对齐不同模态的语义信息,再选取合适的目标函数,并使用有监督训练的方法,在此基础上提出简单、高效的CLIP2CMH模型。在两个基准数据集上的实验表明,该算法可以在跨模态哈希检索领域表现出良好性能。 展开更多
关键词 跨模态检索 哈希 预训练模型 对比性语言-图像预训练(clip)
在线阅读 下载PDF
多尺度感知的单文本条件图像风格迁移
20
作者 贵向泉 李琪 +2 位作者 李立 张继续 张斌轩 《计算机技术与发展》 2025年第9期46-54,共9页
针对现有图像风格迁移方法生成图像质量不均匀、风格化效果不平衡等问题,提出一种基于CLIP的多尺度感知单文本条件融合的图像风格迁移模型─CLIP-TextFusion。该模型充分利用CLIP的文本─图像对齐能力,无需依赖目标风格图像,仅通过文本... 针对现有图像风格迁移方法生成图像质量不均匀、风格化效果不平衡等问题,提出一种基于CLIP的多尺度感知单文本条件融合的图像风格迁移模型─CLIP-TextFusion。该模型充分利用CLIP的文本─图像对齐能力,无需依赖目标风格图像,仅通过文本描述即可生成与目标风格匹配的图像。模型设计了特征提取与增强网络FENet,结合编码器、多尺度感知解码器以及通道注意力和空间注意力机制,动态调整特征权重和多尺度特征融合,实现内容图像细节的高效保留与风格纹理的精准传递。为进一步优化风格迁移效果,模型引入定向CLIP损失、多尺度感知损失、风格特征提取损失及对抗性损失,分别约束生成图像与文本描述的全局风格一致性、局部细节匹配度以及视觉真实性。实验结果表明,CLIP-TextFusion生成的图像风格鲜明、纹理细腻,在视觉效果和风格一致性上优于现有方法,能够广泛应用于艺术创作和个性化图像生成等领域。 展开更多
关键词 文本引导 图像风格迁移 clip模型 多尺度感知 特征提取与增强
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部