期刊文献+
共找到4,559篇文章
< 1 2 228 >
每页显示 20 50 100
基于CLIP与注意力机制优化的多阶段人脸图像修复方法
1
作者 赵阳 丁建伟 《科学技术与工程》 北大核心 2026年第4期1575-1585,共11页
现有的人脸图像修复方法在处理大面积遮挡时生成的图像往往会出现结构不协调和上下文语义不连贯的问题,无法准确恢复面部细节。针对此问题,提出一种基于CLIP(contrastive language-image pre-training)与注意力机制优化的多阶段人脸图... 现有的人脸图像修复方法在处理大面积遮挡时生成的图像往往会出现结构不协调和上下文语义不连贯的问题,无法准确恢复面部细节。针对此问题,提出一种基于CLIP(contrastive language-image pre-training)与注意力机制优化的多阶段人脸图像修复算法。首先,通过编解码器结构进行初步的面部恢复。然后,针对口罩遮挡区域进行局部特征处理,在局部细节网络中引入AOT(aggregated contextual transformations)block,增强面部边缘和遮挡区域的细节重建效果。最后,将预训练好的CLIP模型嵌入到全局编码器中捕捉图像的整体细粒度细节,并通过注意力机制整合面部全局信息,确保修复后的图像在全局一致性和局部细节上都达到高质量复原的要求。在多个数据集上将该方法与多种算法进行比较,实验结果表明,所提方法在主观评价和客观评价方面均表现突出,在融合计算效率和提高修复质量之间实现了更好的平衡。 展开更多
关键词 注意力机制 人脸图像修复 clip 多阶段修复网络 生成式对抗网络
在线阅读 下载PDF
基于CLIP模型的苏丹Ⅲ染色切片扫描图像脂滴分割研究
2
作者 王子夜 汤晓蕙 +5 位作者 周兰 许春燕 周顺平 张开乔 刘方舟 周盛斌 《刑事技术》 2026年第2期121-128,共8页
组织病理学检验中苏丹Ⅲ染色可确认脂肪栓塞,其定量分级对确定死因有重要意义,但镜下人工观察定级比较依赖个人经验。为了使栓塞程度客观量化,本文探索了对肺组织苏丹Ⅲ特染切片的全视野数字图像中脂滴进行自动分割的方法。苏丹Ⅲ特染... 组织病理学检验中苏丹Ⅲ染色可确认脂肪栓塞,其定量分级对确定死因有重要意义,但镜下人工观察定级比较依赖个人经验。为了使栓塞程度客观量化,本文探索了对肺组织苏丹Ⅲ特染切片的全视野数字图像中脂滴进行自动分割的方法。苏丹Ⅲ特染切片染剂残留、脂滴染色不均、形状不一、大小差异过大等问题,容易导致误分割和分割不精确。为此,本文提出结合提示学习的对比语言-图像预训练(contrastive language-image pre-training,CLIP)模型框架进行脂滴分割:首先通过跳跃连接的方式将CLIP图像编码器输出的特征图进行融合,通过文本提示引导模型利用CLIP的先验知识精准分割脂滴;再采用dice损失函数缓解图像前景和背景不平衡的问题;最后在切片数据集上进行验证,并与U-Net、FCN8s、UNet++模型进行对比。结果表明,本文所提出的CLIP模型在特染切片图片上进行脂滴分割的效果优于所对比模型。 展开更多
关键词 法医病理学 脂肪栓塞 特殊染色 图像分割 对比语言-图像预训练(clip) 深度学习 全视野数字图像
在线阅读 下载PDF
基于CLIP的无监督大尺寸DR图像增强算法研究
3
作者 陈明飞 廖望 +2 位作者 王广文 吴义顺 沈宽 《仪器仪表学报》 北大核心 2026年第2期309-321,共13页
X射线数字成像技术(DR)已广泛应用于工业无损检测领域。然而在实际应用中,存在大量的结构不规则、厚度变化范围大的工件。DR检测容易在工件厚度厚的地方呈现曝光不足,在工件厚度薄的地方出现曝光过度的现象,导致DR扫描图像质量差,结构... X射线数字成像技术(DR)已广泛应用于工业无损检测领域。然而在实际应用中,存在大量的结构不规则、厚度变化范围大的工件。DR检测容易在工件厚度厚的地方呈现曝光不足,在工件厚度薄的地方出现曝光过度的现象,导致DR扫描图像质量差,结构信息严重缺失。伴随探测器像素矩阵增至4 K×4 K以上,大多数算法难以在消费级设备上处理DR扫描产生的大尺寸图像。同时工业检测场景难以获取大量的成对配对标签。针对大尺寸DR推理与标签稀缺的问题,将对比语言-图像预训练(CLIP)与限制对比度自适应直方图均衡化(CLAHE)先验耦合,构建两阶段轻量级无监督增强框架,全程无需配对或分块操作。该算法在第1阶段初步学习提示向量引导冻结的CLIP图像编码器,通过CLIP增强损失、结构一致性损失,以及CLAHE特征图感知损失指导训练;第2阶段通过排序损失迭代对提示权值迭代精炼,交替更新增强网络直至视觉收敛。实验结果表明,与同期的无监督算法相比,峰值信噪比(PSNR)、感知图像相似度(LPIPS)、结构相似度(SSIM)等指标分别提高1.0 dB、1.6%和2.0%,在多个参考指标优于对比方法。在推理时只需加载0.279 M的参数,处理5732×2333的大尺寸图像单张耗时约1.5 s。仅用380张铸件图像训练的模型即可直接在未训练过的碳纤维线路板以及其他材料的物品上迁移,并展现出良好的泛化能力,为工业检测落地提供实时增强方案。 展开更多
关键词 大尺寸DR图像 clip CLAHE 损失函数 图像增强
原文传递
MF-cache:用于玉米病害识别的CLIP多模态缓存模型
4
作者 孙伟 陈俊杰 《计算机工程》 北大核心 2026年第3期420-428,共9页
玉米是重要的经济作物,广泛应用于工业、畜牧业及粮油加工等领域,病害的及时识别对保障产量具有重要意义。当前,卷积神经网络(CNN)等深度学习方法已广泛应用于病害识别,但多数方法仅依赖图像信息,忽略其他模态特征,且模型参数规模较大,... 玉米是重要的经济作物,广泛应用于工业、畜牧业及粮油加工等领域,病害的及时识别对保障产量具有重要意义。当前,卷积神经网络(CNN)等深度学习方法已广泛应用于病害识别,但多数方法仅依赖图像信息,忽略其他模态特征,且模型参数规模较大,部署成本较高,限制了实际应用。为解决上述问题,提出一种基于图像-文本多模态的轻量级缓存模型MF-cache,模型参数量仅为61 000个,兼具低计算开销与较高识别精度。该模型借助多模态预训练模型CLIP提取图像与文本特征,通过并行融合策略获取融合特征,用于构建含领域知识的可学习key-value缓存结构。此外,采用加权的两阶段融合机制,用于动态调整不同模态对分类结果的贡献比例,提高分类稳定性与合理性。为增强鲁棒性,引入多种数据增强策略,提升样本多样性,缓解小样本带来的过拟合问题。在自建数据集CornI&T与公开数据集PlantVillage上的实验结果表明,该方法准确率分别达到99.72%与98.80%,具备良好的泛化性能。所提方法在保持低计算开销的同时,具备良好的识别性能,为作物病害检测提供了一种高效可行的解决方案,并展示了多模态预训练模型与小样本学习在农业智能识别领域的应用潜力。 展开更多
关键词 玉米病害识别 多模态缓存 预训练模型 clip模型 小样本
在线阅读 下载PDF
一种基于CLIP和动态语义优化的文本到3D形状生成方法
5
作者 袁康 王旭智 +2 位作者 万旺根 孙学涛 张振 《工业控制计算机》 2026年第1期47-48,54,共3页
文本到3D形状生成技术为虚拟现实、3D打印和动画设计等领域提供了极具潜力的自然语言交互方式。然而,由于文本与3D形状在模态上的显著差异,以及高质量3D形状生成中存在的语义一致性和多样性挑战,目前的方法往往难以在生成质量与文本一... 文本到3D形状生成技术为虚拟现实、3D打印和动画设计等领域提供了极具潜力的自然语言交互方式。然而,由于文本与3D形状在模态上的显著差异,以及高质量3D形状生成中存在的语义一致性和多样性挑战,目前的方法往往难以在生成质量与文本一致性之间取得平衡。提出了一种基于CLIP和动态语义优化的文本到3D形状生成方法。该方法通过构建动态语义优化模块,实时分解并调整文本特征的语义权重,使生成的3D形状更符合输入文本的描述。将动态语义优化嵌入现有的两阶段特征空间对齐框架中,显著提升了文本到3D形状生成的精度和质量。实验结果表明,与现有方法相比,该方法在生成质量、一致性方面得到了提升。 展开更多
关键词 文本到3D形状生成 clip 动态语义优化 特征空间对齐 生成一致性
在线阅读 下载PDF
面向草分类的粗细粒度结合模型——基于CLIP的实现
6
作者 李鹏飞 杨文淞 +1 位作者 裴生雷 罗涛 《河北师范大学学报(自然科学版)》 2026年第2期109-116,共8页
计算机视觉技术在智慧农业的应用中,经常面临开放环境下的分布外(out-of-distribution,OOD)样本识别差、细粒度分类能力不足等问题,比如草的图像分类问题.然而,传统基于CNN架构在开放场景下表现不佳,遇到与训练分布偏离的样本,不能够识... 计算机视觉技术在智慧农业的应用中,经常面临开放环境下的分布外(out-of-distribution,OOD)样本识别差、细粒度分类能力不足等问题,比如草的图像分类问题.然而,传统基于CNN架构在开放场景下表现不佳,遇到与训练分布偏离的样本,不能够识别出OOD样本,并将其分配给类内标签,这会显著降低模型的稳定性.为此,提出一种基于视觉语言模型的分类方法,利用预训练好的CLIP(contrastive language-image pretraining)模型中的视觉编码器与文本编码器提取图像与文本的特征嵌入向量结合,通过特征相似度对比实现跨模态,匹配提升分类效果.首先,基于提示词引导粗粒度判别,快速区分已知类别与OOD类别图像;其次,对判定为已知类别的图像引入CUM-CLIP(custom adapter-CLIP)模块,执行细粒度识别,进一步区分具体子类别,从而实现精细化、层次化分类.该方法在小样本条件下显着提升了训练效率与模型泛化能力.实验结果表明,CUM-CLIP与传统模型相比,该方法在训练时间、计算成本和分类精度方面均表现出显著优势,验证了其在开放场景下的鲁棒性和实用性.本研究为智慧农业领域的图像分类任务提供了一种高效、低成本的解决方案,可为相关研究提供有价值的参考. 展开更多
关键词 粗细粒度分类策略 clip 特征适配器 小样本训练
在线阅读 下载PDF
基于CLIP的无监督域适应图像分类
7
作者 丁华玲 杨欢 《计算机系统应用》 2026年第1期141-151,共11页
无监督域适应(unsupervised domain adaptation,UDA)旨在将源域中训练好的模型应用于仅有未标记数据的目标域.当前的无监督域适应方法主要通过统计差异最小化或对抗学习来对齐源域和目标域特征空间,从而学习域不变特征.然而,这些约束可... 无监督域适应(unsupervised domain adaptation,UDA)旨在将源域中训练好的模型应用于仅有未标记数据的目标域.当前的无监督域适应方法主要通过统计差异最小化或对抗学习来对齐源域和目标域特征空间,从而学习域不变特征.然而,这些约束可能导致语义特征结构的扭曲和类可辨别性的丧失.针对上述问题,本文提出一种名为DAMPL的方法.该方法利用CLIP模型注入文本描述信息,深入挖掘图像语义内容,采用针对领域特性的提示学习范式,有效保留不同域的特有信息,避免了信息丢失.此外,通过语义引导机制对目标域的伪标签进行校正,以缩小域间差异,增强模型的泛化能力.最后还引入互信息最大化损失(mutual information maximization loss,IML),以保留目标域的特征可区分性.最终DAMPL方法在Office-Home、miniDomainNet和VisDA-2017数据集上分别达到83.8%、79.7%、89.8%的分类准确率,展现了最佳的性能. 展开更多
关键词 无监督域适应 clip模型 提示学习 伪标签 互信息最大化损失
在线阅读 下载PDF
基于CLIP的零样本迁移对象计数方法
8
作者 邹冠宇 王佳 +1 位作者 庞婧桐 周安亮 《机器人技术与应用》 2026年第1期54-60,共7页
服务机器人在自动盘点任务中需要采用对象计数算法,但现有方法在跨域场景中泛化能力有限。为此,提出一种基于对比语言图像预训练(Contrastive Language-Image Pre-Training,CLIP)的零样本迁移计数方法HybridCount,以提升模型的跨域适应... 服务机器人在自动盘点任务中需要采用对象计数算法,但现有方法在跨域场景中泛化能力有限。为此,提出一种基于对比语言图像预训练(Contrastive Language-Image Pre-Training,CLIP)的零样本迁移计数方法HybridCount,以提升模型的跨域适应性。该方法通过视觉傅里叶提示词微调(Visual Fourier Prompt Tuning, VFPT)引入频域滤波增强特征鲁棒性,并利用混合注意力机制(Hybrid Attention,HA)构建双路径融合架构,动态调节文本与视觉特征的贡献度,有效缓解了跨模态语义鸿沟导致的对齐偏差,并在FSC147和Shanghai Tech数据集上进行了实验。实验结果表明,该方法在仅更新模型参数0.1%的前提下,在跨域场景中的性能显著优于基线方法,其平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)分别为187.7和300.4,与CLIP-Count相比分别降低5.3%和2.6%。 展开更多
关键词 机器人 对象计数 HybridCount 零样本迁移 多模态 注意力 clip 低参数微调
在线阅读 下载PDF
SOC-Lite:用于视频对象分割的CLIP增强高效语义聚类
9
作者 任倩楠 《山西能源学院学报》 2026年第1期37-41,共5页
本文提出了一个CLIP增强的高效语义聚类指代视频目标分割算法,SOC-Lite,用于跨模态的指代视频目标分割。最近方法采用基于Transformer的语言文本编码器对给定的文本进行编码,常需要处理变长序列,增加跨模态注意力模块的学习负担。为解... 本文提出了一个CLIP增强的高效语义聚类指代视频目标分割算法,SOC-Lite,用于跨模态的指代视频目标分割。最近方法采用基于Transformer的语言文本编码器对给定的文本进行编码,常需要处理变长序列,增加跨模态注意力模块的学习负担。为解决这个问题,本文提出了CLIP增强的高效语义聚类指代视频目标分割算法(SOC-Lite),在模态融合语义整合模块中使用了CLIP文本编码器对输入的文本进行编码,凭借其自身能力消除模态鸿沟,实现更加精确的模态匹配,从而提升分割效果。此外,本文在多尺度特征金字塔中使用了全维动态卷积(ODConv),通过沿卷积核对不同维度进行学习,提升其信息提取能力,提高对目标的分割性能。实验结果表明,该模型在A2D-Sentences数据集上P@0.7提高了1%。该检测模型的性能超越了其他主流算法,能够对多尺度目标实现更加精准的分割。 展开更多
关键词 多模态学习 模态融合 指代视频目标分割 clip 多尺度特征金字塔
原文传递
基于图像-文本大模型CLIP微调的零样本参考图像分割 被引量:4
10
作者 刘杰 乔文昇 +2 位作者 朱佩佩 雷印杰 王紫轩 《计算机应用研究》 北大核心 2025年第4期1248-1254,共7页
近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点... 近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点的空间位置信息。鉴于此,以CLIP为基础模型,提出了一种单阶段、细粒度、多层次的零样本参考图像分割模型PixelCLIP。具体地,采取了多尺度的图像特征融合,既聚集CLIP中不同视觉编码器提取的图像像素级特征,同时又考虑CLIP中固有的图像整体语义特征。在文本信息表征上,不但依靠CLIP-BERT来保持物体种类信息,还引入LLaVA大语言模型进一步注入上下文背景知识。最后,PixelCLIP通过细粒度跨模态关联匹配,实现像素水平的参考图像分割。充分的数值分析结果验证了该方法的有效性。 展开更多
关键词 零样本 clip 像素级 单阶段 参考图像分割
在线阅读 下载PDF
多芯片整体式Clip互连碳化硅功率模块反向耦合低感封装方法 被引量:1
11
作者 张彤宇 王来利 +2 位作者 苗昱 裴云庆 甘永梅 《电工技术学报》 北大核心 2025年第16期5106-5118,共13页
碳化硅功率器件凭借其优异的性能,成为传统硅器件有力的竞争者。然而,在封装过程中,因键合线以及引出端子等引入的额外寄生电感,致使封装后的碳化硅功率模块会产生较大的开关过冲与振荡,进而难以体现其理论上的优越性。为此,该文提出一... 碳化硅功率器件凭借其优异的性能,成为传统硅器件有力的竞争者。然而,在封装过程中,因键合线以及引出端子等引入的额外寄生电感,致使封装后的碳化硅功率模块会产生较大的开关过冲与振荡,进而难以体现其理论上的优越性。为此,该文提出一种具有极低电感的多芯片整体式Clip互连碳化硅功率模块封装方法,将功率模块内部键合铝线替换成Clip互连,并通过规划陶瓷基板布局,使Clip电流流向与陶瓷基板线路电流相反,利用电流反向耦合效应降低功率模块内部寄生电感。同时,利用电容直连结构消除外部回路寄生电感。经仿真得到的功率模块内部寄生电感为3.8 nH,功率回路电感为5.0 nH。实验测试得到1 200 V/600 A样机功率回路电感为4.53 nH,换流回路总电感5.87 nH,与传统布局功率模块相比电感降低了44.6%。 展开更多
关键词 碳化硅功率模块 寄生电感 整体式clip互连 反向耦合 换流回路
在线阅读 下载PDF
新型Memoclip经心尖二尖瓣夹系统单中心临床试验结果分析
12
作者 黄健兵 曾凡强 +6 位作者 汤敏 姜兆磊 周长平 刘海霞 张丽 丁芳宝 梅举 《中国心血管病研究》 2025年第4期304-309,共6页
目的 总结本中心使用新型Memoclip经心尖二尖瓣夹系统治疗的二尖瓣反流患者的临床数据,分析该二尖瓣夹系统的设计特点,探讨其治疗二尖瓣反流的安全性及有效性。方法 总结2021年12月至2023年8月本中心完成的使用新型Memoclip经心尖二尖... 目的 总结本中心使用新型Memoclip经心尖二尖瓣夹系统治疗的二尖瓣反流患者的临床数据,分析该二尖瓣夹系统的设计特点,探讨其治疗二尖瓣反流的安全性及有效性。方法 总结2021年12月至2023年8月本中心完成的使用新型Memoclip经心尖二尖瓣夹系统治疗的49例二尖瓣反流患者,其中男性24例(49.0%),年龄(68±12.8)岁。术前经食道超声心动图(TEE)确认所有患者均为重度二尖瓣反流(反流程度3+以上),其中Ⅰ型30例(61.2%),Ⅱ型11例(22.4%),Ⅲb型4例(8.2%),Ⅳ型4例(8.2%),所有患者均使用新型Memoclip经心尖二尖瓣夹系统行二尖瓣缘对缘夹合治疗,手术在超声引导下完成,术中即刻评估二尖瓣反流情况。术后1月、3月、6月、1年随访复查心脏彩超,评估患者心功能状态、6分钟步行距离、生活质量评分情况。结果 全组患者围术期无死亡病例。术中TEE提示二尖瓣成形效果满意,1例残余反流为2+,其余均为1+以下。术后随访患者二尖瓣反流有12例增加至2+,1例增加至3+,1例增加至3+但经药物治疗后又减少至1+。1例患者术后6 min步距离、生活质量评分下降,心功能无明显改善;其余患者6 min步距离、生活质量评分均有不同程度改善,心功能均明显改善。结论 新型Memoclip经心尖二尖瓣夹系统可安全有效的治疗解剖合适的二尖瓣反流患者,显著改善二尖瓣反流,治疗效果满意。 展开更多
关键词 二尖瓣反流 二尖瓣夹合术 Memoclip二尖瓣夹
暂未订购
混合对比学习和多视角CLIP的多模态图文情感分析 被引量:1
13
作者 叶佳乐 普园媛 +3 位作者 赵征鹏 冯珏 周联敏 谷金晶 《计算机科学》 北大核心 2025年第S1期224-230,共7页
以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联... 以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联和互补性,进而降低了情感分析的准确性。针对上述问题,文中提出了混合对比学习和多视角CLIP的多模态图文情感分析方法。具体来说,多视角CLIP特征编码模块采用CLIP对图像和文本进行联合编码表示,以提升特征的语义一致性,从图像、文本和图文交互等多个视角进行多模态情感分析。此外,通过混合对比学习模块使模型提取更具有情感特性以及有效信息的特征,提升模型的鲁棒性。其中,在图文交互时为了去除冗余信息,采用CNN和Transformer级联的融合策略,充分利用图文局部和全局信息来提高特征表示能力。最后,在3个公开数据集上进行综合实验,验证了所提方法的优越性,通过消融实验证明了所提方法各组件的有效性。 展开更多
关键词 多模态 clip 对比学习 预训练模型 情感分析
在线阅读 下载PDF
Detachable over-the-scope clip for colon defects in the trans intestinal natural orifice transluminal endoscopic cholecystolithotomy:A case report
14
作者 Pei Li Rong-Rong Ding +2 位作者 Jiang Liu Ming-Qing Zhang Yan Liu 《World Journal of Gastrointestinal Endoscopy》 2025年第8期110-115,共6页
BACKGROUND Secure transluminal closure remains a fundamental barrier to endoscopic surgery.It has been reported that through-the-scope clips were used to secure the incision of the gallbladder during natural orifice t... BACKGROUND Secure transluminal closure remains a fundamental barrier to endoscopic surgery.It has been reported that through-the-scope clips were used to secure the incision of the gallbladder during natural orifice transluminal endoscopic cholecystolithotomy and were left in the body post-operation.The over-the-scope clip(OTSC)is favored for its rapid deployment and strong anchoring capabilities.Nevertheless,OTSCs are difficult to remove once implanted.The Senscure Biotechnology in China has developed a detachable over-the-scope clip(D-OTSC)for this purpose.Here,we utilized the D-OTSC to successfully close a full-thickness sigmoid defect exceeding 1 cm in diameter.Subsequently,the clip was completely removed postoperatively,yielding favorable clinical outcomes.CASE SUMMARY We present the case of a 51-year-old female patient who underwent natural orifice transluminal endoscopic cholecystolithotomy.The sigmoid incision was closed using a D-OTSC.Postoperative recovery was uneventful,with no abdominal infection or bleeding.The D-OTSC was subsequently removed via enteroscopy in the outpatient department one month later.CONCLUSION The utilization of D-OTSC presents a viable option for closing colonic mucosal incisions ranging from 1 cm to 2 cm. 展开更多
关键词 Natural orifice transluminal endoscopic surgery Over-the-scope clip Iatrogenic perforation Full-thickness mucosal defect Detachable over-the-scope clip Case report
暂未订购
基于CLIP-LDAGV多模态信息融合的颠覆性技术主题识别研究——以新能源领域为例 被引量:4
15
作者 吕鲲 张未旭 靖继鹏 《情报学报》 北大核心 2025年第3期353-368,共16页
当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contr... 当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contrastive language-image pre-training)和LDAGV(linear discriminant analysis&global vectors for word representation)模型构建新闻文本与图像特征融合向量,通过k-means聚类迭代并结合3个颠覆性技术主题指标进行筛选,实现了多模态信息的融合以及主题的精准识别。以新能源领域为例,验证了该模型在颠覆性技术主题识别方面的可行性和有效性。与其他单一模态模型相比,多模态信息融合模型在颠覆性技术主题识别方面更具优势。 展开更多
关键词 颠覆性技术 主题识别 多模态融合 clip-LDAGV模型
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:4
16
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 clip模型 知识数据库
在线阅读 下载PDF
3种CLIP结构域丝氨酸蛋白酶在埃及伊蚊先天免疫中的功能
17
作者 常梦荷 刘焱晖 +3 位作者 殷雅楠 王娜 郭莹莹 韩谦 《中国热带医学》 北大核心 2025年第8期1042-1048,共7页
目的探究埃及伊蚊CLIP家族中的3种CLIP结构域丝氨酸蛋白酶Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在蚊虫免疫中发挥的作用,初步验证这些蛋白质之间是否存在相互作用。方法使用MEGA 11及ESPript 3.0对Ae-5575351、Ae-CLIPB15、Ae-CLIPB36和... 目的探究埃及伊蚊CLIP家族中的3种CLIP结构域丝氨酸蛋白酶Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在蚊虫免疫中发挥的作用,初步验证这些蛋白质之间是否存在相互作用。方法使用MEGA 11及ESPript 3.0对Ae-5575351、Ae-CLIPB15、Ae-CLIPB36和其他昆虫中的CLIP行多重序列比对。使用酵母双杂交验证Ae-5575351与Ae-CLIPB15、Ae-CLIPB36之间的蛋白互作关系。使用实时荧光定量PCR构建Ae-5575351、Ae-CLIPB15与Ae-CLIPB36的时空表达谱。通过RNA干扰与病原体侵染实验探究Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在埃及伊蚊抵御细菌与真菌感染过程中的发挥的功能,以及对Toll通路与IMD通路的影响。最后通过酚氧化酶(phenoloxidases,PO)活性测定探究Ae-5575351、Ae-CLIPB15、Ae-CLIPB36对黑化级联反应的影响。结果Ae-5575351、Ae-CLIPB15、Ae-CLIPB36与其他昆虫中的CLIP相比存在高度保守性,三者在埃及伊蚊的马氏管、唾液腺和血淋巴中均有较高的表达量,并且主要在埃及伊蚊发育的中后期进行表达。Ae-5575351分别与Ae-CLIPB15、Ae-CLIPB36存在蛋白层面的互作。金黄色葡萄球菌与大肠埃希菌感染可诱导Ae-5575351、Ae-CLIPB15、Ae-CLIPB36的表达升高。Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在埃及伊蚊幼虫抗球孢白僵菌与金黄色葡萄球菌感染的过程中,对转录因子REL1、REL2的表达量进行调控。Ae-CLIPB15、Ae-CLIPB36的敲低显著降低了埃及伊蚊PO的酶活。结论Ae-5575351、Ae-CLIPB15、Ae-CLIPB36通过调节Toll通路、IMD通路及黑化级联反应来影响埃及伊蚊抗细菌与真菌感染的能力,并且Ae-5575351与Ae-CLIPB15、Ae-CLIPB36之间可能存在着一定的互作关系。 展开更多
关键词 埃及伊蚊 先天免疫 clip结构域丝氨酸蛋白酶 RNA干扰
原文传递
基于CLIP和占用网络的文本到3D形状生成方法研究
18
作者 袁康 王旭智 +2 位作者 万旺根 孙学涛 张振 《工业控制计算机》 2025年第7期94-95,100,共3页
使用自然语言生成形状可以使我们想象和创造周围事物的方式焕然一新。由于缺乏大规模配对的文本和形状数据,文本到形状的生成仍然是一个具有挑战性的问题。利用两阶段的特征空间对齐策略,利用图像作为桥梁,弥合了文本与形状模态之间的鸿... 使用自然语言生成形状可以使我们想象和创造周围事物的方式焕然一新。由于缺乏大规模配对的文本和形状数据,文本到形状的生成仍然是一个具有挑战性的问题。利用两阶段的特征空间对齐策略,利用图像作为桥梁,弥合了文本与形状模态之间的鸿沟,从而能够在无需成对的文本和3D数据的情况下生成3D形状。在ISS模型基础上引入了占用网络,细化从图像特征空间到形状空间的映射,增强了形状细节。然后,将CLIP文本特征映射到形状空间,并通过促进输入文本与渲染图像之间的CLIP一致性来优化映射。与现有方法相比,该方法在生成质量和与输入文本的一致性方面得到了显著提升。 展开更多
关键词 文本到3D形状生成 clip 占用网络 多模态对齐
在线阅读 下载PDF
基于CLIP和多模态掩码提示学习的面部动作单元识别
19
作者 唐佩 李健 +2 位作者 陈海丰 施展 王浩淼 《软件工程》 2025年第6期13-18,共6页
随着情感分析需求的日益增长,面部动作单元(Action Unit,AU)识别作为情感计算的基础任务备受关注。尽管深度神经网络在AU识别方面取得一定的进展,但是其依赖大规模、精确标注的数据集。然而,数据标注过程耗时、成本高且易出错,限制了AU... 随着情感分析需求的日益增长,面部动作单元(Action Unit,AU)识别作为情感计算的基础任务备受关注。尽管深度神经网络在AU识别方面取得一定的进展,但是其依赖大规模、精确标注的数据集。然而,数据标注过程耗时、成本高且易出错,限制了AU识别性能。近年来,CLIP模型在下游任务中表现出优异的识别和泛化能力。针对AU识别中标注数据稀缺的难题,提出一种基于CLIP和多模态掩码提示学习的AU识别方法。通过设计多模态共享的AU提示(AU-prompt)和注意力掩码,结合局部细节和全局特征,实现了更有效的AU识别。实验结果表明,在BP4D和DISFA数据集上,该方法获得的F1均值分别为63.2%和64.6%,证明了模型的有效性。 展开更多
关键词 情感计算 面部动作单元 clip 提示学习 注意力掩码
在线阅读 下载PDF
BiCLIP-nnFormer:A Virtual Multimodal Instrument for Efficient and Accurate Medical Image Segmentation 被引量:2
20
作者 Wang Bo Yue Yan +5 位作者 Mengyuan Xu Yuqun Yang Xu Tang Kechen Shu Jingyang Ai Zheng You 《Instrumentation》 2025年第2期1-13,共13页
Image segmentation is attracting increasing attention in the field of medical image analysis.Since widespread utilization across various medical applications,ensuring and improving segmentation accuracy has become a c... Image segmentation is attracting increasing attention in the field of medical image analysis.Since widespread utilization across various medical applications,ensuring and improving segmentation accuracy has become a crucial topic of research.With advances in deep learning,researchers have developed numerous methods that combine Transformers and convolutional neural networks(CNNs)to create highly accurate models for medical image segmentation.However,efforts to further enhance accuracy by developing larger and more complex models or training with more extensive datasets,significantly increase computational resource consumption.To address this problem,we propose BiCLIP-nnFormer(the prefix"Bi"refers to the use of two distinct CLIP models),a virtual multimodal instrument that leverages CLIP models to enhance the segmentation performance of a medical segmentation model nnFormer.Since two CLIP models(PMC-CLIP and CoCa-CLIP)are pre-trained on large datasets,they do not require additional training,thus conserving computation resources.These models are used offline to extract image and text embeddings from medical images.These embeddings are then processed by the proposed 3D CLIP adapter,which adapts the CLIP knowledge for segmentation tasks by fine-tuning.Finally,the adapted embeddings are fused with feature maps extracted from the nnFormer encoder for generating predicted masks.This process enriches the representation capabilities of the feature maps by integrating global multimodal information,leading to more precise segmentation predictions.We demonstrate the superiority of BiCLIP-nnFormer and the effectiveness of using CLIP models to enhance nnFormer through experiments on two public datasets,namely the Synapse multi-organ segmentation dataset(Synapse)and the Automatic Cardiac Diagnosis Challenge dataset(ACDC),as well as a self-annotated lung multi-category segmentation dataset(LMCS). 展开更多
关键词 medical image analysis image segmentation clip feature fusion deep learning
原文传递
上一页 1 2 228 下一页 到第
使用帮助 返回顶部