期刊文献+
共找到4,470篇文章
< 1 2 224 >
每页显示 20 50 100
基于图像-文本大模型CLIP微调的零样本参考图像分割 被引量:3
1
作者 刘杰 乔文昇 +2 位作者 朱佩佩 雷印杰 王紫轩 《计算机应用研究》 北大核心 2025年第4期1248-1254,共7页
近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点... 近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点的空间位置信息。鉴于此,以CLIP为基础模型,提出了一种单阶段、细粒度、多层次的零样本参考图像分割模型PixelCLIP。具体地,采取了多尺度的图像特征融合,既聚集CLIP中不同视觉编码器提取的图像像素级特征,同时又考虑CLIP中固有的图像整体语义特征。在文本信息表征上,不但依靠CLIP-BERT来保持物体种类信息,还引入LLaVA大语言模型进一步注入上下文背景知识。最后,PixelCLIP通过细粒度跨模态关联匹配,实现像素水平的参考图像分割。充分的数值分析结果验证了该方法的有效性。 展开更多
关键词 零样本 clip 像素级 单阶段 参考图像分割
在线阅读 下载PDF
多芯片整体式Clip互连碳化硅功率模块反向耦合低感封装方法 被引量:1
2
作者 张彤宇 王来利 +2 位作者 苗昱 裴云庆 甘永梅 《电工技术学报》 北大核心 2025年第16期5106-5118,共13页
碳化硅功率器件凭借其优异的性能,成为传统硅器件有力的竞争者。然而,在封装过程中,因键合线以及引出端子等引入的额外寄生电感,致使封装后的碳化硅功率模块会产生较大的开关过冲与振荡,进而难以体现其理论上的优越性。为此,该文提出一... 碳化硅功率器件凭借其优异的性能,成为传统硅器件有力的竞争者。然而,在封装过程中,因键合线以及引出端子等引入的额外寄生电感,致使封装后的碳化硅功率模块会产生较大的开关过冲与振荡,进而难以体现其理论上的优越性。为此,该文提出一种具有极低电感的多芯片整体式Clip互连碳化硅功率模块封装方法,将功率模块内部键合铝线替换成Clip互连,并通过规划陶瓷基板布局,使Clip电流流向与陶瓷基板线路电流相反,利用电流反向耦合效应降低功率模块内部寄生电感。同时,利用电容直连结构消除外部回路寄生电感。经仿真得到的功率模块内部寄生电感为3.8 nH,功率回路电感为5.0 nH。实验测试得到1 200 V/600 A样机功率回路电感为4.53 nH,换流回路总电感5.87 nH,与传统布局功率模块相比电感降低了44.6%。 展开更多
关键词 碳化硅功率模块 寄生电感 整体式clip互连 反向耦合 换流回路
在线阅读 下载PDF
新型Memoclip经心尖二尖瓣夹系统单中心临床试验结果分析
3
作者 黄健兵 曾凡强 +6 位作者 汤敏 姜兆磊 周长平 刘海霞 张丽 丁芳宝 梅举 《中国心血管病研究》 2025年第4期304-309,共6页
目的 总结本中心使用新型Memoclip经心尖二尖瓣夹系统治疗的二尖瓣反流患者的临床数据,分析该二尖瓣夹系统的设计特点,探讨其治疗二尖瓣反流的安全性及有效性。方法 总结2021年12月至2023年8月本中心完成的使用新型Memoclip经心尖二尖... 目的 总结本中心使用新型Memoclip经心尖二尖瓣夹系统治疗的二尖瓣反流患者的临床数据,分析该二尖瓣夹系统的设计特点,探讨其治疗二尖瓣反流的安全性及有效性。方法 总结2021年12月至2023年8月本中心完成的使用新型Memoclip经心尖二尖瓣夹系统治疗的49例二尖瓣反流患者,其中男性24例(49.0%),年龄(68±12.8)岁。术前经食道超声心动图(TEE)确认所有患者均为重度二尖瓣反流(反流程度3+以上),其中Ⅰ型30例(61.2%),Ⅱ型11例(22.4%),Ⅲb型4例(8.2%),Ⅳ型4例(8.2%),所有患者均使用新型Memoclip经心尖二尖瓣夹系统行二尖瓣缘对缘夹合治疗,手术在超声引导下完成,术中即刻评估二尖瓣反流情况。术后1月、3月、6月、1年随访复查心脏彩超,评估患者心功能状态、6分钟步行距离、生活质量评分情况。结果 全组患者围术期无死亡病例。术中TEE提示二尖瓣成形效果满意,1例残余反流为2+,其余均为1+以下。术后随访患者二尖瓣反流有12例增加至2+,1例增加至3+,1例增加至3+但经药物治疗后又减少至1+。1例患者术后6 min步距离、生活质量评分下降,心功能无明显改善;其余患者6 min步距离、生活质量评分均有不同程度改善,心功能均明显改善。结论 新型Memoclip经心尖二尖瓣夹系统可安全有效的治疗解剖合适的二尖瓣反流患者,显著改善二尖瓣反流,治疗效果满意。 展开更多
关键词 二尖瓣反流 二尖瓣夹合术 Memoclip二尖瓣夹
暂未订购
Detachable over-the-scope clip for colon defects in the trans intestinal natural orifice transluminal endoscopic cholecystolithotomy:A case report
4
作者 Pei Li Rong-Rong Ding +2 位作者 Jiang Liu Ming-Qing Zhang Yan Liu 《World Journal of Gastrointestinal Endoscopy》 2025年第8期110-115,共6页
BACKGROUND Secure transluminal closure remains a fundamental barrier to endoscopic surgery.It has been reported that through-the-scope clips were used to secure the incision of the gallbladder during natural orifice t... BACKGROUND Secure transluminal closure remains a fundamental barrier to endoscopic surgery.It has been reported that through-the-scope clips were used to secure the incision of the gallbladder during natural orifice transluminal endoscopic cholecystolithotomy and were left in the body post-operation.The over-the-scope clip(OTSC)is favored for its rapid deployment and strong anchoring capabilities.Nevertheless,OTSCs are difficult to remove once implanted.The Senscure Biotechnology in China has developed a detachable over-the-scope clip(D-OTSC)for this purpose.Here,we utilized the D-OTSC to successfully close a full-thickness sigmoid defect exceeding 1 cm in diameter.Subsequently,the clip was completely removed postoperatively,yielding favorable clinical outcomes.CASE SUMMARY We present the case of a 51-year-old female patient who underwent natural orifice transluminal endoscopic cholecystolithotomy.The sigmoid incision was closed using a D-OTSC.Postoperative recovery was uneventful,with no abdominal infection or bleeding.The D-OTSC was subsequently removed via enteroscopy in the outpatient department one month later.CONCLUSION The utilization of D-OTSC presents a viable option for closing colonic mucosal incisions ranging from 1 cm to 2 cm. 展开更多
关键词 Natural orifice transluminal endoscopic surgery Over-the-scope clip Iatrogenic perforation Full-thickness mucosal defect Detachable over-the-scope clip Case report
暂未订购
基于CLIP-LDAGV多模态信息融合的颠覆性技术主题识别研究——以新能源领域为例 被引量:2
5
作者 吕鲲 张未旭 靖继鹏 《情报学报》 北大核心 2025年第3期353-368,共16页
当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contr... 当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contrastive language-image pre-training)和LDAGV(linear discriminant analysis&global vectors for word representation)模型构建新闻文本与图像特征融合向量,通过k-means聚类迭代并结合3个颠覆性技术主题指标进行筛选,实现了多模态信息的融合以及主题的精准识别。以新能源领域为例,验证了该模型在颠覆性技术主题识别方面的可行性和有效性。与其他单一模态模型相比,多模态信息融合模型在颠覆性技术主题识别方面更具优势。 展开更多
关键词 颠覆性技术 主题识别 多模态融合 clip-LDAGV模型
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:2
6
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 clip模型 知识数据库
在线阅读 下载PDF
混合对比学习和多视角CLIP的多模态图文情感分析
7
作者 叶佳乐 普园媛 +3 位作者 赵征鹏 冯珏 周联敏 谷金晶 《计算机科学》 北大核心 2025年第S1期224-230,共7页
以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联... 以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联和互补性,进而降低了情感分析的准确性。针对上述问题,文中提出了混合对比学习和多视角CLIP的多模态图文情感分析方法。具体来说,多视角CLIP特征编码模块采用CLIP对图像和文本进行联合编码表示,以提升特征的语义一致性,从图像、文本和图文交互等多个视角进行多模态情感分析。此外,通过混合对比学习模块使模型提取更具有情感特性以及有效信息的特征,提升模型的鲁棒性。其中,在图文交互时为了去除冗余信息,采用CNN和Transformer级联的融合策略,充分利用图文局部和全局信息来提高特征表示能力。最后,在3个公开数据集上进行综合实验,验证了所提方法的优越性,通过消融实验证明了所提方法各组件的有效性。 展开更多
关键词 多模态 clip 对比学习 预训练模型 情感分析
在线阅读 下载PDF
3种CLIP结构域丝氨酸蛋白酶在埃及伊蚊先天免疫中的功能
8
作者 常梦荷 刘焱晖 +3 位作者 殷雅楠 王娜 郭莹莹 韩谦 《中国热带医学》 北大核心 2025年第8期1042-1048,共7页
目的探究埃及伊蚊CLIP家族中的3种CLIP结构域丝氨酸蛋白酶Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在蚊虫免疫中发挥的作用,初步验证这些蛋白质之间是否存在相互作用。方法使用MEGA 11及ESPript 3.0对Ae-5575351、Ae-CLIPB15、Ae-CLIPB36和... 目的探究埃及伊蚊CLIP家族中的3种CLIP结构域丝氨酸蛋白酶Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在蚊虫免疫中发挥的作用,初步验证这些蛋白质之间是否存在相互作用。方法使用MEGA 11及ESPript 3.0对Ae-5575351、Ae-CLIPB15、Ae-CLIPB36和其他昆虫中的CLIP行多重序列比对。使用酵母双杂交验证Ae-5575351与Ae-CLIPB15、Ae-CLIPB36之间的蛋白互作关系。使用实时荧光定量PCR构建Ae-5575351、Ae-CLIPB15与Ae-CLIPB36的时空表达谱。通过RNA干扰与病原体侵染实验探究Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在埃及伊蚊抵御细菌与真菌感染过程中的发挥的功能,以及对Toll通路与IMD通路的影响。最后通过酚氧化酶(phenoloxidases,PO)活性测定探究Ae-5575351、Ae-CLIPB15、Ae-CLIPB36对黑化级联反应的影响。结果Ae-5575351、Ae-CLIPB15、Ae-CLIPB36与其他昆虫中的CLIP相比存在高度保守性,三者在埃及伊蚊的马氏管、唾液腺和血淋巴中均有较高的表达量,并且主要在埃及伊蚊发育的中后期进行表达。Ae-5575351分别与Ae-CLIPB15、Ae-CLIPB36存在蛋白层面的互作。金黄色葡萄球菌与大肠埃希菌感染可诱导Ae-5575351、Ae-CLIPB15、Ae-CLIPB36的表达升高。Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在埃及伊蚊幼虫抗球孢白僵菌与金黄色葡萄球菌感染的过程中,对转录因子REL1、REL2的表达量进行调控。Ae-CLIPB15、Ae-CLIPB36的敲低显著降低了埃及伊蚊PO的酶活。结论Ae-5575351、Ae-CLIPB15、Ae-CLIPB36通过调节Toll通路、IMD通路及黑化级联反应来影响埃及伊蚊抗细菌与真菌感染的能力,并且Ae-5575351与Ae-CLIPB15、Ae-CLIPB36之间可能存在着一定的互作关系。 展开更多
关键词 埃及伊蚊 先天免疫 clip结构域丝氨酸蛋白酶 RNA干扰
原文传递
基于CLIP和占用网络的文本到3D形状生成方法研究
9
作者 袁康 王旭智 +2 位作者 万旺根 孙学涛 张振 《工业控制计算机》 2025年第7期94-95,100,共3页
使用自然语言生成形状可以使我们想象和创造周围事物的方式焕然一新。由于缺乏大规模配对的文本和形状数据,文本到形状的生成仍然是一个具有挑战性的问题。利用两阶段的特征空间对齐策略,利用图像作为桥梁,弥合了文本与形状模态之间的鸿... 使用自然语言生成形状可以使我们想象和创造周围事物的方式焕然一新。由于缺乏大规模配对的文本和形状数据,文本到形状的生成仍然是一个具有挑战性的问题。利用两阶段的特征空间对齐策略,利用图像作为桥梁,弥合了文本与形状模态之间的鸿沟,从而能够在无需成对的文本和3D数据的情况下生成3D形状。在ISS模型基础上引入了占用网络,细化从图像特征空间到形状空间的映射,增强了形状细节。然后,将CLIP文本特征映射到形状空间,并通过促进输入文本与渲染图像之间的CLIP一致性来优化映射。与现有方法相比,该方法在生成质量和与输入文本的一致性方面得到了显著提升。 展开更多
关键词 文本到3D形状生成 clip 占用网络 多模态对齐
在线阅读 下载PDF
基于CLIP和多模态掩码提示学习的面部动作单元识别
10
作者 唐佩 李健 +2 位作者 陈海丰 施展 王浩淼 《软件工程》 2025年第6期13-18,共6页
随着情感分析需求的日益增长,面部动作单元(Action Unit,AU)识别作为情感计算的基础任务备受关注。尽管深度神经网络在AU识别方面取得一定的进展,但是其依赖大规模、精确标注的数据集。然而,数据标注过程耗时、成本高且易出错,限制了AU... 随着情感分析需求的日益增长,面部动作单元(Action Unit,AU)识别作为情感计算的基础任务备受关注。尽管深度神经网络在AU识别方面取得一定的进展,但是其依赖大规模、精确标注的数据集。然而,数据标注过程耗时、成本高且易出错,限制了AU识别性能。近年来,CLIP模型在下游任务中表现出优异的识别和泛化能力。针对AU识别中标注数据稀缺的难题,提出一种基于CLIP和多模态掩码提示学习的AU识别方法。通过设计多模态共享的AU提示(AU-prompt)和注意力掩码,结合局部细节和全局特征,实现了更有效的AU识别。实验结果表明,在BP4D和DISFA数据集上,该方法获得的F1均值分别为63.2%和64.6%,证明了模型的有效性。 展开更多
关键词 情感计算 面部动作单元 clip 提示学习 注意力掩码
在线阅读 下载PDF
基于联合微调CLIP和Fastspeech2的盲文图像-语音生成
11
作者 孙恩威 徐春 《计算机时代》 2025年第5期28-34,39,共8页
为提升视障人士的阅读效率,构建了一种适用于中文语言场景下的盲文图像-语音转换框架:CLIPViT-H/14-KNN-FastSpeech2。采取先独立预训练再联合微调的策略:首先,将中文CLIP和FastSpeech2文本转语音模型在公开数据集中分别预训练并验证其... 为提升视障人士的阅读效率,构建了一种适用于中文语言场景下的盲文图像-语音转换框架:CLIPViT-H/14-KNN-FastSpeech2。采取先独立预训练再联合微调的策略:首先,将中文CLIP和FastSpeech2文本转语音模型在公开数据集中分别预训练并验证其收敛性;然后,在此基础上利用盲文图像数据集进行联合微调。实验结果表明:模型在PER等指标上均有所提高,验证了模型在有限数据下仍具备合成高质量语音的能力以及联合训练策略的有效性。 展开更多
关键词 盲文图像 图像-语音转换 clip Fastspeech2 联合微调
在线阅读 下载PDF
PixCLIP:多层次特征融合的手写汉字骨架提取
12
作者 梁晓中 王涛 《计算机技术与发展》 2025年第1期21-29,共9页
针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-... 针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-Image Pre-training)的视觉Transformer分支与Pix2Pix条件生成对抗网络进行多层次特征融合,增强模型整体的全局上下文信息提取能力。对CLIP使用视觉提示微调技术(VPT),仅需微调极少数额外参数即可增强其在骨架提取任务的表现。提出多维度特征聚合(MDFA)模块,充分促进CLIP的全局特征与Pix2Pix局部特征之间多维度特征的自适应融合。引入多头注意力机制与卷积块注意力模块(CBAM),在通道和空间维度上抑制冗余信息。基于在线手写汉字数据集,构建手写汉字图像数据集用于实验。实验表明,与现有最优的骨架提取算法相比,该算法在测试数据集与真实手写汉字图像中均能更好地提取出流畅、完整的汉字骨架;在测试数据集上,此模型F1值与联合交并比(IoU)分别达到了85.62%和75.45%。 展开更多
关键词 骨架提取 条件生成对抗网络 多模态 clip模型 视觉提示微调
在线阅读 下载PDF
基于CLIP多模态预训练模型的动画自动剪辑研究
13
作者 李海燕 陈新生 《佳木斯大学学报(自然科学版)》 2025年第7期137-139,136,共4页
动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态... 动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态特征对齐,实现动画帧的语义级筛选与场景分割。模型以CLIP预训练特征为基础,设计动态阈值调整策略优化帧选择精度,结合时间轴分析与视觉焦点追踪算法增强剪辑连贯性。实验结果表明,在四类典型场景(战斗、对话、风景、特写)中平均相似度达0.82,较传统关键词匹配法(KWM)与单模态CNN模型分别提升35.6%与18.3%。热力图显示其帧-文本关联精度超过90%,场景切换节奏密度曲线符合人类视觉感知规律。真实动画测试中,剪辑耗时较人工处理缩短87%,且用户满意度评分达4.6/5.0。 展开更多
关键词 clip模型 多模态学习 动画剪辑 语义对齐
在线阅读 下载PDF
基于CLIP语义偏移的三维点云可迁移攻击
14
作者 马扬 黄璐洁 +3 位作者 彭伟龙 吴志泽 唐可可 方美娥 《图学学报》 北大核心 2025年第3期588-601,共14页
基于深度学习的三维点云理解在自动驾驶、机器人和监控等各种应用中受到越来越多的关注,研究点云深度学习模型的对抗攻击,有助于评估和提高其对抗鲁棒性。然而,大多数现有攻击方法都是针对白盒攻击,生成的对抗样本对于未知模型参数的黑... 基于深度学习的三维点云理解在自动驾驶、机器人和监控等各种应用中受到越来越多的关注,研究点云深度学习模型的对抗攻击,有助于评估和提高其对抗鲁棒性。然而,大多数现有攻击方法都是针对白盒攻击,生成的对抗样本对于未知模型参数的黑盒模型的迁移攻击成功率极低且易被防御。其只考虑在几何空间中优化来误导特定分类器,未能从本质上改变点云数据的深层内在语义结构,导致其在不同的分类器下迁移攻击能力有限。为了解决这些问题,提出了一种基于三维CLIP语义偏移攻击方法(3DCLAT),利用多模态大模型的丰富语义理解能力,在攻击中同时考虑点云的语义信息,使对抗样本在语义上极大程度地远离原语义属性来提高攻击迁移性。另外,考虑到当前攻击迁移性高的对抗样本普遍不可感知性不够好,将语义对抗攻击加入到谱域空间上,使对抗点云与干净点云相比有难以察觉的形变,达到了可迁移性与不可感知性的一个微妙的平衡。通过大量实验证明,该算法可以显著提高对抗样本的可迁移性,并且对防御方法更具鲁棒性。 展开更多
关键词 clip 点云 对抗攻击 攻击迁移性 谱域
在线阅读 下载PDF
基于Chinese-CLIP模型和Prompt提示机制的图文检索方法 被引量:1
15
作者 陈道彬 张子诺 +2 位作者 付裕彬 黎晋铭 林彬 《现代信息科技》 2025年第6期130-134,共5页
为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到... 为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到的文本与图像特征进行序列化,以实现多模态特征融合。模型训练时,先使用Chinese-CLIP大模型进行初步训练,再引入Prompt提示机制对模型进行微调。实验结果表明,所提方法在文搜图和图搜文两个任务上均有效地提升了准确率与召回率。 展开更多
关键词 图文检索 多模态特征融合 Chinese-clip模型 Prompt提示机制
在线阅读 下载PDF
基于CLIP增强细粒度特征的换装行人重识别方法
16
作者 耿霞 汪尧 《计算机工程》 北大核心 2025年第4期293-302,共10页
换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)... 换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)在该任务的应用,提出CLIP驱动的细粒度特征增强方法(CFFE)。首先建模CLIP提取的类文本特征和图像特征的潜在内在联系,然后引入显著性特征保留模块和显著性特征引导模块。显著性特征保留模块利用注意力掩码定位服装相关的前景区域,进而擦除该部分特征,使网络关注有效的非服装特征,显著性特征引导模块通过注意力机制进一步关注行人的重要局部和全局特征。实验结果表明,该方法在LTCC、PRCC和VC-Clothes数据集上的检测精度分别达到42.1%、71.1%和89.9%,与AIM、CAL等算法相比,能够提取到更细粒度的特征,在多项指标上有明显提升。 展开更多
关键词 换装行人重识别 对比语言-图像预训练 特征保留策略 注意力机制 语义解析
在线阅读 下载PDF
基于CLIP全局-局部嵌入动态融合的弱监督语义分割
17
作者 张裕 李坤 颜志雄 《计算机系统应用》 2025年第10期238-246,共9页
针对CLIP在弱监督语义分割任务中存在的细粒度建模不足与空间敏感性缺失问题,本文提出了一种基于全局-局部嵌入动态融合的弱监督语义分割模型GLE-CLIP.该模型通过双向交叉注意力模块(BCA)构建文本语义与图像局部特征的交互关系,生成鉴... 针对CLIP在弱监督语义分割任务中存在的细粒度建模不足与空间敏感性缺失问题,本文提出了一种基于全局-局部嵌入动态融合的弱监督语义分割模型GLE-CLIP.该模型通过双向交叉注意力模块(BCA)构建文本语义与图像局部特征的交互关系,生成鉴别性更强的局部嵌入;同时设计动态注意力融合机制(DAF),以相似度驱动的权重分配策略自适应平衡全局语义与局部细节.具体而言,首先通过定位解码器提取多尺度像素级嵌入,利用文本到像素以及像素到文本的双向交叉注意力来增强模态对齐,并结合全局嵌入的动态投影实现跨粒度特征融合.在PASCAL VOC 2012和MS COCO数据集上的实验表明,通过本方法训练的分割模型的性能超越现有大部分语言监督方法, mIoU分别达75.%与47.9%.消融实验证实了交叉注意力模块与动态融合机制的有效性,可视化结果进一步揭示了方法对高频细节的捕捉能力. 展开更多
关键词 语义分割 clip 嵌入融合 注意力机制
在线阅读 下载PDF
基于CLIP模型和迁移学习的遥感图像描述方法
18
作者 王振宇 万刚 王孜妍 《地理空间信息》 2025年第9期1-5,共5页
遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微... 遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微调后的视觉大模型CLIP对遥感图像进行特征编码,构建一个高效的遥感领域的视觉—语言编码器,再配合Transformer架构的解码器生成图像描述。在3个公开遥感图像描述数据集上的实验结果表明,该方法能明显提升生成图像描述语句的质量,具有一定的竞争力。 展开更多
关键词 遥感图像描述 clip模型 迁移学习 Transformer架构
在线阅读 下载PDF
一种基于Clips专家系统的卫星故障诊断系统
19
作者 范迪 翟涛 《航天控制》 2025年第2期56-63,共8页
针对现有在轨卫星故障诊断方法不足的问题,提出了一种基于Clips专家系统的卫星故障诊断系统。该系统利用已有的卫星故障知识和经验,将专家经验和实时遥测数据相结合,采用推理机技术实时诊断卫星故障,同时通过可视化技术包括图形化和知... 针对现有在轨卫星故障诊断方法不足的问题,提出了一种基于Clips专家系统的卫星故障诊断系统。该系统利用已有的卫星故障知识和经验,将专家经验和实时遥测数据相结合,采用推理机技术实时诊断卫星故障,同时通过可视化技术包括图形化和知识表达式两种方式进行专家知识录入编辑,构建专家知识库从而将用户容易理解的简单的逻辑语句转化为完整的复杂的Clips语句实现复杂的故障诊断程序,进而实现在轨航天器实时故障诊断的自动化和智能化,精准定位故障,提高卫星系统的可靠性和安全性。经模拟多种故障场景以及项目实践多方验证,卫星故障诊断系统的诊断结果与卫星实际接收的故障数据相同,证实了设计系统的有效性。 展开更多
关键词 卫星系统可靠性 clips专家系统 故障诊断 知识库 推理机
原文传递
BiCLIP-nnFormer:A Virtual Multimodal Instrument for Efficient and Accurate Medical Image Segmentation
20
作者 Wang Bo Yue Yan +5 位作者 Mengyuan Xu Yuqun Yang Xu Tang Kechen Shu Jingyang Ai Zheng You 《Instrumentation》 2025年第2期1-13,共13页
Image segmentation is attracting increasing attention in the field of medical image analysis.Since widespread utilization across various medical applications,ensuring and improving segmentation accuracy has become a c... Image segmentation is attracting increasing attention in the field of medical image analysis.Since widespread utilization across various medical applications,ensuring and improving segmentation accuracy has become a crucial topic of research.With advances in deep learning,researchers have developed numerous methods that combine Transformers and convolutional neural networks(CNNs)to create highly accurate models for medical image segmentation.However,efforts to further enhance accuracy by developing larger and more complex models or training with more extensive datasets,significantly increase computational resource consumption.To address this problem,we propose BiCLIP-nnFormer(the prefix"Bi"refers to the use of two distinct CLIP models),a virtual multimodal instrument that leverages CLIP models to enhance the segmentation performance of a medical segmentation model nnFormer.Since two CLIP models(PMC-CLIP and CoCa-CLIP)are pre-trained on large datasets,they do not require additional training,thus conserving computation resources.These models are used offline to extract image and text embeddings from medical images.These embeddings are then processed by the proposed 3D CLIP adapter,which adapts the CLIP knowledge for segmentation tasks by fine-tuning.Finally,the adapted embeddings are fused with feature maps extracted from the nnFormer encoder for generating predicted masks.This process enriches the representation capabilities of the feature maps by integrating global multimodal information,leading to more precise segmentation predictions.We demonstrate the superiority of BiCLIP-nnFormer and the effectiveness of using CLIP models to enhance nnFormer through experiments on two public datasets,namely the Synapse multi-organ segmentation dataset(Synapse)and the Automatic Cardiac Diagnosis Challenge dataset(ACDC),as well as a self-annotated lung multi-category segmentation dataset(LMCS). 展开更多
关键词 medical image analysis image segmentation clip feature fusion deep learning
原文传递
上一页 1 2 224 下一页 到第
使用帮助 返回顶部