期刊文献+
共找到4,673篇文章
< 1 2 234 >
每页显示 20 50 100
基于方向性CLIP引导的语义调制人脸属性编辑
1
作者 顾广华 杨远航 伊柏宇 《计算机学报》 北大核心 2026年第4期782-795,共14页
实现高精度且解耦的真实人脸图像编辑仍然是一个具有挑战性的任务。尽管生成对抗网络的隐空间蕴含着丰富且复杂的语义信息,但基于隐空间操作的人脸属性编辑研究常常面临属性纠缠、编辑失效甚至人物身份信息丢失等困境。为了解决这些问题... 实现高精度且解耦的真实人脸图像编辑仍然是一个具有挑战性的任务。尽管生成对抗网络的隐空间蕴含着丰富且复杂的语义信息,但基于隐空间操作的人脸属性编辑研究常常面临属性纠缠、编辑失效甚至人物身份信息丢失等困境。为了解决这些问题,本文提出了一种基于方向性CLIP引导的语义调制人脸属性编辑模型——SMCI-CLIP。该模型主要包括两大模块:语义调制模块和多通道交互模块。语义调制模块通过调制函数动态调整文本信息在潜码中的权重,并通过正交文本运算去除无关信息,从而生成解耦且精准的编辑向量,实现高精度且解耦的属性编辑。与此同时,多通道交互模块利用交叉注意力机制深入挖掘隐空间潜码各通道间的互信息,以提升模型的全局感知能力。大量实验结果表明,本文所提模型在有效保留人物身份信息的同时,能够实现高精度且解耦的人脸属性编辑,显著优于现有主流方法。 展开更多
关键词 人脸属性编辑 方向性clip 隐空间操作 语义调制 多通道交互
在线阅读 下载PDF
基于CLIP与注意力机制优化的多阶段人脸图像修复方法
2
作者 赵阳 丁建伟 《科学技术与工程》 北大核心 2026年第4期1575-1585,共11页
现有的人脸图像修复方法在处理大面积遮挡时生成的图像往往会出现结构不协调和上下文语义不连贯的问题,无法准确恢复面部细节。针对此问题,提出一种基于CLIP(contrastive language-image pre-training)与注意力机制优化的多阶段人脸图... 现有的人脸图像修复方法在处理大面积遮挡时生成的图像往往会出现结构不协调和上下文语义不连贯的问题,无法准确恢复面部细节。针对此问题,提出一种基于CLIP(contrastive language-image pre-training)与注意力机制优化的多阶段人脸图像修复算法。首先,通过编解码器结构进行初步的面部恢复。然后,针对口罩遮挡区域进行局部特征处理,在局部细节网络中引入AOT(aggregated contextual transformations)block,增强面部边缘和遮挡区域的细节重建效果。最后,将预训练好的CLIP模型嵌入到全局编码器中捕捉图像的整体细粒度细节,并通过注意力机制整合面部全局信息,确保修复后的图像在全局一致性和局部细节上都达到高质量复原的要求。在多个数据集上将该方法与多种算法进行比较,实验结果表明,所提方法在主观评价和客观评价方面均表现突出,在融合计算效率和提高修复质量之间实现了更好的平衡。 展开更多
关键词 注意力机制 人脸图像修复 clip 多阶段修复网络 生成式对抗网络
在线阅读 下载PDF
ACtriplet:An improved deep learning model for activity cliffs prediction by integrating triplet loss and pre-training 被引量:1
3
作者 Xinxin Yu Yimeng Wang +3 位作者 Long Chen Weihua Li Yun Tang Guixia Liu 《Journal of Pharmaceutical Analysis》 2025年第8期1837-1847,共11页
Activity cliffs(ACs)are generally defined as pairs of similar compounds that only differ by a minor structural modification but exhibit a large difference in their binding affinity for a given target.ACs offer crucial... Activity cliffs(ACs)are generally defined as pairs of similar compounds that only differ by a minor structural modification but exhibit a large difference in their binding affinity for a given target.ACs offer crucial insights that aid medicinal chemists in optimizing molecular structures.Nonetheless,they also form a major source of prediction error in structure-activity relationship(SAR)models.To date,several studies have demonstrated that deep neural networks based on molecular images or graphs might need to be improved further in predicting the potency of ACs.In this paper,we integrated the triplet loss in face recognition with pre-training strategy to develop a prediction model ACtriplet,tailored for ACs.Through extensive comparison with multiple baseline models on 30 benchmark datasets,the results showed that ACtriplet was significantly better than those deep learning(DL)models without pretraining.In addition,we explored the effect of pre-training on data representation.Finally,the case study demonstrated that our model's interpretability module could explain the prediction results reasonably.In the dilemma that the amount of data could not be increased rapidly,this innovative framework would better make use of the existing data,which would propel the potential of DL in the early stage of drug discovery and optimization. 展开更多
关键词 Activity cliff Triplet loss Deep learning pre-training
暂未订购
基于CLIP的无监督大尺寸DR图像增强算法研究
4
作者 陈明飞 廖望 +2 位作者 王广文 吴义顺 沈宽 《仪器仪表学报》 北大核心 2026年第2期309-321,共13页
X射线数字成像技术(DR)已广泛应用于工业无损检测领域。然而在实际应用中,存在大量的结构不规则、厚度变化范围大的工件。DR检测容易在工件厚度厚的地方呈现曝光不足,在工件厚度薄的地方出现曝光过度的现象,导致DR扫描图像质量差,结构... X射线数字成像技术(DR)已广泛应用于工业无损检测领域。然而在实际应用中,存在大量的结构不规则、厚度变化范围大的工件。DR检测容易在工件厚度厚的地方呈现曝光不足,在工件厚度薄的地方出现曝光过度的现象,导致DR扫描图像质量差,结构信息严重缺失。伴随探测器像素矩阵增至4 K×4 K以上,大多数算法难以在消费级设备上处理DR扫描产生的大尺寸图像。同时工业检测场景难以获取大量的成对配对标签。针对大尺寸DR推理与标签稀缺的问题,将对比语言-图像预训练(CLIP)与限制对比度自适应直方图均衡化(CLAHE)先验耦合,构建两阶段轻量级无监督增强框架,全程无需配对或分块操作。该算法在第1阶段初步学习提示向量引导冻结的CLIP图像编码器,通过CLIP增强损失、结构一致性损失,以及CLAHE特征图感知损失指导训练;第2阶段通过排序损失迭代对提示权值迭代精炼,交替更新增强网络直至视觉收敛。实验结果表明,与同期的无监督算法相比,峰值信噪比(PSNR)、感知图像相似度(LPIPS)、结构相似度(SSIM)等指标分别提高1.0 dB、1.6%和2.0%,在多个参考指标优于对比方法。在推理时只需加载0.279 M的参数,处理5732×2333的大尺寸图像单张耗时约1.5 s。仅用380张铸件图像训练的模型即可直接在未训练过的碳纤维线路板以及其他材料的物品上迁移,并展现出良好的泛化能力,为工业检测落地提供实时增强方案。 展开更多
关键词 大尺寸DR图像 clip CLAHE 损失函数 图像增强
原文传递
MF-cache:用于玉米病害识别的CLIP多模态缓存模型
5
作者 孙伟 陈俊杰 《计算机工程》 北大核心 2026年第3期420-428,共9页
玉米是重要的经济作物,广泛应用于工业、畜牧业及粮油加工等领域,病害的及时识别对保障产量具有重要意义。当前,卷积神经网络(CNN)等深度学习方法已广泛应用于病害识别,但多数方法仅依赖图像信息,忽略其他模态特征,且模型参数规模较大,... 玉米是重要的经济作物,广泛应用于工业、畜牧业及粮油加工等领域,病害的及时识别对保障产量具有重要意义。当前,卷积神经网络(CNN)等深度学习方法已广泛应用于病害识别,但多数方法仅依赖图像信息,忽略其他模态特征,且模型参数规模较大,部署成本较高,限制了实际应用。为解决上述问题,提出一种基于图像-文本多模态的轻量级缓存模型MF-cache,模型参数量仅为61 000个,兼具低计算开销与较高识别精度。该模型借助多模态预训练模型CLIP提取图像与文本特征,通过并行融合策略获取融合特征,用于构建含领域知识的可学习key-value缓存结构。此外,采用加权的两阶段融合机制,用于动态调整不同模态对分类结果的贡献比例,提高分类稳定性与合理性。为增强鲁棒性,引入多种数据增强策略,提升样本多样性,缓解小样本带来的过拟合问题。在自建数据集CornI&T与公开数据集PlantVillage上的实验结果表明,该方法准确率分别达到99.72%与98.80%,具备良好的泛化性能。所提方法在保持低计算开销的同时,具备良好的识别性能,为作物病害检测提供了一种高效可行的解决方案,并展示了多模态预训练模型与小样本学习在农业智能识别领域的应用潜力。 展开更多
关键词 玉米病害识别 多模态缓存 预训练模型 clip模型 小样本
在线阅读 下载PDF
一种基于CLIP和动态语义优化的文本到3D形状生成方法
6
作者 袁康 王旭智 +2 位作者 万旺根 孙学涛 张振 《工业控制计算机》 2026年第1期47-48,54,共3页
文本到3D形状生成技术为虚拟现实、3D打印和动画设计等领域提供了极具潜力的自然语言交互方式。然而,由于文本与3D形状在模态上的显著差异,以及高质量3D形状生成中存在的语义一致性和多样性挑战,目前的方法往往难以在生成质量与文本一... 文本到3D形状生成技术为虚拟现实、3D打印和动画设计等领域提供了极具潜力的自然语言交互方式。然而,由于文本与3D形状在模态上的显著差异,以及高质量3D形状生成中存在的语义一致性和多样性挑战,目前的方法往往难以在生成质量与文本一致性之间取得平衡。提出了一种基于CLIP和动态语义优化的文本到3D形状生成方法。该方法通过构建动态语义优化模块,实时分解并调整文本特征的语义权重,使生成的3D形状更符合输入文本的描述。将动态语义优化嵌入现有的两阶段特征空间对齐框架中,显著提升了文本到3D形状生成的精度和质量。实验结果表明,与现有方法相比,该方法在生成质量、一致性方面得到了提升。 展开更多
关键词 文本到3D形状生成 clip 动态语义优化 特征空间对齐 生成一致性
在线阅读 下载PDF
基于CLIP模型的苏丹Ⅲ染色切片扫描图像脂滴分割研究
7
作者 王子夜 汤晓蕙 +5 位作者 周兰 许春燕 周顺平 张开乔 刘方舟 周盛斌 《刑事技术》 2026年第2期121-128,共8页
组织病理学检验中苏丹Ⅲ染色可确认脂肪栓塞,其定量分级对确定死因有重要意义,但镜下人工观察定级比较依赖个人经验。为了使栓塞程度客观量化,本文探索了对肺组织苏丹Ⅲ特染切片的全视野数字图像中脂滴进行自动分割的方法。苏丹Ⅲ特染... 组织病理学检验中苏丹Ⅲ染色可确认脂肪栓塞,其定量分级对确定死因有重要意义,但镜下人工观察定级比较依赖个人经验。为了使栓塞程度客观量化,本文探索了对肺组织苏丹Ⅲ特染切片的全视野数字图像中脂滴进行自动分割的方法。苏丹Ⅲ特染切片染剂残留、脂滴染色不均、形状不一、大小差异过大等问题,容易导致误分割和分割不精确。为此,本文提出结合提示学习的对比语言-图像预训练(contrastive language-image pre-training,CLIP)模型框架进行脂滴分割:首先通过跳跃连接的方式将CLIP图像编码器输出的特征图进行融合,通过文本提示引导模型利用CLIP的先验知识精准分割脂滴;再采用dice损失函数缓解图像前景和背景不平衡的问题;最后在切片数据集上进行验证,并与U-Net、FCN8s、UNet++模型进行对比。结果表明,本文所提出的CLIP模型在特染切片图片上进行脂滴分割的效果优于所对比模型。 展开更多
关键词 法医病理学 脂肪栓塞 特殊染色 图像分割 对比语言-图像预训练(clip) 深度学习 全视野数字图像
在线阅读 下载PDF
面向草分类的粗细粒度结合模型——基于CLIP的实现
8
作者 李鹏飞 杨文淞 +1 位作者 裴生雷 罗涛 《河北师范大学学报(自然科学版)》 2026年第2期109-116,共8页
计算机视觉技术在智慧农业的应用中,经常面临开放环境下的分布外(out-of-distribution,OOD)样本识别差、细粒度分类能力不足等问题,比如草的图像分类问题.然而,传统基于CNN架构在开放场景下表现不佳,遇到与训练分布偏离的样本,不能够识... 计算机视觉技术在智慧农业的应用中,经常面临开放环境下的分布外(out-of-distribution,OOD)样本识别差、细粒度分类能力不足等问题,比如草的图像分类问题.然而,传统基于CNN架构在开放场景下表现不佳,遇到与训练分布偏离的样本,不能够识别出OOD样本,并将其分配给类内标签,这会显著降低模型的稳定性.为此,提出一种基于视觉语言模型的分类方法,利用预训练好的CLIP(contrastive language-image pretraining)模型中的视觉编码器与文本编码器提取图像与文本的特征嵌入向量结合,通过特征相似度对比实现跨模态,匹配提升分类效果.首先,基于提示词引导粗粒度判别,快速区分已知类别与OOD类别图像;其次,对判定为已知类别的图像引入CUM-CLIP(custom adapter-CLIP)模块,执行细粒度识别,进一步区分具体子类别,从而实现精细化、层次化分类.该方法在小样本条件下显着提升了训练效率与模型泛化能力.实验结果表明,CUM-CLIP与传统模型相比,该方法在训练时间、计算成本和分类精度方面均表现出显著优势,验证了其在开放场景下的鲁棒性和实用性.本研究为智慧农业领域的图像分类任务提供了一种高效、低成本的解决方案,可为相关研究提供有价值的参考. 展开更多
关键词 粗细粒度分类策略 clip 特征适配器 小样本训练
在线阅读 下载PDF
基于CLIP的无监督域适应图像分类
9
作者 丁华玲 杨欢 《计算机系统应用》 2026年第1期141-151,共11页
无监督域适应(unsupervised domain adaptation,UDA)旨在将源域中训练好的模型应用于仅有未标记数据的目标域.当前的无监督域适应方法主要通过统计差异最小化或对抗学习来对齐源域和目标域特征空间,从而学习域不变特征.然而,这些约束可... 无监督域适应(unsupervised domain adaptation,UDA)旨在将源域中训练好的模型应用于仅有未标记数据的目标域.当前的无监督域适应方法主要通过统计差异最小化或对抗学习来对齐源域和目标域特征空间,从而学习域不变特征.然而,这些约束可能导致语义特征结构的扭曲和类可辨别性的丧失.针对上述问题,本文提出一种名为DAMPL的方法.该方法利用CLIP模型注入文本描述信息,深入挖掘图像语义内容,采用针对领域特性的提示学习范式,有效保留不同域的特有信息,避免了信息丢失.此外,通过语义引导机制对目标域的伪标签进行校正,以缩小域间差异,增强模型的泛化能力.最后还引入互信息最大化损失(mutual information maximization loss,IML),以保留目标域的特征可区分性.最终DAMPL方法在Office-Home、miniDomainNet和VisDA-2017数据集上分别达到83.8%、79.7%、89.8%的分类准确率,展现了最佳的性能. 展开更多
关键词 无监督域适应 clip模型 提示学习 伪标签 互信息最大化损失
在线阅读 下载PDF
miR-11903a modulates CLIPB9-mediated pathogen defense and longevity in Aedes aegypti
10
作者 Yan-Hui Liu Ya-Nan Yin +2 位作者 Ling-Ling Yu Meng-He Chang Qian Han 《Insect Science》 2026年第1期44-56,共13页
Arthropod melanization is a crucial defense mechanism mediated by a complex cascade of CLIP domain serine proteases(CLIPs).In this study,it was confirmed that microRNA-11903a(miR-11903a)targets Aedes-CLIPB9(AeCLIPB9)b... Arthropod melanization is a crucial defense mechanism mediated by a complex cascade of CLIP domain serine proteases(CLIPs).In this study,it was confirmed that microRNA-11903a(miR-11903a)targets Aedes-CLIPB9(AeCLIPB9)by bioinformatics prediction and dual-luciferase reporter assays.Following intrathoracic injection of miR-11903a agomir and antagomir,Real-time quantitative polymerase chain reaction confirmed that AeCLIPB9 is negatively regulated by miR-11903a.Spatiotemporal expression analysis revealed that miR-11903a is most abundant in 4th instar larvae,followed by pupae and adults,and highly expressed in the wings,head,and midgut of female adults.Following pathogen infection,AeCLIPB9 and miR-11903a exhibited opposite expression trends,indicating their potential roles in mosquito innate immunity.To further investigate the relationship between AeCLIPB9 and miR-11903a,double-strand CLIPB9 was synthesized and RNA interference was performed.Seven-d survival assays revealed that both AeCLIPB9 and miR-11903a were crucial immune factors in fighting pathogens.Finally,longevity assays demonstrated that miR-11903a influenced mosquito lifespan. 展开更多
关键词 Aedes aegypti clip domain serine protease innate immunity LIFESPAN MELANIZATION MICRORNA
暂未订购
SOC-Lite:用于视频对象分割的CLIP增强高效语义聚类
11
作者 任倩楠 《山西能源学院学报》 2026年第1期37-41,共5页
本文提出了一个CLIP增强的高效语义聚类指代视频目标分割算法,SOC-Lite,用于跨模态的指代视频目标分割。最近方法采用基于Transformer的语言文本编码器对给定的文本进行编码,常需要处理变长序列,增加跨模态注意力模块的学习负担。为解... 本文提出了一个CLIP增强的高效语义聚类指代视频目标分割算法,SOC-Lite,用于跨模态的指代视频目标分割。最近方法采用基于Transformer的语言文本编码器对给定的文本进行编码,常需要处理变长序列,增加跨模态注意力模块的学习负担。为解决这个问题,本文提出了CLIP增强的高效语义聚类指代视频目标分割算法(SOC-Lite),在模态融合语义整合模块中使用了CLIP文本编码器对输入的文本进行编码,凭借其自身能力消除模态鸿沟,实现更加精确的模态匹配,从而提升分割效果。此外,本文在多尺度特征金字塔中使用了全维动态卷积(ODConv),通过沿卷积核对不同维度进行学习,提升其信息提取能力,提高对目标的分割性能。实验结果表明,该模型在A2D-Sentences数据集上P@0.7提高了1%。该检测模型的性能超越了其他主流算法,能够对多尺度目标实现更加精准的分割。 展开更多
关键词 多模态学习 模态融合 指代视频目标分割 clip 多尺度特征金字塔
原文传递
基于CLIP的零样本迁移对象计数方法
12
作者 邹冠宇 王佳 +1 位作者 庞婧桐 周安亮 《机器人技术与应用》 2026年第1期54-60,共7页
服务机器人在自动盘点任务中需要采用对象计数算法,但现有方法在跨域场景中泛化能力有限。为此,提出一种基于对比语言图像预训练(Contrastive Language-Image Pre-Training,CLIP)的零样本迁移计数方法HybridCount,以提升模型的跨域适应... 服务机器人在自动盘点任务中需要采用对象计数算法,但现有方法在跨域场景中泛化能力有限。为此,提出一种基于对比语言图像预训练(Contrastive Language-Image Pre-Training,CLIP)的零样本迁移计数方法HybridCount,以提升模型的跨域适应性。该方法通过视觉傅里叶提示词微调(Visual Fourier Prompt Tuning, VFPT)引入频域滤波增强特征鲁棒性,并利用混合注意力机制(Hybrid Attention,HA)构建双路径融合架构,动态调节文本与视觉特征的贡献度,有效缓解了跨模态语义鸿沟导致的对齐偏差,并在FSC147和Shanghai Tech数据集上进行了实验。实验结果表明,该方法在仅更新模型参数0.1%的前提下,在跨域场景中的性能显著优于基线方法,其平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)分别为187.7和300.4,与CLIP-Count相比分别降低5.3%和2.6%。 展开更多
关键词 机器人 对象计数 HybridCount 零样本迁移 多模态 注意力 clip 低参数微调
在线阅读 下载PDF
基于图像-文本大模型CLIP微调的零样本参考图像分割 被引量:4
13
作者 刘杰 乔文昇 +2 位作者 朱佩佩 雷印杰 王紫轩 《计算机应用研究》 北大核心 2025年第4期1248-1254,共7页
近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点... 近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点的空间位置信息。鉴于此,以CLIP为基础模型,提出了一种单阶段、细粒度、多层次的零样本参考图像分割模型PixelCLIP。具体地,采取了多尺度的图像特征融合,既聚集CLIP中不同视觉编码器提取的图像像素级特征,同时又考虑CLIP中固有的图像整体语义特征。在文本信息表征上,不但依靠CLIP-BERT来保持物体种类信息,还引入LLaVA大语言模型进一步注入上下文背景知识。最后,PixelCLIP通过细粒度跨模态关联匹配,实现像素水平的参考图像分割。充分的数值分析结果验证了该方法的有效性。 展开更多
关键词 零样本 clip 像素级 单阶段 参考图像分割
在线阅读 下载PDF
多芯片整体式Clip互连碳化硅功率模块反向耦合低感封装方法 被引量:1
14
作者 张彤宇 王来利 +2 位作者 苗昱 裴云庆 甘永梅 《电工技术学报》 北大核心 2025年第16期5106-5118,共13页
碳化硅功率器件凭借其优异的性能,成为传统硅器件有力的竞争者。然而,在封装过程中,因键合线以及引出端子等引入的额外寄生电感,致使封装后的碳化硅功率模块会产生较大的开关过冲与振荡,进而难以体现其理论上的优越性。为此,该文提出一... 碳化硅功率器件凭借其优异的性能,成为传统硅器件有力的竞争者。然而,在封装过程中,因键合线以及引出端子等引入的额外寄生电感,致使封装后的碳化硅功率模块会产生较大的开关过冲与振荡,进而难以体现其理论上的优越性。为此,该文提出一种具有极低电感的多芯片整体式Clip互连碳化硅功率模块封装方法,将功率模块内部键合铝线替换成Clip互连,并通过规划陶瓷基板布局,使Clip电流流向与陶瓷基板线路电流相反,利用电流反向耦合效应降低功率模块内部寄生电感。同时,利用电容直连结构消除外部回路寄生电感。经仿真得到的功率模块内部寄生电感为3.8 nH,功率回路电感为5.0 nH。实验测试得到1 200 V/600 A样机功率回路电感为4.53 nH,换流回路总电感5.87 nH,与传统布局功率模块相比电感降低了44.6%。 展开更多
关键词 碳化硅功率模块 寄生电感 整体式clip互连 反向耦合 换流回路
在线阅读 下载PDF
新型Memoclip经心尖二尖瓣夹系统单中心临床试验结果分析
15
作者 黄健兵 曾凡强 +6 位作者 汤敏 姜兆磊 周长平 刘海霞 张丽 丁芳宝 梅举 《中国心血管病研究》 2025年第4期304-309,共6页
目的 总结本中心使用新型Memoclip经心尖二尖瓣夹系统治疗的二尖瓣反流患者的临床数据,分析该二尖瓣夹系统的设计特点,探讨其治疗二尖瓣反流的安全性及有效性。方法 总结2021年12月至2023年8月本中心完成的使用新型Memoclip经心尖二尖... 目的 总结本中心使用新型Memoclip经心尖二尖瓣夹系统治疗的二尖瓣反流患者的临床数据,分析该二尖瓣夹系统的设计特点,探讨其治疗二尖瓣反流的安全性及有效性。方法 总结2021年12月至2023年8月本中心完成的使用新型Memoclip经心尖二尖瓣夹系统治疗的49例二尖瓣反流患者,其中男性24例(49.0%),年龄(68±12.8)岁。术前经食道超声心动图(TEE)确认所有患者均为重度二尖瓣反流(反流程度3+以上),其中Ⅰ型30例(61.2%),Ⅱ型11例(22.4%),Ⅲb型4例(8.2%),Ⅳ型4例(8.2%),所有患者均使用新型Memoclip经心尖二尖瓣夹系统行二尖瓣缘对缘夹合治疗,手术在超声引导下完成,术中即刻评估二尖瓣反流情况。术后1月、3月、6月、1年随访复查心脏彩超,评估患者心功能状态、6分钟步行距离、生活质量评分情况。结果 全组患者围术期无死亡病例。术中TEE提示二尖瓣成形效果满意,1例残余反流为2+,其余均为1+以下。术后随访患者二尖瓣反流有12例增加至2+,1例增加至3+,1例增加至3+但经药物治疗后又减少至1+。1例患者术后6 min步距离、生活质量评分下降,心功能无明显改善;其余患者6 min步距离、生活质量评分均有不同程度改善,心功能均明显改善。结论 新型Memoclip经心尖二尖瓣夹系统可安全有效的治疗解剖合适的二尖瓣反流患者,显著改善二尖瓣反流,治疗效果满意。 展开更多
关键词 二尖瓣反流 二尖瓣夹合术 Memoclip二尖瓣夹
暂未订购
基于CLIP增强细粒度特征的换装行人重识别方法 被引量:1
16
作者 耿霞 汪尧 《计算机工程》 北大核心 2025年第4期293-302,共10页
换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)... 换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)在该任务的应用,提出CLIP驱动的细粒度特征增强方法(CFFE)。首先建模CLIP提取的类文本特征和图像特征的潜在内在联系,然后引入显著性特征保留模块和显著性特征引导模块。显著性特征保留模块利用注意力掩码定位服装相关的前景区域,进而擦除该部分特征,使网络关注有效的非服装特征,显著性特征引导模块通过注意力机制进一步关注行人的重要局部和全局特征。实验结果表明,该方法在LTCC、PRCC和VC-Clothes数据集上的检测精度分别达到42.1%、71.1%和89.9%,与AIM、CAL等算法相比,能够提取到更细粒度的特征,在多项指标上有明显提升。 展开更多
关键词 换装行人重识别 对比语言-图像预训练 特征保留策略 注意力机制 语义解析
在线阅读 下载PDF
混合对比学习和多视角CLIP的多模态图文情感分析 被引量:1
17
作者 叶佳乐 普园媛 +3 位作者 赵征鹏 冯珏 周联敏 谷金晶 《计算机科学》 北大核心 2025年第S1期224-230,共7页
以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联... 以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联和互补性,进而降低了情感分析的准确性。针对上述问题,文中提出了混合对比学习和多视角CLIP的多模态图文情感分析方法。具体来说,多视角CLIP特征编码模块采用CLIP对图像和文本进行联合编码表示,以提升特征的语义一致性,从图像、文本和图文交互等多个视角进行多模态情感分析。此外,通过混合对比学习模块使模型提取更具有情感特性以及有效信息的特征,提升模型的鲁棒性。其中,在图文交互时为了去除冗余信息,采用CNN和Transformer级联的融合策略,充分利用图文局部和全局信息来提高特征表示能力。最后,在3个公开数据集上进行综合实验,验证了所提方法的优越性,通过消融实验证明了所提方法各组件的有效性。 展开更多
关键词 多模态 clip 对比学习 预训练模型 情感分析
在线阅读 下载PDF
Effective distributed convolutional neural network architecture for remote sensing images target classification with a pre-training approach 被引量:3
18
作者 LI Binquan HU Xiaohui 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第2期238-244,共7页
How to recognize targets with similar appearances from remote sensing images(RSIs) effectively and efficiently has become a big challenge. Recently, convolutional neural network(CNN) is preferred in the target classif... How to recognize targets with similar appearances from remote sensing images(RSIs) effectively and efficiently has become a big challenge. Recently, convolutional neural network(CNN) is preferred in the target classification due to the powerful feature representation ability and better performance. However,the training and testing of CNN mainly rely on single machine.Single machine has its natural limitation and bottleneck in processing RSIs due to limited hardware resources and huge time consuming. Besides, overfitting is a challenge for the CNN model due to the unbalance between RSIs data and the model structure.When a model is complex or the training data is relatively small,overfitting occurs and leads to a poor predictive performance. To address these problems, a distributed CNN architecture for RSIs target classification is proposed, which dramatically increases the training speed of CNN and system scalability. It improves the storage ability and processing efficiency of RSIs. Furthermore,Bayesian regularization approach is utilized in order to initialize the weights of the CNN extractor, which increases the robustness and flexibility of the CNN model. It helps prevent the overfitting and avoid the local optima caused by limited RSI training images or the inappropriate CNN structure. In addition, considering the efficiency of the Na¨?ve Bayes classifier, a distributed Na¨?ve Bayes classifier is designed to reduce the training cost. Compared with other algorithms, the proposed system and method perform the best and increase the recognition accuracy. The results show that the distributed system framework and the proposed algorithms are suitable for RSIs target classification tasks. 展开更多
关键词 convolutional NEURAL network (CNN) DISTRIBUTED architecture REMOTE SENSING images (RSIs) TARGET classification pre-training
在线阅读 下载PDF
Knowledge Enhanced Pre-Training Model for Vision-Language-Navigation Task 被引量:1
19
作者 HUANG Jitao ZENG Guohui +3 位作者 HUANG Bo GAO Yongbin LIU Jin SHI Zhicai 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2021年第2期147-155,共9页
Vision-Language-Navigation(VLN) task is a cross-modality task that combines natural language processing and computer vision. This task requires the agent to automatically move to the destination according to the natur... Vision-Language-Navigation(VLN) task is a cross-modality task that combines natural language processing and computer vision. This task requires the agent to automatically move to the destination according to the natural language instruction and the observed surrounding visual information. To make the best decision, in every step during the navigation, the agent should pay more attention to understanding the objects, the object attributes, and the object relationships. But most current methods process all received textual and visual information equally. Therefore, this paper integrates more detailed semantic connections between visual and textual information through three pre-training tasks(object prediction, object attributes prediction, and object relationship prediction). The model will learn better fusion representation and alignment between these two types of information to improve the success rate(SR) and generalization. The experiments show that compared with the former baseline models, the SR on the unseen validation set(Val Unseen) increased by 7%, and the SR weighted by path length(SPL) increased by 7%;the SR on the test set(Test) increased 4%, SPL increased by 3%. 展开更多
关键词 pre-training cross-modality deep learning scene graph
原文传递
A Modified CycleGAN for Multi-Organ Ultrasound Image Enhancement via Unpaired Pre-Training 被引量:1
20
作者 Haonan Han Bingyu Yang +2 位作者 Weihang Zhang Dongwei Li Huiqi Li 《Journal of Beijing Institute of Technology》 EI CAS 2024年第3期194-203,共10页
Handheld ultrasound devices are known for their portability and affordability,making them widely utilized in underdeveloped areas and community healthcare for rapid diagnosis and early screening.However,the image qual... Handheld ultrasound devices are known for their portability and affordability,making them widely utilized in underdeveloped areas and community healthcare for rapid diagnosis and early screening.However,the image quality of handheld ultrasound devices is not always satisfactory due to the limited equipment size,which hinders accurate diagnoses by doctors.At the same time,paired ultrasound images are difficult to obtain from the clinic because imaging process is complicated.Therefore,we propose a modified cycle generative adversarial network(cycleGAN) for ultrasound image enhancement from multiple organs via unpaired pre-training.We introduce an ultrasound image pre-training method that does not require paired images,alleviating the requirement for large-scale paired datasets.We also propose an enhanced block with different structures in the pre-training and fine-tuning phases,which can help achieve the goals of different training phases.To improve the robustness of the model,we add Gaussian noise to the training images as data augmentation.Our approach is effective in obtaining the best quantitative evaluation results using a small number of parameters and less training costs to improve the quality of handheld ultrasound devices. 展开更多
关键词 ultrasound image enhancement handheld devices unpaired images pre-train and finetune cycleGAN
在线阅读 下载PDF
上一页 1 2 234 下一页 到第
使用帮助 返回顶部