期刊文献+
共找到364篇文章
< 1 2 19 >
每页显示 20 50 100
Enhanced Panoramic Image Generation with GAN and CLIP Models
1
作者 Shilong Li Qiang Zhao 《Journal of Beijing Institute of Technology》 2025年第1期91-101,共11页
Panoramic images, offering a 360-degree view, are essential in virtual reality(VR) and augmented reality(AR), enhancing realism with high-quality textures. However, acquiring complete and high-quality panoramic textur... Panoramic images, offering a 360-degree view, are essential in virtual reality(VR) and augmented reality(AR), enhancing realism with high-quality textures. However, acquiring complete and high-quality panoramic textures is challenging. This paper introduces a method using generative adversarial networks(GANs) and the contrastive language-image pretraining(CLIP) model to restore and control texture in panoramic images. The GAN model captures complex structures and maintains consistency, while CLIP enables fine-grained texture control via semantic text-image associations. GAN inversion optimizes latent codes for precise texture details. The resulting low dynamic range(LDR) images are converted to high dynamic range(HDR) using the Blender engine for seamless texture blending. Experimental results demonstrate the effectiveness and flexibility of this method in panoramic texture restoration and generation. 展开更多
关键词 panoramic images environment texture generative adversarial networks(GANs) contrastive language-image pretraining(clip)model blender engine fine-grained control texture generation
在线阅读 下载PDF
基于CLIP模型的苏丹Ⅲ染色切片扫描图像脂滴分割研究
2
作者 王子夜 汤晓蕙 +5 位作者 周兰 许春燕 周顺平 张开乔 刘方舟 周盛斌 《刑事技术》 2026年第2期121-128,共8页
组织病理学检验中苏丹Ⅲ染色可确认脂肪栓塞,其定量分级对确定死因有重要意义,但镜下人工观察定级比较依赖个人经验。为了使栓塞程度客观量化,本文探索了对肺组织苏丹Ⅲ特染切片的全视野数字图像中脂滴进行自动分割的方法。苏丹Ⅲ特染... 组织病理学检验中苏丹Ⅲ染色可确认脂肪栓塞,其定量分级对确定死因有重要意义,但镜下人工观察定级比较依赖个人经验。为了使栓塞程度客观量化,本文探索了对肺组织苏丹Ⅲ特染切片的全视野数字图像中脂滴进行自动分割的方法。苏丹Ⅲ特染切片染剂残留、脂滴染色不均、形状不一、大小差异过大等问题,容易导致误分割和分割不精确。为此,本文提出结合提示学习的对比语言-图像预训练(contrastive language-image pre-training,CLIP)模型框架进行脂滴分割:首先通过跳跃连接的方式将CLIP图像编码器输出的特征图进行融合,通过文本提示引导模型利用CLIP的先验知识精准分割脂滴;再采用dice损失函数缓解图像前景和背景不平衡的问题;最后在切片数据集上进行验证,并与U-Net、FCN8s、UNet++模型进行对比。结果表明,本文所提出的CLIP模型在特染切片图片上进行脂滴分割的效果优于所对比模型。 展开更多
关键词 法医病理学 脂肪栓塞 特殊染色 图像分割 对比语言-图像预训练(clip) 深度学习 全视野数字图像
在线阅读 下载PDF
MF-cache:用于玉米病害识别的CLIP多模态缓存模型
3
作者 孙伟 陈俊杰 《计算机工程》 北大核心 2026年第3期420-428,共9页
玉米是重要的经济作物,广泛应用于工业、畜牧业及粮油加工等领域,病害的及时识别对保障产量具有重要意义。当前,卷积神经网络(CNN)等深度学习方法已广泛应用于病害识别,但多数方法仅依赖图像信息,忽略其他模态特征,且模型参数规模较大,... 玉米是重要的经济作物,广泛应用于工业、畜牧业及粮油加工等领域,病害的及时识别对保障产量具有重要意义。当前,卷积神经网络(CNN)等深度学习方法已广泛应用于病害识别,但多数方法仅依赖图像信息,忽略其他模态特征,且模型参数规模较大,部署成本较高,限制了实际应用。为解决上述问题,提出一种基于图像-文本多模态的轻量级缓存模型MF-cache,模型参数量仅为61 000个,兼具低计算开销与较高识别精度。该模型借助多模态预训练模型CLIP提取图像与文本特征,通过并行融合策略获取融合特征,用于构建含领域知识的可学习key-value缓存结构。此外,采用加权的两阶段融合机制,用于动态调整不同模态对分类结果的贡献比例,提高分类稳定性与合理性。为增强鲁棒性,引入多种数据增强策略,提升样本多样性,缓解小样本带来的过拟合问题。在自建数据集CornI&T与公开数据集PlantVillage上的实验结果表明,该方法准确率分别达到99.72%与98.80%,具备良好的泛化性能。所提方法在保持低计算开销的同时,具备良好的识别性能,为作物病害检测提供了一种高效可行的解决方案,并展示了多模态预训练模型与小样本学习在农业智能识别领域的应用潜力。 展开更多
关键词 玉米病害识别 多模态缓存 预训练模型 clip模型 小样本
在线阅读 下载PDF
基于CLIP的无监督域适应图像分类
4
作者 丁华玲 杨欢 《计算机系统应用》 2026年第1期141-151,共11页
无监督域适应(unsupervised domain adaptation,UDA)旨在将源域中训练好的模型应用于仅有未标记数据的目标域.当前的无监督域适应方法主要通过统计差异最小化或对抗学习来对齐源域和目标域特征空间,从而学习域不变特征.然而,这些约束可... 无监督域适应(unsupervised domain adaptation,UDA)旨在将源域中训练好的模型应用于仅有未标记数据的目标域.当前的无监督域适应方法主要通过统计差异最小化或对抗学习来对齐源域和目标域特征空间,从而学习域不变特征.然而,这些约束可能导致语义特征结构的扭曲和类可辨别性的丧失.针对上述问题,本文提出一种名为DAMPL的方法.该方法利用CLIP模型注入文本描述信息,深入挖掘图像语义内容,采用针对领域特性的提示学习范式,有效保留不同域的特有信息,避免了信息丢失.此外,通过语义引导机制对目标域的伪标签进行校正,以缩小域间差异,增强模型的泛化能力.最后还引入互信息最大化损失(mutual information maximization loss,IML),以保留目标域的特征可区分性.最终DAMPL方法在Office-Home、miniDomainNet和VisDA-2017数据集上分别达到83.8%、79.7%、89.8%的分类准确率,展现了最佳的性能. 展开更多
关键词 无监督域适应 clip模型 提示学习 伪标签 互信息最大化损失
在线阅读 下载PDF
Influence of Clip Locations on Intraaneurysmal Flow Dynamics in Patient-specific Anterior Communicating Aneurysm Models with Different Aneurysmal Angle 被引量:2
5
作者 Lizhong Mu Qingzhuo Chi +2 位作者 Changjin Ji Ying He Ge Gao 《Computer Modeling in Engineering & Sciences》 SCIE EI 2018年第8期175-197,共23页
To improve aneurysm treatment,this study examined the influence of clip locations on hemodynamic factors in patient-specific anterior communicating artery(ACoA)aneurysms with different aneurysmal angle.We proposed a s... To improve aneurysm treatment,this study examined the influence of clip locations on hemodynamic factors in patient-specific anterior communicating artery(ACoA)aneurysms with different aneurysmal angle.We proposed a simplified classification of ACoA aneurysms using aneurysmal angle,defined by the angle of pivot of the aneurysmal dome and the virtual two-dimensional plane created by both proximal A2 segments of anterior cerebral artery(ACA).ACoA aneurysms with three different aneurysmal angles,which are 15°,80°and 120°,were analyzed in our study.In this work,we obtained hemodynamics before and after clipping surgery with three clip locations based on clinical clipping strategies in three ACoA aneurysms with different aneurysm angles.Results showed that local high pressure occurs at impingement region of the ACoA aneurysm before clipping and new impingement region close to the clipping location after clipping treatment.For clipping the aneurysm with aneurysmal angle 15°and a wide neck,wall shear stress(WSS)distribution is more uniform when the clipping angle of two clips close to 180°comparing with other two angles.In addition,for clipping the aneurysm with aneurysmal angle 80°and 120°,local high pressure appears on new impingement region and high WSS distributes around the clipping location when the clip plane is normal to the direction of inflow of aneurysm from the dominance of A1 segment of ACA.Hence,we should avoid the impingement of inflow from the A1 segment and choose a favorable clipping location for the fastness of clip.The results of our study could preoperatively give a useful information to the decision of surgical plan. 展开更多
关键词 Intracranial ANEURYSM ANTERIOR COMMUNICATING artery surgical clipPING treatment PATIENT-SPECIFIC model intraaneurysmal flow dynamics
在线阅读 下载PDF
混合对比学习和多视角CLIP的多模态图文情感分析 被引量:1
6
作者 叶佳乐 普园媛 +3 位作者 赵征鹏 冯珏 周联敏 谷金晶 《计算机科学》 北大核心 2025年第S1期224-230,共7页
以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联... 以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联和互补性,进而降低了情感分析的准确性。针对上述问题,文中提出了混合对比学习和多视角CLIP的多模态图文情感分析方法。具体来说,多视角CLIP特征编码模块采用CLIP对图像和文本进行联合编码表示,以提升特征的语义一致性,从图像、文本和图文交互等多个视角进行多模态情感分析。此外,通过混合对比学习模块使模型提取更具有情感特性以及有效信息的特征,提升模型的鲁棒性。其中,在图文交互时为了去除冗余信息,采用CNN和Transformer级联的融合策略,充分利用图文局部和全局信息来提高特征表示能力。最后,在3个公开数据集上进行综合实验,验证了所提方法的优越性,通过消融实验证明了所提方法各组件的有效性。 展开更多
关键词 多模态 clip 对比学习 预训练模型 情感分析
在线阅读 下载PDF
基于CLIP-LDAGV多模态信息融合的颠覆性技术主题识别研究——以新能源领域为例 被引量:4
7
作者 吕鲲 张未旭 靖继鹏 《情报学报》 北大核心 2025年第3期353-368,共16页
当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contr... 当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contrastive language-image pre-training)和LDAGV(linear discriminant analysis&global vectors for word representation)模型构建新闻文本与图像特征融合向量,通过k-means聚类迭代并结合3个颠覆性技术主题指标进行筛选,实现了多模态信息的融合以及主题的精准识别。以新能源领域为例,验证了该模型在颠覆性技术主题识别方面的可行性和有效性。与其他单一模态模型相比,多模态信息融合模型在颠覆性技术主题识别方面更具优势。 展开更多
关键词 颠覆性技术 主题识别 多模态融合 clip-LDAGV模型
在线阅读 下载PDF
Three-Dimensional Cerebral Aneurysm Models for Surgical Simulation and Education—Development of Aneurysm Models with Perforating Arteries and for Application of Fenestrated Clips
8
作者 Tatsuya Ishikawa Akio Morita +1 位作者 Takanori Fukushima Hidenori Ono 《Open Journal of Modern Neurosurgery》 2014年第2期59-63,共5页
We modified a three-dimensional cerebral aneurysm model for surgical simulation and educational demonstration. Novel models are made showing perforating arteries arising around the aneurysm. Information about perforat... We modified a three-dimensional cerebral aneurysm model for surgical simulation and educational demonstration. Novel models are made showing perforating arteries arising around the aneurysm. Information about perforating arteries is difficult to obtain from individual radiological data sets. Perforators are therefore reproduced based on previous anatomical knowledge instead of personal data. Due to their fragility, perforating arteries are attached to the model using hard materials. At the same time, hollow models are useful for practicing clip application. We made a model for practicing the application of fenestrated clips for paraclinoid internal carotid aneurysms. Situating aneurysm models in the fissure of a brain model simulates the real surgical field and is helpful for educational demonstrations. 展开更多
关键词 THREE-DIMENSIONAL Cerebral ANEURYSM model clipPING Surgery Simulation PERFORATING Artery FENESTRATED clip
暂未订购
基于CLIP模型和知识数据库的零样本动作识别 被引量:4
9
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 clip模型 知识数据库
在线阅读 下载PDF
基于CLIP多模态预训练模型的动画自动剪辑研究
10
作者 李海燕 陈新生 《佳木斯大学学报(自然科学版)》 2025年第7期137-139,136,共4页
动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态... 动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态特征对齐,实现动画帧的语义级筛选与场景分割。模型以CLIP预训练特征为基础,设计动态阈值调整策略优化帧选择精度,结合时间轴分析与视觉焦点追踪算法增强剪辑连贯性。实验结果表明,在四类典型场景(战斗、对话、风景、特写)中平均相似度达0.82,较传统关键词匹配法(KWM)与单模态CNN模型分别提升35.6%与18.3%。热力图显示其帧-文本关联精度超过90%,场景切换节奏密度曲线符合人类视觉感知规律。真实动画测试中,剪辑耗时较人工处理缩短87%,且用户满意度评分达4.6/5.0。 展开更多
关键词 clip模型 多模态学习 动画剪辑 语义对齐
在线阅读 下载PDF
基于Chinese-CLIP模型和Prompt提示机制的图文检索方法 被引量:2
11
作者 陈道彬 张子诺 +2 位作者 付裕彬 黎晋铭 林彬 《现代信息科技》 2025年第6期130-134,共5页
为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到... 为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到的文本与图像特征进行序列化,以实现多模态特征融合。模型训练时,先使用Chinese-CLIP大模型进行初步训练,再引入Prompt提示机制对模型进行微调。实验结果表明,所提方法在文搜图和图搜文两个任务上均有效地提升了准确率与召回率。 展开更多
关键词 图文检索 多模态特征融合 Chinese-clip模型 Prompt提示机制
在线阅读 下载PDF
PixCLIP:多层次特征融合的手写汉字骨架提取
12
作者 梁晓中 王涛 《计算机技术与发展》 2025年第1期21-29,共9页
针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-... 针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-Image Pre-training)的视觉Transformer分支与Pix2Pix条件生成对抗网络进行多层次特征融合,增强模型整体的全局上下文信息提取能力。对CLIP使用视觉提示微调技术(VPT),仅需微调极少数额外参数即可增强其在骨架提取任务的表现。提出多维度特征聚合(MDFA)模块,充分促进CLIP的全局特征与Pix2Pix局部特征之间多维度特征的自适应融合。引入多头注意力机制与卷积块注意力模块(CBAM),在通道和空间维度上抑制冗余信息。基于在线手写汉字数据集,构建手写汉字图像数据集用于实验。实验表明,与现有最优的骨架提取算法相比,该算法在测试数据集与真实手写汉字图像中均能更好地提取出流畅、完整的汉字骨架;在测试数据集上,此模型F1值与联合交并比(IoU)分别达到了85.62%和75.45%。 展开更多
关键词 骨架提取 条件生成对抗网络 多模态 clip模型 视觉提示微调
在线阅读 下载PDF
基于EGA-CLIP多模态大模型的轨旁电缆槽外观异常检测方法
13
作者 吴穗宁 李阳 +2 位作者 王晟 徐睿 刘佳斌 《铁路计算机应用》 2025年第11期88-93,共6页
针对铁路轨旁电缆巡检图像中存在的图像退化、可学习特征匮乏及异常样本稀少等问题,提出一种在对比语言−图像预训练(CLIP,Contrastive Language-Image Pretraining)架构中引入边缘引导注意力(EGA,Edge-Guided Attentiom)模块的多模态大... 针对铁路轨旁电缆巡检图像中存在的图像退化、可学习特征匮乏及异常样本稀少等问题,提出一种在对比语言−图像预训练(CLIP,Contrastive Language-Image Pretraining)架构中引入边缘引导注意力(EGA,Edge-Guided Attentiom)模块的多模态大模型EGA-CLIP,以及基于EGA-CLIP多模态大模型的轨旁电缆槽外观异常检测方法。设计融合限制对比度自适应直方图均衡化(CLAHE)增强、YOLO(You Only Look Once)v11定位与高斯滤波的异常检测流程,优化输入图像质量;通过多尺度融合Canny-Sobel边缘特征与视觉Transformer特征强化结构感知能力,生成异常分割图。实验结果表明,EGA-CLIP在像素级接受者操作特征曲线下面积(Pixel AUROC)、图像级接受者操作特征曲线下面积(Image AUROC)和准确率上分别达99.00%、89.52%和99.19%,优于对比模型,少样本场景泛化性强,可为铁路轨旁设备检测提供可靠方案。 展开更多
关键词 多模态大模型 轨旁电缆槽 异常检测 边缘引导注意力(EGA) 对比语言−图像预训练(clip)
在线阅读 下载PDF
基于预训练时空解耦的交通流预测模型
14
作者 李静 杜圣东 +3 位作者 史浩琛 胡节 杨燕 李天瑞 《计算机科学》 北大核心 2026年第4期155-162,共8页
交通流预测作为智慧城市动态决策的核心技术,其准确性是影响交通信号控制、路径规划和应急管理的关键。随着城市路网规模的扩大和交通数据的激增,传统方法难以对路网节点间复杂的时空交互特性进行精准建模。预训练模型虽然能进行跨领域... 交通流预测作为智慧城市动态决策的核心技术,其准确性是影响交通信号控制、路径规划和应急管理的关键。随着城市路网规模的扩大和交通数据的激增,传统方法难以对路网节点间复杂的时空交互特性进行精准建模。预训练模型虽然能进行跨领域知识迁移,但应用于交通流预测任务时,仍面临时空特征耦合所导致的建模瓶颈,以及预训练表征与交通领域特性不匹配的问题。针对上述问题,提出一种基于预训练时空解耦的交通流预测模型(PT-STD)。该方法通过时空分解模块解耦分离空间拓扑关联与多粒度时序模式的深度特征学习,进一步设计分层自适应微调策略,分阶段解冻预训练模型的归一化层与注意力参数,逐步将预训练模型中学习到的通用知识迁移到时空特性建模中。实验表明,该模型在基准数据集上展现出显著优势,而且在数据稀缺场景下的平均绝对误差可降低3.89%。 展开更多
关键词 交通流预测 时空分解 分层微调 预训练模型 城市计算
在线阅读 下载PDF
基于CLIP模型和迁移学习的遥感图像描述方法
15
作者 王振宇 万刚 王孜妍 《地理空间信息》 2025年第9期1-5,共5页
遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微... 遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微调后的视觉大模型CLIP对遥感图像进行特征编码,构建一个高效的遥感领域的视觉—语言编码器,再配合Transformer架构的解码器生成图像描述。在3个公开遥感图像描述数据集上的实验结果表明,该方法能明显提升生成图像描述语句的质量,具有一定的竞争力。 展开更多
关键词 遥感图像描述 clip模型 迁移学习 Transformer架构
在线阅读 下载PDF
基于CLIP与复杂网络理论的“四共四育”教学模式研究
16
作者 孔曼璐 《成都工业学院学报》 2025年第6期76-82,共7页
针对动画设计专业教育中个性化学习需求与教学资源适配不足的问题,提出一种融合多模态深度强化学习(MDRL)、视觉语言(CLIP)模型与复杂网络理论的自适应课程体系,并创新性设计“四共四育”教学模式。通过CLIP模型实现视觉与语言模态的高... 针对动画设计专业教育中个性化学习需求与教学资源适配不足的问题,提出一种融合多模态深度强化学习(MDRL)、视觉语言(CLIP)模型与复杂网络理论的自适应课程体系,并创新性设计“四共四育”教学模式。通过CLIP模型实现视觉与语言模态的高效融合,动态生成适配学生认知水平与兴趣的动画教学内容;结合深度强化学习的奖励机制,构建以学生为智能代理的自适应决策系统,实时优化教学策略;利用复杂网络理论分析学生行为与教学资源间的动态关联,优化资源配置。实验表明,相较于传统教学,采用该模式的实验组在学业成绩提升率、学习参与度、满意度及作品创造力评分等维度均显著优于对照组。通过多模态数据驱动与智能反馈机制,为动画教育提供了可动态调整、精准适配的解决方案,推动了教育智能化转型的理论创新与实践应用。 展开更多
关键词 自适应课程体系 多模态深度强化学习 视觉语言模型 复杂网络理论 智能教育转型
在线阅读 下载PDF
结构文本驱动的小样本专业图像检测方法
17
作者 刘磊 袁永宏 +2 位作者 何海鹏 冯瀚森 王子珺 《计算机应用研究》 北大核心 2026年第2期385-392,共8页
针对专业图像检测中良品样本占比过高、异常样本稀缺以及视觉-语言预训练模型在垂直领域表现受限的问题,提出一种结构化文本驱动的专业图像检测方法。首先,通过抖动变换与宫格增强扩充有限异常样本,并结合区域级对齐的结构化文本提升样... 针对专业图像检测中良品样本占比过高、异常样本稀缺以及视觉-语言预训练模型在垂直领域表现受限的问题,提出一种结构化文本驱动的专业图像检测方法。首先,通过抖动变换与宫格增强扩充有限异常样本,并结合区域级对齐的结构化文本提升样本“智力密度”;其次,对双向变换表征模型进行适应性改造,引入宫格图像-结构文本对比学习和联合宫格语义-空间一致性双任务,实现跨模态全局与局部特征对齐;最后,将所建模型作为大语言模型的视觉编码器,提供关键检测特征,实现专业图像检测。在ABD-AD、MVTec-AD和VisA数据集上的小样本实验结果表明,所提模型在定位和分类任务上相比现有方法提升了3.10%和3.84%,验证了结构化文本在小样本异常检测中及其在专业图像检测场景下的优越性能。 展开更多
关键词 异常检测 结构文本 视觉语言模型 小样本学习 大语言模型 深度学习
在线阅读 下载PDF
多模态信息融合下的监控视频人员身份重识别
18
作者 吴军 陈慧 +2 位作者 徐刚 赵雪梅 陈睿星 《仪器仪表学报》 北大核心 2026年第1期270-286,共17页
针对目前监控视频人员身份重识别任务难以有效应对低分辨率小目标、人员姿(形)态变化及遮挡检测问题,以YOLOv9为基础网络并结合多模态预训练神经网络(CLIP)模型提出一种多模态信息融合下的监控视频人员身份识别新方法,主要涉及两个方面... 针对目前监控视频人员身份重识别任务难以有效应对低分辨率小目标、人员姿(形)态变化及遮挡检测问题,以YOLOv9为基础网络并结合多模态预训练神经网络(CLIP)模型提出一种多模态信息融合下的监控视频人员身份识别新方法,主要涉及两个方面工作:1)通过引入感受野增强模块与可变形卷积计算提高目标人员不同姿态(形)态下的特征检测性能、引入空间增强注意力机制学习特征间的关系以恢复被遮挡人员特征、引入基于归一化高斯距离的损失度量以增强低分辨率目标人员特征检测敏感性等系列模块设计,构建网络ReID-YOLO有效增强监控视频在不同姿态、形态及低分辨率、遮挡条件下的目标人员特征检测精度、鲁棒性;2)将CLIP跨模态信息融合优势迁移到视频人员身份重识别任务并利用CLIP图像-文本信息对齐优势对前一阶段提取的人员目标特征进行身份预测,在利用ReID-YOLO人员视觉特征有效区分能力缓解CLIP全局场景过度依赖的同时,借助CLIP模型场景泛化优势有效克服YOLO系列网络在整合场景信息深入解析目标方面的不足,从而整体提高网络模型的监控视频人员身份重识别精度与场景泛化能力。在低分辨率、消融与身份重叠等条件下的实验结果表明,所提方法视频人员身份重识别性能表现出色,优于YOLO系列网络及其他7个主流的视频人员身份重识别网络模型,具有良好应用前景。 展开更多
关键词 视频监控 人员身份识别 YOLO目标检测 多模态模型clip
原文传递
跨模型协同的法律文本相关性无监督表征方法研究
19
作者 许身健 《计算机科学》 北大核心 2026年第4期356-365,共10页
法律文本表征是法律人工智能系统的基础,其质量直接影响法条预测、案例检索等下游任务。然而,法律文本在专业术语、篇章结构及推理逻辑上的复杂性,使得通用预训练模型易产生语义偏移。开源模型领域知识不足;而闭源模型虽具备较强的理解... 法律文本表征是法律人工智能系统的基础,其质量直接影响法条预测、案例检索等下游任务。然而,法律文本在专业术语、篇章结构及推理逻辑上的复杂性,使得通用预训练模型易产生语义偏移。开源模型领域知识不足;而闭源模型虽具备较强的理解能力,却难以直接复用其内部表征。针对上述问题,提出一种跨模型协同增强的法律文本表征方法(Cross-Model Collaborative Legal Representation,CMCLR),通过构建开源模型与闭源模型的协同框架,引入闭源模型的领域感知能力,以增强开源模型的法律语义建模能力。具体而言,利用闭源模型对法律文本进行动态分块与关键段落识别,提取结构化语义信息,并在协同约束下指导开源模型学习可解释、可训练的文本表征;同时,引入无监督聚类对段落级嵌入进行结构建模,以捕捉法律文本间的潜在语义关联。实验在CAIL2018法条分类数据集及其派生子集上进行,结果表明,CMCLR在CAIL2018法条分类任务上取得90.3%的准确率,较代表性基线方法提升2.4个百分点,并在不同数据规模与场景设置下均表现出良好的稳定性与泛化能力。实验结果验证了跨模型协同表征学习在法律文本深层语义建模中的有效性。 展开更多
关键词 法律文本 表征 文本相关性 法律人工智能 预训练模型 跨模型协同增强的法律文本表征方法
在线阅读 下载PDF
融合提示学习与分类确定性最大化的领域自适应
20
作者 丁美荣 卓金鑫 +1 位作者 刘庆龙 郎济聪 《郑州大学学报(理学版)》 北大核心 2026年第2期25-32,共8页
领域自适应面临现实场景复杂多变的问题,且现有的方法大多注重优化分类的一致性,而忽略了分类的确定性。针对上述问题,提出一种结合对比语言-图像预训练(constrastive language-image pre-training,CLIP)与分类确定性最大化的网络模型。... 领域自适应面临现实场景复杂多变的问题,且现有的方法大多注重优化分类的一致性,而忽略了分类的确定性。针对上述问题,提出一种结合对比语言-图像预训练(constrastive language-image pre-training,CLIP)与分类确定性最大化的网络模型。CLIP作为一个多模态预训练模型,通过对大规模的图像-文本对进行预训练,具有强大的跨域泛化能力。通过提示学习和对比学习获取CLIP模型的知识,使模型适应更多的复杂现实场景。通过分类确定性最大化的方法,采用双分类器评估分类的一致性,减少模型在推理过程中的混淆。在Office-31、Office-Home和MiniDomainNet三个领域自适应基准数据集上进行实验,结果表明,与现有的先进方法相比,所提模型在三个数据集上的图像分类精确度均有提升。 展开更多
关键词 迁移学习 图像分类 clip模型 提示学习 领域自适应 分类确定性
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部