期刊文献+
共找到544篇文章
< 1 2 28 >
每页显示 20 50 100
Human Nail Clippings as a Source of DNA for Genetic Studies 被引量:2
1
作者 Le Truong Hannah Lui Park +5 位作者 Seong Sil Chang Argyrios Ziogas Susan L. Neuhausen Sophia S. Wang Leslie Bernstein Hoda Anton-Culver 《Open Journal of Epidemiology》 2015年第1期41-50,共10页
Blood samples have traditionally been used as the main source of DNA for genetic analysis. How-ever, this source can be difficult in terms of collection, transportation, and long-term storage. In this study, we invest... Blood samples have traditionally been used as the main source of DNA for genetic analysis. How-ever, this source can be difficult in terms of collection, transportation, and long-term storage. In this study, we investigated whether human nail clippings could be used as a source of DNA for SNP genotyping, null-allele detection, and whole-genome amplification. From extracted nail DNA, we achieved amplicons up to a length of ~400 bp and >96% concordance for SNP genotyping and 100% concordance for null-allele detection compared to DNA derived from matched blood sam-ples. For whole-genome amplification, OmniPlex performed better than Multiple Displacement Amplification with a success rate of 89.3% and 76.8% for SNP genotyping and null-allele detection, respectively. Concordance was ~98% for both methods. When combined with OmniPlex whole-genome amplification, human nail clippings could potentially be used as an alternative to whole blood as a less invasive and more convenient source of DNA for genotyping studies. 展开更多
关键词 Single NUCLEOTIDE POLYMORPHISM (SNP) NAIL clippings GENOTYPING WHOLE Genome Amplification (WGA)
暂未订购
基于图像-文本大模型CLIP微调的零样本参考图像分割 被引量:3
2
作者 刘杰 乔文昇 +2 位作者 朱佩佩 雷印杰 王紫轩 《计算机应用研究》 北大核心 2025年第4期1248-1254,共7页
近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点... 近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点的空间位置信息。鉴于此,以CLIP为基础模型,提出了一种单阶段、细粒度、多层次的零样本参考图像分割模型PixelCLIP。具体地,采取了多尺度的图像特征融合,既聚集CLIP中不同视觉编码器提取的图像像素级特征,同时又考虑CLIP中固有的图像整体语义特征。在文本信息表征上,不但依靠CLIP-BERT来保持物体种类信息,还引入LLaVA大语言模型进一步注入上下文背景知识。最后,PixelCLIP通过细粒度跨模态关联匹配,实现像素水平的参考图像分割。充分的数值分析结果验证了该方法的有效性。 展开更多
关键词 零样本 CLIP 像素级 单阶段 参考图像分割
在线阅读 下载PDF
多芯片整体式Clip互连碳化硅功率模块反向耦合低感封装方法 被引量:1
3
作者 张彤宇 王来利 +2 位作者 苗昱 裴云庆 甘永梅 《电工技术学报》 北大核心 2025年第16期5106-5118,共13页
碳化硅功率器件凭借其优异的性能,成为传统硅器件有力的竞争者。然而,在封装过程中,因键合线以及引出端子等引入的额外寄生电感,致使封装后的碳化硅功率模块会产生较大的开关过冲与振荡,进而难以体现其理论上的优越性。为此,该文提出一... 碳化硅功率器件凭借其优异的性能,成为传统硅器件有力的竞争者。然而,在封装过程中,因键合线以及引出端子等引入的额外寄生电感,致使封装后的碳化硅功率模块会产生较大的开关过冲与振荡,进而难以体现其理论上的优越性。为此,该文提出一种具有极低电感的多芯片整体式Clip互连碳化硅功率模块封装方法,将功率模块内部键合铝线替换成Clip互连,并通过规划陶瓷基板布局,使Clip电流流向与陶瓷基板线路电流相反,利用电流反向耦合效应降低功率模块内部寄生电感。同时,利用电容直连结构消除外部回路寄生电感。经仿真得到的功率模块内部寄生电感为3.8 nH,功率回路电感为5.0 nH。实验测试得到1 200 V/600 A样机功率回路电感为4.53 nH,换流回路总电感5.87 nH,与传统布局功率模块相比电感降低了44.6%。 展开更多
关键词 碳化硅功率模块 寄生电感 整体式Clip互连 反向耦合 换流回路
在线阅读 下载PDF
基于跨模态对比学习的常识问答模型
4
作者 王元龙 刘亭华 张虎 《计算机应用》 北大核心 2025年第3期732-738,共7页
常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,... 常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。 展开更多
关键词 智能问答 常识问答 对比学习 跨模态常识 CLIP
在线阅读 下载PDF
多尺度感知的单文本条件图像风格迁移
5
作者 贵向泉 李琪 +2 位作者 李立 张继续 张斌轩 《计算机技术与发展》 2025年第9期46-54,共9页
针对现有图像风格迁移方法生成图像质量不均匀、风格化效果不平衡等问题,提出一种基于CLIP的多尺度感知单文本条件融合的图像风格迁移模型─CLIP-TextFusion。该模型充分利用CLIP的文本─图像对齐能力,无需依赖目标风格图像,仅通过文本... 针对现有图像风格迁移方法生成图像质量不均匀、风格化效果不平衡等问题,提出一种基于CLIP的多尺度感知单文本条件融合的图像风格迁移模型─CLIP-TextFusion。该模型充分利用CLIP的文本─图像对齐能力,无需依赖目标风格图像,仅通过文本描述即可生成与目标风格匹配的图像。模型设计了特征提取与增强网络FENet,结合编码器、多尺度感知解码器以及通道注意力和空间注意力机制,动态调整特征权重和多尺度特征融合,实现内容图像细节的高效保留与风格纹理的精准传递。为进一步优化风格迁移效果,模型引入定向CLIP损失、多尺度感知损失、风格特征提取损失及对抗性损失,分别约束生成图像与文本描述的全局风格一致性、局部细节匹配度以及视觉真实性。实验结果表明,CLIP-TextFusion生成的图像风格鲜明、纹理细腻,在视觉效果和风格一致性上优于现有方法,能够广泛应用于艺术创作和个性化图像生成等领域。 展开更多
关键词 文本引导 图像风格迁移 CLIP模型 多尺度感知 特征提取与增强
在线阅读 下载PDF
多领域多模态融合网络的虚假新闻检测 被引量:1
6
作者 焦世明 于凯 《计算机工程与应用》 北大核心 2025年第11期238-248,共11页
公众能够从互联网快速获取海量有价值的信息,但也为虚假新闻的广泛和迅速传播提供了便利。因此,在社交媒体上发现并标记出虚假新闻变得非常重要,快速准确地识别出虚假新闻能够有效防止负面网络舆情的形成,减少不良社会影响。在现有虚假... 公众能够从互联网快速获取海量有价值的信息,但也为虚假新闻的广泛和迅速传播提供了便利。因此,在社交媒体上发现并标记出虚假新闻变得非常重要,快速准确地识别出虚假新闻能够有效防止负面网络舆情的形成,减少不良社会影响。在现有虚假新闻识别研究基础上,构建了多领域多模态融合网络虚假新闻检测模型(DMMFN)。DMMFN模型中使用了BERT模型将虚假新闻的文本内容转换为文本向量,使用CLIP提取图片特征信息,考虑文本与图像相关性与交互性,建立一个多模态融合网络,组成的两个联合矩阵促进不同模态之间的信息交互和融合。引入一个多领域分类器,让不同事件的多模态特征可以映射到同一个特征空间中。在Twitter和Weibo数据集中测试了模型的性能,实验结果证明,DMMFN模型在accuracy、precision和F1分数上均优于SIMPLE、CCD等基线模型。 展开更多
关键词 虚假新闻 BERT CLIP 多模态融合 多领域分类
在线阅读 下载PDF
基于目标语义提示与双注意力感知的遥感图像文本检索方法
7
作者 田澍 张秉熙 +5 位作者 曹林 邢相薇 田菁 沈博 杜康宁 张晔 《电子与信息学报》 北大核心 2025年第6期1734-1746,共13页
高分辨率遥感图像场景复杂、语义信息丰富多样且目标尺度多变,容易引起特征空间中不同类别目标的图像特征分布混淆,导致模型难以高效捕获遥感目标文本语义与图像特征的潜在关联,进而影响遥感图像文本检索的精度。针对这一问题,该文提出... 高分辨率遥感图像场景复杂、语义信息丰富多样且目标尺度多变,容易引起特征空间中不同类别目标的图像特征分布混淆,导致模型难以高效捕获遥感目标文本语义与图像特征的潜在关联,进而影响遥感图像文本检索的精度。针对这一问题,该文提出基于目标语义提示与双注意力感知的遥感图像文本检索方法。该方法首先引入空间-通道协同注意力,利用空间-通道维度注意权重交互捕捉图像全局上下文特征。同时,为了实现遥感图像显著目标信息的多粒度精准表征,模型通过所构建的基于自适应显著性区域目标感知注意力机制,通过动态多尺度目标特征加权聚合,提升对目标局部区域显著性特征聚焦响应。此外,该文设计了目标类别概率先验引导策略,对文本描述进行目标类别语义词频统计,以获取高概率先验目标语义信息,进而指导在跨模态共性嵌入空间中的图像特征聚类,最终实现高效准确的图像-文本特征对齐。该方法在RSICD与RSITMD两组遥感图像文本检索基准数据集上开展实验评估。结果表明,所设计的方法在检索精度指标上展现出了卓越的性能优势。 展开更多
关键词 遥感图像 跨模态 图像文本检索 CLIP 空间通道注意力
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:2
8
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 CLIP模型 知识数据库
在线阅读 下载PDF
混合对比学习和多视角CLIP的多模态图文情感分析
9
作者 叶佳乐 普园媛 +3 位作者 赵征鹏 冯珏 周联敏 谷金晶 《计算机科学》 北大核心 2025年第S1期224-230,共7页
以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联... 以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联和互补性,进而降低了情感分析的准确性。针对上述问题,文中提出了混合对比学习和多视角CLIP的多模态图文情感分析方法。具体来说,多视角CLIP特征编码模块采用CLIP对图像和文本进行联合编码表示,以提升特征的语义一致性,从图像、文本和图文交互等多个视角进行多模态情感分析。此外,通过混合对比学习模块使模型提取更具有情感特性以及有效信息的特征,提升模型的鲁棒性。其中,在图文交互时为了去除冗余信息,采用CNN和Transformer级联的融合策略,充分利用图文局部和全局信息来提高特征表示能力。最后,在3个公开数据集上进行综合实验,验证了所提方法的优越性,通过消融实验证明了所提方法各组件的有效性。 展开更多
关键词 多模态 CLIP 对比学习 预训练模型 情感分析
在线阅读 下载PDF
3种CLIP结构域丝氨酸蛋白酶在埃及伊蚊先天免疫中的功能
10
作者 常梦荷 刘焱晖 +3 位作者 殷雅楠 王娜 郭莹莹 韩谦 《中国热带医学》 北大核心 2025年第8期1042-1048,共7页
目的探究埃及伊蚊CLIP家族中的3种CLIP结构域丝氨酸蛋白酶Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在蚊虫免疫中发挥的作用,初步验证这些蛋白质之间是否存在相互作用。方法使用MEGA 11及ESPript 3.0对Ae-5575351、Ae-CLIPB15、Ae-CLIPB36和... 目的探究埃及伊蚊CLIP家族中的3种CLIP结构域丝氨酸蛋白酶Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在蚊虫免疫中发挥的作用,初步验证这些蛋白质之间是否存在相互作用。方法使用MEGA 11及ESPript 3.0对Ae-5575351、Ae-CLIPB15、Ae-CLIPB36和其他昆虫中的CLIP行多重序列比对。使用酵母双杂交验证Ae-5575351与Ae-CLIPB15、Ae-CLIPB36之间的蛋白互作关系。使用实时荧光定量PCR构建Ae-5575351、Ae-CLIPB15与Ae-CLIPB36的时空表达谱。通过RNA干扰与病原体侵染实验探究Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在埃及伊蚊抵御细菌与真菌感染过程中的发挥的功能,以及对Toll通路与IMD通路的影响。最后通过酚氧化酶(phenoloxidases,PO)活性测定探究Ae-5575351、Ae-CLIPB15、Ae-CLIPB36对黑化级联反应的影响。结果Ae-5575351、Ae-CLIPB15、Ae-CLIPB36与其他昆虫中的CLIP相比存在高度保守性,三者在埃及伊蚊的马氏管、唾液腺和血淋巴中均有较高的表达量,并且主要在埃及伊蚊发育的中后期进行表达。Ae-5575351分别与Ae-CLIPB15、Ae-CLIPB36存在蛋白层面的互作。金黄色葡萄球菌与大肠埃希菌感染可诱导Ae-5575351、Ae-CLIPB15、Ae-CLIPB36的表达升高。Ae-5575351、Ae-CLIPB15、Ae-CLIPB36在埃及伊蚊幼虫抗球孢白僵菌与金黄色葡萄球菌感染的过程中,对转录因子REL1、REL2的表达量进行调控。Ae-CLIPB15、Ae-CLIPB36的敲低显著降低了埃及伊蚊PO的酶活。结论Ae-5575351、Ae-CLIPB15、Ae-CLIPB36通过调节Toll通路、IMD通路及黑化级联反应来影响埃及伊蚊抗细菌与真菌感染的能力,并且Ae-5575351与Ae-CLIPB15、Ae-CLIPB36之间可能存在着一定的互作关系。 展开更多
关键词 埃及伊蚊 先天免疫 CLIP结构域丝氨酸蛋白酶 RNA干扰
原文传递
融合外部知识增强多模态命名实体识别
11
作者 马裕鹏 张明 +1 位作者 李志强 高梓灵 《计算机工程与应用》 北大核心 2025年第23期195-204,共10页
多模态命名实体识别(multi-modalnamedentityrecognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。(2)... 多模态命名实体识别(multi-modalnamedentityrecognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。(2)难以实现不同模态之间的高效语义交互。因此,提出了一种融合外部知识增强多模态命名实体识别模型。在模态表示阶段,该模型引入CLIP(contrastivelanguage-imagepre-training)模型,利用模型中蕴含的文本和图像先验跨模态知识信息,增强文本和图像的语义表示,弥补模态鸿沟。在模态融合阶段,设计了跨模态交叉注意力机制和跨模态门控机制实现模态信息融合,有效排除图像中的噪声信息,进一步增强语义交互;采用条件随机场(CRF)实现命名实体的识别。所提出的方法在公开数据集Twitter2015和Twitter2017上的F1值分别达到了75.35%和86.18%,证明了该方法的有效性。 展开更多
关键词 多模态命名实体识别(MNER) CLIP模型 跨模态交叉注意力机制 跨模态门控机制 条件随机场(CRF)
在线阅读 下载PDF
基于位置前馈和平均教师的图像描述生成算法
12
作者 陈铄 张娟 《东华大学学报(自然科学版)》 北大核心 2025年第2期206-214,共9页
图像描述生成算法是计算机视觉中的关键环节,旨在从给定的输入图像中预测相关文本信息,以实现对图像内容的准确理解与表达。提出一种借鉴平均教师算法的模型,并采用独特的双分支网络架构。为提升模型准确性与稳定性,在每个分支中引入位... 图像描述生成算法是计算机视觉中的关键环节,旨在从给定的输入图像中预测相关文本信息,以实现对图像内容的准确理解与表达。提出一种借鉴平均教师算法的模型,并采用独特的双分支网络架构。为提升模型准确性与稳定性,在每个分支中引入位置前馈块。在图像特征提取方面,运用对比语言图像预训练(CLIP)方法,以获取图像的多层次特征,从而更好地捕捉图像的语义信息。在描述生成阶段,通过映射网络将图像特征转化为文本信息,进而利用GPT-2技术来提升预测的准确度与语义的连贯性。为验证模型性能,在Microsoft common objects in context(MSCOCO)和Flickr30k等图像描述数据集上进行充分的训练与测试。测试结果显示所提模型在两个数据集上均表现出色,证实其在图像描述生成任务中的高效性与实用性。研究为图像描述生成领域提供了新的思路与方法,具有深远的理论与实践意义。 展开更多
关键词 平均教师 位置前馈 CLIP 图像描述生成 GPT-2
在线阅读 下载PDF
基于CLIP和占用网络的文本到3D形状生成方法研究
13
作者 袁康 王旭智 +2 位作者 万旺根 孙学涛 张振 《工业控制计算机》 2025年第7期94-95,100,共3页
使用自然语言生成形状可以使我们想象和创造周围事物的方式焕然一新。由于缺乏大规模配对的文本和形状数据,文本到形状的生成仍然是一个具有挑战性的问题。利用两阶段的特征空间对齐策略,利用图像作为桥梁,弥合了文本与形状模态之间的鸿... 使用自然语言生成形状可以使我们想象和创造周围事物的方式焕然一新。由于缺乏大规模配对的文本和形状数据,文本到形状的生成仍然是一个具有挑战性的问题。利用两阶段的特征空间对齐策略,利用图像作为桥梁,弥合了文本与形状模态之间的鸿沟,从而能够在无需成对的文本和3D数据的情况下生成3D形状。在ISS模型基础上引入了占用网络,细化从图像特征空间到形状空间的映射,增强了形状细节。然后,将CLIP文本特征映射到形状空间,并通过促进输入文本与渲染图像之间的CLIP一致性来优化映射。与现有方法相比,该方法在生成质量和与输入文本的一致性方面得到了显著提升。 展开更多
关键词 文本到3D形状生成 CLIP 占用网络 多模态对齐
在线阅读 下载PDF
大语言模型知识引导的开放域多标签动作识别
14
作者 朱荣江 石语珩 +2 位作者 杨硕 王子奕 吴心筱 《计算机研究与发展》 北大核心 2025年第8期1875-1883,共9页
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了... 开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法.该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本动作类别(base action classes)与新动作类别(novel action classes)之间的信息传递,从而提升新类别的识别性能.在实验中将基本动作类别和新动作类别的比例设置为3∶1和1∶1,分别表示为“75%可见”和“50%可见”.在AVA和Movie Net数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在2个数据集的新动作类别识别指标m AP上分别提升了1.95个百分点和1.21个百分点;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标m AP上分别提升了2.59个百分点和1.06个百分点. 展开更多
关键词 开放域动作识别 多标签分类 提示学习 大语言模型 CLIP模型
在线阅读 下载PDF
基于CLIP和多模态掩码提示学习的面部动作单元识别
15
作者 唐佩 李健 +2 位作者 陈海丰 施展 王浩淼 《软件工程》 2025年第6期13-18,共6页
随着情感分析需求的日益增长,面部动作单元(Action Unit,AU)识别作为情感计算的基础任务备受关注。尽管深度神经网络在AU识别方面取得一定的进展,但是其依赖大规模、精确标注的数据集。然而,数据标注过程耗时、成本高且易出错,限制了AU... 随着情感分析需求的日益增长,面部动作单元(Action Unit,AU)识别作为情感计算的基础任务备受关注。尽管深度神经网络在AU识别方面取得一定的进展,但是其依赖大规模、精确标注的数据集。然而,数据标注过程耗时、成本高且易出错,限制了AU识别性能。近年来,CLIP模型在下游任务中表现出优异的识别和泛化能力。针对AU识别中标注数据稀缺的难题,提出一种基于CLIP和多模态掩码提示学习的AU识别方法。通过设计多模态共享的AU提示(AU-prompt)和注意力掩码,结合局部细节和全局特征,实现了更有效的AU识别。实验结果表明,在BP4D和DISFA数据集上,该方法获得的F1均值分别为63.2%和64.6%,证明了模型的有效性。 展开更多
关键词 情感计算 面部动作单元 CLIP 提示学习 注意力掩码
在线阅读 下载PDF
基于提示词优化的AIGC辅助产品设计方法研究
16
作者 吴京 王沈策 牛虹苏 《包装工程》 北大核心 2025年第16期186-201,共16页
目的针对AIGC技术在产品设计中存在的需求形式化困难、方案质量不稳定及评估标准不完善等问题,探索构建面向产品的生成式人工智能(AIGC)辅助设计方法论。方法构建一种基于提示词优化的AIGC辅助产品设计(POA)框架,通过需求分析、概念生... 目的针对AIGC技术在产品设计中存在的需求形式化困难、方案质量不稳定及评估标准不完善等问题,探索构建面向产品的生成式人工智能(AIGC)辅助设计方法论。方法构建一种基于提示词优化的AIGC辅助产品设计(POA)框架,通过需求分析、概念生成和方案评价的协同迭代提升AIGC辅助设计的质量。首先,基于主成分分析(PCA)的多源数据分析实现设计需求形式化表达,提取外观特征、动力性能等关键主成分;其次,基于对比语言-图像预训练(CLIP)模型构建“基础描述+功能约束+风格定义”的分层提示词架构,通过定向优化与结构化重构提升生成质量;最后,运用改进的属性层次模型-逼近理想解排序法(AHM-TOPSIS)多准则决策方法,建立包含人机工程学、材料选用等多维度量化评估体系。结果以手持式旋耕机设计为例进行验证,结果表明相较于单纯AIGC方法,本文提出的POA方法在需求分析、概念方案生成和迭代优化等方面表现出显著改进且整体设计周期显著缩短,方案创新性和用户满意度均有所提升。结论所提出的基于提示词优化的AIGC辅助产品设计方法,通过需求结构化表达、方案优化及多准则决策,实现了AIGC技术在产品设计领域的标准化应用,为人工智能辅助设计提供新的理论框架与技术路径。 展开更多
关键词 生成式人工智能(AIGC) 提示词优化 CLIP对比语言-图像预训练模型 手持式旋耕机
在线阅读 下载PDF
基于扩散模型结合改进后变分自编码器的文本图像生成算法
17
作者 薛皓元 杜洪波 朱立军 《电子科技》 2025年第10期19-26,共8页
针对目前扩散模型采样速度慢且耗费算力大等问题,文中基于现行主流算法提出了一种新型文本图像生成模型RDM(Rapid Diffusion Model)。使用改进后的变分自编码器(Variational Auto-Encoder,VAE)学习样本数据的潜在特征,在潜在空间训练数... 针对目前扩散模型采样速度慢且耗费算力大等问题,文中基于现行主流算法提出了一种新型文本图像生成模型RDM(Rapid Diffusion Model)。使用改进后的变分自编码器(Variational Auto-Encoder,VAE)学习样本数据的潜在特征,在潜在空间训练数据,不仅降低了模型计算复杂度,还有效保留了图像的细节特征,并可对图像不同通道施以不同关注。使用CLIP(Contrastive Language-Image Pre-training)中的文本编码器提取文本特征,将其作为算法的文本条件。Rapid Diffusion模型在数据集FFHQ(Flickr-Faces-Hight-Quality)和CelebA-HQ上分别进行定性和定量分析实验。FID(Fréchet Inception Distance)和IS(Inception Score)的评价指标以及生成结果表明,所提算法均优于ControlGAN(Generative Adversarial Network)、DDPM(Denoising Diffusion Probabilistic Model)文本图像生成算法,且生成图像具有更丰富的光影细节与色彩搭配,时间复杂度也有所降低。 展开更多
关键词 文本图像生成 扩散模型 变分自编码器 CLIP 深度学习 高斯噪声 图像处理 神经网络
在线阅读 下载PDF
基于多层级视觉-语言投影与语义引导的行人重识别方法
18
作者 邱子阳 雷印杰 《电子制作》 2025年第7期44-50,共7页
行人重识别技术在智能安防领域具有巨大的应用潜力。针对目前行人图像中语义信息没有被充分利用的问题,提出了一种多层级视觉-语言投影与语义引导的行人重识别方法。该方法分为两个阶段,在第一阶段,固定图像编码器和文本编码器,首先通... 行人重识别技术在智能安防领域具有巨大的应用潜力。针对目前行人图像中语义信息没有被充分利用的问题,提出了一种多层级视觉-语言投影与语义引导的行人重识别方法。该方法分为两个阶段,在第一阶段,固定图像编码器和文本编码器,首先通过一个轻量级网络为每张图像生成元标记来优化文本可学习提示向量,使得模型能够针对每个独立的身份标识(ID)生成具有区分性的文本描述;之后通过多层级视觉-语言投影模块加强多模态提示之间的协同作用,增强泛化能力。在第二阶段,固定编码器与文本提示,同时提出了语义引导模块,利用文本特征来指导视觉特征的表示,从而增强模型对身份特征的识别能力。本文模型在Market1501数据集上mAP和Rank-1达到了90.1%和95.8%,在DukeMTMC-reID数据集上,mAP和Rank-1达到82.8%和90.1%,实验结果证明了方法的有效性。 展开更多
关键词 行人重识别 CLIP 提示学习 多模态
在线阅读 下载PDF
基于联合微调CLIP和Fastspeech2的盲文图像-语音生成
19
作者 孙恩威 徐春 《计算机时代》 2025年第5期28-34,39,共8页
为提升视障人士的阅读效率,构建了一种适用于中文语言场景下的盲文图像-语音转换框架:CLIPViT-H/14-KNN-FastSpeech2。采取先独立预训练再联合微调的策略:首先,将中文CLIP和FastSpeech2文本转语音模型在公开数据集中分别预训练并验证其... 为提升视障人士的阅读效率,构建了一种适用于中文语言场景下的盲文图像-语音转换框架:CLIPViT-H/14-KNN-FastSpeech2。采取先独立预训练再联合微调的策略:首先,将中文CLIP和FastSpeech2文本转语音模型在公开数据集中分别预训练并验证其收敛性;然后,在此基础上利用盲文图像数据集进行联合微调。实验结果表明:模型在PER等指标上均有所提高,验证了模型在有限数据下仍具备合成高质量语音的能力以及联合训练策略的有效性。 展开更多
关键词 盲文图像 图像-语音转换 CLIP Fastspeech2 联合微调
在线阅读 下载PDF
基于CLIP多模态预训练模型的动画自动剪辑研究
20
作者 李海燕 陈新生 《佳木斯大学学报(自然科学版)》 2025年第7期137-139,136,共4页
动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态... 动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态特征对齐,实现动画帧的语义级筛选与场景分割。模型以CLIP预训练特征为基础,设计动态阈值调整策略优化帧选择精度,结合时间轴分析与视觉焦点追踪算法增强剪辑连贯性。实验结果表明,在四类典型场景(战斗、对话、风景、特写)中平均相似度达0.82,较传统关键词匹配法(KWM)与单模态CNN模型分别提升35.6%与18.3%。热力图显示其帧-文本关联精度超过90%,场景切换节奏密度曲线符合人类视觉感知规律。真实动画测试中,剪辑耗时较人工处理缩短87%,且用户满意度评分达4.6/5.0。 展开更多
关键词 CLIP模型 多模态学习 动画剪辑 语义对齐
在线阅读 下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部