期刊文献+
共找到328篇文章
< 1 2 17 >
每页显示 20 50 100
Enhanced Panoramic Image Generation with GAN and CLIP Models
1
作者 Shilong Li Qiang Zhao 《Journal of Beijing Institute of Technology》 2025年第1期91-101,共11页
Panoramic images, offering a 360-degree view, are essential in virtual reality(VR) and augmented reality(AR), enhancing realism with high-quality textures. However, acquiring complete and high-quality panoramic textur... Panoramic images, offering a 360-degree view, are essential in virtual reality(VR) and augmented reality(AR), enhancing realism with high-quality textures. However, acquiring complete and high-quality panoramic textures is challenging. This paper introduces a method using generative adversarial networks(GANs) and the contrastive language-image pretraining(CLIP) model to restore and control texture in panoramic images. The GAN model captures complex structures and maintains consistency, while CLIP enables fine-grained texture control via semantic text-image associations. GAN inversion optimizes latent codes for precise texture details. The resulting low dynamic range(LDR) images are converted to high dynamic range(HDR) using the Blender engine for seamless texture blending. Experimental results demonstrate the effectiveness and flexibility of this method in panoramic texture restoration and generation. 展开更多
关键词 panoramic images environment texture generative adversarial networks(GANs) contrastive language-image pretraining(clip)model blender engine fine-grained control texture generation
在线阅读 下载PDF
基于CLIP-LDAGV多模态信息融合的颠覆性技术主题识别研究——以新能源领域为例 被引量:2
2
作者 吕鲲 张未旭 靖继鹏 《情报学报》 北大核心 2025年第3期353-368,共16页
当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contr... 当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contrastive language-image pre-training)和LDAGV(linear discriminant analysis&global vectors for word representation)模型构建新闻文本与图像特征融合向量,通过k-means聚类迭代并结合3个颠覆性技术主题指标进行筛选,实现了多模态信息的融合以及主题的精准识别。以新能源领域为例,验证了该模型在颠覆性技术主题识别方面的可行性和有效性。与其他单一模态模型相比,多模态信息融合模型在颠覆性技术主题识别方面更具优势。 展开更多
关键词 颠覆性技术 主题识别 多模态融合 clip-LDAGV模型
在线阅读 下载PDF
混合对比学习和多视角CLIP的多模态图文情感分析
3
作者 叶佳乐 普园媛 +3 位作者 赵征鹏 冯珏 周联敏 谷金晶 《计算机科学》 北大核心 2025年第S1期224-230,共7页
以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联... 以往的多模态图文情感分析模型大多采用不同的编码器结构分别对图像和文本进行特征编码,重点关注探索不同的模态特征融合方法来实现情感分析。但由于独立提取的特征具有语义空间差异性,在交互时无法有效地捕捉到不同特征之间的语义关联和互补性,进而降低了情感分析的准确性。针对上述问题,文中提出了混合对比学习和多视角CLIP的多模态图文情感分析方法。具体来说,多视角CLIP特征编码模块采用CLIP对图像和文本进行联合编码表示,以提升特征的语义一致性,从图像、文本和图文交互等多个视角进行多模态情感分析。此外,通过混合对比学习模块使模型提取更具有情感特性以及有效信息的特征,提升模型的鲁棒性。其中,在图文交互时为了去除冗余信息,采用CNN和Transformer级联的融合策略,充分利用图文局部和全局信息来提高特征表示能力。最后,在3个公开数据集上进行综合实验,验证了所提方法的优越性,通过消融实验证明了所提方法各组件的有效性。 展开更多
关键词 多模态 clip 对比学习 预训练模型 情感分析
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:2
4
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 clip模型 知识数据库
在线阅读 下载PDF
基于CLIP多模态预训练模型的动画自动剪辑研究
5
作者 李海燕 陈新生 《佳木斯大学学报(自然科学版)》 2025年第7期137-139,136,共4页
动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态... 动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态特征对齐,实现动画帧的语义级筛选与场景分割。模型以CLIP预训练特征为基础,设计动态阈值调整策略优化帧选择精度,结合时间轴分析与视觉焦点追踪算法增强剪辑连贯性。实验结果表明,在四类典型场景(战斗、对话、风景、特写)中平均相似度达0.82,较传统关键词匹配法(KWM)与单模态CNN模型分别提升35.6%与18.3%。热力图显示其帧-文本关联精度超过90%,场景切换节奏密度曲线符合人类视觉感知规律。真实动画测试中,剪辑耗时较人工处理缩短87%,且用户满意度评分达4.6/5.0。 展开更多
关键词 clip模型 多模态学习 动画剪辑 语义对齐
在线阅读 下载PDF
PixCLIP:多层次特征融合的手写汉字骨架提取
6
作者 梁晓中 王涛 《计算机技术与发展》 2025年第1期21-29,共9页
针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-... 针对现有的手写汉字骨架提取算法存在的汉字骨架提取不完全、笔画交叉处畸变、笔画断裂等问题,提出一种多层次特征融合与多维度上下文信息增强的手写汉字骨架提取算法,记为PixCLIP。该算法将多模态预训练模型CLIP(Contrastive Language-Image Pre-training)的视觉Transformer分支与Pix2Pix条件生成对抗网络进行多层次特征融合,增强模型整体的全局上下文信息提取能力。对CLIP使用视觉提示微调技术(VPT),仅需微调极少数额外参数即可增强其在骨架提取任务的表现。提出多维度特征聚合(MDFA)模块,充分促进CLIP的全局特征与Pix2Pix局部特征之间多维度特征的自适应融合。引入多头注意力机制与卷积块注意力模块(CBAM),在通道和空间维度上抑制冗余信息。基于在线手写汉字数据集,构建手写汉字图像数据集用于实验。实验表明,与现有最优的骨架提取算法相比,该算法在测试数据集与真实手写汉字图像中均能更好地提取出流畅、完整的汉字骨架;在测试数据集上,此模型F1值与联合交并比(IoU)分别达到了85.62%和75.45%。 展开更多
关键词 骨架提取 条件生成对抗网络 多模态 clip模型 视觉提示微调
在线阅读 下载PDF
基于Chinese-CLIP模型和Prompt提示机制的图文检索方法 被引量:1
7
作者 陈道彬 张子诺 +2 位作者 付裕彬 黎晋铭 林彬 《现代信息科技》 2025年第6期130-134,共5页
为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到... 为提升图像文本匹配任务的准确率,提出了一种基于Chinese-CLIP模型和Prompt提示机制的图文检索方法。一方面,对文本数据进行预处理,去除停用词和标点符号后,利用BERT模型提取文本特征;另一方面,使用卷积神经网络提取图像特征,并将得到的文本与图像特征进行序列化,以实现多模态特征融合。模型训练时,先使用Chinese-CLIP大模型进行初步训练,再引入Prompt提示机制对模型进行微调。实验结果表明,所提方法在文搜图和图搜文两个任务上均有效地提升了准确率与召回率。 展开更多
关键词 图文检索 多模态特征融合 Chinese-clip模型 Prompt提示机制
在线阅读 下载PDF
基于CLIP模型和迁移学习的遥感图像描述方法
8
作者 王振宇 万刚 王孜妍 《地理空间信息》 2025年第9期1-5,共5页
遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微... 遥感图像描述是指根据遥感图像生成合理化的自然语言描述,是计算机视觉、自然语言处理之间的交叉领域任务。该任务针对不同类型的地物需要大量异质的图像和描述文本。为降低对数据、计算资源的需求,提出了一种遥感图像描述方法,利用微调后的视觉大模型CLIP对遥感图像进行特征编码,构建一个高效的遥感领域的视觉—语言编码器,再配合Transformer架构的解码器生成图像描述。在3个公开遥感图像描述数据集上的实验结果表明,该方法能明显提升生成图像描述语句的质量,具有一定的竞争力。 展开更多
关键词 遥感图像描述 clip模型 迁移学习 Transformer架构
在线阅读 下载PDF
基于CLIP和交叉注意力的多模态情感分析模型 被引量:1
9
作者 陈燕 赖宇斌 +2 位作者 肖澳 廖宇翔 陈宁江 《郑州大学学报(工学版)》 CAS 北大核心 2024年第2期42-50,共9页
针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提... 针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。 展开更多
关键词 情感分析 多模态学习 交叉注意力 clip模型 TRANSFORMER 特征融合
在线阅读 下载PDF
Influence of Clip Locations on Intraaneurysmal Flow Dynamics in Patient-specific Anterior Communicating Aneurysm Models with Different Aneurysmal Angle 被引量:2
10
作者 Lizhong Mu Qingzhuo Chi +2 位作者 Changjin Ji Ying He Ge Gao 《Computer Modeling in Engineering & Sciences》 SCIE EI 2018年第8期175-197,共23页
To improve aneurysm treatment,this study examined the influence of clip locations on hemodynamic factors in patient-specific anterior communicating artery(ACoA)aneurysms with different aneurysmal angle.We proposed a s... To improve aneurysm treatment,this study examined the influence of clip locations on hemodynamic factors in patient-specific anterior communicating artery(ACoA)aneurysms with different aneurysmal angle.We proposed a simplified classification of ACoA aneurysms using aneurysmal angle,defined by the angle of pivot of the aneurysmal dome and the virtual two-dimensional plane created by both proximal A2 segments of anterior cerebral artery(ACA).ACoA aneurysms with three different aneurysmal angles,which are 15°,80°and 120°,were analyzed in our study.In this work,we obtained hemodynamics before and after clipping surgery with three clip locations based on clinical clipping strategies in three ACoA aneurysms with different aneurysm angles.Results showed that local high pressure occurs at impingement region of the ACoA aneurysm before clipping and new impingement region close to the clipping location after clipping treatment.For clipping the aneurysm with aneurysmal angle 15°and a wide neck,wall shear stress(WSS)distribution is more uniform when the clipping angle of two clips close to 180°comparing with other two angles.In addition,for clipping the aneurysm with aneurysmal angle 80°and 120°,local high pressure appears on new impingement region and high WSS distributes around the clipping location when the clip plane is normal to the direction of inflow of aneurysm from the dominance of A1 segment of ACA.Hence,we should avoid the impingement of inflow from the A1 segment and choose a favorable clipping location for the fastness of clip.The results of our study could preoperatively give a useful information to the decision of surgical plan. 展开更多
关键词 Intracranial ANEURYSM ANTERIOR COMMUNICATING artery surgical clipPING treatment PATIENT-SPECIFIC model intraaneurysmal flow dynamics
在线阅读 下载PDF
基于CLIP和双空间自适应归一化的图像翻译 被引量:3
11
作者 李田芳 普园媛 +2 位作者 赵征鹏 徐丹 钱文华 《计算机工程》 CAS CSCD 北大核心 2024年第5期229-240,共12页
现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习... 现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习语言-图像预训练(CLIP)的无监督图像翻译模型。首先,引入CLIP相似性损失对图像的风格特征施加约束,以在不使用数据集域标签的情况下增强模型传递图像风格信息的能力和准确性;其次,对自适应实例归一化(AdaIN)进行改进,设计一个新的双空间自适应归一化(DSAdaIN)模块,在特征的风格化阶段添加网络的学习和自适应交互过程,以加强对内容源域信息的保留;最后,设计一个鉴别器对比损失来平衡对抗网络损失的训练和优化过程。在多个公开数据集上的实验结果表明,与Star GANv2、Style DIS等模型相比,该模型可在准确传递图像风格信息的同时保留一定的源域信息,且在定量评估指标FID分数和KID分数上分别提升了近3.35和0.57×102,实现了较好的图像翻译性能。 展开更多
关键词 图像翻译 生成对抗网络 对比学习语言-图像预训练模型 自适应实例归一化 对比学习
在线阅读 下载PDF
RoBGP:A Chinese Nested Biomedical Named Entity Recognition Model Based on RoBERTa and Global Pointer 被引量:3
12
作者 Xiaohui Cui Chao Song +4 位作者 Dongmei Li Xiaolong Qu Jiao Long Yu Yang Hanchao Zhang 《Computers, Materials & Continua》 SCIE EI 2024年第3期3603-3618,共16页
Named Entity Recognition(NER)stands as a fundamental task within the field of biomedical text mining,aiming to extract specific types of entities such as genes,proteins,and diseases from complex biomedical texts and c... Named Entity Recognition(NER)stands as a fundamental task within the field of biomedical text mining,aiming to extract specific types of entities such as genes,proteins,and diseases from complex biomedical texts and categorize them into predefined entity types.This process can provide basic support for the automatic construction of knowledge bases.In contrast to general texts,biomedical texts frequently contain numerous nested entities and local dependencies among these entities,presenting significant challenges to prevailing NER models.To address these issues,we propose a novel Chinese nested biomedical NER model based on RoBERTa and Global Pointer(RoBGP).Our model initially utilizes the RoBERTa-wwm-ext-large pretrained language model to dynamically generate word-level initial vectors.It then incorporates a Bidirectional Long Short-Term Memory network for capturing bidirectional semantic information,effectively addressing the issue of long-distance dependencies.Furthermore,the Global Pointer model is employed to comprehensively recognize all nested entities in the text.We conduct extensive experiments on the Chinese medical dataset CMeEE and the results demonstrate the superior performance of RoBGP over several baseline models.This research confirms the effectiveness of RoBGP in Chinese biomedical NER,providing reliable technical support for biomedical information extraction and knowledge base construction. 展开更多
关键词 BIOMEDICINE knowledge base named entity recognition pretrained language model global pointer
在线阅读 下载PDF
Three-Dimensional Cerebral Aneurysm Models for Surgical Simulation and Education—Development of Aneurysm Models with Perforating Arteries and for Application of Fenestrated Clips
13
作者 Tatsuya Ishikawa Akio Morita +1 位作者 Takanori Fukushima Hidenori Ono 《Open Journal of Modern Neurosurgery》 2014年第2期59-63,共5页
We modified a three-dimensional cerebral aneurysm model for surgical simulation and educational demonstration. Novel models are made showing perforating arteries arising around the aneurysm. Information about perforat... We modified a three-dimensional cerebral aneurysm model for surgical simulation and educational demonstration. Novel models are made showing perforating arteries arising around the aneurysm. Information about perforating arteries is difficult to obtain from individual radiological data sets. Perforators are therefore reproduced based on previous anatomical knowledge instead of personal data. Due to their fragility, perforating arteries are attached to the model using hard materials. At the same time, hollow models are useful for practicing clip application. We made a model for practicing the application of fenestrated clips for paraclinoid internal carotid aneurysms. Situating aneurysm models in the fissure of a brain model simulates the real surgical field and is helpful for educational demonstrations. 展开更多
关键词 THREE-DIMENSIONAL Cerebral ANEURYSM model clipPING Surgery Simulation PERFORATING Artery FENESTRATED clip
暂未订购
PAL-BERT:An Improved Question Answering Model
14
作者 Wenfeng Zheng Siyu Lu +3 位作者 Zhuohang Cai Ruiyang Wang Lei Wang Lirong Yin 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第6期2729-2745,共17页
In the field of natural language processing(NLP),there have been various pre-training language models in recent years,with question answering systems gaining significant attention.However,as algorithms,data,and comput... In the field of natural language processing(NLP),there have been various pre-training language models in recent years,with question answering systems gaining significant attention.However,as algorithms,data,and computing power advance,the issue of increasingly larger models and a growing number of parameters has surfaced.Consequently,model training has become more costly and less efficient.To enhance the efficiency and accuracy of the training process while reducing themodel volume,this paper proposes a first-order pruningmodel PAL-BERT based on the ALBERT model according to the characteristics of question-answering(QA)system and language model.Firstly,a first-order network pruning method based on the ALBERT model is designed,and the PAL-BERT model is formed.Then,the parameter optimization strategy of the PAL-BERT model is formulated,and the Mish function was used as an activation function instead of ReLU to improve the performance.Finally,after comparison experiments with traditional deep learning models TextCNN and BiLSTM,it is confirmed that PALBERT is a pruning model compression method that can significantly reduce training time and optimize training efficiency.Compared with traditional models,PAL-BERT significantly improves the NLP task’s performance. 展开更多
关键词 PAL-BERT question answering model pretraining language models ALBERT pruning model network pruning TextCNN BiLSTM
在线阅读 下载PDF
基于情感隐空间学习与CLIP模型的身体动作情感识别方法
15
作者 罗红 慎煜杰 +1 位作者 陈娟娟 王丹 《计算机应用》 CSCD 北大核心 2024年第S2期44-49,共6页
身体动作情感识别的关键是提取人物身体动作蕴含的情感特征。针对现有模型情感特征学习能力较差且情感识别精度难以提升的问题,提出一种基于情感隐空间学习与对比语言-图像预训练(CLIP)模型的身体动作情感识别方法。首先,引入CLIP模型,... 身体动作情感识别的关键是提取人物身体动作蕴含的情感特征。针对现有模型情感特征学习能力较差且情感识别精度难以提升的问题,提出一种基于情感隐空间学习与对比语言-图像预训练(CLIP)模型的身体动作情感识别方法。首先,引入CLIP模型,从而增强模型的情感特征学习能力。其次,针对细粒度多标签情感分类任务,提出情感隐空间学习(ELSL)方法。该方法能通过学习情感隐空间向各个子空间的判别映射,在各个情感子空间上捕获情感类别之间的细微差异和对各情感类别的分类有益的特征信息。在面向真实世界开放场景的肢体语言数据集(BoLD)上的实验结果表明,所提方法充分利用了CLIP模型与隐空间学习在特征学习上的优势,取得了显著的性能提升。具体地,相较于运动分析网络(MANet),所提方法的平均精度均值(mAP)提高了1.08个百分点,平均受试者工作特征曲线下方面积(mRA)提高了1.32个百分点。 展开更多
关键词 身体动作情感识别 对比语言-图像预训练模型 隐空间学习 提示学习 多标签分类
在线阅读 下载PDF
Classification of Conversational Sentences Using an Ensemble Pre-Trained Language Model with the Fine-Tuned Parameter
16
作者 R.Sujatha K.Nimala 《Computers, Materials & Continua》 SCIE EI 2024年第2期1669-1686,共18页
Sentence classification is the process of categorizing a sentence based on the context of the sentence.Sentence categorization requires more semantic highlights than other tasks,such as dependence parsing,which requir... Sentence classification is the process of categorizing a sentence based on the context of the sentence.Sentence categorization requires more semantic highlights than other tasks,such as dependence parsing,which requires more syntactic elements.Most existing strategies focus on the general semantics of a conversation without involving the context of the sentence,recognizing the progress and comparing impacts.An ensemble pre-trained language model was taken up here to classify the conversation sentences from the conversation corpus.The conversational sentences are classified into four categories:information,question,directive,and commission.These classification label sequences are for analyzing the conversation progress and predicting the pecking order of the conversation.Ensemble of Bidirectional Encoder for Representation of Transformer(BERT),Robustly Optimized BERT pretraining Approach(RoBERTa),Generative Pre-Trained Transformer(GPT),DistilBERT and Generalized Autoregressive Pretraining for Language Understanding(XLNet)models are trained on conversation corpus with hyperparameters.Hyperparameter tuning approach is carried out for better performance on sentence classification.This Ensemble of Pre-trained Language Models with a Hyperparameter Tuning(EPLM-HT)system is trained on an annotated conversation dataset.The proposed approach outperformed compared to the base BERT,GPT,DistilBERT and XLNet transformer models.The proposed ensemble model with the fine-tuned parameters achieved an F1_score of 0.88. 展开更多
关键词 Bidirectional encoder for representation of transformer conversation ensemble model fine-tuning generalized autoregressive pretraining for language understanding generative pre-trained transformer hyperparameter tuning natural language processing robustly optimized BERT pretraining approach sentence classification transformer models
在线阅读 下载PDF
CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval
17
作者 Tao Zhang Yu Zhang 《Journal of Computer and Communications》 2024年第11期26-36,共11页
Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval per... Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval performance, as it determines the quality of the visual content representation. Traditional sampling methods, such as uniform sampling and optical flow-based techniques, often fail to capture the full semantic range of videos, leading to redundancy and inefficiencies. In this work, we propose CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval, a global semantics-guided multi-granularity frame sampling strategy designed to optimize both computational efficiency and retrieval accuracy. By integrating multi-scale global and local temporal sampling and leveraging the CLIP (Contrastive Language-Image Pre-training) model’s powerful feature extraction capabilities, our method significantly outperforms existing approaches in both zero-shot and fine-tuned video-text retrieval tasks on popular datasets. CLIP4Video-Sampling reduces redundancy, ensures keyframe coverage, and serves as an adaptable pre-processing module for multimodal models. 展开更多
关键词 Video Sampling Multimodal Large Language model Text-Video Retrieval clip model
在线阅读 下载PDF
低资源条件下的藏语语音情感识别 被引量:1
18
作者 张维昭 李皓渊 杨鸿武 《信号处理》 北大核心 2025年第9期1558-1569,共12页
近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提... 近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提取与增强、人工标注与校对等步骤,初步构建了藏语情感语音数据集(Tibetan Emotion Speech Dataset-2500,TESD-2500)。该数据集涵盖四种情感类型(生气、悲伤、高兴和中性),共包含2500个语音样本,情感类别与样本数量仍在持续扩充中。然后,设计了一种融合交叉注意力与协同注意力机制的多特征融合语音情感识别模型,采用双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)对梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)进行时序建模,以提取语音信号中的动态时序表征;利用AlexNet提取语谱图的时频特征,以捕获语音信号的时频联合分布模式,并通过交叉注意力机制计算上述两类异构特征间的相关性权重;引入大规模预训练模型WavLM提取语音信号的深层特征,并以前述交叉注意力计算的结果作为权重向量,通过协同注意力机制对深层特征进行加权重构;将MFCC时序特征、语谱图时频特征和加权的预训练模型深层特征拼接成多层次特征融合表示,通过全连接层映射至情感类别空间,完成藏语语音情感分类任务。最终实验结果表明,所提出的模型在TESD-2500数据集上取得了76.56%的加权准确率和75.42%的未加权准确率,显著优于基线模型。本文还在IEMOCAP和EmoDB数据集上进行了模型泛化能力测试,在IEMOCAP上达到了74.27%的加权准确率和73.60%的未加权准确率,在EmoDB上达到了92.61%的加权准确率和91.68%的未加权准确率。本文的研究方法与结果亦可为其他低资源语言的语音情感识别研究提供参考。 展开更多
关键词 语音情感识别 低资源 多特征融合 预训练模型 藏语
在线阅读 下载PDF
一种针对混合频谱噪声的主动减振技术
19
作者 钟志 牛国标 +1 位作者 刘磊 单明广 《实验技术与管理》 北大核心 2025年第6期46-54,共9页
在船舶、海洋工程装备等领域,振动噪声工况呈现出复杂的宽-窄带复合噪声的特点。以往主动控制技术只针对单一类型的噪声进行消减,导致整体减振效果不佳。为解决上述问题,设计了一种能够消减宽-窄带复合噪声的混合频谱主动减振(MSN-HVNC... 在船舶、海洋工程装备等领域,振动噪声工况呈现出复杂的宽-窄带复合噪声的特点。以往主动控制技术只针对单一类型的噪声进行消减,导致整体减振效果不佳。为解决上述问题,设计了一种能够消减宽-窄带复合噪声的混合频谱主动减振(MSN-HVNC)算法,并在X型小浮筏配机实验平台进行实验验证。MSN-HVNC算法由窄带噪声控制子系统(NBCS)和宽带噪声控制子系统(WBCS)两个子系统组成,两者协同完成对混合频谱噪声的消减。其中,WBCS采用含有预训练的选择系数模型的滤波x最小均方(FxLMS)算法,来完成宽带噪声消减;NBCS采用自适应陷波技术,对能量集中的窄带线谱噪声进行消减。用减振后的残余振动噪声来衡量减振水平,并作为误差信号更新控制器权重。最后,用X型小浮筏配机结构来搭建实验平台,完成振动噪声的主动控制实验。结果表明,MSN-HVNC算法对单频窄带振动噪声在50、75 Hz工况下的平均减振效果分别为23.6、21.3 dB;MSN-HVNC算法对模拟多源耦合振动场景下,混合激励振动信号的平均减振效果为12.4 dB,均优于传统控制算法,对宽-窄带复合的混合频谱噪声具有良好的消减效果。 展开更多
关键词 主动控制 混合频谱噪声 预训练模型 协同控制
在线阅读 下载PDF
Model Builder在可再生能源规划设计平台的应用
20
作者 付佳珂 《中国高新科技》 2024年第10期83-85,共3页
文章在风能资源规划设计平台中,基于ArcGISDesktop中的ModelBuilder(模型构建器)将单一多样的地理处理工具组合成复杂的空间数据处理工作流,并以GP服务提供给前端进行调用,实现了栅格数据按风资源规划选址的优选区域进行实时裁剪并进行... 文章在风能资源规划设计平台中,基于ArcGISDesktop中的ModelBuilder(模型构建器)将单一多样的地理处理工具组合成复杂的空间数据处理工作流,并以GP服务提供给前端进行调用,实现了栅格数据按风资源规划选址的优选区域进行实时裁剪并进行Web端渲染可视化。同时,按范围批量提取了风资源相关栅格数据(如WeibullA、风功率密度),用于风机布置优化迭代接口进行运算。此方法便于修改、复用和扩展,验证了模型构建器作为一种用于建立地理处理流程的图形编程语言在能源规划设计平台应用的可能性。 展开更多
关键词 ArcGIS model Builder 栅格数据 裁剪 能源规划设计
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部