期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
一种基于SimCSE有监督微调的跨语言专利文本表示优化方法
1
作者 王莉军 李浩天 +1 位作者 高影繁 王淑君 《情报学报》 北大核心 2025年第7期818-829,共12页
本文提出了一种跨语言专利文本表示优化方法,旨在提升中英专利文本的语义表示能力。该方法结合了SimCSE(simple contrastive sentence embeddings)对比学习算法与有监督微调策略,通过充分利用中英专利文本的平行语料数据,实现了跨语言... 本文提出了一种跨语言专利文本表示优化方法,旨在提升中英专利文本的语义表示能力。该方法结合了SimCSE(simple contrastive sentence embeddings)对比学习算法与有监督微调策略,通过充分利用中英专利文本的平行语料数据,实现了跨语言的有效文本表示。在无监督SimCSE微调的基础上,本文引入了有监督的SimCSE微调算法,以增强模型在跨语言语义理解上的表现。具体而言,本文提出了一种正负样本挖掘策略,通过分析专利文本间的引用关系构建高质量正样本集,使模型能够捕捉到更准确的跨语言语义相似性。同时,引入RetroMAE(retrieval-oriented masked auto-encoder)二次预训练模型,针对难负例的挖掘进行优化,以进一步提高模型的区分能力和泛化性能。与传统跨语言文本表示方法相比,本文方法在处理跨语言专利文本时表现出显著优势,突破了已有方法在语义对齐和区分上的局限性,为多领域跨语言专利分析提供了更加精准有效的工具。 展开更多
关键词 跨语言专利 simcse 正负例挖掘
在线阅读 下载PDF
中医古文相似度计算研究:一种以生成式AI融合领域知识的SimCSE方法
2
作者 张君冬 刘江峰 +2 位作者 邓景鹏 刘艳华 黄奇 《现代情报》 北大核心 2025年第4期49-59,共11页
[目的/意义]为构建专门适用于中医古籍文本的相似度计算模型,解决BERT在中医古籍文本上语义表征困难和数据标注成本高昂的问题。[方法/过程]本文在多个模型增量预训练的基础上,利用生成式AI生成全部任务数据,结合SimCSE方法,对比不同训... [目的/意义]为构建专门适用于中医古籍文本的相似度计算模型,解决BERT在中医古籍文本上语义表征困难和数据标注成本高昂的问题。[方法/过程]本文在多个模型增量预训练的基础上,利用生成式AI生成全部任务数据,结合SimCSE方法,对比不同训练方式、预训练模型、正负样本构造方法、正样本混合策略的作用。[结果/结论]研究结果显示,无监督学习模型性能普遍偏低,引入AI生成的正负样本对后性能明显提升。其中,使用AI构建的语义不同的、相似性较低的负样本,并与采用AI辅助的同义词替换方法构建的正样本混合而成的训练集上,TCM-Gujiroberta模型性能最佳,达到90.9%;此外,选择相似性较低的负样本并随机混合不同类型正样本的数据集可进一步提升模型性能。本研究在零样本情境下,设计出一种融合中医古籍知识的SimCSE相似度计算模型,可为古籍研究和应用提供支持,未来考虑在数据集构建策略方面进一步优化。 展开更多
关键词 中医古籍 相似度计算 预训练语言模型 simcse AIGC
在线阅读 下载PDF
面向中文临床术语标准化的ESim-SimCSE融合算法
3
作者 曹天甲 程龙龙 +3 位作者 李世锋 曹琉 崔丙剑 倪广健 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第7期751-758,共8页
临床术语的不规范性和多样性给临床数据的应用带来了困难和挑战,因此临床术语标准化工作成为一个重要的研究方向.传统机器学习标准化算法无法结合上下文捕获到隐藏的深层语义,随着计算机算力性能的大幅提升及神经网络被广泛应用于医疗... 临床术语的不规范性和多样性给临床数据的应用带来了困难和挑战,因此临床术语标准化工作成为一个重要的研究方向.传统机器学习标准化算法无法结合上下文捕获到隐藏的深层语义,随着计算机算力性能的大幅提升及神经网络被广泛应用于医疗信息处理领域,深度学习可以克服传统机器学习方法的缺点,被应用于临床术语标准化工作中.本文基于深度学习神经网络提出一种基于无监督与有监督学习融合的候选集生成方法,把候选集生成问题转换为文本相似度计算问题,运用对比学习,结合无监督学习场景ESimCSE-unsup模型和有监督学习场景SimCSE-sup模型,通过迁移学习将ESimCSE-unsup与SimCSE-sup融合形成ESim-SimCSE模型.选取SimCSEsup、SimCSE-unsup和ESimCSE-unsup 3种模型与ESim-SimCSE进行对比.实验结果显示,在CHIP-CDN2019数据集上相同召回范围下,ESim-SimCSE模型均优于其他模型,其中top k=20下,ESim-SimCSE模型计算F1得分为0.8891,比SimCSE-unsup提高了0.0459,比ESimCSE-unsup提高了0.0175,比SimCSE-sup提高了0.0107. 展开更多
关键词 临床术语标准化 候选集生成 ESim-simcse simcse Esimcse 对比学习
在线阅读 下载PDF
基于SimCSE框架融合预训练模型层级特征的文本匹配
4
作者 盛成城 陈进东 张健 《计算机系统应用》 2024年第7期103-111,共9页
SimCSE框架仅使用分类令牌[CLS]token作为文本向量,同时忽略基座模型内层级信息,导致对基座模型输出语义特征提取不充分.本文基于SimCSE框架提出一种融合预训练模型层级特征方法SimCSE-HFF(SimCSE with hierarchical feature fusion,Sim... SimCSE框架仅使用分类令牌[CLS]token作为文本向量,同时忽略基座模型内层级信息,导致对基座模型输出语义特征提取不充分.本文基于SimCSE框架提出一种融合预训练模型层级特征方法SimCSE-HFF(SimCSE with hierarchical feature fusion,SimCSE-HFF).SimCSE-HFF基于双路并行网络,使用短路径和长路径强化特征学习,短路径使用卷积神经网络学习文本局部特征并进行降维,长路径使用双向门控循环神经网络学习深度语义信息,同时在长路径中利用自编码器融合基座模型内部其他层特征,解决模型对输出特征提取不充分的问题.在STS-B的中文与英文数据集上,SimCSE-HFF方法效果在语义相似度Spearman和Pearson相关性指标上优于传统方法,在不同预训练模型上均得到提升;在下游任务检索问答上也优于SimCSE框架,具有更优秀的通用性. 展开更多
关键词 文本匹配 simcse 特征融合 自编码器 并行网络
在线阅读 下载PDF
基于SimCSE的疾病知识图谱问答系统 被引量:2
5
作者 郝慧斌 《电脑与信息技术》 2023年第2期97-100,共4页
系统以疾病为中心的知识图谱为基础,构建问答系统,以帮助用户能够在线实时得到医疗问题的解答。将传统意图识别的分类任务转化为语义相似度计算任务,使用基于对比学习的SimCSE (Simple Contrastive Learning of Sentence Embeddings)模... 系统以疾病为中心的知识图谱为基础,构建问答系统,以帮助用户能够在线实时得到医疗问题的解答。将传统意图识别的分类任务转化为语义相似度计算任务,使用基于对比学习的SimCSE (Simple Contrastive Learning of Sentence Embeddings)模型进行微调,通过对比损失,得到更有区分度的语义向量表示,进而更准确识别用户意图。系统将SimCSE应用到疾病知识图谱问答系统领域中,并通过实验结果分析SimCSE与传统分类模型的性能,验证了SimCSE更适合完成意图识别任务,最终该系统回答准确率达到96.1%。 展开更多
关键词 对比学习 simcse 意图识别 语义相似度 问答系统
在线阅读 下载PDF
STK:基于对比学习嵌入的聚类方法 被引量:1
6
作者 刘晋霞 张曦 《计算机科学》 CSCD 北大核心 2024年第S02期621-626,共6页
SimCSE作为一种对比学习方法,在文本嵌入和聚类中表现出了良好的性能。文中旨在优化SimCSE训练模型生成的句子嵌入使其适用于聚类任务,通过多个算法组合和训练参数调整,解决聚类算法选择、噪声及异常值的影响等问题。文中提出一种联合K... SimCSE作为一种对比学习方法,在文本嵌入和聚类中表现出了良好的性能。文中旨在优化SimCSE训练模型生成的句子嵌入使其适用于聚类任务,通过多个算法组合和训练参数调整,解决聚类算法选择、噪声及异常值的影响等问题。文中提出一种联合KL散度和KMeans算法的无监督聚类模型STK(SimCSE t-SNE KMeans),使用SimCSE对文本进行编码;随后采用t-SNE算法对高维嵌入进行降维,通过最小化KL散度保留低维空间中高维数据点之间的相似性关系,降维的同时改善文本嵌入表示;最后使用KMeans算法对降维后的嵌入进行聚类,得到聚类结果。通过将本研究的聚类结果与Bert,UMAP,HDBSCAN等算法得到的结果进行比较,发现文中提出的模型在制氢领域专利和论文数据集上表现出更好的聚类效果,尤其在轮廓系数这一评价指标上。 展开更多
关键词 simcse 句嵌入 KL散度 聚类 轮廓系数
在线阅读 下载PDF
融合语义解释和DeBERTa的极短文本层次分类 被引量:1
7
作者 陈昊飏 张雷 《计算机科学》 CSCD 北大核心 2024年第5期250-257,共8页
文本层次分类在社交评论主题分类、搜索词分类等场景中有重要应用,这些场景的数据往往具有极短文本特征,体现在信息的稀疏性、敏感性等中,这对模型特征表示和分类性能带来了很大挑战,而层次标签空间的复杂性和关联性使得难度进一步加剧... 文本层次分类在社交评论主题分类、搜索词分类等场景中有重要应用,这些场景的数据往往具有极短文本特征,体现在信息的稀疏性、敏感性等中,这对模型特征表示和分类性能带来了很大挑战,而层次标签空间的复杂性和关联性使得难度进一步加剧。基于此,提出了一种融合语义解释和DeBERTa模型的方法,该方法的核心思想在于:引入具体语境下各个字词或词组的语义解释,补充优化模型获取的内容信息;结合DeBERTa模型的注意力解耦机制与增强掩码解码器,以更好地把握位置信息、提高特征提取能力。所提方法首先对训练文本进行语法分词、词性标注,再构造GlossDeBERTa模型进行高准确率的语义消歧,获得语义解释序列;然后利用SimCSE框架使解释序列向量化,以更好地表征解释序列中的句子信息;最后训练文本经过DeBERTa模型神经网络后,得到原始文本的特征向量表示,再与解释序列中的对应特征向量相加,传入多分类器。实验遴选短文本层次分类数据集TREC中的极短文本部分,并进行数据扩充,最终得到的数据集平均长度为12词。多组对比实验表明,所提出的融合语义解释的DeBERTa模型性能最为优秀,在验证集和测试集上的Accuracy值、F1-micro值、F1-macro值相比其他算法模型有较大的提升,能够很好地应对极短文本层次分类任务。 展开更多
关键词 极短文本 层次分类 语义解释 DeBERTa GlossDeBERTa simcse
在线阅读 下载PDF
基于对比学习和预训练模型的临床诊断标准化 被引量:1
8
作者 刘莹 崔丙剑 +1 位作者 曹琉 程龙龙 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第5期23-28,共6页
针对临床诊断标准化任务中存在的标准诊断词库规模大、文本相关性不显著且标准词个数不确定的问题,提出一种基于对比学习和预训练模型的临床诊断标准化方法.先用无监督和有监督相结合的方法对基于简单对比学习的句子嵌入(SimCSE)模型进... 针对临床诊断标准化任务中存在的标准诊断词库规模大、文本相关性不显著且标准词个数不确定的问题,提出一种基于对比学习和预训练模型的临床诊断标准化方法.先用无监督和有监督相结合的方法对基于简单对比学习的句子嵌入(SimCSE)模型进行训练,并利用得到的模型从标准库中召回候选标准词,再利用基于转换器的双向编码表征(BERT)进行候选词重排序和标准词个数分类,最终得到标准化结果.实验结果表明:基于无监督和有监督相结合的SimCSE方法的召回率为86.76%,显著优于其他方法;在重排序和标准词个数分类任务中,相比于其他模型,BERT在多个指标上有明显提升;该方法在测试集上进行标准词预测的F1值达到72.54%,在临床诊断标准化中具有较好的表现. 展开更多
关键词 临床诊断标准化 对比学习 预训练模型 基于简单对比学习的句子嵌入(simcse) 基于转换器的双向编码表征(BERT)
原文传递
基于深度学习的科学数据集检索方法研究 被引量:21
9
作者 罗鹏程 王继民 +3 位作者 王世奇 郭鑫 高正 赵常煜 《情报理论与实践》 CSSCI 北大核心 2022年第7期49-56,共8页
[目的/意义]为了支撑数据驱动研究范式,促进科学数据的共享与利用,提高数据仓储和发现平台中数据集检索功能的效果。[方法/过程]将科学数据集检索过程分为候选数据集检索和候选数据集重排序两个主要阶段:在第一阶段,将BM25模型与基于Sim... [目的/意义]为了支撑数据驱动研究范式,促进科学数据的共享与利用,提高数据仓储和发现平台中数据集检索功能的效果。[方法/过程]将科学数据集检索过程分为候选数据集检索和候选数据集重排序两个主要阶段:在第一阶段,将BM25模型与基于SimCSE的稠密检索模型结合,获取潜在的相关数据集;在第二阶段,基于BERT排序模型对候选数据集的相关性进行评分,据此优化检索结果排序。[结果/结论]从国内外13个人文社科相关的科学数据仓储平台采集约10万数据集的元数据进行检索实验和效果评价,结果表明:提出的检索模型效果最优,其NDCG@10的得分分别高于基准的向量空间和BM25模型23.6和11.7个百分点;对各模型检索结果分析发现,该模型相比基准模型具有更强的语义检索能力;此外,还对模型权重设置进行分析,可为实践应用中的参数设置提供参考。[局限]仅在英文人文社科数据集上进行模型效果验证。 展开更多
关键词 信息检索 数据集搜索 科学数据 神经网络 学习排序 BERT simcse
原文传递
基于Bi-LSTM网络机制的自然语言自动化对标系统设计
10
作者 祝婕 刘敏娜 《自动化与仪器仪表》 2023年第5期134-138,共5页
针对CNAS评审现场不符合项自动化对标研究,设计一种基于Bi-LSTM网络机制的自然语言自动化对标系统,用于辅助评审员现场对不符合项对标的工作。首先,阐述了Bi-LSTM的基本原理和网络框架,并引入embedding与Attention层对其网络结构进行优... 针对CNAS评审现场不符合项自动化对标研究,设计一种基于Bi-LSTM网络机制的自然语言自动化对标系统,用于辅助评审员现场对不符合项对标的工作。首先,阐述了Bi-LSTM的基本原理和网络框架,并引入embedding与Attention层对其网络结构进行优化;然后引入了SimCSE无监督模式,以及采用同义词替换的方法对数据集进行增强和扩充;根据CNAS实验室评审常见不符合项构建语料库,并对其进行预处理和分词,紧接着训练数据集和评价网络模型,最后通过实验与传统的DSSM、SVM模型进行对比,实验结果表明:基于Bi-LSTM网络机制模型的训练、检索耗时为三个模型中最短,且从准确率折线图中可以看出,本研究设计的模型准确率高达85.5%,同时随着数据量的不断增加,准确率还能继续提高。因此,本研究设计的模型性能效果最佳。 展开更多
关键词 Bi-LSTM EMBEDDING ATTENTION simcse 不符合项自动化对标
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部