期刊文献+
共找到309篇文章
< 1 2 16 >
每页显示 20 50 100
融合预训练和双级元蒸馏的医学短文本分类方法
1
作者 廖列法 姜炫至 《计算机工程与应用》 北大核心 2025年第8期117-125,共9页
为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta di... 为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta distillation model)。PTMD针对医学文本的多标签问题,通过对比训练对RoBERTa预训练方法进行微调,再由双向内置注意力简单循环单元充分获取语义信息。最后在传统蒸馏模型的基础上融合元学习和助教的思想,通过教学实验和双级模型等方法,提高模型的教学水平,最终在减少训练成本的基础上得到一个高性能医学文本分类模型。实验结果表明,教师模型在CHIP2019评测三数据集上的F1值达到了85.47%,同时学生模型在F1值损失1.45个百分点的情况下,将模型规模缩小到教师模型的近1/6,效果高于大多数传统预训练模型和知识蒸馏模型,证明了该模型具有良好的实用价值。 展开更多
关键词 文本分类 预训练模型 知识蒸馏
在线阅读 下载PDF
深层语义特征增强的ReLM中文拼写纠错模型
2
作者 张伟 牛家祥 +1 位作者 马继超 沈琼霞 《计算机应用》 北大核心 2025年第8期2484-2490,共7页
ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分... ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分离卷积(DSC)技术融合特征提取模型BGE(BAAI General Embeddings)生成的深层语义特征与ReLM生成的整体特征,从而有效提升模型对复杂上下文的解析力和拼写错误的识别纠正精度。首先,在Wang271K数据集上训练FeReLM,使模型持续学习句子中的深层语义和复杂表达;其次,迁移训练好的权重,从而将模型学习到的知识应用于新的数据集并进行微调。实验结果表明,在ECSpell和MCSC数据集上与ReLM、MCRSpell(Metric learning of Correct Representation for Chinese Spelling Correction)和RSpell(Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check)等模型相比,FeReLM的精确率、召回率、F1分数等关键指标的提升幅度可达0.6~28.7个百分点。此外,通过消融实验验证了所提方法的有效性。 展开更多
关键词 自然语言处理 特征增强 中文拼写纠错 语义融合 文本纠错 预训练语言模型
在线阅读 下载PDF
基于交替语言数据重构方法的跨语言文本相似度模型
3
作者 王轶 王坤宁 刘铭 《吉林大学学报(理学版)》 北大核心 2025年第2期551-558,共8页
针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重... 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本. 展开更多
关键词 mBERT模型 文本相似度 多语言预训练模型 大模型微调
在线阅读 下载PDF
KAACNN:融合知识图谱和预训练模型的短文本多标签分类方法
4
作者 陶冶 徐锴 +2 位作者 刘天宇 鲁超峰 王浩杰 《中文信息学报》 北大核心 2025年第3期96-106,共11页
短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训... 短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。 展开更多
关键词 知识图谱 注意力机制 预训练语言模型 数据增强 短文本分类
在线阅读 下载PDF
大模型增强的跨模态图文检索方法 被引量:1
5
作者 罗文培 黄德根 《小型微型计算机系统》 北大核心 2025年第7期1544-1553,共10页
在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-... 在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-图像数据作为预训练数据;其次,提出了一种两阶段训练方法,结合了知识蒸馏和对比学习,在该文产出的数据集上进行训练,从而进一步提升模型性能.提出的模型在包括COCO-CN和Flickr30K-CN在内的中文文本-图像检索数据集上取得了SOTA. 展开更多
关键词 图像-文本检索 预训练 知识蒸馏 对比学习
在线阅读 下载PDF
基于词向量模型的短文本分类方法研究综述 被引量:1
6
作者 李晨 刘纳 +2 位作者 郑国风 杨杰 道路 《南京师范大学学报(工程技术版)》 2025年第2期54-68,共15页
生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采... 生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采用的词向量模型,从传统词向量模型和预训练词向量模型来分析主流词向量模型在短文本分类领域的研究现状,简要梳理了词向量模型的发展进程,介绍了词向量模型在短文本分类领域的具体应用,分析了其优缺点,给出了后词向量时代的短文本分类的发展展望,最后探讨了当前词向量模型在短文本分类中存在的局限性及未来的发展方向. 展开更多
关键词 文本挖掘 词向量 短文本分类 预训练模型
在线阅读 下载PDF
古书正文中反映先秦至西汉各地方言词语例说
7
作者 孙玉文 《汉字汉语研究》 2025年第2期42-63,126,127,共24页
除了扬雄《方言》,西汉以前古书反映先秦至西汉方言词语主要有三种类型:(一)文献原文直接说某词语是方言词语;(二)有的古书更多的是写书人直接采用他的一些方言词语入文;(三)写书人在上下文中根据情境或表达的需要,多采各地有方言的特... 除了扬雄《方言》,西汉以前古书反映先秦至西汉方言词语主要有三种类型:(一)文献原文直接说某词语是方言词语;(二)有的古书更多的是写书人直接采用他的一些方言词语入文;(三)写书人在上下文中根据情境或表达的需要,多采各地有方言的特色用词写进去,不直接说是用方言词。今人研究汉语词汇史时常常忽略最后一种反映先秦至西汉的方言词语。本文重点研究最后一种类型,据实例探讨提取之法,尝试提取一些方言词语,揭示这项研究的研究意义、价值。 展开更多
关键词 古书正文 提取 先秦至西汉 方言词语
在线阅读 下载PDF
基于特征融合结合注意力机制的藏文文本分类模型 被引量:1
8
作者 冯宇舒 艾金勇 李爽 《科技创新与应用》 2025年第10期61-65,共5页
由于藏语与汉语、英语在语法结构和词汇特点上的差异,传统的文本分类方法在藏文上的应用面临挑战。为此,该文提出一种基于多特征融合与注意力机制的藏文文本分类模型,该模型结合CINO、TextCNN和BiLSTM模型的优势。实验结果表明,该文提... 由于藏语与汉语、英语在语法结构和词汇特点上的差异,传统的文本分类方法在藏文上的应用面临挑战。为此,该文提出一种基于多特征融合与注意力机制的藏文文本分类模型,该模型结合CINO、TextCNN和BiLSTM模型的优势。实验结果表明,该文提出的模型在公开数据集TNCC上的F1值为73.09%,在自建数据集TiTCD上的F1值为80.97%。因此,该模型能够较好地捕捉到藏文文本语义,在藏文文本分类任务上性能有所提升。 展开更多
关键词 藏文文本分类 预训练语言模型 多特征融合 注意力机制 文本分类方法
在线阅读 下载PDF
基于预训练表示和宽度学习的虚假新闻早期检测 被引量:2
9
作者 胡舜邦 王琳 刘伍颖 《郑州大学学报(理学版)》 CAS 北大核心 2025年第2期31-36,共6页
为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习... 为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习的特征节点和增强节点中,利用宽度学习的特征节点和增强节点进一步提取新闻文本的线性和非线性特征并构造分类器,从而预测新闻的真实性。最后,在3个真实数据集上进行了对比实验,结果表明,所提方法可以在4 h内检测出虚假新闻,准确率超过80%,优于基线方法。 展开更多
关键词 早期检测 虚假新闻 预训练表示 宽度学习 文本分类
在线阅读 下载PDF
基于BERT和白化矩阵的相似编程题目推荐
10
作者 张思赟 柴春来 +2 位作者 叶航 于晓 陈东烁 《计算机应用》 北大核心 2025年第S1期43-48,共6页
目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本... 目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本和标签信息融合和BERT白化的长短期记忆网络(TLFBW-LSTM)。首先,利用白化技术优化BERT(Bidirectional Encoder Representations from Transformers)模型生成的词向量;其次,利用孪生网络结构和注意力机制分别融合不同题目的文本和标签数据;最后,设置全连接层计算相似程度。此外,通过动态词向量优化和标签嵌入的方式,增强模型对相似题目的识别能力。在力扣的编程题库数据集上的实验结果表明,动态词向量和异构数据的加入能够有效提高模型对相似题目判断的准确率,与Sentence-BERT和DenoSent方法相比,TLFBW-LSTM的准确率提升了13.41%和13.62%,验证了TLFBW-LSTM的有效性。 展开更多
关键词 推荐 异构数据 预训练模型 白化 文本相似度
在线阅读 下载PDF
基于路径和增强三元组文本的开放世界知识推理模型
11
作者 王利琴 耿智雷 +2 位作者 李英双 董永峰 边萌 《计算机应用》 北大核心 2025年第4期1177-1183,共7页
传统的基于表示学习的知识推理方法只能用于封闭世界的知识推理,有效进行开放世界的知识推理是目前的热点问题。因此,提出一种基于路径和增强三元组文本的开放世界知识推理模型PEOR(Path and Enhanced triplet text for Open world know... 传统的基于表示学习的知识推理方法只能用于封闭世界的知识推理,有效进行开放世界的知识推理是目前的热点问题。因此,提出一种基于路径和增强三元组文本的开放世界知识推理模型PEOR(Path and Enhanced triplet text for Open world knowledge Reasoning)。首先,使用由实体对间结构生成的多条路径和单个实体周围结构生成的增强三元组,其中路径文本通过拼接路径中的三元组文本得到,而增强三元组文本通过拼接头实体邻域文本、关系文本和尾实体邻域文本得到;其次,使用BERT(Bidirectional Encoder Representations from Transformers)分别编码路径文本和增强三元组文本;最后,使用路径向量和三元组向量计算语义匹配注意力,再使用语义匹配注意力聚合多条路径的语义信息。在3个开放世界知识图谱数据集WN18RR、FB15k-237和NELL-995上的对比实验结果表明,与次优模型BERTRL(BERT-based Relational Learning)相比,所提模型的命中率(Hits@10)指标分别提升了2.6、2.3和8.5个百分点,验证了所提模型的有效性。 展开更多
关键词 知识图谱 文本信息 预训练语言模型 开放世界知识推理 注意力机制
在线阅读 下载PDF
融合事件类型的中文事件抽取方法 被引量:1
12
作者 王瑾睿 李劼 《计算机工程与应用》 北大核心 2025年第1期214-220,共7页
事件抽取技术是自动化地从文本信息中获得结构性数据的重要手段,也是自然语言处理领域的重点研究方向之一。事件抽取包含两个子任务,事件类型检测与事件论元抽取。近年来的事件抽取研究引入了预训练语言模型作为文本的语义表征,然后采... 事件抽取技术是自动化地从文本信息中获得结构性数据的重要手段,也是自然语言处理领域的重点研究方向之一。事件抽取包含两个子任务,事件类型检测与事件论元抽取。近年来的事件抽取研究引入了预训练语言模型作为文本的语义表征,然后采用序列标注BIO完成抽取任务,但此类方法容易存在标签歧义问题。因此又有学者提出在事件文本特征中融入特征知识以避免歧义,可现有的融合方法忽略了事件抽取各个子任务间的依赖关系。为解决以上问题,针对事件抽取任务采用联合学习的算法框架,通过门融合机制将事件类型信息作为新知识融入事件的文本表示中,再进行事件触发词抽取与事件论元抽取。实验结果证明该算法模型在论元抽取任务上较之基线方法表现更优异。 展开更多
关键词 文本事件抽取 预训练语言模型 门融合
在线阅读 下载PDF
基于文本水印的AIGC用户溯源技术
13
作者 宋轶旻 刘功申 《应用科学学报》 北大核心 2025年第3期361-369,共9页
本文主要针对文本水印技术在中文语境下研究的不足,使用修改式水印与生成式水印两种方案对于中英文文本水印技术进行了实现。利用针对英文的Bert模型和针对中文的WoBert模型,设计了可移植的词替换水印模块,通过替换源文本中指定词元的... 本文主要针对文本水印技术在中文语境下研究的不足,使用修改式水印与生成式水印两种方案对于中英文文本水印技术进行了实现。利用针对英文的Bert模型和针对中文的WoBert模型,设计了可移植的词替换水印模块,通过替换源文本中指定词元的方式在源文本中嵌入水印信息。对于生成式水印,采用对抗生成式文本水印模型,在中文语料上进行了针对性地修改与迁移,以适应中文文本的语义结构和语言习惯。使用中英文下的人类-ChatGPT对比语料库进行实验,结合准确与语义两方面的文本水印评估指标对2个数据集下不同模型的水印质量进行了评估,以说明水印在多种语料下的有效性。 展开更多
关键词 文本水印 预训练语言模型 生成式模型 对比语料库
在线阅读 下载PDF
一致性约束引导的零样本三维模型分类网络
14
作者 晏浩 白静 郑虎 《中国图象图形学报》 北大核心 2025年第5期1450-1465,共16页
目的零样本三维模型分类任务自提出起,始终面临大规模数据集与高质量语义信息的短缺问题。为应对这些问题,现有方法引入二维图像领域中蕴含丰富的数据集和语义信息的大规模预训练模型,这些方法基于语言—图像对比学习预训练网络,取得了... 目的零样本三维模型分类任务自提出起,始终面临大规模数据集与高质量语义信息的短缺问题。为应对这些问题,现有方法引入二维图像领域中蕴含丰富的数据集和语义信息的大规模预训练模型,这些方法基于语言—图像对比学习预训练网络,取得了一定的零样本分类效果。但是,现有方法对三维信息捕捉不全,无法充分利用来自三维领域的知识,针对这一问题,提出一致性约束引导的零样本三维模型分类网络。方法一方面,在保留来自预训练网络中的全部二维知识的同时,通过视图一致性学习三维数据的特征,从视图层面将三维信息增补至二维视图特征中;另一方面,通过掩码一致性约束引导网络通过自监督增强网络对三维模型的整体性学习,提高网络泛化性能;同时,提出同类一致性约束引导的非互斥损失,确保网络在小规模数据集训练中学习方向的正确性与能力的泛化性。结果在ZS3D(zero-shot for 3D dataset)、ModelNet10和Shrec2015(shape retrieval 2015)3个数据集上进行零样本分类,分别取得70.1%、57.8%和12.2%的分类精度,与当前最优方法相比,分别取得9.2%、22.8%和2.3%的性能提升;在ScanObjectNN的3个子集OBJ_ONLY(objectonly)、OBJ_BG(object and background)及PB_T50_RS(object augmented rot scale)上,本文方法也取得了具有竞争力的分类准确率,分别是32.4%、28.9%和19.3%。结论相较于完全依赖预训练模型能力的方法,本文方法在充分利用语言—图像预训练网络的基础上,将三维模型领域的知识引入网络,并提升网络泛化能力,使零样本分类结果更加准确。 展开更多
关键词 三维模型分类 零样本学习 自监督学习 图像文本预训练 视觉语言多模态
原文传递
基于长文本和特征增强的煤矿事故实体识别
15
作者 温乃宁 范爽爽 史晓楠 《计算机工程与设计》 北大核心 2025年第9期2683-2689,共7页
针对煤矿事故领域中长文本、长实体和复杂实体难以准确识别的问题,提出一种基于长文本和特征增强的煤矿事故实体识别模型。该模型嵌入层在ALBERT的基础上引入了全局注意力掩码,用来调节滑窗注意力和全局注意力之间的分配,从而更好的平... 针对煤矿事故领域中长文本、长实体和复杂实体难以准确识别的问题,提出一种基于长文本和特征增强的煤矿事故实体识别模型。该模型嵌入层在ALBERT的基础上引入了全局注意力掩码,用来调节滑窗注意力和全局注意力之间的分配,从而更好的平衡全局和局部信息;编码层引入门控线性单元和BiLSTM增强模型的特征表示能力;解码层使用CRF来获得最佳标记序列。实验结果表明,该模型较基准模型的F1值提升了1.9%,在煤矿事故实体识别中具有优越的性能。 展开更多
关键词 命名实体识别 煤矿事故 预训练语言模型 门控线性单元 注意力机制 长文本 特征增强
在线阅读 下载PDF
融合注意力机制的MacBERT-DPCNN农业文本分类模型
16
作者 张典 刘畅 +2 位作者 陈雯柏 缪祎晟 吴华瑞 《中国农机化学报》 北大核心 2025年第8期83-89,共7页
针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacB... 针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacBERT模型充分提取农业类文本内容的上下文信息,强化文本的语义特征表示。然后,DPCNN模型通过其多层卷积神经网络和池化操作,有效捕获文本的局部特征。最后,注意力机制进一步增强农业文本序列的特征表达。结果表明,与其他主流模型如BERT—DPCNN、BERT—CNN、BERT—RNN相比,MDA模型在农业文本分类任务上的精确率提升1.04%以上,召回率提升0.95%以上,F1值提升0.14%以上。表明所提模型在解决农业领域文本分类问题方面的有效性和优越性。 展开更多
关键词 农业文本分类 MacBERT模型 深度金字塔卷积网络 注意力机制 预训练模型
在线阅读 下载PDF
面向研究生招生咨询的中文Text-to-SQL模型
17
作者 王庆丰 李旭 +1 位作者 姚春龙 程腾腾 《计算机工程》 北大核心 2025年第3期362-368,共7页
研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言... 研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言问题转化为SQL语句后到结构化数据库中查询答案并返回。搜集了研究生招生场景中的高频咨询问题,根据3所高校真实招生数据,构建问题与SQL语句模板,通过填充模板的方式构建数据集,共有训练集1501条、测试集386条。将RESDSQL的RoBERTa模型替换为具有更强多语言生成能力的XLM-RoBERTa模型、T5模型替换为mT5模型,并在目标领域数据集上进行微调,在招生领域问题上取得了较高的准确率,在mT5-large模型上执行正确率为0.95,精确匹配率为1。与基于ChatGPT3.5模型、使用零样本提示的C3SQL方法对比,该模型性能与成本均更优。 展开更多
关键词 中文文本转结构化查询语言 自然语言查询 中文SQL语句生成 预训练模型 Text-to-SQL数据集
在线阅读 下载PDF
面向开源科技情报分析的智能文本分类方法研究 被引量:1
18
作者 彭鹏 徐红姣 《数字图书馆论坛》 2025年第2期65-72,共8页
随着网络信息的爆发式增长,从海量的网络文本信息中识别有价值的科技情报并对其进行智能分类成为开源科技情报分析的关键。针对开源科技情报文本的特点,构建了面向开源科技情报分析的文本智能去噪与分类一体化模型。结合大语言模型与提... 随着网络信息的爆发式增长,从海量的网络文本信息中识别有价值的科技情报并对其进行智能分类成为开源科技情报分析的关键。针对开源科技情报文本的特点,构建了面向开源科技情报分析的文本智能去噪与分类一体化模型。结合大语言模型与提示工程的自动标注方法进行噪声数据标注及文本分类数据标注;基于预训练语言模型进行噪声识别与过滤,过滤非科技情报文本;利用多语言预训练模型及蒸馏技术,改进损失函数设计,解决类别分布不均和数据不足的问题,实现在一定程度上提升多标签科技情报文本分类的精度和稳定性的目标。实验结果表明,与TextCNN与BERT方法相比,所提出的方法具有较高的分类性能、更好的鲁棒性和适应性。 展开更多
关键词 开源科技情报 文本分类 信息过滤 预训练语言模型
在线阅读 下载PDF
结合标签混淆的中文文本分类数据增强技术 被引量:1
19
作者 孙海涛 林佳瑜 +1 位作者 梁祖红 郭洁 《计算机应用》 北大核心 2025年第4期1113-1119,共7页
传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标... 传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。 展开更多
关键词 数据增强 文本分类 标签混淆 中文新闻主题 预训练模型
在线阅读 下载PDF
基于MiniRBT-LSTM-GAT与标签平滑的台区电力工单分类
20
作者 李嘉欣 莫思特 《计算机应用》 北大核心 2025年第4期1356-1362,共7页
台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工... 台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。 展开更多
关键词 台区电力工单 文本分类 预训练模型 图注意力网络 标签平滑
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部