期刊文献+
共找到325篇文章
< 1 2 17 >
每页显示 20 50 100
基于语料库与预训练模型的非遗实体识别
1
作者 张新生 杨颖洁 《计算机工程与设计》 北大核心 2026年第1期286-293,共8页
针对非遗领域文本语料稀缺,且非遗文本具有复杂语义特征导致命名实体识别精度不高的问题进行研究。构建非遗文本语料库ICHSX-NER,其实体字符串一致性和类型一致性分别为0.9530、0.9758。提出一种RBL-CFER实体识别模型,使用RoBERTa-wwm-... 针对非遗领域文本语料稀缺,且非遗文本具有复杂语义特征导致命名实体识别精度不高的问题进行研究。构建非遗文本语料库ICHSX-NER,其实体字符串一致性和类型一致性分别为0.9530、0.9758。提出一种RBL-CFER实体识别模型,使用RoBERTa-wwm-ext预训练语言模型提取高精度的词嵌入向量,借助BiLSTM提取非遗文本特征,CRF完成实体标签序列预测,实现对非遗文本语料中实体及其类别的识别。在自建语料库ICHSX-NER上进行多组实验,实验结果表明:模型的macro-F1值达90.62%,验证了在非遗文本实体识别任务中的有效性。 展开更多
关键词 命名实体识别 预训练语言模型 非遗文本语料库 动态全词掩码策略 双向长短期记忆网络 条件随机场 深度学习
在线阅读 下载PDF
基于多提示和图文对比学习的服装检索
2
作者 孙圆 王康平 赵鸣博 《计算机工程》 北大核心 2026年第2期322-330,共9页
随着多模态学习的不断发展,图像检索领域也面临新的机遇和挑战。现有的服装检索模型大多基于卷积神经网络或者Transformer的单模态模型实现,忽略了图像对应的丰富文本信息,模型能学习到的特征相对单一。为此,提出一种基于多提示和图文... 随着多模态学习的不断发展,图像检索领域也面临新的机遇和挑战。现有的服装检索模型大多基于卷积神经网络或者Transformer的单模态模型实现,忽略了图像对应的丰富文本信息,模型能学习到的特征相对单一。为此,提出一种基于多提示和图文对比学习的服装检索方法。引入图像文本多提示学习,引导多模态大模型FashionCLIP学习服装的多维高语义多模态特征,为提高模型的检索能力以及充分挖掘多模态模型的检索潜力,分两阶段优化模型。第一阶段冻结图像和文本编码器,通过图像文本交叉熵损失函数优化文本提示;第二阶段冻结文本提示和文本编码器,通过三元组损失、分类损失和图像文本交叉熵损失函数优化图像提示和图像编码器。在淘宝直播多模态视频商品检索数据集WAB上的域内检索和跨域检索实验结果表明:该方法在域内检索的均值平均精度(mAP)和Rank-1相对于传统方法至少提升6.1和3.5百分点,在跨域检索的mAP和Rank-1相对于传统方法至少提升8.4和6.4百分点,检索性能得到了显著提升,证明了图文对比学习在服装检索领域的潜力。 展开更多
关键词 服装检索 图文对比学习 预训练模型 跨模态检索 提示学习
在线阅读 下载PDF
基于大模型标签蒸馏的搜索意图识别
3
作者 李睿琪 秦志鹏 《现代信息科技》 2026年第3期40-44,共5页
在搜索引擎中,准确识别用户查询的意图对提升搜索体验至关重要。搜索意图识别属于短文本分类任务,传统方法依赖大量人工标注数据,成本高昂且难以适应新意图的快速涌现。文章提出的基于大模型标签蒸馏的搜索意图识别方法,利用大语言模型(... 在搜索引擎中,准确识别用户查询的意图对提升搜索体验至关重要。搜索意图识别属于短文本分类任务,传统方法依赖大量人工标注数据,成本高昂且难以适应新意图的快速涌现。文章提出的基于大模型标签蒸馏的搜索意图识别方法,利用大语言模型(如GPT4o、DeepSeek-R1、星火x1)的强大语义理解能力,为无标签查询指令生成高质量意图标签,构建训练数据集;进而通过知识蒸馏技术,将大模型的知识迁移至轻量级预训练模型(如ERNIE 3.0、BERT)进行微调。实验结果表明,该方法在13.6万规模的中文数据集上显著提升了模型性能,在降低标注成本的同时,有效提升了意图识别效率。 展开更多
关键词 意图识别 文本分类 标签蒸馏 大模型 预训练模型
在线阅读 下载PDF
统一架构的多语种标点预测
4
作者 吴海波 李紫京 陈宋 《网络新媒体技术》 2026年第1期33-39,65,共8页
本文针对传统单语种标点预测方案训练成本高、跨语种迁移困难等问题,提出一种基于RoBERTa的统一多语种标点预测框架。该框架构建中、日、韩3语种混合语料库,采用统一的3种标点标签(COMMA、PERIOD、NONE)进行标注,实现单一模型对多语种... 本文针对传统单语种标点预测方案训练成本高、跨语种迁移困难等问题,提出一种基于RoBERTa的统一多语种标点预测框架。该框架构建中、日、韩3语种混合语料库,采用统一的3种标点标签(COMMA、PERIOD、NONE)进行标注,实现单一模型对多语种标点的同步端到端预测。实验结果表明,该模型与单语种基线相比,标点预测F1平均值差距仅为1.7%,各语种性能下降均未超过2%,验证了多语种统一建模在标点恢复任务中的有效性与可行性。 展开更多
关键词 多语种文本处理 标点符号预测 RoBERTa模型 预训练微调 混合语料库 统一标注体系 跨语种迁移 语义编码
在线阅读 下载PDF
融合预训练和双级元蒸馏的医学短文本分类方法 被引量:1
5
作者 廖列法 姜炫至 《计算机工程与应用》 北大核心 2025年第8期117-125,共9页
为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta di... 为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta distillation model)。PTMD针对医学文本的多标签问题,通过对比训练对RoBERTa预训练方法进行微调,再由双向内置注意力简单循环单元充分获取语义信息。最后在传统蒸馏模型的基础上融合元学习和助教的思想,通过教学实验和双级模型等方法,提高模型的教学水平,最终在减少训练成本的基础上得到一个高性能医学文本分类模型。实验结果表明,教师模型在CHIP2019评测三数据集上的F1值达到了85.47%,同时学生模型在F1值损失1.45个百分点的情况下,将模型规模缩小到教师模型的近1/6,效果高于大多数传统预训练模型和知识蒸馏模型,证明了该模型具有良好的实用价值。 展开更多
关键词 文本分类 预训练模型 知识蒸馏
在线阅读 下载PDF
基于交替语言数据重构方法的跨语言文本相似度模型 被引量:1
6
作者 王轶 王坤宁 刘铭 《吉林大学学报(理学版)》 北大核心 2025年第2期551-558,共8页
针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重... 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本. 展开更多
关键词 mBERT模型 文本相似度 多语言预训练模型 大模型微调
在线阅读 下载PDF
高可用性的跨领域机器生成文本检测方法
7
作者 罗森林 杨宗源 +3 位作者 潘丽敏 周瑾洁 门元昊 李晔 《北京理工大学学报》 北大核心 2025年第12期1296-1304,共9页
AIGC已严重影响信息的真实性、可靠性,造成数据污染、产权归属、诚信危机等众多技术和社会问题.现有机器生成文本检测方法主要针对特定领域且检测准确率较低,更难用于敏感、私有、小样本等跨领域数据.针对该问题提出一种高可用性的跨领... AIGC已严重影响信息的真实性、可靠性,造成数据污染、产权归属、诚信危机等众多技术和社会问题.现有机器生成文本检测方法主要针对特定领域且检测准确率较低,更难用于敏感、私有、小样本等跨领域数据.针对该问题提出一种高可用性的跨领域机器生成文本检测方法.该方法优选任一领域内的类别中心样本训练生成专域编码器,利用领域特征增强边界区分性;构建一种正交损失函数联合专域编码器训练生成泛域编码器,强化机器生成文本的共性特征支持多领域机器生成文本的检测.真实数据实验结果表明,单领域检测模型无需微调即可在其他领域获得高检测准确率,适用范围广,实用性强. 展开更多
关键词 机器生成文本检测 域泛化 预训练语言模型
在线阅读 下载PDF
深层语义特征增强的ReLM中文拼写纠错模型
8
作者 张伟 牛家祥 +1 位作者 马继超 沈琼霞 《计算机应用》 北大核心 2025年第8期2484-2490,共7页
ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分... ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分离卷积(DSC)技术融合特征提取模型BGE(BAAI General Embeddings)生成的深层语义特征与ReLM生成的整体特征,从而有效提升模型对复杂上下文的解析力和拼写错误的识别纠正精度。首先,在Wang271K数据集上训练FeReLM,使模型持续学习句子中的深层语义和复杂表达;其次,迁移训练好的权重,从而将模型学习到的知识应用于新的数据集并进行微调。实验结果表明,在ECSpell和MCSC数据集上与ReLM、MCRSpell(Metric learning of Correct Representation for Chinese Spelling Correction)和RSpell(Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check)等模型相比,FeReLM的精确率、召回率、F1分数等关键指标的提升幅度可达0.6~28.7个百分点。此外,通过消融实验验证了所提方法的有效性。 展开更多
关键词 自然语言处理 特征增强 中文拼写纠错 语义融合 文本纠错 预训练语言模型
在线阅读 下载PDF
KAACNN:融合知识图谱和预训练模型的短文本多标签分类方法
9
作者 陶冶 徐锴 +2 位作者 刘天宇 鲁超峰 王浩杰 《中文信息学报》 北大核心 2025年第3期96-106,共11页
短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训... 短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。 展开更多
关键词 知识图谱 注意力机制 预训练语言模型 数据增强 短文本分类
在线阅读 下载PDF
大模型增强的跨模态图文检索方法 被引量:2
10
作者 罗文培 黄德根 《小型微型计算机系统》 北大核心 2025年第7期1544-1553,共10页
在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-... 在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-图像数据作为预训练数据;其次,提出了一种两阶段训练方法,结合了知识蒸馏和对比学习,在该文产出的数据集上进行训练,从而进一步提升模型性能.提出的模型在包括COCO-CN和Flickr30K-CN在内的中文文本-图像检索数据集上取得了SOTA. 展开更多
关键词 图像-文本检索 预训练 知识蒸馏 对比学习
在线阅读 下载PDF
融合注意力机制的MacBERT-DPCNN农业文本分类模型 被引量:2
11
作者 张典 刘畅 +2 位作者 陈雯柏 缪祎晟 吴华瑞 《中国农机化学报》 北大核心 2025年第8期83-89,共7页
针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacB... 针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacBERT模型充分提取农业类文本内容的上下文信息,强化文本的语义特征表示。然后,DPCNN模型通过其多层卷积神经网络和池化操作,有效捕获文本的局部特征。最后,注意力机制进一步增强农业文本序列的特征表达。结果表明,与其他主流模型如BERT—DPCNN、BERT—CNN、BERT—RNN相比,MDA模型在农业文本分类任务上的精确率提升1.04%以上,召回率提升0.95%以上,F1值提升0.14%以上。表明所提模型在解决农业领域文本分类问题方面的有效性和优越性。 展开更多
关键词 农业文本分类 MacBERT模型 深度金字塔卷积网络 注意力机制 预训练模型
在线阅读 下载PDF
基于词向量模型的短文本分类方法研究综述 被引量:1
12
作者 李晨 刘纳 +2 位作者 郑国风 杨杰 道路 《南京师范大学学报(工程技术版)》 2025年第2期54-68,共15页
生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采... 生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采用的词向量模型,从传统词向量模型和预训练词向量模型来分析主流词向量模型在短文本分类领域的研究现状,简要梳理了词向量模型的发展进程,介绍了词向量模型在短文本分类领域的具体应用,分析了其优缺点,给出了后词向量时代的短文本分类的发展展望,最后探讨了当前词向量模型在短文本分类中存在的局限性及未来的发展方向. 展开更多
关键词 文本挖掘 词向量 短文本分类 预训练模型
在线阅读 下载PDF
面向研究生招生咨询的中文Text-to-SQL模型 被引量:1
13
作者 王庆丰 李旭 +1 位作者 姚春龙 程腾腾 《计算机工程》 北大核心 2025年第3期362-368,共7页
研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言... 研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言问题转化为SQL语句后到结构化数据库中查询答案并返回。搜集了研究生招生场景中的高频咨询问题,根据3所高校真实招生数据,构建问题与SQL语句模板,通过填充模板的方式构建数据集,共有训练集1501条、测试集386条。将RESDSQL的RoBERTa模型替换为具有更强多语言生成能力的XLM-RoBERTa模型、T5模型替换为mT5模型,并在目标领域数据集上进行微调,在招生领域问题上取得了较高的准确率,在mT5-large模型上执行正确率为0.95,精确匹配率为1。与基于ChatGPT3.5模型、使用零样本提示的C3SQL方法对比,该模型性能与成本均更优。 展开更多
关键词 中文文本转结构化查询语言 自然语言查询 中文SQL语句生成 预训练模型 Text-to-SQL数据集
在线阅读 下载PDF
古书正文中反映先秦至西汉各地方言词语例说
14
作者 孙玉文 《汉字汉语研究》 2025年第2期42-63,126,127,共24页
除了扬雄《方言》,西汉以前古书反映先秦至西汉方言词语主要有三种类型:(一)文献原文直接说某词语是方言词语;(二)有的古书更多的是写书人直接采用他的一些方言词语入文;(三)写书人在上下文中根据情境或表达的需要,多采各地有方言的特... 除了扬雄《方言》,西汉以前古书反映先秦至西汉方言词语主要有三种类型:(一)文献原文直接说某词语是方言词语;(二)有的古书更多的是写书人直接采用他的一些方言词语入文;(三)写书人在上下文中根据情境或表达的需要,多采各地有方言的特色用词写进去,不直接说是用方言词。今人研究汉语词汇史时常常忽略最后一种反映先秦至西汉的方言词语。本文重点研究最后一种类型,据实例探讨提取之法,尝试提取一些方言词语,揭示这项研究的研究意义、价值。 展开更多
关键词 古书正文 提取 先秦至西汉 方言词语
在线阅读 下载PDF
基于MiniRBT-LSTM-GAT与标签平滑的台区电力工单分类 被引量:1
15
作者 李嘉欣 莫思特 《计算机应用》 北大核心 2025年第4期1356-1362,共7页
台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工... 台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。 展开更多
关键词 台区电力工单 文本分类 预训练模型 图注意力网络 标签平滑
在线阅读 下载PDF
基于特征融合结合注意力机制的藏文文本分类模型 被引量:1
16
作者 冯宇舒 艾金勇 李爽 《科技创新与应用》 2025年第10期61-65,共5页
由于藏语与汉语、英语在语法结构和词汇特点上的差异,传统的文本分类方法在藏文上的应用面临挑战。为此,该文提出一种基于多特征融合与注意力机制的藏文文本分类模型,该模型结合CINO、TextCNN和BiLSTM模型的优势。实验结果表明,该文提... 由于藏语与汉语、英语在语法结构和词汇特点上的差异,传统的文本分类方法在藏文上的应用面临挑战。为此,该文提出一种基于多特征融合与注意力机制的藏文文本分类模型,该模型结合CINO、TextCNN和BiLSTM模型的优势。实验结果表明,该文提出的模型在公开数据集TNCC上的F1值为73.09%,在自建数据集TiTCD上的F1值为80.97%。因此,该模型能够较好地捕捉到藏文文本语义,在藏文文本分类任务上性能有所提升。 展开更多
关键词 藏文文本分类 预训练语言模型 多特征融合 注意力机制 文本分类方法
在线阅读 下载PDF
基于多属性可控生成的文本去毒害方法
17
作者 丁汉星 庞亮 +2 位作者 魏子豪 沈华伟 程学旗 《中文信息学报》 北大核心 2025年第11期24-33,49,共11页
基于大规模文本语料库的预训练语言模型在文本生成时存在生成毒害文本的潜在风险,即输出的文本可能包含不适当的内容,从而给实际应用带来安全风险。传统的去毒害方法往往将毒害视作一个整体进行处理,未能有效解耦并区分不同类型的毒害成... 基于大规模文本语料库的预训练语言模型在文本生成时存在生成毒害文本的潜在风险,即输出的文本可能包含不适当的内容,从而给实际应用带来安全风险。传统的去毒害方法往往将毒害视作一个整体进行处理,未能有效解耦并区分不同类型的毒害成分,这导致了对毒害信息缺乏针对性的精细化控制,从而使得去毒害效果相对有限。针对传统方法的不足,该文提出了一种多属性可控的文本去毒害方法。该方法利用变分自编码器学习多类毒害信息的联合隐空间分布,并结合联合隐空间的能量模型和独立的毒害判别器,实现了对各类毒害信息的精细控制并显著消除。实验结果显示,该方法在降低多类毒害信息的生成水平方面明显优于现有方法,同时保证了文本的流畅性和多样性。 展开更多
关键词 预训练语言模型 文本去毒害 多属性可控生成
在线阅读 下载PDF
基于预训练表示和宽度学习的虚假新闻早期检测 被引量:2
18
作者 胡舜邦 王琳 刘伍颖 《郑州大学学报(理学版)》 CAS 北大核心 2025年第2期31-36,共6页
为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习... 为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习的特征节点和增强节点中,利用宽度学习的特征节点和增强节点进一步提取新闻文本的线性和非线性特征并构造分类器,从而预测新闻的真实性。最后,在3个真实数据集上进行了对比实验,结果表明,所提方法可以在4 h内检测出虚假新闻,准确率超过80%,优于基线方法。 展开更多
关键词 早期检测 虚假新闻 预训练表示 宽度学习 文本分类
在线阅读 下载PDF
融合文本困惑度特征和相似度特征的推特机器人检测方法
19
作者 王钟杰 张朝文 +3 位作者 刘秉权 丁文琪 付雨濛 单丽莉 《中文信息学报》 北大核心 2025年第11期15-23,共9页
推特机器人检测任务的目标是判断一个推特账号是真人账号还是自动化机器人账号。随着自动化账号拟人算法的快速迭代,检测最新类别的自动化账号变得越来越困难。最近,预训练语言模型在自然语言生成任务和其他任务上表现出了出色的水平,... 推特机器人检测任务的目标是判断一个推特账号是真人账号还是自动化机器人账号。随着自动化账号拟人算法的快速迭代,检测最新类别的自动化账号变得越来越困难。最近,预训练语言模型在自然语言生成任务和其他任务上表现出了出色的水平,当这些预训练语言模型被用于推特文本自动生成时,会为推特机器人检测任务带来很大挑战。该文研究发现,困惑度偏低和相似度偏高的现象始终出现在不同时代自动化账号的历史推文中,且该现象不受具体预训练语言模型类型的影响。针对这些发现,该文提出了一种抽取历史推文困惑度特征和相似度特征的方法,并设计了一种特征融合策略,以更好地将这些新特征应用于现有推特机器人检测模型。 展开更多
关键词 推特机器人检测 预训练语言模型 文本困惑度分析 文本相似度分析
在线阅读 下载PDF
基于BERT和白化矩阵的相似编程题目推荐
20
作者 张思赟 柴春来 +2 位作者 叶航 于晓 陈东烁 《计算机应用》 北大核心 2025年第S1期43-48,共6页
目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本... 目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本和标签信息融合和BERT白化的长短期记忆网络(TLFBW-LSTM)。首先,利用白化技术优化BERT(Bidirectional Encoder Representations from Transformers)模型生成的词向量;其次,利用孪生网络结构和注意力机制分别融合不同题目的文本和标签数据;最后,设置全连接层计算相似程度。此外,通过动态词向量优化和标签嵌入的方式,增强模型对相似题目的识别能力。在力扣的编程题库数据集上的实验结果表明,动态词向量和异构数据的加入能够有效提高模型对相似题目判断的准确率,与Sentence-BERT和DenoSent方法相比,TLFBW-LSTM的准确率提升了13.41%和13.62%,验证了TLFBW-LSTM的有效性。 展开更多
关键词 推荐 异构数据 预训练模型 白化 文本相似度
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部