期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于大语言模型和提示学习的旅游文本实体关系联合抽取方法 被引量:1
1
作者 徐春 苏明钰 +2 位作者 马欢 吉双焱 王萌萌 《数据分析与知识发现》 北大核心 2025年第7期130-140,共11页
【目的】针对旅游领域知识分散、标注数据有限导致的微调效率低、抽取性能不佳等问题,进行小样本场景下实体关系抽取方法的研究。【方法】基于大模型GLM进行旅游领域的提示学习后,对输入文本进行编码表示,结合全局指针网络完成潜在关系... 【目的】针对旅游领域知识分散、标注数据有限导致的微调效率低、抽取性能不佳等问题,进行小样本场景下实体关系抽取方法的研究。【方法】基于大模型GLM进行旅游领域的提示学习后,对输入文本进行编码表示,结合全局指针网络完成潜在关系预测和特定关系下的实体识别,抽取关系三元组。【结果】在自建旅游数据集和百度DuIE数据集上进行实验,本文模型的F1值分别为90.51%和89.45%,较传统关系抽取模型分别提升2.37和0.16个百分点。【局限】提示学习仅应用于旅游领域和特定编码器,在应用场景方面还有拓展空间。【结论】本文方法能够更好地对旅游文本进行实体关系联合抽取,提示学习和大语言模型编码器可以缓解小样本场景下模型训练效果不佳的问题,有效提高实体关系抽取的准确率。 展开更多
关键词 实体关系抽取 大语言模型 提示学习 全局指针网络
原文传递
基于对抗训练和全局指针网络的医疗文本 实体关系联合抽取模型
2
作者 段宇锋 柏萍 《情报科学》 北大核心 2025年第3期47-57,共11页
【目的/意义】在比较分析现有关系抽取方法的基础上,构建适用于医疗文本的关系抽取模型。【方法/过程】构建AGP模型实现关系抽取。该模型将医疗文本的嵌入表示输入Transformer编码器进一步提取文本特征,利用全局指针网络解码。为了提高... 【目的/意义】在比较分析现有关系抽取方法的基础上,构建适用于医疗文本的关系抽取模型。【方法/过程】构建AGP模型实现关系抽取。该模型将医疗文本的嵌入表示输入Transformer编码器进一步提取文本特征,利用全局指针网络解码。为了提高鲁棒性,模型引入了对抗训练。【结果/结论】AGP模型在CMeIE-V1、CMeIE-V2和DiaKG数据集上F1值分别达到0.6190、0.5321和0.5684。实验结果证明AGP模型在医疗文本关系抽取任务上的性能优于基准模型。【创新/局限】本文提出的模型未整合大语言模型。 展开更多
关键词 对抗训练 全局指针网络 关系抽取 预训练模型 医疗文本
原文传递
融合与高效全局指针网络的电力变压器缺陷文本实体识别方法
3
作者 林蔚青 郑垂锭 +4 位作者 陈静 江灏 肖洒 王铭海 缪希仁 《电网技术》 北大核心 2025年第11期4876-4887,共12页
电力变压器缺陷文本蕴含大量与设备可靠性密切相关的信息,可为变压器的智能化运维及寿命周期管理提供重要支撑。依托基于Transformer的双向编码器表示(bidirectional encoder representation from transformers,BERT)模型,文章提出一种... 电力变压器缺陷文本蕴含大量与设备可靠性密切相关的信息,可为变压器的智能化运维及寿命周期管理提供重要支撑。依托基于Transformer的双向编码器表示(bidirectional encoder representation from transformers,BERT)模型,文章提出一种融合乱序语言模型预训练BERT(pre-training BERT with permuted language model,PERT)与高效全局指针(efficient global pointer,EGP)网络的电力变压器缺陷文本实体识别方法。首先,在大规模中文语料库上利用乱序语言模型进行预训练以形成PERT模型。其次,PERT作为语义编码层,以深入挖掘实体内部的语义依赖关系,并捕捉复杂文本中的语言特征;EGP作为信息解码层,专注于精确定位关键信息并提取实体在缺陷文本中的分布特征,进而准确识别缺陷实体。最后,运用PERT-EGP模型识别缺陷文本中包含的缺陷设备、缺陷部件、缺陷部位、缺陷现象和缺陷程度5类实体。算例结果表明,相较于现有方法,该方法不仅在成分复杂的复合实体和长文本上效果提升显著,而且大幅缩短模型训练时间,具有更好的文本识别性能。 展开更多
关键词 缺陷文本 变压器 实体识别 乱序语言模型 高效全局指针网络
原文传递
基于全局指针限定窗口的中文医学实体识别
4
作者 仇家康 张卫山 +2 位作者 陈涛 张宝宇 朱宜昌 《计算机工程与设计》 北大核心 2025年第9期2586-2591,共6页
针对中文医学文本复杂嵌套实体难以处理的问题,提出一种基于全局指针限定窗口的中文医学实体识别模型。该模型通过医疗领域自适应预训练和新词挖掘,学习并适应医疗领域的特定数据分布。使用全局指针网络解码,并引入实体限定窗口,有效减... 针对中文医学文本复杂嵌套实体难以处理的问题,提出一种基于全局指针限定窗口的中文医学实体识别模型。该模型通过医疗领域自适应预训练和新词挖掘,学习并适应医疗领域的特定数据分布。使用全局指针网络解码,并引入实体限定窗口,有效减少长冗余负样本对模型训练的干扰。为降低模型对样本顺序的敏感性,采用最优自蒸馏策略,使模型学习到更高质量的知识和特征表示。实验结果表明,该模型在4个公开数据集上的性能均显著高于基线模型。 展开更多
关键词 实体识别 中文医学 模型蒸馏 文本挖掘 全局指针 神经网络 深度学习
在线阅读 下载PDF
基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法 被引量:2
5
作者 李斌 林民 +3 位作者 斯日古楞 高颖杰 王玉荣 张树钧 《计算机应用》 北大核心 2025年第1期75-81,共7页
基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取... 基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取方法存在错误传播问题,影响抽取效果。针对以上问题,提出一种基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法。首先,利用区间抽取式阅读理解的提示学习方法对预训练语言模型(PLM)注入领域知识以统一预训练和微调的优化目标,并对输入句子进行编码表示;其次,使用全局指针网络分别对主、客实体边界和不同关系下的主、客实体边界进行预测和联合解码,对齐成实体关系三元组,并构建了PTBG(Prompt Tuned BERT with Global pointer)模型,解决实体嵌套和关系重叠问题,同时避免了管道式解码的错误传播问题;最后,在上述工作基础上分析了不同提示模板对抽取性能的影响。在《史记》数据集上进行实验的结果表明,相较于注入领域知识前后的OneRel模型,PTBG模型所取得的F1值分别提升了1.64和1.97个百分点。可见,PTBG模型能更好地对中文古籍实体关系进行联合抽取,为低资源的小样本深度学习场景提供了新的研究思路与方法。 展开更多
关键词 实体关系联合抽取 全局指针网络 提示学习 预训练语言模型 中文古籍
在线阅读 下载PDF
基于RBIEGP的中文医疗实体识别
6
作者 周文卓 廖光忠 《计算机技术与发展》 2025年第6期124-130,共7页
中文医疗文本的实体识别是自然语言处理领域的重点研究方向,文本的内在复杂性,包括术语的歧义性、实体的层级性以及对上下文信息的高度依赖,均有可能对实体识别任务的结果产生显著影响。为此,提出一种基于RBIEGP模型的中文实体识别方法... 中文医疗文本的实体识别是自然语言处理领域的重点研究方向,文本的内在复杂性,包括术语的歧义性、实体的层级性以及对上下文信息的高度依赖,均有可能对实体识别任务的结果产生显著影响。为此,提出一种基于RBIEGP模型的中文实体识别方法。该方法首先利用RoBERTa-wwm-ext预训练模型对输入的中文医疗文本进行编码处理,以生成包含丰富语义信息的词向量序列;然后,将这些词向量序列送入BiGRU网络和集成了注意力机制的迭代扩张卷积神经网络,以捕获输入文本的上下文信息以及扩展感受野;最后,将这些融合了语法语义特征、上下文信息以及扩展感受野的特征一起输入到全局指针网络(Efficient Global Pointer,EGP),以进行实体类别的判定,并输出具有高准确度的实体类别序列。实验结果表明,RBIEGP模型在CMeEE/Yidu-S4k数据集上的F 1分数分别达到了70.47%和83.02%,相较于一些现有的主流模型,分别提升了2.72百分点和1.99百分点。 展开更多
关键词 实体识别 预训练 全局指针网络 注意力机制 感受野
在线阅读 下载PDF
基于MacBERT与全局指针网络的中文电子病历命名实体识别
7
作者 吴天宇 郭冬冬 +2 位作者 李文桥 李子康 苗琳 《科学技术与工程》 北大核心 2025年第11期4656-4665,共10页
针对现有序列标注方法不能有效解决中文电子病历嵌套实体识别问题,提出一种基于MacBERT与全局指针网络的中文电子病历命名实体识别模型。首先通过MacBERT-large预训练模型将文本转换为结合语境信息的动态向量,然后使用FGM (fast gradien... 针对现有序列标注方法不能有效解决中文电子病历嵌套实体识别问题,提出一种基于MacBERT与全局指针网络的中文电子病历命名实体识别模型。首先通过MacBERT-large预训练模型将文本转换为结合语境信息的动态向量,然后使用FGM (fast gradient method)方法生成对抗样本添加至原有向量并一同输入BiLSTM (bi-directional long short-term memory)网络获取上下文特征,并通过引入注意力机制增强长距离语义特征获取,最后利用全局指针网络模型同时考虑头部和尾部的特征信息进行解码以获得更好的医学嵌套实体预测效果。实验结果表明,本文模型相较于识别效果较好的主流模型全局指针网络模型在CCKS2019以及两个版本的CMeEE中文电子病历数据集上F1分别提高了1.8%、1.37%、1.72%,证明了模型的有效性。 展开更多
关键词 命名实体识别 中文电子病历 全局指针网络 注意力机制
在线阅读 下载PDF
基于增量预训练与对抗学习的古籍命名实体识别
8
作者 任乐 张仰森 +2 位作者 李剑龙 孙圆明 刘帅康 《计算机工程与设计》 北大核心 2025年第4期1190-1197,共8页
针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER-IPAL)。基于自建的古籍文本数据集,使用NEZHA-TCN模型进行预训练,在嵌入... 针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER-IPAL)。基于自建的古籍文本数据集,使用NEZHA-TCN模型进行预训练,在嵌入层融合对抗学习增强模型泛化能力,在解码层引入全局指针网络,将实体识别任务建模为子串提取任务,结合规则进行结果的矫正输出。实验结果表明,所提模型在“古籍命名实体识别2023”数据集(GuNER2023)上的F1值达到了95.34%,相较于基线模型NEZHA-GP提高了4.19%。 展开更多
关键词 二十四史 古籍命名实体识别 增量预训练 时序卷积神经网络 对抗学习 全局指针 子串提取
在线阅读 下载PDF
基于对比学习与梯度惩罚的实体关系联合抽取模型 被引量:2
9
作者 张强 曾俊玮 陈锐 《吉林大学学报(理学版)》 CAS 北大核心 2024年第5期1155-1162,共8页
针对使用全局指针网络进行实体关系抽取时特征信息不明显的实体关系类型数据稀疏问题,以及数据中存在的类别不平衡和错误标注问题,提出一种基于对比学习和梯度惩罚方法并使用改进的RoBERTa预训练模型的实体关系联合抽取模型,在阿里天池... 针对使用全局指针网络进行实体关系抽取时特征信息不明显的实体关系类型数据稀疏问题,以及数据中存在的类别不平衡和错误标注问题,提出一种基于对比学习和梯度惩罚方法并使用改进的RoBERTa预训练模型的实体关系联合抽取模型,在阿里天池中文医疗信息处理评测基准数据集CBLUE2.0上进行实验的结果表明,该模型相比全局指针网络效果更优,能更有效完成复杂数据的实体关系抽取. 展开更多
关键词 实体关系抽取 对比学习 梯度惩罚 RoBERTa预训练模型 全局指针网络
在线阅读 下载PDF
一种面向法律文书的命名实体识别模型
10
作者 卢睿 李林瑛 《信息网络安全》 CSCD 北大核心 2024年第11期1783-1792,共10页
准确识别法律文书中的实体是构建智慧司法的基础,但通用的命名实体识别模型不能很好地识别法律文书中实体边界,识别结果不能与法律业务紧密结合。为有效提高法律文书中各实体的识别效果,文章提出一种面向法律文书的命名实体识别模型BBAG... 准确识别法律文书中的实体是构建智慧司法的基础,但通用的命名实体识别模型不能很好地识别法律文书中实体边界,识别结果不能与法律业务紧密结合。为有效提高法律文书中各实体的识别效果,文章提出一种面向法律文书的命名实体识别模型BBAG-NER。该模型首先利用BERT对字符序列进行编码,然后运用双向长短记忆神经网络和Attention分配不同权重以提高对实体边界的划分能力,最后采用全局指针识别备选司法实体片段,并通过实体分类器得到最终的实体类别。实验结果表明,在法律文书语料数据集上,BBAG-NER模型的F1值达到了89.18%,较BERT-CRF模型提高了2.1%,验证了模型整体的有效性。 展开更多
关键词 法律文书 命名实体识别 全局指针网络 双向长短时记忆
在线阅读 下载PDF
一种结合关系增强融合模型的舆情关系抽取方法
11
作者 夏益昆 赵春一 《软件导刊》 2024年第6期67-74,共8页
针对舆情信息关系种类繁多、状态空间巨大,以及舆情信息关系抽取任务中出现的关系重叠和单一模型不能完全识别出全部三元组的问题,提出一种结合关系增强的融合模型进行舆情关系抽取的方法。首先,对从中文互联网上获取的舆情信息进行初... 针对舆情信息关系种类繁多、状态空间巨大,以及舆情信息关系抽取任务中出现的关系重叠和单一模型不能完全识别出全部三元组的问题,提出一种结合关系增强的融合模型进行舆情关系抽取的方法。首先,对从中文互联网上获取的舆情信息进行初步处理,得到初步的关系表;其次,对获得的关系表引入实体类型进行关系表增强;最后,将增强关系表作为先验特征输入融合模型,提升关系分类准确性,结合两个模型的识别结果解决单一模型不能完全识别出全部三元组的问题。实验结果表明,该方法相较于单一未使用关系增强的模型,F1值提升了5.4%。 展开更多
关键词 关系抽取 关系表增强 模型融合 全局指针网络 舆情分析
在线阅读 下载PDF
BGPNRE:一种基于BERT的全局指针网络实体关系联合抽取方法 被引量:8
12
作者 邓亮 齐攀虎 +2 位作者 刘振龙 李敬鑫 唐积强 《计算机科学》 CSCD 北大核心 2023年第3期42-48,共7页
实体-关系联合抽取指从非结构化文本中联合抽取出实体-关系三元组,是信息抽取和知识图谱构建的一项关键任务。文中提出了一种新的基于全局指针网络实体关系联合抽取方法BGPNRE(BERT-based Global Pointer Network for Named Entity-Rela... 实体-关系联合抽取指从非结构化文本中联合抽取出实体-关系三元组,是信息抽取和知识图谱构建的一项关键任务。文中提出了一种新的基于全局指针网络实体关系联合抽取方法BGPNRE(BERT-based Global Pointer Network for Named Entity-Relation Joint Extraction),首先通过潜在关系预测模块预测文本中蕴含的关系,过滤掉不可能存在的关系,将实体抽取限制在预测的关系子集中;其次通过使用基于关系的全局指针网络,获取所有主客体实体的位置;最后通过全局指针网络通信模块,将主客体位置高效率地解码对齐成一个实体关系三元组。该方法避免了传统管道式方法存在的错误传播问题,同时也解决了关系冗余、实体重叠、Span提取泛化不足等问题。实验结果表明,所提方法在多关系和重叠实体抽取上表现卓越,并且在NYT和WebNLG公共数据集上达到了最先进的水平。 展开更多
关键词 实体-关系联合抽取 BGPNRE 全局指针网络 BERT
在线阅读 下载PDF
基于知识增强的中文电子病历命名实体识别 被引量:2
13
作者 李宛泽 宋波 齐岳山 《计算机系统应用》 2023年第12期112-119,共8页
针对中文电子病历中医疗嵌套实体难以处理的问题,本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP.RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示,更适用于中文文本... 针对中文电子病历中医疗嵌套实体难以处理的问题,本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP.RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示,更适用于中文文本.首先结合知识图谱,使模型学习到了大量的医疗实体名词,进一步提高模型对电子病历实体识别的准确性.然后通过BiLSTM对电子病历输入序列编码,能够更好捕获病历的中上下语义信息.最后利用全局指针网络模型EGP(efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体,更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题.在CBLUE中的4个数据集上本文方法均取得了更好的识别效果,证明了ERBEGP模型的有效性. 展开更多
关键词 中文电子病历 命名实体识别 知识增强 嵌套实体 全局指针网络模型 深度学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部