期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
RoBGP:A Chinese Nested Biomedical Named Entity Recognition Model Based on RoBERTa and Global Pointer 被引量:3
1
作者 Xiaohui Cui Chao Song +4 位作者 Dongmei Li Xiaolong Qu Jiao Long Yu Yang Hanchao Zhang 《Computers, Materials & Continua》 SCIE EI 2024年第3期3603-3618,共16页
Named Entity Recognition(NER)stands as a fundamental task within the field of biomedical text mining,aiming to extract specific types of entities such as genes,proteins,and diseases from complex biomedical texts and c... Named Entity Recognition(NER)stands as a fundamental task within the field of biomedical text mining,aiming to extract specific types of entities such as genes,proteins,and diseases from complex biomedical texts and categorize them into predefined entity types.This process can provide basic support for the automatic construction of knowledge bases.In contrast to general texts,biomedical texts frequently contain numerous nested entities and local dependencies among these entities,presenting significant challenges to prevailing NER models.To address these issues,we propose a novel Chinese nested biomedical NER model based on RoBERTa and Global Pointer(RoBGP).Our model initially utilizes the RoBERTa-wwm-ext-large pretrained language model to dynamically generate word-level initial vectors.It then incorporates a Bidirectional Long Short-Term Memory network for capturing bidirectional semantic information,effectively addressing the issue of long-distance dependencies.Furthermore,the Global Pointer model is employed to comprehensively recognize all nested entities in the text.We conduct extensive experiments on the Chinese medical dataset CMeEE and the results demonstrate the superior performance of RoBGP over several baseline models.This research confirms the effectiveness of RoBGP in Chinese biomedical NER,providing reliable technical support for biomedical information extraction and knowledge base construction. 展开更多
关键词 BIOMEDICINE knowledge base named entity recognition pretrained language model global pointer
在线阅读 下载PDF
基于大语言模型和提示学习的旅游文本实体关系联合抽取方法 被引量:1
2
作者 徐春 苏明钰 +2 位作者 马欢 吉双焱 王萌萌 《数据分析与知识发现》 北大核心 2025年第7期130-140,共11页
【目的】针对旅游领域知识分散、标注数据有限导致的微调效率低、抽取性能不佳等问题,进行小样本场景下实体关系抽取方法的研究。【方法】基于大模型GLM进行旅游领域的提示学习后,对输入文本进行编码表示,结合全局指针网络完成潜在关系... 【目的】针对旅游领域知识分散、标注数据有限导致的微调效率低、抽取性能不佳等问题,进行小样本场景下实体关系抽取方法的研究。【方法】基于大模型GLM进行旅游领域的提示学习后,对输入文本进行编码表示,结合全局指针网络完成潜在关系预测和特定关系下的实体识别,抽取关系三元组。【结果】在自建旅游数据集和百度DuIE数据集上进行实验,本文模型的F1值分别为90.51%和89.45%,较传统关系抽取模型分别提升2.37和0.16个百分点。【局限】提示学习仅应用于旅游领域和特定编码器,在应用场景方面还有拓展空间。【结论】本文方法能够更好地对旅游文本进行实体关系联合抽取,提示学习和大语言模型编码器可以缓解小样本场景下模型训练效果不佳的问题,有效提高实体关系抽取的准确率。 展开更多
关键词 实体关系抽取 大语言模型 提示学习 全局指针网络
原文传递
基于对抗训练和全局指针网络的医疗文本 实体关系联合抽取模型
3
作者 段宇锋 柏萍 《情报科学》 北大核心 2025年第3期47-57,共11页
【目的/意义】在比较分析现有关系抽取方法的基础上,构建适用于医疗文本的关系抽取模型。【方法/过程】构建AGP模型实现关系抽取。该模型将医疗文本的嵌入表示输入Transformer编码器进一步提取文本特征,利用全局指针网络解码。为了提高... 【目的/意义】在比较分析现有关系抽取方法的基础上,构建适用于医疗文本的关系抽取模型。【方法/过程】构建AGP模型实现关系抽取。该模型将医疗文本的嵌入表示输入Transformer编码器进一步提取文本特征,利用全局指针网络解码。为了提高鲁棒性,模型引入了对抗训练。【结果/结论】AGP模型在CMeIE-V1、CMeIE-V2和DiaKG数据集上F1值分别达到0.6190、0.5321和0.5684。实验结果证明AGP模型在医疗文本关系抽取任务上的性能优于基准模型。【创新/局限】本文提出的模型未整合大语言模型。 展开更多
关键词 对抗训练 全局指针网络 关系抽取 预训练模型 医疗文本
原文传递
恐怖袭击事件命名实体识别研究
4
作者 李林瑛 王孙和 +1 位作者 卢睿 陈志浩 《辽宁警察学院学报》 2025年第2期91-96,共6页
恐怖袭击事件文本中含有丰富的涉恐实体,如涉恐人物、恐怖袭击目标、恐怖袭击组织等。恐怖袭击文本中实体往往较为复杂,传统的静态词向量的命名实体识别模型存在分词误差传递问题,并且无法表征不同语境中存在的一词多义。针对这些问题,... 恐怖袭击事件文本中含有丰富的涉恐实体,如涉恐人物、恐怖袭击目标、恐怖袭击组织等。恐怖袭击文本中实体往往较为复杂,传统的静态词向量的命名实体识别模型存在分词误差传递问题,并且无法表征不同语境中存在的一词多义。针对这些问题,本文提出结合了BERT及全局指针网络的涉恐文本命名实体识别模型,通过BERT学习结合上下文的动态词向量表示,再由双向长短时记忆网络获取文本信息,采用全局指针识别备选涉恐实体片段,并送入实体分类器得到最终实体类别。实验结果表明:该模型的F1值达到92.01%,在涉恐语料的命名实体识别任务中具有有效性。 展开更多
关键词 恐怖袭击 命名实体识别 全球恐怖主义数据库 全局指针
在线阅读 下载PDF
面向中文病历的实体关系抽取模型研究 被引量:1
5
作者 单涛 许鑫 +4 位作者 王园梦 王宇翱 景慎旗 叶继元 郭永安 《现代情报》 北大核心 2025年第5期24-33,共10页
[目的/意义]关系抽取是电子病历处理的核心组成部分,对于提高电子病历处理的准确性和效率至关重要。为解决中文电子病历关系抽取中实体冗余、实体词嵌套和实体重叠问题,提高医疗信息抽取效率,提出了一种新型的中文病历关系抽取模型。[方... [目的/意义]关系抽取是电子病历处理的核心组成部分,对于提高电子病历处理的准确性和效率至关重要。为解决中文电子病历关系抽取中实体冗余、实体词嵌套和实体重叠问题,提高医疗信息抽取效率,提出了一种新型的中文病历关系抽取模型。[方法/过程]将关系抽取任务分解为关系优先解码器、全局实体提取和主体—客体对齐三部分。首先通过解码器预测和过滤关系,并基于预测的关系限制实体提取;其次采用关系特定的注意机制和全局指针网络,有效处理信息重叠和主体/客体嵌套问题;最后引入实体对应矩阵将主体、客体及其关系对齐为三元组。[结果/结论]分别在CMeIE中文病历数据集和DiaKG真实糖尿病中文数据集上进行综合实验并与6种常用模型进行了对比分析,发现本文模型在数据集CMeIE和DiaKG上的F1值较主流模型CasRel分别提升了6.6%和5.8%。研究结果表明,本文模型可有效解决中文病历复杂性带来的实体嵌套和实体重叠问题,对医疗信息提取和数据处理流程具有良好价值。 展开更多
关键词 关系抽取 中文病例 电子病例 实体嵌套 实体重叠 注意力机制 全局指针 糖尿病
在线阅读 下载PDF
基于全局指针限定窗口的中文医学实体识别
6
作者 仇家康 张卫山 +2 位作者 陈涛 张宝宇 朱宜昌 《计算机工程与设计》 北大核心 2025年第9期2586-2591,共6页
针对中文医学文本复杂嵌套实体难以处理的问题,提出一种基于全局指针限定窗口的中文医学实体识别模型。该模型通过医疗领域自适应预训练和新词挖掘,学习并适应医疗领域的特定数据分布。使用全局指针网络解码,并引入实体限定窗口,有效减... 针对中文医学文本复杂嵌套实体难以处理的问题,提出一种基于全局指针限定窗口的中文医学实体识别模型。该模型通过医疗领域自适应预训练和新词挖掘,学习并适应医疗领域的特定数据分布。使用全局指针网络解码,并引入实体限定窗口,有效减少长冗余负样本对模型训练的干扰。为降低模型对样本顺序的敏感性,采用最优自蒸馏策略,使模型学习到更高质量的知识和特征表示。实验结果表明,该模型在4个公开数据集上的性能均显著高于基线模型。 展开更多
关键词 实体识别 中文医学 模型蒸馏 文本挖掘 全局指针 神经网络 深度学习
在线阅读 下载PDF
融合与高效全局指针网络的电力变压器缺陷文本实体识别方法
7
作者 林蔚青 郑垂锭 +4 位作者 陈静 江灏 肖洒 王铭海 缪希仁 《电网技术》 北大核心 2025年第11期4876-4887,共12页
电力变压器缺陷文本蕴含大量与设备可靠性密切相关的信息,可为变压器的智能化运维及寿命周期管理提供重要支撑。依托基于Transformer的双向编码器表示(bidirectional encoder representation from transformers,BERT)模型,文章提出一种... 电力变压器缺陷文本蕴含大量与设备可靠性密切相关的信息,可为变压器的智能化运维及寿命周期管理提供重要支撑。依托基于Transformer的双向编码器表示(bidirectional encoder representation from transformers,BERT)模型,文章提出一种融合乱序语言模型预训练BERT(pre-training BERT with permuted language model,PERT)与高效全局指针(efficient global pointer,EGP)网络的电力变压器缺陷文本实体识别方法。首先,在大规模中文语料库上利用乱序语言模型进行预训练以形成PERT模型。其次,PERT作为语义编码层,以深入挖掘实体内部的语义依赖关系,并捕捉复杂文本中的语言特征;EGP作为信息解码层,专注于精确定位关键信息并提取实体在缺陷文本中的分布特征,进而准确识别缺陷实体。最后,运用PERT-EGP模型识别缺陷文本中包含的缺陷设备、缺陷部件、缺陷部位、缺陷现象和缺陷程度5类实体。算例结果表明,相较于现有方法,该方法不仅在成分复杂的复合实体和长文本上效果提升显著,而且大幅缩短模型训练时间,具有更好的文本识别性能。 展开更多
关键词 缺陷文本 变压器 实体识别 乱序语言模型 高效全局指针网络
原文传递
基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法 被引量:2
8
作者 李斌 林民 +3 位作者 斯日古楞 高颖杰 王玉荣 张树钧 《计算机应用》 北大核心 2025年第1期75-81,共7页
基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取... 基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取方法存在错误传播问题,影响抽取效果。针对以上问题,提出一种基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法。首先,利用区间抽取式阅读理解的提示学习方法对预训练语言模型(PLM)注入领域知识以统一预训练和微调的优化目标,并对输入句子进行编码表示;其次,使用全局指针网络分别对主、客实体边界和不同关系下的主、客实体边界进行预测和联合解码,对齐成实体关系三元组,并构建了PTBG(Prompt Tuned BERT with Global pointer)模型,解决实体嵌套和关系重叠问题,同时避免了管道式解码的错误传播问题;最后,在上述工作基础上分析了不同提示模板对抽取性能的影响。在《史记》数据集上进行实验的结果表明,相较于注入领域知识前后的OneRel模型,PTBG模型所取得的F1值分别提升了1.64和1.97个百分点。可见,PTBG模型能更好地对中文古籍实体关系进行联合抽取,为低资源的小样本深度学习场景提供了新的研究思路与方法。 展开更多
关键词 实体关系联合抽取 全局指针网络 提示学习 预训练语言模型 中文古籍
在线阅读 下载PDF
基于增量预训练与对抗学习的古籍命名实体识别
9
作者 任乐 张仰森 +2 位作者 李剑龙 孙圆明 刘帅康 《计算机工程与设计》 北大核心 2025年第4期1190-1197,共8页
针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER-IPAL)。基于自建的古籍文本数据集,使用NEZHA-TCN模型进行预训练,在嵌入... 针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER-IPAL)。基于自建的古籍文本数据集,使用NEZHA-TCN模型进行预训练,在嵌入层融合对抗学习增强模型泛化能力,在解码层引入全局指针网络,将实体识别任务建模为子串提取任务,结合规则进行结果的矫正输出。实验结果表明,所提模型在“古籍命名实体识别2023”数据集(GuNER2023)上的F1值达到了95.34%,相较于基线模型NEZHA-GP提高了4.19%。 展开更多
关键词 二十四史 古籍命名实体识别 增量预训练 时序卷积神经网络 对抗学习 全局指针 子串提取
在线阅读 下载PDF
融合全局指针的突发事件命名实体识别研究
10
作者 蔡步清 田生伟 禹龙 《计算机仿真》 2025年第5期244-248,450,共6页
突发事件领域的命名实体识别可以从非结构化文本中提取事件的关键信息,有助于突发事件的早期预警和迅速响应。为解决条件随机场计算成本过高导致的解码效率低下的问题,提出了一种融合全局指针的命名实体方法,采用全局归一化对实体的首... 突发事件领域的命名实体识别可以从非结构化文本中提取事件的关键信息,有助于突发事件的早期预警和迅速响应。为解决条件随机场计算成本过高导致的解码效率低下的问题,提出了一种融合全局指针的命名实体方法,采用全局归一化对实体的首尾进行整体判别,获取全局实体信息,降低模型的计算成本和训练参数。此外,引入了有序神经元来提升模型获取层级信息的能力。在嵌入层增加了对抗训练,提升模型的泛化能力和效果。在突发事件数据集和多种公开数据集上上进行了广泛评估,实验结果表明,法在突发事件数据集上的F1值达到88.26%,优于现有的解决方案。 展开更多
关键词 命名实体识别 预训练模型 全局指针 有序神经元 对抗训练
在线阅读 下载PDF
基于深度学习的中文实体关系联合抽取方法
11
作者 韦慧敏 周加可 +1 位作者 文勇军 唐立军 《计算机与现代化》 2025年第8期10-15,共6页
实体关系抽取是构建知识图谱、提升搜索引擎效率等人工智能技术的重要一环。由于中文文本构词的复杂性、歧义性、隐含性等特点,中文实体关系抽取过程容易出现实体重叠、实体嵌套和信息冗余等情况。本文提出一种基于深度学习的中文实体... 实体关系抽取是构建知识图谱、提升搜索引擎效率等人工智能技术的重要一环。由于中文文本构词的复杂性、歧义性、隐含性等特点,中文实体关系抽取过程容易出现实体重叠、实体嵌套和信息冗余等情况。本文提出一种基于深度学习的中文实体关系联合抽取模型SRGP。该模型先对输入文本进行编码,通过特定关系预测网络得到特定关系集合,将特定关系集合与输入文本通过注意力机制融合到实体识别模块,减少中文实体关系抽取中的冗余计算;针对重叠实体抽取不充分和嵌套实体识别不准确等问题,利用特定关系集合约束下的全局归一化思想,提出基于特定关系的全局指针标注策略。分别选取2个通用中文数据集DUIE1.0和CMeIE,将本文模型SRGP与CopyRE、PRGC和CasRel等实体关系联合抽取典型模型进行对比实验,实验结果表明,本文模型在2个数据集上的F1值分别达到了61.3%和80.1%,比最好的基线模型CasRel和PRGC分别高1.5百分点和2.2百分点。 展开更多
关键词 实体关系抽取 深度学习 特定关系预测 冗余计算 全局指针标注策略
在线阅读 下载PDF
基于MacBERT-GP的中文医学命名实体识别方法
12
作者 姚传彪 马汉杰 +3 位作者 董慧 许永恩 李少华 李东倪 《智能计算机与应用》 2025年第2期190-197,共8页
医学命名实体识别作为医学信息提取的基础任务,在构建医学知识图谱、解决医学问题和自动分析病例等方面具有重要意义。相较于一般领域的命名实体识别,医学命名实体识别面临中文分词复杂性和医学领域术语丰富性等挑战,同时医学命名实体... 医学命名实体识别作为医学信息提取的基础任务,在构建医学知识图谱、解决医学问题和自动分析病例等方面具有重要意义。相较于一般领域的命名实体识别,医学命名实体识别面临中文分词复杂性和医学领域术语丰富性等挑战,同时医学命名实体更为复杂、容易嵌套。为了提升现有命名实体识别模型的准确性,解决训练过程中高质量标注数据匮乏的问题,针对医学命名实体识别,提出一种基于MacBERT-GP的中文医学命名实体识别方法。在CBLUE CMeEE-V2医疗命名实体识别数据集和CCKS2019电子病历数据集上的实验结果,充分验证了该方法的有效性。相较于经典的BERT-BiLSTM-CRF方法,所提出的方法在F1值上分别提升了6.24%和4.95%。 展开更多
关键词 MacBERT 大语言模型 全局指针 特征融合 嵌套实体
在线阅读 下载PDF
基于RBIEGP的中文医疗实体识别
13
作者 周文卓 廖光忠 《计算机技术与发展》 2025年第6期124-130,共7页
中文医疗文本的实体识别是自然语言处理领域的重点研究方向,文本的内在复杂性,包括术语的歧义性、实体的层级性以及对上下文信息的高度依赖,均有可能对实体识别任务的结果产生显著影响。为此,提出一种基于RBIEGP模型的中文实体识别方法... 中文医疗文本的实体识别是自然语言处理领域的重点研究方向,文本的内在复杂性,包括术语的歧义性、实体的层级性以及对上下文信息的高度依赖,均有可能对实体识别任务的结果产生显著影响。为此,提出一种基于RBIEGP模型的中文实体识别方法。该方法首先利用RoBERTa-wwm-ext预训练模型对输入的中文医疗文本进行编码处理,以生成包含丰富语义信息的词向量序列;然后,将这些词向量序列送入BiGRU网络和集成了注意力机制的迭代扩张卷积神经网络,以捕获输入文本的上下文信息以及扩展感受野;最后,将这些融合了语法语义特征、上下文信息以及扩展感受野的特征一起输入到全局指针网络(Efficient Global Pointer,EGP),以进行实体类别的判定,并输出具有高准确度的实体类别序列。实验结果表明,RBIEGP模型在CMeEE/Yidu-S4k数据集上的F 1分数分别达到了70.47%和83.02%,相较于一些现有的主流模型,分别提升了2.72百分点和1.99百分点。 展开更多
关键词 实体识别 预训练 全局指针网络 注意力机制 感受野
在线阅读 下载PDF
基于MacBERT与全局指针网络的中文电子病历命名实体识别
14
作者 吴天宇 郭冬冬 +2 位作者 李文桥 李子康 苗琳 《科学技术与工程》 北大核心 2025年第11期4656-4665,共10页
针对现有序列标注方法不能有效解决中文电子病历嵌套实体识别问题,提出一种基于MacBERT与全局指针网络的中文电子病历命名实体识别模型。首先通过MacBERT-large预训练模型将文本转换为结合语境信息的动态向量,然后使用FGM (fast gradien... 针对现有序列标注方法不能有效解决中文电子病历嵌套实体识别问题,提出一种基于MacBERT与全局指针网络的中文电子病历命名实体识别模型。首先通过MacBERT-large预训练模型将文本转换为结合语境信息的动态向量,然后使用FGM (fast gradient method)方法生成对抗样本添加至原有向量并一同输入BiLSTM (bi-directional long short-term memory)网络获取上下文特征,并通过引入注意力机制增强长距离语义特征获取,最后利用全局指针网络模型同时考虑头部和尾部的特征信息进行解码以获得更好的医学嵌套实体预测效果。实验结果表明,本文模型相较于识别效果较好的主流模型全局指针网络模型在CCKS2019以及两个版本的CMeEE中文电子病历数据集上F1分别提高了1.8%、1.37%、1.72%,证明了模型的有效性。 展开更多
关键词 命名实体识别 中文电子病历 全局指针网络 注意力机制
在线阅读 下载PDF
基于BERT的核辐射领域中文命名实体识别研究
15
作者 陈钦艺 陆智翔 +4 位作者 张杰民 陈建刚 王一伊 张朝松 徐立豪 《防化研究》 2025年第2期58-65,共8页
针对核辐射领域文本数据存在的命名实体识别样本不足、模型精度较差等问题,以核辐射领域相关图书和论文为数据基础,通过网络爬虫、手工搜索等方式补充数据并进行数据增强,构建具有三级实体、4000余条数据的核辐射数据库;采用掩码语言模... 针对核辐射领域文本数据存在的命名实体识别样本不足、模型精度较差等问题,以核辐射领域相关图书和论文为数据基础,通过网络爬虫、手工搜索等方式补充数据并进行数据增强,构建具有三级实体、4000余条数据的核辐射数据库;采用掩码语言模型方法自主训练出更适用于核辐射领域的Nuclear-BERT预训练模型,引入全局指针网络提高识别准确率。结果表明,构建的核辐射数据库标注质量较好,采用的Nuclear-BERT预训练模型在验证集和测试集上的F_(1)值分别达96.70%和86.10%,较传统模型识别准确率更高,能够更好地处理核辐射领域文本数据的命名实体识别任务。 展开更多
关键词 命名实体识别 自然语言处理 核辐射 预训练模型 全局指针
原文传递
融合BERT和全局指针网络的电网新设备启动方案实体关系联合抽取研究
16
作者 张文广 张竟阳 王思瀚 《电力大数据》 2025年第2期38-46,共9页
构建电网新设备启动方案的知识图谱有助于提升电力系统的智能化水平,实体关系抽取是其重要基础任务之一。针对电网新设备启动方案文本语义关系复杂、存在实体嵌套和三元组重叠的情况,本文提出了一种融合BERT和全局指针网络的联合抽取模... 构建电网新设备启动方案的知识图谱有助于提升电力系统的智能化水平,实体关系抽取是其重要基础任务之一。针对电网新设备启动方案文本语义关系复杂、存在实体嵌套和三元组重叠的情况,本文提出了一种融合BERT和全局指针网络的联合抽取模型。首先引入RoBERTa-wwm-ext预训练模型以增强复杂语义关系文本的学习能力。其次通过全局指针网络将实体首尾作为一个整体进行统一标注,以解决实体嵌套问题。然后搭建全局指针联合解码模型,以解决三元组重叠的问题。最后引入对抗训练和多任务动态加权机制,以进一步提升该模型的稳定性和识别效果。所提模型在电网新设备启动方案实体关系联合抽取任务中的精确率、召回率和F 1值分别达到92.77%、94.79%和93.77%,验证了所提模型的有效性。 展开更多
关键词 联合抽取 电网新设备启动方案 全局指针 BERT 对抗训练 多任务动态加权
在线阅读 下载PDF
融合RoBERTa-WWM和全局指针网络的农业病害实体关系联合抽取研究 被引量:4
17
作者 王彤 张立杰 +4 位作者 王铭 吴华瑞 朱华吉 杨英茹 王春山 《河北农业大学学报》 CAS CSCD 北大核心 2024年第3期113-120,129,共9页
针对实体和关系抽取过程中存在的一词多义、实体嵌套、三元组重叠的问题,本文提出了1种融合RoBERTa-WWM和全局指针网络的联合抽取模型RBGPL。该模型引入RoBERTa-WWM预训练模型,利用上下文的语境信息融合克服了不同语境下一词多义问题;... 针对实体和关系抽取过程中存在的一词多义、实体嵌套、三元组重叠的问题,本文提出了1种融合RoBERTa-WWM和全局指针网络的联合抽取模型RBGPL。该模型引入RoBERTa-WWM预训练模型,利用上下文的语境信息融合克服了不同语境下一词多义问题;采用全局指针网络Global pointer标注方式解决了实体嵌套问题;通过全局指针联合解码模型将三重抽取转变为五重提取,解决了三元组重叠问题。在自建农业病害数据集上,模型RBGPL的精确率、召回率、F1值达到76.23%,91.18%,83.04%,与其他联合抽取模型相对比F1值均取最优,有效地克服了一词多义问题和三元组重叠问题。此外,在病原(Pathogeny)和作物名称(Crop)2种易嵌套实体的F1值上提升了3%和18%,实体嵌套得到了显著缓解。本文方法提高了中文农业病害领域实体关系抽取性能,可为农业病害领域知识图谱的构建提供技术支持。 展开更多
关键词 农业病害 联合抽取 RoBERTa-WWM global pointer
在线阅读 下载PDF
基于对比学习与梯度惩罚的实体关系联合抽取模型 被引量:2
18
作者 张强 曾俊玮 陈锐 《吉林大学学报(理学版)》 CAS 北大核心 2024年第5期1155-1162,共8页
针对使用全局指针网络进行实体关系抽取时特征信息不明显的实体关系类型数据稀疏问题,以及数据中存在的类别不平衡和错误标注问题,提出一种基于对比学习和梯度惩罚方法并使用改进的RoBERTa预训练模型的实体关系联合抽取模型,在阿里天池... 针对使用全局指针网络进行实体关系抽取时特征信息不明显的实体关系类型数据稀疏问题,以及数据中存在的类别不平衡和错误标注问题,提出一种基于对比学习和梯度惩罚方法并使用改进的RoBERTa预训练模型的实体关系联合抽取模型,在阿里天池中文医疗信息处理评测基准数据集CBLUE2.0上进行实验的结果表明,该模型相比全局指针网络效果更优,能更有效完成复杂数据的实体关系抽取. 展开更多
关键词 实体关系抽取 对比学习 梯度惩罚 RoBERTa预训练模型 全局指针网络
在线阅读 下载PDF
GeoNER:Geological Named Entity Recognition with Enriched Domain Pre-Training Model and Adversarial Training
19
作者 MA Kai HU Xinxin +4 位作者 TIAN Miao TAN Yongjian ZHENG Shuai TAO Liufeng QIU Qinjun 《Acta Geologica Sinica(English Edition)》 SCIE CAS CSCD 2024年第5期1404-1417,共14页
As important geological data,a geological report contains rich expert and geological knowledge,but the challenge facing current research into geological knowledge extraction and mining is how to render accurate unders... As important geological data,a geological report contains rich expert and geological knowledge,but the challenge facing current research into geological knowledge extraction and mining is how to render accurate understanding of geological reports guided by domain knowledge.While generic named entity recognition models/tools can be utilized for the processing of geoscience reports/documents,their effectiveness is hampered by a dearth of domain-specific knowledge,which in turn leads to a pronounced decline in recognition accuracy.This study summarizes six types of typical geological entities,with reference to the ontological system of geological domains and builds a high quality corpus for the task of geological named entity recognition(GNER).In addition,Geo Wo BERT-adv BGP(Geological Word-base BERTadversarial training Bi-directional Long Short-Term Memory Global Pointer)is proposed to address the issues of ambiguity,diversity and nested entities for the geological entities.The model first uses the fine-tuned word granularitybased pre-training model Geo Wo BERT(Geological Word-base BERT)and combines the text features that are extracted using the Bi LSTM(Bi-directional Long Short-Term Memory),followed by an adversarial training algorithm to improve the robustness of the model and enhance its resistance to interference,the decoding finally being performed using a global association pointer algorithm.The experimental results show that the proposed model for the constructed dataset achieves high performance and is capable of mining the rich geological information. 展开更多
关键词 geological named entity recognition geological report adversarial training confrontation training global pointer pre-training model
在线阅读 下载PDF
一种面向法律文书的命名实体识别模型
20
作者 卢睿 李林瑛 《信息网络安全》 CSCD 北大核心 2024年第11期1783-1792,共10页
准确识别法律文书中的实体是构建智慧司法的基础,但通用的命名实体识别模型不能很好地识别法律文书中实体边界,识别结果不能与法律业务紧密结合。为有效提高法律文书中各实体的识别效果,文章提出一种面向法律文书的命名实体识别模型BBAG... 准确识别法律文书中的实体是构建智慧司法的基础,但通用的命名实体识别模型不能很好地识别法律文书中实体边界,识别结果不能与法律业务紧密结合。为有效提高法律文书中各实体的识别效果,文章提出一种面向法律文书的命名实体识别模型BBAG-NER。该模型首先利用BERT对字符序列进行编码,然后运用双向长短记忆神经网络和Attention分配不同权重以提高对实体边界的划分能力,最后采用全局指针识别备选司法实体片段,并通过实体分类器得到最终的实体类别。实验结果表明,在法律文书语料数据集上,BBAG-NER模型的F1值达到了89.18%,较BERT-CRF模型提高了2.1%,验证了模型整体的有效性。 展开更多
关键词 法律文书 命名实体识别 全局指针网络 双向长短时记忆
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部