模型的编码器输出中包含冗余信息,导致生成内容存在语义不相关和偏离主旨等问题,提出了一个结合关键词信息和门控单元的预训练文本摘要模型BGUK(BERT with Gated Unit and Keywords)。首先,该模型使用BERT对源文本进行编码,并引入了门...模型的编码器输出中包含冗余信息,导致生成内容存在语义不相关和偏离主旨等问题,提出了一个结合关键词信息和门控单元的预训练文本摘要模型BGUK(BERT with Gated Unit and Keywords)。首先,该模型使用BERT对源文本进行编码,并引入了门控单元进行语义提取和冗余信息的过滤。其次,将主题关键词信息合并到模型中解决生成摘要偏离主旨的问题。最后,加入覆盖率机制来减少生成摘要时出现的重复。实验结果表明BGUK生成了更符合主题的高质量的摘要,同时ROUGE得分也超过了基线模型。展开更多
在机器阅读理解任务中,如何在包含不可回答问题的情况下提高答案的准确性是自然语言处理领域的一项重要挑战.虽然基于深度学习的机器阅读理解模型展现出很好的性能,但是这些模型仍然存在抽取特征冗余、语义信息不全面、问题分类任务和...在机器阅读理解任务中,如何在包含不可回答问题的情况下提高答案的准确性是自然语言处理领域的一项重要挑战.虽然基于深度学习的机器阅读理解模型展现出很好的性能,但是这些模型仍然存在抽取特征冗余、语义信息不全面、问题分类任务和答案抽取任务耦合性不强的问题.为了解决以上问题,本文提出一种结合门控机制和多级残差结构的多任务联合训练模型GMRT(Gated Mechanism and Multi-level Residual Structure for Multi-task Joint Training),以提升机器阅读理解任务中答案预测的准确性.GMRT构建门控机制来筛选交互后的关联特征,从而控制信息的流动.采用多级残差结构分别连接注意力机制和门控机制,保证每个阶段都保留原始语义信息.同时,通过边缘损失函数对问题分类任务和答案抽取任务联合训练,确保预测答案过程中任务之间的强耦合性.在SQuAD2.0数据集上的实验结果表明,GMRT模型的EM值和F1值均优于对比模型.展开更多
针对关系抽取(RE)任务中实体关系语义挖掘困难和预测关系有偏差等问题,提出一种基于掩码提示与门控记忆网络校准(MGMNC)的RE方法。首先,利用提示中的掩码学习实体之间在预训练语言模型(PLM)语义空间中的潜在语义,通过构造掩码注意力权...针对关系抽取(RE)任务中实体关系语义挖掘困难和预测关系有偏差等问题,提出一种基于掩码提示与门控记忆网络校准(MGMNC)的RE方法。首先,利用提示中的掩码学习实体之间在预训练语言模型(PLM)语义空间中的潜在语义,通过构造掩码注意力权重矩阵,将离散的掩码语义空间相互关联;其次,采用门控校准网络将含有实体和关系语义的掩码表示融入句子的全局语义;再次,将它们作为关系提示校准关系信息,随后将句子表示的最终表示映射至相应的关系类别;最后,通过更好地利用提示中掩码,并结合传统微调方法的学习句子全局语义的优势,充分激发PLM的潜力。实验结果表明,所提方法在SemEval(SemEval-2010 Task 8)数据集的F1值达到91.4%,相较于RELA(Relation Extraction with Label Augmentation)生成式方法提高了1.0个百分点;在SciERC(Entities, Relations, and Coreference for Scientific knowledge graph construction)和CLTC(Chinese Literature Text Corpus)数据集上的F1值分别达到91.0%和82.8%。所提方法在上述3个数据集上均明显优于对比方法,验证了所提方法的有效性。相较于基于生成式的方法,所提方法实现了更优的抽取性能。展开更多
文摘模型的编码器输出中包含冗余信息,导致生成内容存在语义不相关和偏离主旨等问题,提出了一个结合关键词信息和门控单元的预训练文本摘要模型BGUK(BERT with Gated Unit and Keywords)。首先,该模型使用BERT对源文本进行编码,并引入了门控单元进行语义提取和冗余信息的过滤。其次,将主题关键词信息合并到模型中解决生成摘要偏离主旨的问题。最后,加入覆盖率机制来减少生成摘要时出现的重复。实验结果表明BGUK生成了更符合主题的高质量的摘要,同时ROUGE得分也超过了基线模型。
文摘在机器阅读理解任务中,如何在包含不可回答问题的情况下提高答案的准确性是自然语言处理领域的一项重要挑战.虽然基于深度学习的机器阅读理解模型展现出很好的性能,但是这些模型仍然存在抽取特征冗余、语义信息不全面、问题分类任务和答案抽取任务耦合性不强的问题.为了解决以上问题,本文提出一种结合门控机制和多级残差结构的多任务联合训练模型GMRT(Gated Mechanism and Multi-level Residual Structure for Multi-task Joint Training),以提升机器阅读理解任务中答案预测的准确性.GMRT构建门控机制来筛选交互后的关联特征,从而控制信息的流动.采用多级残差结构分别连接注意力机制和门控机制,保证每个阶段都保留原始语义信息.同时,通过边缘损失函数对问题分类任务和答案抽取任务联合训练,确保预测答案过程中任务之间的强耦合性.在SQuAD2.0数据集上的实验结果表明,GMRT模型的EM值和F1值均优于对比模型.
文摘针对关系抽取(RE)任务中实体关系语义挖掘困难和预测关系有偏差等问题,提出一种基于掩码提示与门控记忆网络校准(MGMNC)的RE方法。首先,利用提示中的掩码学习实体之间在预训练语言模型(PLM)语义空间中的潜在语义,通过构造掩码注意力权重矩阵,将离散的掩码语义空间相互关联;其次,采用门控校准网络将含有实体和关系语义的掩码表示融入句子的全局语义;再次,将它们作为关系提示校准关系信息,随后将句子表示的最终表示映射至相应的关系类别;最后,通过更好地利用提示中掩码,并结合传统微调方法的学习句子全局语义的优势,充分激发PLM的潜力。实验结果表明,所提方法在SemEval(SemEval-2010 Task 8)数据集的F1值达到91.4%,相较于RELA(Relation Extraction with Label Augmentation)生成式方法提高了1.0个百分点;在SciERC(Entities, Relations, and Coreference for Scientific knowledge graph construction)和CLTC(Chinese Literature Text Corpus)数据集上的F1值分别达到91.0%和82.8%。所提方法在上述3个数据集上均明显优于对比方法,验证了所提方法的有效性。相较于基于生成式的方法,所提方法实现了更优的抽取性能。