基于事实信息的核查是目前不实信息核查研究的主流方法,但现有研究成果还存在文档检索中抽取的文档内容与待检测声明相关度不高、证据检索中忽略了句子间的内在联系以及声明验证中小语言模型的逻辑推理能力不足等问题。基于此,提出了一...基于事实信息的核查是目前不实信息核查研究的主流方法,但现有研究成果还存在文档检索中抽取的文档内容与待检测声明相关度不高、证据检索中忽略了句子间的内在联系以及声明验证中小语言模型的逻辑推理能力不足等问题。基于此,提出了一种融合大语言模型和证据抽取的事实核查模型。为提高待检测声明与文档内容的相关度,提出了DRCV(Document Retrieving for Claim Verification)文档检索算法;为了从文档中提取与声明最相关的句子作为证据,构建了“文档-声明对”训练证据检索模型,提出了基于关键词-注意力机制的证据检索方法;为增强模型的逻辑推理能力和提高事实核查的准确度,开发了基于大语言模型的声明验证模型,该模型选取参数量从5亿至1300亿的七款大语言模型对声明进行验证,并利用其逻辑推理能力核查声明的事实性。基于真实数据集对提出的事实核查模型进行仿真实验,结果表明该模型进行事实核查的准确率比仅使用大语言模型高0.1%~34.0%,且比现有效果最好的模型准确率高1.8%。展开更多
文摘基于事实信息的核查是目前不实信息核查研究的主流方法,但现有研究成果还存在文档检索中抽取的文档内容与待检测声明相关度不高、证据检索中忽略了句子间的内在联系以及声明验证中小语言模型的逻辑推理能力不足等问题。基于此,提出了一种融合大语言模型和证据抽取的事实核查模型。为提高待检测声明与文档内容的相关度,提出了DRCV(Document Retrieving for Claim Verification)文档检索算法;为了从文档中提取与声明最相关的句子作为证据,构建了“文档-声明对”训练证据检索模型,提出了基于关键词-注意力机制的证据检索方法;为增强模型的逻辑推理能力和提高事实核查的准确度,开发了基于大语言模型的声明验证模型,该模型选取参数量从5亿至1300亿的七款大语言模型对声明进行验证,并利用其逻辑推理能力核查声明的事实性。基于真实数据集对提出的事实核查模型进行仿真实验,结果表明该模型进行事实核查的准确率比仅使用大语言模型高0.1%~34.0%,且比现有效果最好的模型准确率高1.8%。