基于事实信息的核查是目前不实信息核查研究的主流方法,但现有研究成果还存在文档检索中抽取的文档内容与待检测声明相关度不高、证据检索中忽略了句子间的内在联系以及声明验证中小语言模型的逻辑推理能力不足等问题。基于此,提出了一...基于事实信息的核查是目前不实信息核查研究的主流方法,但现有研究成果还存在文档检索中抽取的文档内容与待检测声明相关度不高、证据检索中忽略了句子间的内在联系以及声明验证中小语言模型的逻辑推理能力不足等问题。基于此,提出了一种融合大语言模型和证据抽取的事实核查模型。为提高待检测声明与文档内容的相关度,提出了DRCV(Document Retrieving for Claim Verification)文档检索算法;为了从文档中提取与声明最相关的句子作为证据,构建了“文档-声明对”训练证据检索模型,提出了基于关键词-注意力机制的证据检索方法;为增强模型的逻辑推理能力和提高事实核查的准确度,开发了基于大语言模型的声明验证模型,该模型选取参数量从5亿至1300亿的七款大语言模型对声明进行验证,并利用其逻辑推理能力核查声明的事实性。基于真实数据集对提出的事实核查模型进行仿真实验,结果表明该模型进行事实核查的准确率比仅使用大语言模型高0.1%~34.0%,且比现有效果最好的模型准确率高1.8%。展开更多
在自然语言处理(Natural Language Processing,NLP)领域,后门攻击已成为现代NLP应用的重大威胁,严重影响系统的安全性与可靠性。尽管文本领域已提出多种防御策略,但在不接触中毒数据集也不参与后门训练过程时,面对复杂的攻击场景,现有...在自然语言处理(Natural Language Processing,NLP)领域,后门攻击已成为现代NLP应用的重大威胁,严重影响系统的安全性与可靠性。尽管文本领域已提出多种防御策略,但在不接触中毒数据集也不参与后门训练过程时,面对复杂的攻击场景,现有方法仍难以有效应对。为此,提出一种基于机器遗忘的文本后门攻击防御方法NLPShield。该方法仅需少量干净样本,通过基于错误标注的训练和干净神经元剪枝两个关键阶段,实现对文本后门攻击的有效防御。实验在SST-2和AGNews数据集上进行,结果显示,在保持较高干净准确率的情况下,NLPShield方法相较于现有最先进基线防御方法,平均能将攻击成功率降低24.83%。这表明NLPShield方法能显著提升多种后门攻击的防御效果,切实有效地缓解文本后门攻击。展开更多
文摘基于事实信息的核查是目前不实信息核查研究的主流方法,但现有研究成果还存在文档检索中抽取的文档内容与待检测声明相关度不高、证据检索中忽略了句子间的内在联系以及声明验证中小语言模型的逻辑推理能力不足等问题。基于此,提出了一种融合大语言模型和证据抽取的事实核查模型。为提高待检测声明与文档内容的相关度,提出了DRCV(Document Retrieving for Claim Verification)文档检索算法;为了从文档中提取与声明最相关的句子作为证据,构建了“文档-声明对”训练证据检索模型,提出了基于关键词-注意力机制的证据检索方法;为增强模型的逻辑推理能力和提高事实核查的准确度,开发了基于大语言模型的声明验证模型,该模型选取参数量从5亿至1300亿的七款大语言模型对声明进行验证,并利用其逻辑推理能力核查声明的事实性。基于真实数据集对提出的事实核查模型进行仿真实验,结果表明该模型进行事实核查的准确率比仅使用大语言模型高0.1%~34.0%,且比现有效果最好的模型准确率高1.8%。
文摘在自然语言处理(Natural Language Processing,NLP)领域,后门攻击已成为现代NLP应用的重大威胁,严重影响系统的安全性与可靠性。尽管文本领域已提出多种防御策略,但在不接触中毒数据集也不参与后门训练过程时,面对复杂的攻击场景,现有方法仍难以有效应对。为此,提出一种基于机器遗忘的文本后门攻击防御方法NLPShield。该方法仅需少量干净样本,通过基于错误标注的训练和干净神经元剪枝两个关键阶段,实现对文本后门攻击的有效防御。实验在SST-2和AGNews数据集上进行,结果显示,在保持较高干净准确率的情况下,NLPShield方法相较于现有最先进基线防御方法,平均能将攻击成功率降低24.83%。这表明NLPShield方法能显著提升多种后门攻击的防御效果,切实有效地缓解文本后门攻击。
文摘特定辐射源识别(Specific emitter identification,SEI)通过分析设备信号硬件特征保障物联网数据安全。现有的深度学习方法在进行特定辐射源识别时,样本数量受限,过于依赖大量已标记样本,无法做到高区分度表征,存在识别性能差的问题。针对这些问题,提出了基于样本插值(Mixup)增强的少样本SEI方法。首先采用Mixup的增强方式来扩展无线电信号样本的数量解决标注样本不足的问题;其次,基于孪生神经网络与复数神经网络(Complex-valued neural networks,CVNN)构建变体三元组网络(Triplet margin network based on CVNN,CVNN-TMN)提高模型的泛化能力和区分度,实现了少样本场景下特定辐射源的精准识别。实验结果表明,与现有多种先进SEI方法对比,在训练集和测试集样本划分比例不同情况下,提出的CVNN-TMN识别精度整体有5%~30%的提升,表明所构建的CVNN-TMN模型在区分度上的优异表现。