基于常识推理问答的多模态题文不符检测

Multi-modal Clickbait Detection by Asking Commonsense Reasoning Questions to Infer Inconsistencies

下载PDF

导出

摘要主要研究题文不符的社交推文检测任务.这些推文往往通过欺骗性的标题或封面图来误导读者点击与之无关的低质内容,以让其广泛传播和带来点击量等商业利益.为了规避检测,恶意的创作者还会使用各种窍门将题文不符的推文伪装成合法的,譬如添加无关易混淆的合法内容来干扰检测器.检测这种推文需要对细节反复推敲,甚至还要借助外部的常识进行多步推理验证.然而,传统方法一般把推文看成是一堆词语符号并简单灌入神经网络做分类,忽略对其内在隐含的虚假细节进行分析,导致漏判和误判.而且这种黑盒子般的模型缺乏可解释性.为了解决这些问题,提出一种问答引导的新检测器,通过质疑-验证的方式对细节逐一分析,以发现潜在的不一致和虚假点.首先利用多模态检索增强技术提取推文中的细节点,然后通过提问的方式来质疑每个点.为了充分验证事实和其复杂关系,不仅覆盖简单的浅层匹配提问,还有深层次常识推理的高阶提问.每个提问可以从推文中找到字面答案.但是该答案可能是虚构和不准确的.为此,通过开放域的问答模型借助外部知识源来交叉验证,推导出相对可信的答案.当两个答案不同时,推文很可能存在虚假内容.这种不一致可以作为有效的特征,并与其他多模态的语义特征结合,以提高检测模型的判别能力和鲁棒性.此外,这可以把复杂的检测任务分解为一系列问答步骤,便于找出不一致细节来解释引起题文不符的原因.在3个主流数据集上做了充分的实验,验证了该方法的有效性. This study investigates the task of clickbait detection in social media posts.These posts often employ deceptive headlines or thumbnails to mislead readers into clicking on irrelevant or undesirable content,thus enabling widespread dissemination and generating commercial benefits such as increased clicks.To evade detection,malicious creators frequently disguise clickbait posts as legitimate ones,using techniques such as adding irrelevant or misleading content to deceive the detector.Detecting such posts requires a detailed analysis and complex multi-step reasoning using commonsense knowledge to identify inconsistencies.However,existing methods typically treat a post as a simple text span and feed it into a neural network for classification,neglecting the analysis of inherent false details,which leads to misjudgments.Moreover,these black-box models lack explainability.To address this issue,a new question-guided detector is proposed,which systematically analyzes the details through a doubt-then-verify approach to uncover potential inconsistencies and falsehoods.Specifically,a multi-modal retrieval-augmented technique is used to extract detailed clues from the content of the post,followed by questioning each clue.To ensure thorough verification of facts and their complex relationships,both simple matching questions and deep commonsense reasoning questions with varying levels of complexity are employed.Each question yields a plausible answer from the post,but the answer may be fabricated or inaccurate.Therefore,an open-domain QA model is utilized for cross-verification,leveraging external knowledge to derive a more reliable answer.When discrepancies are found between answers,the post is likely to contain false content.This inconsistency serves as a valuable feature and can be combined with other multi-modal features indicative of clickbait,improving the discriminative power of the detection model.By breaking down the complex clickbait detection task into a series of question-guided verification steps,inconspicuous inconsistencies can be identified to explain the underlying reasons for clickbait.Extensive experiments on three popular datasets demonstrate the effectiveness of the proposed approach.

作者余建兴王世祺陈祺赖韩江饶洋辉苏勤亮印鉴 YU Jian-Xing;WANG Shi-Qi;CHEN Qi;LAI Han-Jiang;RAO Yang-Hui;SU Qin-Liang;YIN Jian(School of Artificial Intelligence,Sun Yat-sen University,Zhuhai 519082,China;School of Computer Science and Engineering,Sun Yat-sen University,Guangzhou 510006,China;Key Laboratory of Intelligent Assessment Technology for Sustainable Tourism,Ministry of Culture and Tourism(Sun Yat-sen University),Zhuhai 510006,China;Guangdong Artificial Intelligence and Digital Economy Laboratory(Guangzhou),Guangzhou 510330,China)

机构地区中山大学人工智能学院中山大学计算机学院可持续旅游智能评测技术文化和旅游部重点实验室(中山大学) 人工智能与数字经济广东省实验室(广州)

出处《软件学报》北大核心 2025年第12期5720-5738,共19页 Journal of Software

基金国家自然科学基金(62276279,62372483,62276280,U2001211,U22B2060) 广东省基础与应用基础研究基金(2024B1515020032) 广州市科技计划(2023B01J0001,2024B01W0004)。

关键词题文不符检测常识推理提问生成 clickbait detection commonsense reasoning question generation

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1鞠天杰,刘功申,张倬胜,张茹.自然语言处理中的探针可解释方法综述[J].计算机学报,2024,47(4):733-758. 被引量：12
2范怡帆,邹博伟,徐庆婷,李志峰,洪宇.常识问答研究综述[J].软件学报,2024,35(1):236-265. 被引量：3
3杨洁祎,董一鸿,钱江波.基于图神经网络的小样本学习方法研究进展[J].计算机研究与发展,2024,61(4):856-876. 被引量：5
4杜雪盈,刘名威,沈立炜,彭鑫.面向链接预测的知识图谱表示学习方法综述[J].软件学报,2024,35(1):87-117. 被引量：22

二级参考文献25

1杨晓慧,万睿,张海滨,曾义夫,刘峤.基于符号语义映射的知识图谱表示学习算法[J].计算机研究与发展,2018,55(8):1773-1784. 被引量：17
2官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994. 被引量：196
3蒋留兵,周小龙,姜风伟,车俐.基于改进匹配网络的单样本学习[J].系统工程与电子技术,2019,41(6):1210-1217. 被引量：7
4黄恒琪,于娟,廖晓,席运江.知识图谱研究综述[J].计算机系统应用,2019,28(6):1-12. 被引量：268
5王鑫,邹磊,王朝坤,彭鹏,冯志勇.知识图谱数据管理研究综述[J].软件学报,2019,30(7):2139-2174. 被引量：174
6徐冰冰,岑科廷,黄俊杰,沈华伟,程学旗.图卷积神经网络综述[J].计算机学报,2020,43(5):755-780. 被引量：339
7王昊奋,丁军,胡芳槐,王鑫.大规模企业级知识图谱实践综述[J].计算机工程,2020,46(7):1-13. 被引量：53
8化盈盈,张岱墀,葛仕明.深度学习模型可解释性的研究进展[J].信息安全学报,2020,5(3):1-12. 被引量：54
9王智悦,于清,王楠,王耀国.基于知识图谱的智能问答研究综述[J].计算机工程与应用,2020,56(23):1-11. 被引量：91
10李凡长,刘洋,吴鹏翔,董方,蔡奇,王哲.元学习研究综述[J].计算机学报,2021,44(2):422-446. 被引量：97

共引文献38

1李荣宽,丁乙,王寒凝,贺宁.基于小样本学习的网络异常流量检测[J].指挥信息系统与技术,2024,15(2):88-93.
2商红云,朱继权.基于知识图谱的涉环境类犯罪侦查培训体系建构[J].湖北警官学院学报,2024,37(3):114-120.
3齐露露,俞卫琴.结合图神经网络的小样本图像分类方法[J].无线电工程,2024,54(7):1668-1675.
4张芳,单万锦,王雯.基于图结构增强的图神经网络方法[J].天津工业大学学报,2024,43(3):58-65. 被引量：1
5任福继,张彦如.通用大模型演进路线[J].科技导报,2024,42(12):44-50. 被引量：12
6牛广林,蔺震.面向关系特性建模的知识图谱表示学习研究综述[J].计算机科学,2024,51(9):182-195. 被引量：1
7邓阳,戴春春,王瑞金,朱芳艳,冷建涛,张田忠.疲劳寿命预测的机器学习模型研究进展[J].自然杂志,2024,46(4):247-260. 被引量：5
8王泽轩,陈亚军.AIGC技术发展与应用进展[J].印刷与数字媒体技术研究,2024(4):1-14. 被引量：16
9高云,刘寰,周建慧,郭艳萍.基于自然语言处理的学生评教情绪分析[J].山西大同大学学报（自然科学版）,2024,40(5):49-55. 被引量：1
10杨川,唐艺.人工智能技术介入视觉传达设计专业课程思考——以文字与版式设计课程为例[J].南京开放大学学报,2024(4):51-58. 被引量：9

1邱炯.An Arm and a Leg[J].小学生时代(大嘴英语),2025(12):35-35.
2徐海霞.简析问题链在英语阅读教学中的作用[J].语数外学习(高中版)(上),2025(9):66-66.
3李子骏,肖辉,李雪峰.面向知识密集型任务的检索增强生成技术综述[J].微电子学与计算机,2025,42(10):48-65.
4赵菲娜.深度学习驱动的多模态学术文献智能检索系统设计与性能评价[J].中文科技期刊数据库(文摘版)图书情报,2025(11):162-165.
5刘立.笔误?情动!——逆推《兰亭集序》的情感轨迹[J].教育研究与评论(中学教育教学),2025(7):82-85.
6唐棠.字面创新的“障眼法”[J].领导文萃,2025(22):23-24.
7汪寅人.对于“煤的新分类法及成分与特性图解研究”及“中国煤新图解分类法”两文的意见[J].地质学报,1957(2):221-229.
8王仁超,程亮.“蔬”语润廉心——单庄管理段小小菜园话廉洁[J].黄河.黄土.黄种人,2025(18):42-43.
9时宝蕊.如何欣赏文本的独特性[J].小学阅读指南(高年级版),2025(10):52-54.
10孙莉.丹东市:当幸福来敲门[J].共产党员,2025(15):30-31.

软件学报

2025年第12期

浏览历史

内容加载中请稍等...

基于常识推理问答的多模态题文不符检测

参考文献4

二级参考文献25

共引文献38

相关作者

相关机构

相关主题

浏览历史