基于中文逻辑词的模型劫持攻击方法

Model Hijacking Attack Method Based on Chinese Logical Words

下载PDF

导出

摘要模型劫持攻击是一种新型攻击方式,通过植入特定词语,能够隐蔽地控制模型执行与原始任务截然不同的劫持任务,使模型拥有者的训练算力成本增加的同时面临潜在的法律风险。目前,已有研究针对德-英文语言翻译模型探索了这一攻击方式,但在中文自然语言处理(natural language processing,NLP)领域尚属空白。中文语言的独特性使得其面临不同于其他语言环境的安全挑战,因此亟需开发针对中文模型的攻击评估方法。基于上述事实,提出了一种基于中文逻辑词的模型劫持攻击方法Cheater,用于评估中文模型的安全性。Cheater针对中-英文NLP任务,首先使用公共模型对劫持数据进行伪装生成过渡数据,再通过在过渡样本中嵌入中文逻辑词的方式对其进行改造生成毒性数据,最后利用毒性数据完成对目标模型的劫持。实验表明,对于Bart[large]模型,Cheater在0.5%的数据投毒率下攻击成功率可以达到90.2%。 Model hijacking attack is a novel attack method that implants specific words to covertly control a model,making it perform tasks different from its original purpose,increasing training costs and exposing the model owner to legal risks.While this attack has been recently studied for German-English models,it remains unexplored in the Chinese natural language processing(NLP)field.Compared with other languages,the unique characteristics of Chinese pose distinct security challenges,making existing attack methods suitable for German-English models not directly applicable to Chinese models.However,these risks posed by this attack can still be exploited by attackers,thereby threatening Chinese models.Therefore,it is crucial to develop an attack evaluation method for Chinese models.Based on these considerations,we propose Cheater,a model hijacking attack method tailored for Chinese-English NLP tasks to evaluate the security of Chinese models.To successfully hijack the target model,Cheater first uses a public translation model to camouflage the hijacking data,generating a transitional dataset.It then embeds Chinese logical words into the transitional dataset to produce malicious data,which is used to hijack the target model.For the Bart[large]model,the experiment shows that Cheater achieves an attack success rate of 90.2%at a 0.5%data contamination rate.

作者钟一陈珍珠付安民高艳松 Zhong Yi;Chen Zhenzhu;Fu Anmin;Gao Yansong(School of Computing and Artificial Intelligence,Southwestern University of Finance and Economics,Chengdu 611130;Artificial Intelligence and Digital Finance Key Laboratory of Sichuan Province(Southwestern University of Finance and Economics),Chengdu 611130;School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094;School of Computer Science and Software Engieering,University of Western Australia,Perth WA,Australia 6009)

机构地区西南财经大学计算机与人工智能学院人工智能与数字金融四川省重点实验室(西南财经大学) 南京理工大学计算机科学与工程学院西澳大学计算机科学与软件工程学院

出处《计算机研究与发展》北大核心 2026年第2期525-538,共14页 Journal of Computer Research and Development

基金国家自然科学基金项目(62402397,62372236)。

关键词劫持攻击人工智能安全中文模型自然语言处理逻辑词 hijacking attack artificial intelligence security Chinese model natural language processing logical words

分类号 TP309.2 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1Tianyu Wu,Shizhu He,Jingping Liu,Siqi Sun,Kang Liu,Qing-Long Han,Yang Tang.A Brief Overview of ChatGPT:The History,Status Quo and Potential Future Development[J].IEEE/CAA Journal of Automatica Sinica,2023,10(5):1122-1136. 被引量：212
2Ming Zhou,Nan Duan,Shujie Liu,Heung-Yeung Shum.Progress in Neural NLP:Modeling,Learning,and Reasoning[J].Engineering,2020,6(3):275-290. 被引量：19
3秦臻,庄添铭,朱国淞,周尔强,丁熠,耿技.面向人工智能模型的安全攻击和防御策略综述[J].计算机研究与发展,2024,61(10):2627-2648. 被引量：14
4陈宇飞,沈超,王骞,李琦,王聪,纪守领,李康,管晓宏.人工智能系统安全与隐私风险[J].计算机研究与发展,2019,56(10):2135-2150. 被引量：63
5郑明钰,林政,刘正宵,付鹏,王伟平.文本后门攻击与防御综述[J].计算机研究与发展,2024,61(1):221-242. 被引量：4
6刘嘉浪,郭延明,老明瑞,于天元,武与伦,冯云浩,吴嘉壮.基于联邦学习的后门攻击与防御算法综述[J].计算机研究与发展,2024,61(10):2607-2626. 被引量：10
7Anirban Chakraborty,Manaar Alam,Vishal Dey,Anupam Chattopadhyay,Debdeep Mukhopadhyay.A survey on adversarial attacks and defences[J].CAAI Transactions on Intelligence Technology,2021,6(1):25-45. 被引量：12

二级参考文献18

1侯翔,闵连权.基于SURF特征区域的鲁棒水印算法[J].武汉大学学报（信息科学版）,2017,42(3):421-426. 被引量：19
2范正光,屈丹,闫红刚,张文林.基于深层神经网络的多特征关联声学建模方法[J].计算机研究与发展,2017,54(5):1036-1044. 被引量：6
3王娟娟,乔颖,王宏安.基于图模型的自动驾驶推理任务调度[J].计算机研究与发展,2017,54(8):1693-1702. 被引量：4
4Han Xu,Yao Ma,Hao-Chen Liu,Debayan Deb,Hui Liu,Ji-Liang Tang,Anil K.Jain.Adversarial Attacks and Defenses in Images, Graphs and Text: A Review[J].International Journal of Automation and computing,2020,17(2):151-178. 被引量：30
5周俊,方国英,吴楠.联邦学习安全与隐私保护研究综述[J].西华大学学报（自然科学版）,2020,39(4):9-17. 被引量：26
6陈兵,成翔,张佳乐,谢袁源.联邦学习安全与隐私保护综述[J].南京航空航天大学学报,2020,52(5):675-684. 被引量：32
7任奎,孟泉润,闫守琨,秦湛.人工智能模型数据泄露的攻击与防御研究综述[J].网络与信息安全学报,2021,7(1):1-10. 被引量：36
8刘颖,杨星,朱婷鸽.基于结构森林边缘和SIFT的鲁棒水印算法[J].激光与光电子学进展,2021,58(6):331-338. 被引量：8
9谭清尹,曾颖明,韩叶,刘一静,刘哲理.神经网络后门攻击研究[J].网络与信息安全学报,2021,7(3):46-58. 被引量：13
10陈大卫,付安民,周纯毅,陈珍珠.基于生成式对抗网络的联邦学习后门攻击方案[J].计算机研究与发展,2021,58(11):2364-2373. 被引量：16

共引文献326

1Anmin Li,Xiaohui Yao,Haiying Gu,Yungeng Zhang,Yuan Chang.Towards building a firm metaverse security base[J].Security and Safety,2023,2(2):57-71. 被引量：1
2李西雨,钱力,张智雄.基于提示微调的科技论文语义评价指标量化方法研究[J].数据分析与知识发现,2024,8(8):200-212. 被引量：11
3贺奕静,杨智勇,刘晓倩.人工智能环境下数字档案资源共享的SWOT分析[J].山西档案,2022(4):95-103. 被引量：14
4赵宏,常有康,王伟杰.深度神经网络的对抗攻击及防御方法综述[J].计算机科学,2022,49(S02):662-672. 被引量：10
5杨蓉.从信息安全、数据安全到算法安全——总体国家安全观视角下的网络法律治理[J].法学评论,2021(1):131-136. 被引量：94
6王嘉凯,刘艾杉,李思民,刘祥龙,吴文峻.智能系统全生命周期安全测试理论与方法[J].智能安全,2023,2(1):27-36. 被引量：2
7林彬.试论基于人工智能系统的安全及其隐私风险探析[J].数码设计,2019,8(20):26-26.
8徐大海.人工智能系统安全与隐私风险[J].电子技术与软件工程,2020(6):230-231.
9李辉,王迎春.人工智能与国家安全:主要内涵及美国的战略认知[J].全球科技经济瞭望,2020,35(2):21-25. 被引量：1
10罗长银,陈学斌,宋尚文,刘洋.数据预处理技术在异构数据中的应用[J].软件,2020,41(5):6-13. 被引量：5

1张贺,谢盼,白文佳.基于中文自然语言处理的文本分类算法研究与应用[J].吉林广播电视大学学报,2025(2):152-154.
2Shaohua Gu,Jiqi Shao,Ruolin He,Guanyue Xiong,Zeyang Qu,Yuanzhe Shao,Linlong Yu,Di Zhang,Fanhao Wang,Ruichen Xu,Peng Guo,Ningbo Xi,Yinxiang Li,Yanzhao Wu,Zhong Wei,Zhiyuan Li.Forging the iron-net:Towards a quantitative understanding of microbial communities via siderophoremediated interactions[J].Quantitative Biology,2025,13(2):1-15. 被引量：1
3冯桃桃,贺学敏,陈翠萍,周胜杰,牟旭红,李莉.基于文本挖掘的护理大规模开放在线课程学习者需求及其特征分析[J].中国实用护理杂志,2025,41(15):1150-1156.
4汤骏.基于BART的评审规则生成方法在AI评标活动中的应用[J].工程经济,2025,35(10):30-41.
5葛莘,张明厚.大豆花叶病毒种子传毒率测定方法的比较[J].中国农业科学,1986(1):94-95. 被引量：2
6陈浩,蒲晓琦,祝海江.基于文本提示的脑部出血块分割方法[J].北京化工大学学报(自然科学版),2025,52(6):83-90.
7张旭锋,郝选平.智慧矿山机电标准模型模块化复用方法分析与应用[J].智能矿山,2025,6(12):68-73.
8徐晓梅,郝立腾,刘佳娣,张惠玉,关红艳.典型功能建材产品抗菌抗病毒性能评价[J].中国建材科技,2025,34(S1):350-354.
9温奥楠,张晓会,杨咏涛,高梓翔,李文博,单珅瑶,商相宜,田淯文,郭殊玮,王艺蓁,王勇,赵一姣.基于非刚性配准构建三维颜面微笑仿真序列数据的方法[J].北京大学学报(医学版),2026,58(1):139-144.

计算机研究与发展

2026年第2期

浏览历史

内容加载中请稍等...

基于中文逻辑词的模型劫持攻击方法

参考文献7

二级参考文献18

共引文献326

相关作者

相关机构

相关主题

浏览历史