联邦学习中抵抗大量后门客户端的鲁棒聚合算法被引量：6

A Robust Aggregated Algorithm against a Large Group Backdoor Clients in Federated Learning System

下载PDF

导出

摘要随着数据的爆炸式增长以及企业和个人对隐私问题的关注,传统的集中式机器学习已经不能满足现有的需求.联邦学习是一种新兴的分布式机器学习框架,旨在不分享私有数据的前提下利用分散的客户端训练一个全局模型,解决数据隐私和数据孤岛问题.然而,由于联邦学习的分布式和隐私保护特性,其容易受到各种各样的攻击,后门攻击则是联邦学习系统受到的攻击之一.目前,业界已提出大量的鲁邦算法来抵抗联邦学习系统遭受的后门攻击.然而,现有的鲁棒算法大多有较强的假设,例如受到不同客户端数据分布和恶意后门客户端数量的限制.我们的研究表明了现有的鲁棒算法不能解决在非独立同分布场景下,大量后门客户端共同攻击的问题.为解决这一难题,本文提出了一种鲁棒算法Poly.Poly算法包含两部分:一部分利用相似度矩阵和聚类算法进行聚类分析;另一部分则基于余弦相似度选择最优的类去聚合全局模型.由于Poly算法能完全去除恶意后门模型,从而完全避免了后门污染全局模型.为了验证Poly算法的性能,实验利用了MNIST、Fashion-MNIST、CIFAR-10和Reddit四种数据集,考虑了数据不平衡和类别不平衡两种非独立同分布场景以及独立同分布场景.此外,后门客户端的数量以10%为单位从50%递增到90%,以实现大量后门客户端攻击的场景,同时也对Poly算法在后门客户端少于正常客户端的场景进行了测试.实验结果显示,Poly能够完全抵抗不同场景下的后门攻击,后门攻击成功率只有1%左右(在一些场景下为0%)的同时,获得了较好的主任务精度.相较之下,几种现有经典算法则完全失效,大都使得后门攻击成功率为100%,这些表明了Poly算法的优越性. With the explosion of data and concerns about privacy among businesses and individuals,traditional centralized machine learning is no longer able to satisfy the existing needs.Federated learning(FL)is a burgeoning distributed machine learning framework,in which multiple diverse clients collaboratively train a global model without sharing the private data,so as to solve the data silos and privacy problems.However,existing studies have demonstrated that FL is extremely vulnerable to all kinds of attacks due to its distributed and privacy-preserving inherent characteristics.Backdoor attack is one of the most prominent attacks in the FL system.To defend against the backdoor attacks in the FL system,a large number of algorithms robust aggregation algorithms are proposed.Nevertheless,these robust aggregation algorithms are restricted by some strong assumptions,such as the number of malicious clients and the data distribution across the diverse clients.Our study shows that the existing robust aggregation algorithms fully failed under a large group of malicious backdoor clients or non-independently identically distributed(Non-IID)scenarios.To address this problem,we propose a robust aggregation algorithm called Poly which contains two crucial components:one component uses similarity matrix and clustering algorithm to handle the gradients of all clients;another component selects the optimal clusters containing benign clients to aggregate the global model based on the cosine similarity metric.Our proposed Poly can completely remove all malicious backdoor clients in the aggregation process,thereby avoiding the backdoor inserting into the global model.To test the effectiveness of defending against backdoor attack of our proposed Poly,we leverage MNIST,Fashion-MNIST,CIFAR-10 and Reddit datasets to conduct a series of experiments under both data imbalance and class imbalance Non-IID scenarios,as well as the independently identically distributed scenario.In addition to this,we also consider a large group of malicious backdoor clients scenario in which the number of malicious backdoor clients ranges from 50%to 90%with a step 10%,as well as the scenario where the number of malicious backdoor clients is less than that of benign clients.Our experimental results indicate that our proposed Poly outperforms the existing robust aggregation algorithms,and can also effectively defend against backdoor attacks with only about 1%attack success rate(even 0%attack success rate in some scenarios)under the testing scenarios,even under the data imbalance and class imbalance Non-IID scenarios and a large group of malicious backdoor clients scenario.Beyond that,our proposed Poly can also achieve satisfying primary task accuracy,which indicates that our algorithm Poly does not affect the performance on the primary task that we care about while defending against the backdoor attack.By contrast,the existing robust aggregation algorithms can hardly defend against the backdoor attack under Non-IID scenarios and a large group of malicious backdoor clients,achieving nearly 100%attack success rate.

作者王永康翟弟华夏元清 WANG Yong-Kang;ZHAI Di-Hua;XIA Yuan-Qing(School of Automation,Beijing Institute of Technology,Beijing 100081;Yangtze Delta Region Academy of Beijing Institute of Technology,Jiaxing,Zhejiang 314001)

机构地区北京理工大学自动化学院北京理工大学长三角研究院(嘉兴)

出处《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1302-1314,共13页 Chinese Journal of Computers

基金云端赋能机器人高性能多约束控制理论与关键技术研究(62173035) 小米青年学者项目资助。

关键词联邦学习后门攻击鲁棒性聚类异构 federated learning backdoor attacks robust clustering heterogeneous

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1刘艳,王田,彭绍亮,王国军,贾维嘉.基于边缘的联邦学习模型清洗和设备聚类方法[J].计算机学报,2021,44(12):2515-2528. 被引量：19
2周俊,方国英,吴楠.联邦学习安全与隐私保护研究综述[J].西华大学学报（自然科学版）,2020,39(4):9-17. 被引量：26
3周传鑫,孙奕,汪德刚,葛桦玮.联邦学习研究综述[J].网络与信息安全学报,2021,7(5):77-92. 被引量：86

二级参考文献16

1袁勇,王飞跃.区块链技术发展现状与展望[J].自动化学报,2016,42(4):481-494. 被引量：2869
2叶青青,孟小峰,朱敏杰,霍峥.本地化差分隐私研究综述[J].软件学报,2018,29(7):1981-2005. 被引量：87
3曹珍富,董晓蕾,周俊,沈佳辰,宁建廷,巩俊卿.大数据安全与隐私保护研究进展[J].计算机研究与发展,2016,53(10):2137-2151. 被引量：63
4苏冠通,徐茂桐.安全多方计算技术与应用综述[J].信息通信技术与政策,2019(5):19-22. 被引量：9
5吴嫚,刘笑嶂.基于PCA的对抗样本攻击防御研究[J].海南大学学报（自然科学版）,2019,37(2):134-139. 被引量：2
6周俊,董晓蕾,曹珍富.推荐系统的隐私保护研究进展[J].计算机研究与发展,2019,56(10):2033-2048. 被引量：17
7何英哲,胡兴波,何锦雯,孟国柱,陈恺.机器学习系统的隐私和安全问题综述[J].计算机研究与发展,2019,56(10):2049-2070. 被引量：31
8纪守领,李进锋,杜天宇,李博.机器学习模型可解释性方法、应用与安全研究综述[J].计算机研究与发展,2019,56(10):2071-2096. 被引量：219
9杨强.AI与数据隐私保护：联邦学习的破解之道[J].信息安全研究,2019,5(11):961-965. 被引量：111
10刘俊旭,孟小峰.机器学习的隐私保护研究综述[J].计算机研究与发展,2020,57(2):346-362. 被引量：72

共引文献122

1张艳艳.“联邦学习”及其在金融领域的应用分析[J].农村金融研究,2020(12):52-58. 被引量：8
2徐潜,章庆,喻博,于文青,贺伟.基于中间件与区块链的异构隐私计算平台互通系统研究[J].信息通信技术与政策,2021(6):38-49. 被引量：5
3毕丹阳,张钰雯,毕雅晴.基于预言机的可信数据上链技术[J].信息通信技术与政策,2021(9):79-84. 被引量：11
4邱鑫源,叶泽聪,崔翛龙,高志强.联邦学习通信开销研究综述[J].计算机应用,2022,42(2):333-342. 被引量：14
5陈前昕,毕仁万,林劼,金彪,熊金波.支持多数不规则用户的隐私保护联邦学习框架[J].网络与信息安全学报,2022,8(1):139-150. 被引量：2
6王延昭,唐华云,黄烁,马凯迪.债券市场基础设施数字化转型探索[J].武汉金融,2022(3):53-59. 被引量：2
7孙恩昌,张卉,何若兰,张冬英,张延华.基于联邦学习的移动通信资源管理:方法、进展与展望[J].北京工业大学学报,2022,48(7):783-793. 被引量：3
8朱智韬,司世景,王健宗,肖京.联邦推荐系统综述[J].大数据,2022,8(4):105-132. 被引量：5
9高宏伟,刘向南,张海君,隆克平.面向6G的智能通信感知一体化[J].中国传媒大学学报（自然科学版）,2022,29(3):9-16. 被引量：2
10徐泽汐,庄雷,张坤丽,桂明宇.基于知识图谱的服务功能链在线部署算法[J].通信学报,2022,43(8):41-51. 被引量：6

同被引文献37

1陆泉,张良韬.处理流程视角下的大数据技术发展现状与趋势[J].信息资源管理学报,2017,7(4):17-28. 被引量：13
2吴信东,董丙冰,堵新政,杨威.数据治理技术[J].软件学报,2019,30(9):2830-2856. 被引量：221
3何雯,白翰茹,李超.基于联邦学习的企业数据共享探讨[J].信息与电脑,2020,32(8):173-176. 被引量：5
4周俊,方国英,吴楠.联邦学习安全与隐私保护研究综述[J].西华大学学报（自然科学版）,2020,39(4):9-17. 被引量：26
5张思思,高旭光,滑文强.基于聚类与人工神经网络的遥感图像信息提取方法[J].电子设计工程,2020,28(15):106-109. 被引量：9
6吴俊杰,刘冠男,王静远,左源,部慧,林浩.数据智能:趋势与挑战[J].系统工程理论与实践,2020,40(8):2116-2149. 被引量：97
7鲁邦克,许春龙,孟祥兰.中国省际乡村振兴发展速度测度与时空异质性研究——基于组合加权主成分分析的综合评价方法[J].数理统计与管理,2021,40(2):205-221. 被引量：54
8李楠,强懿耕,樊瑞,焦庆宇.基于异常因子的航空器飞行轨迹异常检测研究[J].安全与环境学报,2021,21(2):643-648. 被引量：7
9贺文晨,郭少勇,邱雪松,陈连栋,张素香.基于DRL的联邦学习节点选择方法[J].通信学报,2021,42(6):62-71. 被引量：15
10孙爽,李晓会,刘妍,张兴.不同场景的联邦学习安全与隐私保护研究综述[J].计算机应用研究,2021,38(12):3527-3534. 被引量：23

引证文献6

1吴小红,陆浩楠,顾永跟,陶杰.基于模型质量评分的联邦学习聚合算法优化[J].计算机应用研究,2024,41(8):2427-2433. 被引量：2
2张忠良,龚晟琛,汪翼,雒兴刚.基于动态规划的联邦学习参与方选择优化方法[J].系统工程理论与实践,2024,44(12):4064-4083. 被引量：1
3康海燕,柯慧敏,邱晓英.异质车联网数据的群联邦迁移学习共享方法研究[J].重庆理工大学学报(自然科学),2025,39(2):1-10.
4施永辉,代琪,陈丽芳,韩阳.基于自然最近邻的联邦聚合算法[J].计算机工程,2025,51(6):236-244.
5夏云浩,张金鑫,陆威辰.基于差分隐私和鲁棒聚合的联邦学习[J].计算机技术与发展,2026,36(2):201-207.
6乔宁,宁波,张超,陈海东,张吉生,申少辉.基于集成学习算法的电力负荷聚合方法[J].信息技术,2026,50(3):19-24.

二级引证文献3

1陈煜军.人工智能驱动的小样本主观教育评价系统优化策略——孤立森林与肯德尔和谐系数的集成应用研究[J].江苏经贸职业技术学院学报,2024(6):53-57. 被引量：1
2袁兴华,何林知.高等教育网络安全与隐私保护:趋势、挑战及应对——《2024地平线报告:网络安全与隐私版》之启示[J].中国信息技术教育,2025(17):108-112.
3王菲菲,潘思宇.基于标准化框架的煤矿生产数据治理技术研究[J].信息记录材料,2026,27(2):118-120.

1郭松岳,王阳谦,柏思远,刘永恒,周骏,王梦鸽,廖清.面向数据混合分布的联邦自适应交互模型[J].计算机研究与发展,2023,60(6):1346-1357. 被引量：1
2丁泽云.基于生成对抗网络的手写数字生成模型对比分析[J].现代工业经济和信息化,2023,13(4):263-265. 被引量：2
3胡诚,曹春阳,徐晨光,邓承志.基于深度学习的单幅图像超分辨率重建算法综述[J].黑龙江科学,2023,14(8):31-33. 被引量：3
4吴紫阳,王洁,邓鉴.以青春之名,在科研创新赛道奋力奔跑[J].中国研究生,2023(4):36-37.
5郝少璞,刘全,徐平安,张立华,黄志刚.基于余弦相似度的多模态模仿学习方法[J].计算机研究与发展,2023,60(6):1358-1372. 被引量：12
6周泽昕,于溯,李勇,王兴国,柳焕章.新能源经柔直送出场景下功角变化导致比相式距离保护不正确动作机制分析[J].中国电机工程学报,2023,43(5):1730-1738. 被引量：18
7刘畅,陈莹.基于W正则化和变式余弦动量的二值量化[J].南开大学学报（自然科学版）,2023,56(2):22-30.
8杨盼盼,张信明.基于标签的无数据的成员推理攻击[J].网络安全与数据治理,2023,42(5):44-49. 被引量：1
9薛广义.新时代背景下技术转移的知识产权保护对策分析[J].法制博览,2022(18):44-46. 被引量：4
10崔瑶,王蕾.大豆蛋白对肾脏疾病影响研究进展[J].社区医学杂志,2023,21(6):324-328.

计算机学报

2023年第6期

浏览历史

内容加载中请稍等...

联邦学习中抵抗大量后门客户端的鲁棒聚合算法被引量：6

参考文献3

二级参考文献16

共引文献122

同被引文献37

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

联邦学习中抵抗大量后门客户端的鲁棒聚合算法 被引量：6

参考文献3

二级参考文献16

共引文献122

同被引文献37

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

联邦学习中抵抗大量后门客户端的鲁棒聚合算法被引量：6