为了解决真实Web应用攻击数据数量小、差异性大和攻击载荷多样化导致大模型训练效果差的问题,提出一种基于联邦大模型的网络攻击检测方法(Intrusion Detection methods based on Federal Large Language Model,FLLLMID).首先,提出一种...为了解决真实Web应用攻击数据数量小、差异性大和攻击载荷多样化导致大模型训练效果差的问题,提出一种基于联邦大模型的网络攻击检测方法(Intrusion Detection methods based on Federal Large Language Model,FLLLMID).首先,提出一种面向大模型微调的联邦学习网络,服务器对客户端本地大模型通过增量数据训练产生的参数,进行增量聚合的方式,提高联邦学习中大模型的参数聚合效率以及避免网络流量数据暴露的问题;其次,基于大模型对代码的理解能力,提出面向应用层数据的攻击检测模型(CodeBERT-LSTM),通过对应用层数据报文进行分析,使用CodeBERT模型对有效字段进行向量编码后,结合长短期记忆网络(Long Short-Term Memory,LSTM)进行分类,实现对Web应用高效的攻击检测任务;最后,实验结果表明,FL-LLMID方法在面向应用层数据的攻击检测任务中准确率达到99.63%,与传统联邦学习相比,增量式学习的效率提升了12个百分点.展开更多
联邦学习因具有隐私保护的天然特性,已经逐渐成为一个被广泛认可的分布式机器学习框架。但由于参与方数据分布的差异性,特别是呈现非独立同分布(Non-Independent and Identically Distributed,Non-IID)时,其面临着泛化性能不足、收敛性...联邦学习因具有隐私保护的天然特性,已经逐渐成为一个被广泛认可的分布式机器学习框架。但由于参与方数据分布的差异性,特别是呈现非独立同分布(Non-Independent and Identically Distributed,Non-IID)时,其面临着泛化性能不足、收敛性能下降、数据倾斜等严峻挑战。用预训练基础模型缓解Non-IID问题作为一种新颖的方法,演变出了各种各样的解决方案。对此,从预训练基础模型的角度,对现有工作进行了综述。首先介绍了基础模型方法,对典型的基础模型编码结构进行对比分析。其次从修改输入、基础模型部分结构再训练,以及参数高效微调3个角度,提出了一种新的分类方法。最后探讨了该类工作的核心难题和未来研究方向。展开更多
为了解决联邦学习在车联网中终端设备数据的异质性导致模型训练准确率不稳定和性能下降,以及车辆分布广泛,通信和计算资源有限的问题,提出一种数据类型和数据规模并行优化的群联邦迁移学习数据共享方法(swarm federated transfer learni...为了解决联邦学习在车联网中终端设备数据的异质性导致模型训练准确率不稳定和性能下降,以及车辆分布广泛,通信和计算资源有限的问题,提出一种数据类型和数据规模并行优化的群联邦迁移学习数据共享方法(swarm federated transfer learning,SFTL)。提出基于高斯混合模型的共识设备组划分机制,通过对数据分布建模构建共识设备组,实现对异质性数据的有效管理和分析;面向划分的共识设备组,设计蜂群学习训练机制,加强相似设备组之间的协同学习过程;提出组间迁移学习机制,通过模型预训练法增量迁移不同共识设备组信息最小化模型差异,提高联邦模型聚合准确率。在公共数据集上的实验表明:与基线方法相比,SFTL模型训练准确率平均提高7%,通信时间平均降低10%。展开更多
传统联邦学习中经过加权聚合得到的全局模型无法应对跨客户端的数据异构的问题。现有研究通过形成个性化模型应对,但个性化模型如何平衡全局的共性信息和本地的个性信息是一个挑战。针对上述问题,提出了一种个性化联邦学习模型聚合框架F...传统联邦学习中经过加权聚合得到的全局模型无法应对跨客户端的数据异构的问题。现有研究通过形成个性化模型应对,但个性化模型如何平衡全局的共性信息和本地的个性信息是一个挑战。针对上述问题,提出了一种个性化联邦学习模型聚合框架FedPG(federated learning with personalized global model)。FedPG基于客户端模型的相似性,将归一化后的模型参数变化量的余弦相似度作为模型聚合的个性化权重,从而实现面向客户端的全局模型个性化聚合。通过引入平滑系数,该框架可以灵活地调整模型中共性信息和个性信息的比重。为了降低平滑系数的选择成本,进一步提出调度平滑系数的个性化联邦学习模型聚合框架FedPGS(federated learning with personalized global model and scheduled personalization)。在实验中,FedPG和FedPGS两个框架使得FedAvg、FedProto、FedProx算法在特征分布偏移的数据集上的准确率平均提升1.20~11.50百分点,且使得模型的准确率受恶意设备的影响更小。结果表明,FedPG和FedPGS框架在数据异构和存在恶意设备干扰的情况下能有效提升模型的准确率和鲁棒性。展开更多
文摘为了解决真实Web应用攻击数据数量小、差异性大和攻击载荷多样化导致大模型训练效果差的问题,提出一种基于联邦大模型的网络攻击检测方法(Intrusion Detection methods based on Federal Large Language Model,FLLLMID).首先,提出一种面向大模型微调的联邦学习网络,服务器对客户端本地大模型通过增量数据训练产生的参数,进行增量聚合的方式,提高联邦学习中大模型的参数聚合效率以及避免网络流量数据暴露的问题;其次,基于大模型对代码的理解能力,提出面向应用层数据的攻击检测模型(CodeBERT-LSTM),通过对应用层数据报文进行分析,使用CodeBERT模型对有效字段进行向量编码后,结合长短期记忆网络(Long Short-Term Memory,LSTM)进行分类,实现对Web应用高效的攻击检测任务;最后,实验结果表明,FL-LLMID方法在面向应用层数据的攻击检测任务中准确率达到99.63%,与传统联邦学习相比,增量式学习的效率提升了12个百分点.
文摘联邦学习因具有隐私保护的天然特性,已经逐渐成为一个被广泛认可的分布式机器学习框架。但由于参与方数据分布的差异性,特别是呈现非独立同分布(Non-Independent and Identically Distributed,Non-IID)时,其面临着泛化性能不足、收敛性能下降、数据倾斜等严峻挑战。用预训练基础模型缓解Non-IID问题作为一种新颖的方法,演变出了各种各样的解决方案。对此,从预训练基础模型的角度,对现有工作进行了综述。首先介绍了基础模型方法,对典型的基础模型编码结构进行对比分析。其次从修改输入、基础模型部分结构再训练,以及参数高效微调3个角度,提出了一种新的分类方法。最后探讨了该类工作的核心难题和未来研究方向。
文摘为了解决联邦学习在车联网中终端设备数据的异质性导致模型训练准确率不稳定和性能下降,以及车辆分布广泛,通信和计算资源有限的问题,提出一种数据类型和数据规模并行优化的群联邦迁移学习数据共享方法(swarm federated transfer learning,SFTL)。提出基于高斯混合模型的共识设备组划分机制,通过对数据分布建模构建共识设备组,实现对异质性数据的有效管理和分析;面向划分的共识设备组,设计蜂群学习训练机制,加强相似设备组之间的协同学习过程;提出组间迁移学习机制,通过模型预训练法增量迁移不同共识设备组信息最小化模型差异,提高联邦模型聚合准确率。在公共数据集上的实验表明:与基线方法相比,SFTL模型训练准确率平均提高7%,通信时间平均降低10%。
文摘传统联邦学习中经过加权聚合得到的全局模型无法应对跨客户端的数据异构的问题。现有研究通过形成个性化模型应对,但个性化模型如何平衡全局的共性信息和本地的个性信息是一个挑战。针对上述问题,提出了一种个性化联邦学习模型聚合框架FedPG(federated learning with personalized global model)。FedPG基于客户端模型的相似性,将归一化后的模型参数变化量的余弦相似度作为模型聚合的个性化权重,从而实现面向客户端的全局模型个性化聚合。通过引入平滑系数,该框架可以灵活地调整模型中共性信息和个性信息的比重。为了降低平滑系数的选择成本,进一步提出调度平滑系数的个性化联邦学习模型聚合框架FedPGS(federated learning with personalized global model and scheduled personalization)。在实验中,FedPG和FedPGS两个框架使得FedAvg、FedProto、FedProx算法在特征分布偏移的数据集上的准确率平均提升1.20~11.50百分点,且使得模型的准确率受恶意设备的影响更小。结果表明,FedPG和FedPGS框架在数据异构和存在恶意设备干扰的情况下能有效提升模型的准确率和鲁棒性。