随着钓鱼邮件数量的迅速增加以及对抗技术的不断演进,传统的钓鱼邮件检测方法在效率和准确性方面面临严峻挑战.为此,提出了一种基于大语言模型(large language model,LLM)的钓鱼邮件检测方法,以解决现有系统检测率低、漏报率高及人机交...随着钓鱼邮件数量的迅速增加以及对抗技术的不断演进,传统的钓鱼邮件检测方法在效率和准确性方面面临严峻挑战.为此,提出了一种基于大语言模型(large language model,LLM)的钓鱼邮件检测方法,以解决现有系统检测率低、漏报率高及人机交互性差等问题.通过全面分析钓鱼邮件的关键特征,包括邮件头部字段、正文内容、URL、二维码、附件及HTML页面,利用特征插入算法构建高质量的训练数据集.基于预训练语言模型LLaMA和低秩自适应微调技术(low-rank adaptation,LoRA),在仅更新0.72%模型参数(约50 MB)条件下实现领域知识迁移,获得钓鱼邮件检测大模型.实验结果显示,与传统方法相比,基于大语言模型的检测方法显著提升了检测的准确性与鲁棒性,整体准确率达到94.5%,有效降低了误报率,增强了钓鱼邮件特征的分类与解释能力,提供了更具实用性和可靠性的钓鱼邮件检测方案.展开更多
基金国家自然科学基金联合基金项目(U21A20485)浙江省“十四五”第二批本科省级教学改革备案项目(JGBA2024014)+2 种基金教育部产学合作协同育人项目(2501270945)2024年度浙江大学本科“AI赋能”示范课程建设项目(202424EE2501M)浙江大学第四批AI For Education系列实证教学研究项目(BKSY20251104)。
文摘目的探讨自回归移动平均模型-长短期记忆(autoregressive integrated moving average-long short-term memory,ARIMA-LSTM)组合模型在肾综合征出血热(hemorrhagic fever with renal syndrome,HFRS)不同流行模式发病率预测中应用的可行性。方法收集1961—2020年全国HFRS年发病率、2004年1月至2020年12月全国、黑龙江省、吉林省、辽宁省、陕西省、山东省、河北省、广东省HFRS逐月发病率数据;全国及黑龙江省作为冬峰较春峰高代表,吉林省、辽宁省作为春峰与冬峰相当代表,陕西省、山东省作为仅存在冬峰代表,河北省、广东省作为仅存在春峰代表。1961—2014年逐年发病率、2004年1月至2020年6月逐月发病率数据作为训练集,2015—2020年逐年发病率、2020年7-12月逐月发病率数据作为测试集。分别建立ARIMA模型、ARIMA-LSTM组合模型,采用平均绝对百分比误差下降率(decline rate of mean absolute percentage error,DR_(MAPE))、均方根误差下降率(decline rate of root mean squared error,DRRMSE)评价模型拟合及预测精度优化程度。结果全国逐年、全国及黑龙江省、吉林省、辽宁省、陕西省、山东省、河北省、广东省逐月HFRS发病率拟合最佳ARIMA模型分别为ARIMA(2,0,0)、ARIMA(3,1,0)(2,1,1)_(12)、ARIMA(2,0,1)(2,1,1)_(12)、ARIMA(3,0,0)(2,1,1)_(12)含常数项、ARIMA(2,1,1)(2,1,1)_(12)、ARIMA(1,0,3)(1,1,0)_(12)、ARIMA(0,1,3)(2,1,1)_(12)、ARIMA(1,1,3)(2,0,0)_(12)、ARIMA(3,1,1)(1,1,1)_(12)。全国逐年、全国及黑龙江省、吉林省、辽宁省、陕西省、山东省、河北省、广东省逐月数据建立ARIMA-LSTM组合模型较ARIMA模型拟合的DR_(MAPE)依次为-19.57%、-46.38%、-43.27%、-46.37%、-49.70%、-48.36%、-58.23%、-35.52%、-48.74%;DRRMSE依次为-11.21%、-36.17%、-64.89%、-55.68%、-54.81%、-31.76%、-39.69%、-55.64%、-30.06%。全国逐年、全国及黑龙江省、吉林省、辽宁省、陕西省、山东省、河北省、广东省逐月数据建立ARIMA-LSTM组合模型较ARIMA模型预测的DR_(MAPE)依次为-11.10%、-8.69%、-19.68%、-36.17%、-55.57%、-9.44%、-14.60%、-14.22%、-9.26%;DRRMSE依次为-14.43%、-7.42%、-12.66%、-13.83%、-36.56%、10.37%、81.14%、-19.68%、-1.18%。结论ARIMA-LSTM组合模型总体在各类HFRS数据中拟合及预测效果均优于ARIMA模型,LSTM适于我国HFRS预测模型优化,但陕西省和山东省不适于ARIMA-LSTM预测。
文摘随着钓鱼邮件数量的迅速增加以及对抗技术的不断演进,传统的钓鱼邮件检测方法在效率和准确性方面面临严峻挑战.为此,提出了一种基于大语言模型(large language model,LLM)的钓鱼邮件检测方法,以解决现有系统检测率低、漏报率高及人机交互性差等问题.通过全面分析钓鱼邮件的关键特征,包括邮件头部字段、正文内容、URL、二维码、附件及HTML页面,利用特征插入算法构建高质量的训练数据集.基于预训练语言模型LLaMA和低秩自适应微调技术(low-rank adaptation,LoRA),在仅更新0.72%模型参数(约50 MB)条件下实现领域知识迁移,获得钓鱼邮件检测大模型.实验结果显示,与传统方法相比,基于大语言模型的检测方法显著提升了检测的准确性与鲁棒性,整体准确率达到94.5%,有效降低了误报率,增强了钓鱼邮件特征的分类与解释能力,提供了更具实用性和可靠性的钓鱼邮件检测方案.