基于大语言模型的钓鱼邮件检测技术研究

Research on Phishing Email Detection Based on Large Language Model

下载PDF

导出

摘要随着钓鱼邮件数量的迅速增加以及对抗技术的不断演进,传统的钓鱼邮件检测方法在效率和准确性方面面临严峻挑战.为此,提出了一种基于大语言模型(large language model,LLM)的钓鱼邮件检测方法,以解决现有系统检测率低、漏报率高及人机交互性差等问题.通过全面分析钓鱼邮件的关键特征,包括邮件头部字段、正文内容、URL、二维码、附件及HTML页面,利用特征插入算法构建高质量的训练数据集.基于预训练语言模型LLaMA和低秩自适应微调技术(low-rank adaptation,LoRA),在仅更新0.72%模型参数(约50 MB)条件下实现领域知识迁移,获得钓鱼邮件检测大模型.实验结果显示,与传统方法相比,基于大语言模型的检测方法显著提升了检测的准确性与鲁棒性,整体准确率达到94.5%,有效降低了误报率,增强了钓鱼邮件特征的分类与解释能力,提供了更具实用性和可靠性的钓鱼邮件检测方案. With the rapid increase in phishing email volumes and the continuous evolution of adversarial techniques,traditional phishing detection methods have encountered significant challenges regarding efficiency and accuracy.To address issues such as low detection rates,high false-negative rates,and poor human-computer interaction in existing systems,the authors proposed a phishing email detection system based on large language model.Through comprehensive analysis of key phishing email characteristics-including header fields,body content,URLs,QR codes,attachments,and HTML pages-they constructed a high-quality training dataset using feature insertion algorithms.Building upon the pre-trained LLaMA model,the researchers implemented LoRA fine-tuning technology,achieving domain knowledge transfer by updating only 0.72%of model parameters(approximately 50 MB).Experimental results demonstrate that compared to traditional methods,the LLM-based detection approach achieves 94.5%overall accuracy with enhanced robustness,effectively reduces false-positive rates,improves classification and interpretation capabilities for phishing email features,and provides a more practical and reliable solution for phishing detection.

作者袁斌杨克涵邹德清刘勇张乾坤 Yuan Bin;Yang Kehan;Zou Deqing;Liu Yong;Zhang Qiankun(School of Cyber Science and Engineering,Huazhong University of Science and Technology,Wuhan 430074;Songshan Laboratory,Zhengzhou 452470;Zhongguancun Laboratory,Beijing 100190;Qi An Xin Technology Group Inc,Beijing 100044)

机构地区华中科技大学网络空间安全学院嵩山实验室中关村实验室奇安信集团股份有限公司

出处《信息安全研究》北大核心 2026年第2期151-163,共13页 Journal of Information Security Research

基金国家自然科学基金项目(62372191) 湖北省自然科学基金项目(2023AFB258) 嵩山实验室项目(241110210200)。

关键词钓鱼邮件大语言模型预训练语言模型低秩自适应微调 phishing email large language model pre-trained language model low-rank adaptation fine-tuning

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1金建栋,黄正,胡占宇,邹远鑫,秦辉东,赖清楠,杨加,周昌令.基于智能体工作流的高级钓鱼邮件检测方法[J].通信学报,2024,45(S2):59-68. 被引量：2
2文伟平,朱一帆,吕子晗,刘成杰.针对品牌的网络钓鱼扩线与检测方案[J].信息网络安全,2023(12):1-9. 被引量：1
3秦中元,王田田,刘伟强,张群芳.大语言模型水印技术研究进展[J].信息网络安全,2025(2):177-193. 被引量：4

二级参考文献1

1云雷,李丹,王欢欢.钓鱼网站检测技术研究综述[J].电子产品可靠性与环境试验,2021,39(5):114-119. 被引量：5

共引文献4

1刘冬,许鑫,蔚海燕.基于RoBERTa-BiGRU-eKAN的AI生成水印文本检测模型研究[J].中国人民公安大学学报(自然科学版),2025,31(3):85-94. 被引量：1
2张树华,张夏添.从工具到共生:生成式人工智能技术驱动下知识生产与“新文科”建构[J].郑州大学学报(哲学社会科学版),2025,58(4):21-28. 被引量：7
3王文健,李玮,李达明.基于国产大模型的编组站智询系统的设计与实现[J].铁路计算机应用,2025,34(11):80-83.
4陈长松,吴跃顺,梅广.人工智能安全防护体系的层次化模型研究[J].数据与计算发展前沿(中英文),2025,7(6):68-76.

1李子川,季铎,周嵩.基于语言模型与低秩适配的钓鱼邮件高效检测方法[J].信息安全研究,2025,11(12):1117-1124.
2薛寒星.电子邮件头伪造如何辨别?[J].保密科学技术,2024(1):72-72.
3陈龙文,陈希,张恒,刘英豪.企业面向钓鱼邮件攻击的安全防御体系研究[J].电信工程技术与标准化,2023,36(7):22-27. 被引量：1
4张万友,宋礼鹏.基于用户行为的云邮件防御资源分配方法[J].计算机科学,2026,53(2):442-453.
5郑先伟.安全漏洞利用已成最常用攻击途径[J].中国教育网络,2023(12):54-54. 被引量：1
6热比亚·哈斯木.基于Web前端开发技术的视觉呈现效果优化研究[J].微型计算机,2026(3):16-18.
7《空天预警研究学报》征稿简则[J].空天预警研究学报,2025,39(6).
8尚璐瑶,王志英.消费者识别网络钓鱼欺诈的过度自信:紧迫性线索视觉显著性视角[J].电子商务评论,2025,14(12):4998-5013.
9《空天预警研究学报》投稿须知[J].空天预警研究学报,2025,39(6):458-458.
10《数字海洋与水下攻防》编辑部.《数字海洋与水下攻防》征稿简则[J].数字海洋与水下攻防,2025,8(5):644-644.

信息安全研究

2026年第2期

浏览历史

内容加载中请稍等...

基于大语言模型的钓鱼邮件检测技术研究

参考文献3

二级参考文献1

共引文献4

相关作者

相关机构

相关主题

浏览历史