基于BERT与自编码器的概念漂移恶意软件分类优化被引量：1

Optimization of Concept Drift Malware Classification Based on BERT and Autoencoder

下载PDF

导出

摘要软件概念漂移指同类型软件的软件结构和组成成分会随着时间的推移而改变.在恶意软件分类领域,发生概念漂移意味着同一家族的恶意样本的结构和组成特征会随时间发生变化,这会导致固定模式的恶意软件分类算法的性能会随时间推移而发生下降.现有的恶意软件静态分类研究方法在面临概念漂移场景时都会有显著的性能下降,因此难以满足实际应用的需求.针对这一问题,鉴于自然语言理解领域与二进制程序字节流分析领域的共性,基于BERT和自定义的自编码器架构提出一种高精度、鲁棒的恶意软件分类方法.该方法首先通过反汇编分析提取执行导向的恶意软件操作码序列,减少冗余信息;然后使用BERT理解序列的上下文语义并进行向量嵌入,有效地理解恶意软件的深层程序语义;再通过几何中位数子空间投影和瓶颈自编码器进行任务相关的有效特征筛选;最后通过全连接层构成的分类器输出分类结果.在普通场景和概念漂移场景中,通过与最先进的9种恶意软件分类方法进行对比实验验证所提方法的实际有效性.实验结果显示:所提方法在普通场景下的分类F1值达到99.49%,高于所有对比方法,且在概念漂移场景中的分类F1值比所有对比方法提高10.78%–43.71%. Software concept drift means that the structure and composition of the same type of software will change over time.In malware classification,concept drift means that the structure and composition characteristics of malware samples from the same family can change over time.This will cause a decline in the performance of fixed-mode malware classification algorithms over time.Existing methods for static malware classification experience significant performance degradation when faced with concept drift scenarios,making it difficult to meet the needs of practical applications.To address this problem,given the commonalities between natural language understanding and binary byte stream analysis,a highly accurate and robust malware classification method is proposed based on BERT and a custom autoencoder architecture.This method extracts execution-oriented malware opcode sequences through disassembly analysis to reduce redundant information.Then,it uses BERT to understand the contextual semantics of the sequences and perform vector embedding to effectively understand the deep program semantics of the malware samples.It also screens effective task-related features through the geometric median subspace projection and bottleneck autoencoders.Finally,a classifier composed of fully connected layers is used to output the classification results.The practical effectiveness of the proposed method is validated through comparative experiments with nine state-of-the-art malware classification methods in both normal and concept drift scenarios.Experimental results show that the proposed method achieves an F1 score of 99.49%in normal scenarios,outperforming those nine methods.Moreover,in concept drift scenarios,the F1 score is improved by 10.78%to 43.71%compared to the nine methods.

作者赵浩钧邹德清薛文杰吴月明金海 ZHAO Hao-Jun;ZOU De-Qing;XUE Wen-Jie;WU Yue-Ming;JIN Hai(National Engineering Research Center for Big Data Technology and System,Wuhan 430074,China;Key Laboratory of Services Computing Technology and System,Ministry of Education,Wuhan 430074,China;Hubei Engineering Research Center on Big Data Security,Wuhan 430074,China;Hubei Key Laboratory of Cluster and Grid Computing,Wuhan 430074,China;School of Cyber Science and Engineering,Huazhong University of Science and Technology,Wuhan 430074,China;School of Computing and Data Science,Nanyang Technological University,Singapore 639798,Singapore;School of Computer Science and Technology,Huazhong University of Science and Technology,Wuhan 430074,China)

机构地区大数据技术与系统国家地方联合工程研究中心服务计算技术与系统教育部重点实验室大数据安全湖北省工程研究中心集群与网格计算湖北省重点实验室华中科技大学网络空间安全学院 School of Computing and Data Science 华中科技大学计算机科学与技术学院

出处《软件学报》北大核心 2025年第8期3709-3725,共17页 Journal of Software

基金国家自然科学基金(62172168)。

关键词恶意软件静态分析概念漂移鲁棒性优化 malware static analysis concept drift robust optimization

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1汪嘉来,张超,戚旭衍,荣易.Windows平台恶意软件智能检测综述[J].计算机研究与发展,2021,58(5):977-994. 被引量：25

二级参考文献2

1王丽娜,谈诚,余荣威,尹正光.针对数据泄漏行为的恶意软件检测[J].计算机研究与发展,2017,54(7):1537-1548. 被引量：16
2Jixin Zhang,Kehuan Zhang,Zheng Qin,Hui Yin,Qixin Wu.Sensitive system calls based packed malware variants detection using principal component initialized MultiLayers neural networks[J].Cybersecurity,2018,1(1):185-197. 被引量：4

共引文献24

1李豪,钱丽萍.恶意代码可视化检测技术研究综述[J].软件导刊,2022,21(5):9-16. 被引量：6
2王硕,王坚,王亚男,宋亚飞.一种基于特征融合的恶意代码快速检测方法[J].电子学报,2023,51(1):57-66. 被引量：16
3梅振辉,方欢.基于卷积神经网络的恶意代码API分类[J].赤峰学院学报（自然科学版）,2023,39(2):39-43. 被引量：1
4陈岑,李暖暖,蔡军飞,郭志民,吕卓.基于动态行为特征加权聚类的加壳恶意软件未知变种检测方法[J].重庆大学学报,2023,46(3):129-136. 被引量：6
5吕飞,付航玮,刘成林.基于机器学习的古代玻璃制品的成分分析与鉴别[J].信息与电脑,2023,35(4):98-102.
6邓希桢,蒋明,岑明灿,罗玉玲.基于熵图像静态分析技术的勒索软件分类研究[J].广西师范大学学报（自然科学版）,2023,41(3):91-104. 被引量：1
7鲁法明,江婷婷,包云霞,崔海东,蔡朝阳.恶意软件的时序对偶数据流图挖掘及其检测方法[J].计算机应用研究,2023,40(6):1829-1836. 被引量：4
8李坤,郭威,张帆,杜加玉,杨梅樾.基于遗传算法的恶意软件对抗样本生成方法[J].计算机科学,2023,50(7):325-331. 被引量：3
9庄贤,陈志豪,蔡铁城,陈开志,廖祥文.面向特征融合与知识蒸馏的恶意软件分类[J].福州大学学报(自然科学版),2023,51(6):762-768.
10王莉萍,邱建林,陈翔.马尔可夫决策求解的软件相继故障修复方法[J].计算机仿真,2023,40(11):480-484.

同被引文献4

1杨望,高明哲,蒋婷.一种基于多特征集成学习的恶意代码静态检测框架[J].计算机研究与发展,2021,58(5):1021-1034. 被引量：23
2李鉴秋,刘万平,黄东,张琼.基于多模态融合的动态恶意软件检测方法[J].计算机科学,2024,51(S02):936-942. 被引量：4
3孙玉芹,王敏,田方,孙园.基于熵权法Stacking集成学习的多分类窃电检测[J].科学技术与工程,2024,24(30):12996-13004. 被引量：3
4周翠平,李少波,张仪宗,袁攀亮,廖子豪,张星星.基于DP-FS-BP预测框架和SHAP算法的数据资产价值评估指标贡献率[J].科学技术与工程,2024,24(33):14317-14329. 被引量：6

引证文献1

1王圣节,张庆红,王紫薇.智能融合模型在恶意软件检测中的可解释性[J].科学技术与工程,2025,25(23):9892-9899.

1闫子会,胡畔,王玮.功能性动作训练完成度AI评估方法研究[J].赤峰学院学报(自然科学版),2025,41(4):27-31.
2刘雨柔,迟长春.基于ChOA-CNN-LSTM的变压器故障诊断方法[J].上海电机学院学报,2025,28(3):142-147.
3朱叶彤,于轩伟,徐伟.通作家具榫卯结构数据库优化分类[J].家具,2025,46(4):25-28.
4蒋中凯,方春锋,李芦芦,王子申,李玉梅,徐寿平.双侧乳腺癌质子调强与光子容积旋转调强放疗计划的剂量学评价研究[J].中华放射医学与防护杂志,2025,45(7):647-654.
5谷政声,王可川,钱国明.基于无线Mesh网络的智能电表多跳传输鲁棒性优化研究[J].文学与人生,2023,44(8):103-105.
6杨会,黄懿,刘俊虹,吴迪.一种基于小波卡尔曼滤波的北斗授时抗干扰技术[J].中国科技信息,2025(12):94-96. 被引量：1
7王晨,刘鑫.基于TF-IDF算法的无线传感网络攻击流量检测方法研究[J].传感技术学报,2025,38(4):744-748. 被引量：1
8王莹.AI冲击下的中职平面设计教育变革:技能培养与课程升级路径[J].艺术时尚,2024(35):0116-0117.
9李贝奥,李开成,肖贤贵,李旋,罗溢,尹晨.基于多尺度卷积融合时间序列Transformer的复合电能质量扰动识别[J].电网技术,2025,49(6):2511-2520. 被引量：6
10谢博文,王靖宇.有限新息率采样中Fast Cadzow去噪方法研究[J].建模与仿真,2025,14(1):490-498.

软件学报

2025年第8期

浏览历史

内容加载中请稍等...

基于BERT与自编码器的概念漂移恶意软件分类优化被引量：1

参考文献1

二级参考文献2

共引文献24

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于BERT与自编码器的概念漂移恶意软件分类优化 被引量：1

参考文献1

二级参考文献2

共引文献24

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于BERT与自编码器的概念漂移恶意软件分类优化被引量：1