基于多特征融合的恶意代码分类算法被引量：10

Malicious code classification algorithm based on multi-feature fusion

下载PDF

导出

摘要针对多数恶意代码分类研究都基于家族分类和恶意、良性代码分类,而种类分类比较少的问题,提出了多特征融合的恶意代码分类算法。采用纹理图和反汇编文件提取3组特征进行融合分类研究,首先使用源文件和反汇编文件提取灰度共生矩阵特征,由n-gram算法提取操作码序列;然后采用改进型信息增益(IG)算法提取操作码特征,其次将多组特征进行标准化处理后以随机森林(RF)为分类器进行学习;最后实现了基于多特征融合的随机森林分类器。通过对九类恶意代码进行学习和测试,所提算法取得了85%的准确度,相比单一特征下的随机森林、多特征下的多层感知器和Logistic回归算法分类器,准确率更高。 Concerning the fact that most malicious code classification researches are based on family classification and malicious and benign code classification,and the classification of categories is relatively few,a malicious code classification algorithm based on multi-feature fusion was proposed.Three sets of features extracted from texture maps and disassembly files were used for fusion classification research.Firstly,the gray level co-occurrence matrix features were extracted from source files and disassembly files and the sequences of operation codes were extracted by n-gram algorithm.Secondly,the improved Information Gain(IG) algorithm was used to extract the operation code features.Thirdly,Random Forest(RF) was used as the classifier to learn the multi-group features after normalization.Finally,the random forest classifier based on multi-feature fusion was realized.The proposed algorithm achieves 85% accuracy by learning and testing nine types of malicious codes.Compared with random forest under single feature,multi-layer perceptron under multi-feature and Logistic regression classifier,it has higher accuracy.

作者郎大鹏丁巍姜昊辰陈志远 LANG Dapeng;DING Wei;JIANG Haocheng;CHEN Zhiyuang(College of Computer Science and Technology,Harbin Engineerning University,Harbin Heilongjiang 150001,China;Key Laboratory of Network Assessment Technology,Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China)

机构地区哈尔滨工程大学计算机科学与技术学院中国科学院信息工程研究所中国科学院网络测评技术重点实验室

出处《计算机应用》 CSCD 北大核心 2019年第8期2333-2338,共6页 journal of Computer Applications

基金中国科学院信息工程研究所中国科学院网络测评技术重点实验室开放课题资助项目(10201050201)~~

关键词恶意代码纹理特征操作码序列随机森林静态分析 malicious code texture feature opcode sequence Random Forest(RF) static analysis

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1王洋,单征,赵炳麟,薛飞.基于静态行为轨迹的异常特征检测技术[J].计算机应用研究,2017,34(8):2434-2438. 被引量：3
2韩晓光,曲武,姚宣霞,郭长友,周芳.基于纹理指纹的恶意代码变种检测方法研究[J].通信学报,2014,35(8):125-136. 被引量：59
3李雪虎,王发明,战凯.基于大样本的随机森林恶意代码检测与分类算法[J].信息技术与网络安全,2018,37(7):3-5. 被引量：2
4戴逸辉,殷旭东.基于随机森林的恶意代码检测[J].网络空间安全,2018,9(2):70-75. 被引量：11

二级参考文献10

1李勇,左志宏.目标代码混淆技术综述[J].计算机技术与发展,2007,17(4):125-127. 被引量：10
2庞立会,胡华平.恶意代码模糊变换技术研究[J].计算机工程,2007,33(12):154-156. 被引量：3
3高程程,惠晓威.基于灰度共生矩阵的纹理特征提取[J].计算机系统应用,2010,19(6):195-198. 被引量：179
4王蕊,冯登国,杨轶,苏璞睿.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012,23(2):378-393. 被引量：78
5白金荣,王俊峰,赵宗渠.基于PE静态结构特征的恶意软件检测方法[J].计算机科学,2013,40(1):122-126. 被引量：14
6李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,50(4):1190-1197. 被引量：402
7李盟,贾晓启,王蕊,林东岱.一种恶意代码特征选取和建模方法[J].计算机应用与软件,2015,32(8):266-271. 被引量：13
8苗发彪,王晴.基于支持向量机的Android恶意软件静态检测技术的研究[J].网络空间安全,2016,7(5):34-36. 被引量：2
9米兰.黑娜亚提,艾克帕尔.艾合买提,涂伟沪.基于信息安全的计算机主动防御反病毒技术研究[J].网络空间安全,2016,7(7):40-42. 被引量：3
10盛超,魏盛娜.基于权限与敏感API的恶意程序检测方法[J].电脑知识与技术,2017,13(11X):67-69. 被引量：3

共引文献69

1赵静,李俊,龙春,杜冠瑶,万巍,魏金侠.基于集成SVM和Bagging的未知恶意流量检测[J].计算机系统应用,2022,31(10):51-59. 被引量：3
2黄科,袁启平,董薇,孙沂昆,亢勇,王天翔.基于1D CNN与XGBoost的恶意代码纹理检测[J].电视技术,2021,45(10):129-135.
3贾立鹏,王凤英,姜倩玉.基于多特征融合和集成学习的恶意代码检测研究[J].中国科技论文在线精品论文,2021(2):168-176. 被引量：1
4王怡,岳凡,付广智,梁哲.基于卷积神经网络的恶意代码可视化检测[J].火箭军工程大学学报,2019(3):68-70.
5陈铁明,项彬彬,吕明琪,陈波,江颉.基于字节码图像和深度学习的Android恶意应用检测[J].电信科学,2019,35(1):9-17. 被引量：5
6付钰,李洪成,吴晓平,王甲生.基于大数据分析的APT攻击检测研究综述[J].通信学报,2015,36(11):1-14. 被引量：90
7陈志锋,李清宝,张平,冯培钧.基于聚类分析的内核恶意软件特征选择[J].电子与信息学报,2015,37(12):2821-2829. 被引量：14
8薛飞,单征,闫丽景,范超.基于数据挖掘的多轨迹特征检测技术[J].计算机科学,2016,43(5):91-95. 被引量：2
9高见,王威,芦天亮,黄鸿志.僵尸网络恶意代码的有效检测方法研究[J].计算机仿真,2016,33(6):254-257. 被引量：5
10逄晖.基于Harris角点的弱纹理三维非连续图像检测[J].计算机仿真,2016,33(9):431-434. 被引量：1

同被引文献55

1程斌林,傅建明,许静.软件结构属性分析与恶意软件检测[J].武汉大学学报（理学版）,2010,56(2):161-164. 被引量：3
2白金荣,王俊峰,赵宗渠.基于PE静态结构特征的恶意软件检测方法[J].计算机科学,2013,40(1):122-126. 被引量：14
3刘亮,刘露平,何帅,刘嘉勇.一种基于多特征的恶意代码家族静态标注方法[J].信息安全研究,2018,4(4):322-328. 被引量：4
4韩晓光,曲武,姚宣霞,郭长友,周芳.基于纹理指纹的恶意代码变种检测方法研究[J].通信学报,2014,35(8):125-136. 被引量：59
5韩晓光,姚宣霞,曲武,郭长友.基于图像纹理聚类的恶意代码家族标注方法[J].解放军理工大学学报（自然科学版）,2014,15(5):440-449. 被引量：6
6钱雨村,彭国军,王滢,梁玉.恶意代码同源性分析及家族聚类[J].计算机工程与应用,2015,51(18):76-81. 被引量：19
7刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：269
8孙润康,彭国军,李晶雯,沈诗琦.基于行为的Android恶意软件判定方法及其有效性[J].计算机应用,2016,36(4):973-978. 被引量：7
9陈志锋,李清宝,张平,丁文博.基于数据特征的内核恶意软件检测[J].软件学报,2016,27(12):3172-3191. 被引量：9
10何帅,刘嘉勇.基于恶意代码图像指纹的恶意代码家族标注方法[J].通信技术,2017,50(3):545-549. 被引量：3

引证文献10

1贾立鹏,王凤英,姜倩玉.基于多特征融合和集成学习的恶意代码检测研究[J].中国科技论文在线精品论文,2021(2):168-176. 被引量：1
2姜倩玉,王凤英,贾立鹏.基于感知哈希算法和特征融合的恶意代码检测方法[J].计算机应用,2021,41(3):780-785. 被引量：6
3杨春雨,徐洋,张思聪,李小剑.基于静态特征融合的恶意软件分类方法[J].计算机工程与应用,2021,57(15):147-155. 被引量：3
4李豪,钱丽萍.恶意代码可视化检测技术研究综述[J].软件导刊,2022,21(5):9-16. 被引量：6
5刘紫煊,王晨.基于多特征融合的BiLSTM恶意代码分类[J].电子设计工程,2022,30(18):67-72. 被引量：5
6杜建斌,陈傲晗.基于图神经网络的恶意软件分类方法[J].互联网周刊,2023(17):93-95.
7陶文伟,吴金宇,张富川,曹扬,吴昊,唐瑛,王宝会.基于特征融合的恶意软件分类算法研究[J].网络新媒体技术,2023,12(3):20-26.
8王金伟,陈正嘉,谢雪,罗向阳,马宾.恶意软件检测和分类可视化技术综述[J].网络与信息安全学报,2023,9(5):1-20. 被引量：9
9王金伟,陈正嘉,谢雪,罗向阳,马宾.基于Ngram-TFIDF的深度恶意代码可视化分类方法[J].通信学报,2024,45(6):160-175. 被引量：6
10夏冰,何取东,刘文博,楚世豪,庞建民.基于知识图谱增强的恶意代码分类方法[J].郑州大学学报（理学版）,2025,57(2):61-68.

二级引证文献35

1谭茹涵,左黎明,刘二根,郭力.基于图像特征融合的恶意代码检测[J].信息网络安全,2021(10):90-95. 被引量：7
2叶彪,李琳,丁应,宋荆汉,万振华.基于特征权重的恶意软件分类方法[J].计算机技术与发展,2022,32(11):115-120.
3林茂新,王太愚,王晶.静态代码安全检测技术发展研究与前沿技术实践[J].保密科学技术,2023(5):43-50.
4郭沁怡.恶意代码检测技术研究综述[J].电脑知识与技术,2023,19(13):79-81. 被引量：2
5李思聪,王坚,宋亚飞,黄玮.基于BiTCN-DLP的恶意代码分类方法[J].信息网络安全,2023(11):104-117. 被引量：5
6周桥,翟江涛,荚东升,孙浩翔.基于卷积门控循环神经网络的Web攻击检测方法[J].广西师范大学学报（自然科学版）,2023,41(6):51-61. 被引量：12
7赵焕平,薛党勤,尚展垒.基于人机交互大数据的软件源码漏洞检测仿真[J].计算机仿真,2023,40(11):388-392. 被引量：3
8农博文,陈钰军,黄苦甘.基于BiLSTM神经网络与TF-IDF算法的OBD位置校准[J].数字技术与应用,2024,42(1):66-68. 被引量：3
9杨凡,丁之,王扬,卿凌云.基于SDN和集成学习的工业控制网络安全防护系统[J].现代电子技术,2024,47(6):22-26. 被引量：13
10黄青.基于异构图嵌入的恶意软件检测[J].电子设计工程,2024,32(7):92-96.

1李涛,段斌,旷怡.“国标”三大原则导向的学习契约设计与实施[J].计算机工程与科学,2018,40(A01):89-93.
2刘亚姝,王志海,严寒冰,侯跃然,来煜坤.抗混淆的恶意代码图像纹理特征描述方法[J].通信学报,2018,39(11):44-53. 被引量：10
3乔延臣,姜青山,古亮,吴晓明.基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究[J].信息网络安全,2019(4):20-28. 被引量：16
4马娟娟,潘泉,梁彦,胡劲文,赵春晖,郭亚宁.基于改进Grassberger熵随机森林分类器的目标检测[J].中国激光,2019,46(7):230-238. 被引量：21
5张露,郑一力,庞曼.基于Android系统的植物叶片识别软件[J].科学技术创新,2019(12):59-61. 被引量：3
6王艳洁,杨琳,金桦.基于改进SVM与辅助信息的数据分类研究[J].电视技术,2019,43(2):66-68. 被引量：2
7刘宏超,王威妮,林楠.基于图特征的恶意代码检测和分析技术研究[J].江西电力,2019,43(4):29-33. 被引量：1
8张东红.基于文本分类技术的恶意代码检测工具[J].电子产品世界,2018,25(9):75-76.
9张洪,钟凯迪,柴源,魏济,吴艳,谭锦涛,叶文韬.基于N-Gram和动态滑动窗口的改进余弦相似度算法研究[J].成都大学学报（自然科学版）,2019,38(2):163-166. 被引量：3
10诚邀投稿[J].传感器世界,2019,25(6):11-11.

计算机应用

2019年第8期

浏览历史

内容加载中请稍等...

基于多特征融合的恶意代码分类算法被引量：10

参考文献4

二级参考文献10

共引文献69

同被引文献55

引证文献10

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于多特征融合的恶意代码分类算法 被引量：10

参考文献4

二级参考文献10

共引文献69

同被引文献55

引证文献10

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于多特征融合的恶意代码分类算法被引量：10