一种基于复合特征的恶意PDF检测方法被引量：2

Method of malicious PDF detection based on composite features

下载PDF

导出

摘要为了提高特征有效性和扩大检测范围,提出在提取PDF文件的恶意结构特征的基础上再提取JavaScript的恶意特征;为了减少检测时间,提出在特征提取前,增加基于信息熵差异的预检测过程。先利用恶意PDF和良性PDF的信息熵差异筛选出可疑PDF文件和良性PDF文件;然后在检测过程中,提取可疑PDF文件的结构和JavaScript特征;再利用C5.0决策树算法进行分类;最后,通过实验检测,验证了提出的方法对恶意PDF文件检测有效。实验结果表明,与PJScan,PDFMS等模型做对比,该方法检测率比PJScan高27.79%,时间消耗低390 s,误检率比PDFMS低0.7%,时间消耗低473 s,综合性能更优。 A method that the JavaScript malicious features are extracted on the basis of extracting the malicious structural features of PDF files is proposed,so as to improve the feature validity and expand the scope of detection.A scheme that the pre⁃detecting process based on the information entropy difference is added before the feature extraction is proposed to shorten the detection time.The information entropy difference between malicious PDF and benign PDF is utilized to screen out the suspicious PDF files and benign PDF files in pre⁃detection process.The structures and JavaScript features of the suspicious PDF files are extracted during the detection process,and the C5.0 decision tree algorithm is adopted to classify them.The experimental results verify that the proposed method is effective for detecting malicious PDF files;in comparison with the PJScan,PDFMS and other detection models,the proposed method′s detection rate is 27.79%higher and the time consumption is 390 s lower than the PJScan,and the proposed method′s error detection rate is 0.7%lower and the time consumption is 473 s lower than PDFMS;its comprehensive performance is more superior.

作者李国黄永健王静徐俊洁王鹏 LI Guo;HUANG Yongjian;WANG Jing;XU Junjie;WANG Peng(College of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China;Tianjin Key Laboratory for Civil Aircraft Airworthiness and Maintenance,Civil Aviation University of China,Tianjin 300300,China)

机构地区中国民航大学计算机科学与技术学院中国民航大学天津市民用航空器适航与维修重点实验室

出处《现代电子技术》北大核心 2020年第2期45-48,52,共5页 Modern Electronics Technique

基金机载网络安全防护适航审定技术研究项目(AADSA0018)

关键词恶意PDF文档文档检测文件筛选文件特征提取信息熵预检实验验证 malicious PDF file file detection file screening file feature extraction information entropy predetection experimental verification

分类号 TN911.23-34 [电子电信—通信与信息系统] TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1文伟平,王永剑,孟正.PDF文件漏洞检测[J].清华大学学报（自然科学版）,2017,57(1):33-38. 被引量：5
2林杨东,杜学绘,孙奕.恶意PDF文档检测技术研究进展[J].计算机应用研究,2018,35(8):2251-2255. 被引量：6
3任卓君,陈光.熵可视化方法在恶意代码分类中的应用[J].计算机工程,2017,43(9):167-171. 被引量：9

二级参考文献8

1岳峰,庞建民,赵荣彩,白莉莉.反汇编过程中call指令后混淆数据的识别[J].计算机工程,2010,36(7):144-146. 被引量：3
2王新志,孙乐昌,张旻,陈韬.基于序列模式发现的恶意行为检测方法[J].计算机工程,2011,37(24):1-3. 被引量：3
3刘磊,王轶骏,薛质.漏洞利用技术Heap Spray检测方法研究[J].信息安全与通信保密,2012,10(6):70-72. 被引量：6
4张一弛,庞建民,范学斌,姚鑫磊.基于模型检测的程序恶意行为识别方法[J].计算机工程,2012,38(18):107-110. 被引量：5
5陈亮,陈性元,孙奕,杜学绘.基于结构路径的恶意PDF文档检测[J].计算机科学,2015,42(2):90-94. 被引量：2
6周可政,施勇,薛质.基于恶意PDF文档的APT检测[J].信息安全与通信保密,2016,14(1):131-136. 被引量：6
7胡江,周安民.针对JavaScript攻击的恶意PDF文档检测技术研究[J].现代计算机,2016,22(1):36-40. 被引量：4
8黄海新,张路,邓丽.基于数据挖掘的恶意代码检测综述[J].计算机科学,2016,43(7):13-18. 被引量：8

共引文献16

1钟红月,彭元康,刘浩因.基于Skip-Gram的恶意软件家族检测方法[J].办公自动化,2021,26(9):51-53. 被引量：1
2陈铁明,项彬彬,吕明琪,陈波,江颉.基于字节码图像和深度学习的Android恶意应用检测[J].电信科学,2019,35(1):9-17. 被引量：5
3李涛.基于SVM的恶意PDF检测研究[J].现代计算机（中旬刊）,2018(3):117-120. 被引量：2
4郑清安.基于Metasploit下的PDF文件格式渗透测试研究[J].通讯世界,2018,25(7):283-284.
5张景莲,彭艳兵.基于特征融合的恶意代码分类研究[J].计算机工程,2019,45(8):281-286. 被引量：15
6王博,蔡弘昊,苏旸.基于VGGNet的恶意代码变种分类[J].计算机应用,2020,40(1):162-167. 被引量：20
7曾娅琴,张琳琳,张若楠,杨波.基于MobileNet的恶意软件家族分类模型[J].计算机工程,2020,46(4):162-168. 被引量：10
8孙博文,张鹏,成茗宇,李新童,李祺.基于代码图像增强的恶意代码检测方法[J].清华大学学报（自然科学版）,2020,60(5):386-392. 被引量：10
9闫华,刘嘉,位凯志,古亮.基于梯度提升决策树的变形宏病毒检测[J].计算机系统应用,2021,30(5):39-46. 被引量：1
10喻民,姜建国,李罡,刘超,黄伟庆,宋楠.恶意文档检测研究综述[J].信息安全学报,2021,6(3):54-76. 被引量：13

同被引文献16

1周可政,施勇,薛质.基于恶意PDF文档的APT检测[J].信息安全与通信保密,2016,14(1):131-136. 被引量：6
2孙本阳,王轶骏,薛质.一种改进的恶意PDF文档静态检测方案[J].计算机应用与软件,2016,33(3):308-313. 被引量：6
3杨杰明,高聪,曲朝阳,阚中锋,高冶,常成.基于代价敏感的随机森林不平衡数据分类算法[J].科学技术与工程,2018,18(6):285-290. 被引量：9
4李涛.基于SVM的恶意PDF检测研究[J].现代计算机（中旬刊）,2018(3):117-120. 被引量：2
5林杨东,杜学绘,孙奕.恶意PDF文档检测技术研究进展[J].计算机应用研究,2018,35(8):2251-2255. 被引量：6
6杜学绘,林杨东,孙奕.基于混合特征的恶意PDF文档检测[J].通信学报,2019,40(2):118-128. 被引量：5
7赵海燕,刘琨,王廷梅,杜丽娟.网络文本蕴含关系识别的异常信息获取仿真[J].计算机仿真,2020,37(8):256-260. 被引量：3
8李坤明,顾益军,张培晶.对抗环境下基于集成决策树的恶意PDF文件检测[J].计算机应用与软件,2020,37(10):318-322. 被引量：4
9何文竹,彭长根,王毛妮,丁兴,樊玫玫,丁红发.面向结构化数据集的敏感属性识别与分级算法[J].计算机应用研究,2020,37(10):3077-3082. 被引量：15
10赵瑞杰,施勇,张涵,龙军,薛质.基于TF-IDF的Webshell文件检测[J].计算机科学,2020,47(S02):363-367. 被引量：9

引证文献2

1李睿,杨淑群,张新宇.一种双向采样的恶意PDF文档检测方法[J].软件导刊,2022,21(5):67-72. 被引量：2
2杨飞,宋吉星,王宜春,杨伟迪,赵璟.基于OCR识别技术的碎片化时空信息库异常文件检测方法[J].武汉理工大学学报（信息与管理工程版）,2023,45(6):967-971. 被引量：7

二级引证文献9

1吴寒,李晓东,成星恺,李湘宁.APT攻击检测技术研究综述[J].通讯世界,2024,31(2):61-63. 被引量：4
2李东帅,尚培文.针对恶意逃避行为的PDF文档检测[J].现代信息科技,2024,8(10):7-12.
3蓝飘.OCR识别技术在文档智能化领域运用分析[J].信息与电脑,2024,36(10):67-69. 被引量：5
4杜强娜,曹宇航,贾云峰.制管企业质证书识别新技术探索研究[J].焊管,2024,47(11):64-68.
5胡长生.基于深度学习与OCR识别技术的合同审核与标注方法[J].福建技术师范学院学报,2024,42(5):30-37. 被引量：2
6张天鸿,王晓玲,余红玲,王佳俊,苏哲,张君.基于大语言模型的灌浆工程知识服务系统[J].水利学报,2025,56(1):130-142. 被引量：7
7田孝成.城市轨道交通自助车票OCR识别系统[J].电脑知识与技术,2025,21(7):38-40.
8马婷婷,钟超淳.基于识别框局部重建改进的PaddleOCR数码管识别的方法[J].机电工程技术,2025,54(15):93-97.
9杨卫军,魏帅,张利茸,白凯,秦企妍.基于OCR+NLP的质量控制文本识别与处理系统设计[J].信息技术,2026,50(2):28-34.

1陆丽芬,干彩琴,褚林霞,林红.发热门诊分诊标准信息系统的构建和应用效果评价[J].护理与康复,2019,18(12):84-87. 被引量：21
2蔡雨晴,李轶群,徐欢,宋微,杨凯,王文杰,李康.DiffRank-RF差异网络分析方法的研究与应用[J].中国卫生统计,2019,36(5):784-786.
3吴志春,李程,李祥,张树明,朱志军,许欢.三维地质模型教学展示平台的构建[J].中国多媒体与网络教学学报（电子版）,2019(4S):21-23. 被引量：1
4沈小玲,金静芬,黄赣英,蒋春明,楼秋英,钱丽华,傅蓉.急诊儿科预检分级分诊标准的构建[J].中华急诊医学杂志,2019,28(12):1553-1556. 被引量：10
5李永浮,陈坚龙,黄秋梓,许俊勋,李振毅,江俊霖,王静.无试纸式血糖仪的研究[J].医学信息（医学与计算机应用）,2014,0(27):4-5.
6杨永刚,殷坤龙,赵海燕,黄晨忱,陈丽霞,张俞.基于C5.0决策树-快速聚类模型的万州区库岸段乡镇滑坡易发性区划[J].地质科技情报,2019,38(6):189-197. 被引量：31
7宋兆铭,叶菁,董如军.数据挖掘：C5.0决策树算法在警察院校学生体质分析中的应用[J].四川体育科学,2020,39(1):52-55. 被引量：5
8李哲,张沁雨,彭道黎.基于高分二号遥感影像的树种分类方法[J].遥感技术与应用,2019,34(5):970-982. 被引量：9
9汪阳.大学商务英语及写作课教学模式研究[J].长江丛刊,2019,0(35):46-46.
10孟虹松,郭绍忠,许谨晨,王磊,张乾坤.基于数据表精简算法的超越函数访存优化方法[J].信息工程大学学报,2019,20(3):328-334. 被引量：1

现代电子技术

2020年第2期

浏览历史

内容加载中请稍等...

一种基于复合特征的恶意PDF检测方法被引量：2

参考文献3

二级参考文献8

共引文献16

同被引文献16

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于复合特征的恶意PDF检测方法 被引量：2

参考文献3

二级参考文献8

共引文献16

同被引文献16

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于复合特征的恶意PDF检测方法被引量：2