基于信息增益的高维数据的异常检测算法

Anomaly Detection Algorithm for High Dimensional Data Based on Information Gain

下载PDF

导出

摘要针对加权信息熵异常检测算法在高维数据检测中存在精度无法保证的问题。本文针对高维数据提出了一种基于信息增益的异常检测算法。首先运用信息增益方法结合Top-k算法选取待检测数据集前M个属性用于降维;其次,选取两点直径距离尽量远的K个中心点的K-means算法进行聚类降低迭代次数,最后得到一个高维数据的异常检测算法。实验结果表明,在数据维度删减的情况下,比加权信息熵算法的召回率与精确率分别提高53.65%和29.49%。能够有效的检测出高维数据中的异常点。 Aiming at the problem that the accuracy of weighted information entropy anomaly detection algo-rithm cannot be guaranteed in high-dimensional data detection.This paper proposes an anomaly detection algorithm based on information gain for high-dimensional data.Firstly,Top-k algorithm combined with information gain method is used to select the first m attributes of the data set to be detected for dimensionality reduction;Secondly,K-means algorithm is used to cluster the K centers whose diameters are as far away as possible to reduce the number of iterations.Finally,an anomaly detection algorithm for high-dimensional data is obtained.The experimental results show that the recall rate and accuracy rate are improved by 53.65%and 29.49%respectively compared with weighted information entropy algorithm in the case of data dimension deletion.It can effectively detect outliers in high-dimensional data.

作者陈晓阎少宏葛子轩史冰冰 CHEN Xiao;YAN Shao-hong;GE Zi-xuan;SHI Bing-bing(College School of Science,North China University of Science and Technology,Hebei Tangshan 063210,China;Hebei Province Key Laboratory of Data Science and Application,Hebei Tangshan 063210,China;Tangshan Key Laboratory of Data Science,Hebei Tangshan 063210,China;College of Electrical Engineering,North China University of Science and Technology,Hebei Tangshan 063210,China;School of Artificial Intelligence,North China University of Science and Technology,Hebei Tangshan 063210,China)

机构地区华北理工大学理学院河北省数据科学与应用重点实验室唐山市数据科学重点实验室华北理工大学电气工程学院华北理工大学人工智能学院

出处《新一代信息技术》 2021年第18期1-4,20,共5页 New Generation of Information Technology

基金模糊数学(项目编号:KCJS2020053)。

关键词异常检测 K-MEANS聚类信息增益 Top-k算法高维数据 anomaly detection K-means clustering information gain Top-k algorithm high dimensional data

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1吴丽云,李生林,甘旭升,王明华.基于PLS特征提取的网络异常入侵检测CVM模型[J].控制与决策,2017,32(4):755-758. 被引量：33
2朱佳佳,陈佳.基于熵和SVM多分类器的异常流量检测方法[J].计算机技术与发展,2016,26(3):31-35. 被引量：8
3张安勤,吴蕊,张挺.基于信息熵的异常检测算法[J].上海电力大学学报,2020,36(4):386-390. 被引量：10
4吴镜锋,金炜东,唐鹏.数据异常的监测技术综述[J].计算机科学,2017,44(B11):24-28. 被引量：17
5王宪,柳絮青,宋书林,沈源.一种无监督学习的异常行为检测方法[J].光电工程,2014,41(3):43-48. 被引量：8
6张忠林,曹志宇,李元韬.基于加权欧式距离的k_means算法研究[J].郑州大学学报（工学版）,2010,31(1):89-92. 被引量：36

二级参考文献58

1王坤,郭云飞.基于PCA的无监督异常检测方法研究[J].郑州大学学报（理学版）,2004,36(4):39-42. 被引量：5
2宋辛科.基于支持矢量机和决策树的多值分类器[J].计算机工程,2005,31(14):174-175. 被引量：3
3肖柏旭,张丽静.基于分流抑制机制的卷积神经网络人脸检测法[J].计算机应用,2006,26(B06):46-48. 被引量：4
4PANG N T,MICHAEL S,VIPIN K.数据挖掘导论(英文版)[M].北京:人民邮电出版社,2006.
5马卫武李念平杨志昂.室内空气品质综合评价权重系数的确定与分析.通风除尘,2004,(11):9-11.
6HAN JW,KAMBER M.数据挖掘概念与技术[M].北京:机械工业出版社,2005.
7王海龙,杨岳湘.基于信息熵的大规模网络流量异常检测[J].计算机工程,2007,33(18):130-133. 被引量：14
8沈洁,赵雷,杨季文,李榕.一种基于划分的层次聚类算法[J].计算机工程与应用,2007,43(31):175-177. 被引量：13
9孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1105
10Nychis G, Sekar V, Andersen D G, et al. An empirical evalua- tion of entropy- based traffic anomaly detection [ C ]//Proc of Internet measurement conference. [ s. 1. ] : [ s. n. ] ,2008.

共引文献105

1张涛.基于特征提取模型的网络流量清洗系统[J].信息通信,2019,0(12):139-140.
2马振,刘凤连,汪日伟.基于子模式下LBP-HOG特征融合的单样本人脸识别方法[J].光电子.激光,2019,30(12):1309-1316. 被引量：8
3李翠,冯冬青.基于改进K-均值聚类的图像分割算法研究[J].郑州大学学报（理学版）,2011,43(1):109-113. 被引量：25
4杨秋,王建涛,张荣,杨承志.一种基于自适应密度阈值的未知雷达信号分选算法[J].电子信息对抗技术,2012,27(1):16-18. 被引量：4
5吴华稳,王富章,陈志荣.铁路信息系统指标权重评价研究[J].铁道运输与经济,2013,35(2):46-51. 被引量：4
6赵艳玲,王亚云,何厅厅,李建华,付馨,曾纪勇,李源.基于组合权区间欧式距离模型的重金属污染评价[J].金属矿山,2013,42(3):132-136. 被引量：6
7李英英,纪昌杰.基于信息熵加权去噪的半监督SVM分类器[J].电脑知识与技术,2013,9(9):5705-5707. 被引量：1
8王方心,潘巍,吴立锋,金声震,李晓娟.结合属性重要度和灰色关联度的数据补齐方法[J].计算机工程与设计,2014,35(1):248-254. 被引量：3
9吴德胜,管媛辉.移动互联网异常入侵行为下攻击意图预测仿真[J].计算机仿真,2018,35(12):241-244. 被引量：1
10岳少博,谢利德,王清河,王晓春.多媒体网络负面信息数据检测仿真研究[J].计算机仿真,2019,36(1):226-229. 被引量：2

1牟平,凌铭,胡锐.基于改进AP选择的融合随机森林室内定位算法[J].全球定位系统,2021,46(5):33-38. 被引量：4
2董京波,唐磊.云计算服务商著作权间接侵权研究[J].云南民族大学学报（哲学社会科学版）,2021,38(6):139-148. 被引量：6
3赵亚杰,高庆华,罗改芬,刘通,符喜德.水平井井况检测及最优控制技术[J].化学工程与装备,2021(9):61-62.

新一代信息技术

2021年第18期

浏览历史

内容加载中请稍等...

基于信息增益的高维数据的异常检测算法

参考文献6

二级参考文献58

共引文献105

相关作者

相关机构

相关主题

浏览历史