基于剪枝的海量数据离群点挖掘被引量：7

Pruning-based Outlier Mining from Large Dataset

下载PDF

导出

摘要基于距离的离群点挖掘通常需要O(N2)的时间进行大量的距离计算与比较,这限制了其在海量数据上的应用。针对此问题,提出了一个带剪枝功能的离群点挖掘算法。算法分为两步:在对数据集进行一遍扫描后,剪枝掉大量的非离群点;然后对余下的可疑数据实施一种改进的嵌套循环算法,以每个数据点与其k个最近邻点的平均距离作为离群度,确定前n个离群点。在真实数据和合成数据集上的实验结果均表明,该算法在获得高命中率的同时仍保持低误警率。与相关算法相比,其具有较低的时间复杂性。 Distance-based outlier detection approach typically requires O（N2） time of distance computation and compari-son.This quadratic scaling restricts the ability to apply this approach to large datasets.To overcome this limitation,a novel distance-based outlier mining approach with pruning rules was proposed.The approach consists of two phases.During the first phase,the original input data are scanned and the majority of non-outliers are pruned.During second phase,an improved nested loops approach is applied to compute the average K-nearest distance which measures the degree of being an outlier and finally reports the top-n outliers.Experiments on both synthetic data and real-life data show that the proposed approach achieves a high hit rate with a low false alarm rate.Compared with related approaches,the proposed approach has a lower time complexity.

作者杨茂林卢炎生

机构地区华中科技大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2012年第10期152-156,共5页 Computer Science

关键词离群点数据挖掘基于距离 Outlier Data mining Distance-based

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1Barnett V, Lewis T. Outliers in Statistical Data (3rd Ed)[M]. New York(New York City):John Wiley & Sons, 1994:1-2.
2Knott E M, Ng R T. Algorithms for mining distance-based out- liers in large datasets [C]///Proc of the 24th int ' 1 conf on VLDB. New York (New York City):ACM, 1998:392-403.
3Knott E M, Ng R T, Tucakov V. Distance-based outliers: algo- rithms and applications [C] //Proc of 26th Int' 1 conf on VLDB.Egypt (Cairo) : ACM, 2000 : 237-253.
4Ramaswamy S, Rastogi R, Shim K. Efficient algorithms for mi- ning outliers from large data sets [C]//Proc of ACM SIGMOD Int ' 1 conf on Management of Data. Texas (Dallas): ACM, 2000 : 427 438.
5Angiulli F, Pizzuti C. Fast outlier detection in high-dimensional spaces [C] // Proc of Principles of Data Mining and Knowledge Discovery. 6th European Conf. Finland (Helsinki) :ACM, 2002: 15-26.
6Breunig M M, Kriegel H P, Ng R T. LOF: Identifying density- based local outliers [C]//Proc of ACM SIGMOD Int'l conf on Management of Data. Texas (Dallas) : ACM, 2000 : 93-104.
7Bentley J L. Multidimensional binary search trees used for asso- ciative searching [J]. Communications of the ACM, 1975, 18 (9) :509-517.
8Guttmann R. A dynamic index structure for spatial searching [C]//Proc of ACM SIGMOD int'l conf on Management of Da- ta. New York (New York City):ACM, 1984:47-57.
9Berchtold S, Keim D, Kreigel H P. The X-tree: an index struc-ture for high-dimensional data [C]//Proc of the 22nd i nt' 1 conf on VLDB. Mumbai (Bombay):Morgan Kaufmann, 1996:28-39.
10Knorr E M, Ng R T. Finding intentional knowledge of distance- based ontliers [C]//Proc of 25th Int'l eonf on VLDB. Scotland (Edinburgh) : Morgan Kaufmann, 1999 : 211-222.

二级参考文献5

1张净,孙志挥.GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J].东南大学学报（自然科学版）,2005,35(6):863-866. 被引量：6
2周晓云,张净,孙志挥.高维Turnstile型数据流聚类算法[J].计算机科学,2006,33(11):14-17. 被引量：6
3于绍越,商琳.基于信息熵的相对离群点的检测方法：ENBROD[J].南京大学学报（自然科学版）,2008,44(2):212-218. 被引量：11
4倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：28
5李存华,孙志挥.GridOF:面向大规模数据集的高效离群点检测算法[J].计算机研究与发展,2003,40(11):1586-1592. 被引量：28

共引文献9

1王敬华,赵新想,张国燕,刘建银.NLOF:一种新的基于密度的局部离群点检测算法[J].计算机科学,2013,40(8):181-185. 被引量：29
2李广霞,张思亮,崔哲.关联规则发现方法研究[J].软件导刊,2014,13(4):14-16. 被引量：1
3李广霞,崔哲.数据挖掘在事业单位绩效工资管理中的应用[J].石家庄职业技术学院学报,2014,26(4):11-13.
4林硕蕾.基于小数据冲突检测的坏点数据挖掘模型仿真[J].科技通报,2015,31(1):213-216. 被引量：2
5郭玲.可产生潜在威胁的网络数据挖掘模型仿真分析[J].科技通报,2015,31(3):216-219. 被引量：1
6文静云,古平,吴庭君.基于加权自然邻域属性和熵的离群检测算法[J].数字技术与应用,2015,33(2):136-139.
7吴塍勤.基于入侵检测的数据流挖掘和识别技术应用[J].现代商贸工业,2016,37(28):193-193.
8杨建平,肖飞,叶康,齐敬先,曹越峰.基于改进局部异常因子算法的拓扑辨识技术[J].计算机系统应用,2017,26(5):198-203. 被引量：1
9邓廷权,刘金艳,王宁.高维数据离群点检测的局部线性嵌入方法[J].计算机工程与应用,2018,54(6):115-122. 被引量：4

同被引文献75

1张继国,谢平,龚艳冰,刘高峰.降雨信息空间插值研究评述与展望[J].水资源与水工程学报,2012,23(1):6-9. 被引量：17
2闫伟,张浩,陆剑峰.一种离群数据挖掘新方法的研究与应用[J].控制与决策,2006,21(5):563-566. 被引量：5
3肖辉,龚薇.基于可达邻域的异常检测算法[J].计算机工程,2007,33(17):74-76. 被引量：4
4KNORR E, NG R T. Algorithms for mining distance-based oudiers in large datasets [ C]// Proceedings of the 24th Very Large Data Base Conference. New York: VLDB Press, 1998:392 -403.
5RAMASWAMY S, RASTOGI R, SHIM K. Efficient algorithms for mining outliers from large data sets [ C]/! Proceedings of the ACM SIGMOD Conference on Management of Data. New York: ACM Press, 2000:427-438.
6BAY D S, SCHWABACHER M. Mining distance-based outliers in near linear time with randomization and a simple pruning rule [ C]/! Proceedings of the Ninth ACM SIGKDD on Knowledge Discovery and Data Mining. New York: ACM Press, 2003:29 -38.
7BHADURI K, MATI'HEWS B, GIANNELLA C R. Algorithms for speeding up distance-based outlier detection [ C]/! Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Dis- covery and Data Mining. New York: ACM Press, 2011:859 -867.
8LOZANO E, ACUFIA E. Parallel algorithms for distance-based and density-based outliers [ C] // Proceedings of the 2005 IEEE Interna- tional Conference on Data Mining. Washington, DC: IEEE Comput- er Society, 2005:729 -732.
9VU N H, GOPALKRISHNAN V. Efficient pruning schemes for dis- tance-based outlier detection [ C]//Proceedings of the 2009 Europe- an Conference on Machine Learning and Knowledge Discovery in Da- tabases. Berlin: Spring-Verlag, 2009:160-175.
10OTEY M. E, GHOTING A, PARTHASARATHY S. Fast distribu- ted outlier detection in mixed-attribute data sets [ J]. Data Mining and Knowledge Discovery, 2006, 12(2/3): 203 -228.

引证文献7

1薛安荣,闻丹丹,刘彬.加速大规模数据集的离群点检测[J].计算机应用,2013,33(11):3057-3061.
2陈亚丽,张龙波,张树森.数据密集型计算环境下的离群点挖掘算法[J].计算技术与自动化,2015,34(2):74-77. 被引量：2
3周鹏,程艳云.一种改进的LOF异常点检测算法[J].计算机技术与发展,2017,27(12):115-118. 被引量：21
4梁绍一,韩德强.基于邻域链的数据异常点检测[J].控制与决策,2019,34(7):1433-1440. 被引量：9
5田济扬,刘含影,刘荣华,丁留谦,刘宇.大规模降雨监测数据异常识别方法[J].中国水利水电科学研究院学报（中英文）,2022,20(5):438-448. 被引量：4
6刘秀林,张行南,方园皓,黄晴.金沙江下游遥测雨量站数据质量研究[J].人民长江,2019,50(3):131-135. 被引量：3
7马振亮,段瞳,田逸飞,许银山.流域异常雨量站点检测对水文模型模拟精度影响研究[J].水资源研究,2025,14(1):12-22.

二级引证文献38

1张莉,李长红.银杏早产嫁接三法[J].科技致富向导,2000(4):19-19.
2石鑫,朱永利.电力变压器状态监测数据聚类研究[J].电力信息与通信技术,2015,13(11):82-85. 被引量：8
3张光.基于离群数据挖掘的电子商务推荐系统研究[J].自动化与仪器仪表,2017(8):21-22. 被引量：2
4李广强,韩曜权,黄才权.基于局部离群因子的军事训练数据异常值检测[J].空军预警学院学报,2018,32(4):280-282. 被引量：2
5黄强,叶青,聂斌,李欢.离群点识别方法研究[J].软件导刊,2019,18(6):35-41. 被引量：2
6黄卫国,金超,张田.基于密度的离群点检测技术在中厚板轧后冷却中的研究[J].冶金自动化,2019,43(3):7-12.
7牛少章,欧毓毅,凌捷,顾国生.基于网格查询的局部离群点检测算法[J].计算机工程与应用,2019,55(17):89-94. 被引量：2
8申赞伟,李丹,张士文,张峰.基于离群点检测的电类实验教学中错误数据判决算法[J].实验室研究与探索,2019,38(8):138-142.
9郭屾,林佳颖,王鹏,张冀川,陈蕾,唐国静.基于ROF离群组检测的低压配电网拓扑校验[J].控制工程,2020,27(1):201-206. 被引量：8
10张文华,张志俊.基于SVM的新能源公交车运营里程核查方法[J].计算机与现代化,2020,0(5):39-43.

1刘涛,薛质,唐正军,李建华.基于数据挖掘的大规模分布式入侵检测系统的设计[J].信息安全与通信保密,2004(5):31-33. 被引量：5
2迟铁,马斌,张万江,孟祥斌,王鑫.基于多Agent的无线抄表系统设计[J].现代建筑电气,2010,1(2):18-22. 被引量：1
3罗烈雷.Auto LISP 的循环算法及应用[J].机械研究与应用,1999,12(3):38-39.
4吉杰,陶培基.MS SQL Server树形结构表遍历的循环算法[J].计算机与现代化,2005(4):7-8. 被引量：3
5田捷.三角域上有理Bézier曲面的循环算法与剖分算法[J].计算机学报,1990,13(9):709-712. 被引量：1
6安金龙,王正欧.一种适合于增量学习的支持向量机的快速循环算法[J].计算机应用,2003,23(10):12-14. 被引量：13
7吕威,倪玉华.基于等距加密和案例推理的旅游线路聚类算法[J].计算机工程与应用,2010,46(11):223-225. 被引量：2
8许安国,蒋昌俊.计算A_n^m的增广PETRI网模型[J].计算技术与自动化,1991,10(1):13-20. 被引量：1
9甘泉,王慧.一种改进的蚁群聚类分析算法[J].系统仿真技术,2015,11(3):219-223. 被引量：2
10黄冬梅,陈括,王振华,施黎莉.基于块嵌套循环的海洋大数据质量检验方案选择算法[J].计算机工程与科学,2013,35(10):51-57. 被引量：5

计算机科学

2012年第10期

浏览历史

内容加载中请稍等...

基于剪枝的海量数据离群点挖掘被引量：7

参考文献15

二级参考文献5

共引文献9

同被引文献75

引证文献7

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于剪枝的海量数据离群点挖掘 被引量：7

参考文献15

二级参考文献5

共引文献9

同被引文献75

引证文献7

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于剪枝的海量数据离群点挖掘被引量：7