一种基于密度偏差抽样的孤立点检测算法被引量：3

Outlier Detection Algorithms Based on Density Biased Sampling

下载PDF

导出

摘要孤立点检测是一项有价值的、重要的知识发现任务。在对大规模数据集中的孤立点数据进行检测时,样本数据集的选择技术至关重要。本文提出了一种新的基于密度的偏差抽样技术作为数据约简的手段,并给出了基于密度偏差抽样的孤立点检测算法,该算法可以用来识别样本数据集低密度区域中的孤立点数据,并从理论和实验两个方面对其进行分析评估,分析与实践证明该算法是有效的。 Outlier detection is a meaningful and important knowledge discovery task. The choice of sampling data set is very important during the process of outlier detection in large data sets. We propose a new density biased sampling as a data reduction technique to speed up the operation of outlier detection in large data sets, and introduce an algorithm based on density biased sampling. The algorithm can identify outliers of the sparse region. Finally, by evaluating the proposed method and presenting a experimental evaluation, we verify the utility of our approach.

作者余建桥葛继科李娅

机构地区西南农业大学信息学院

出处《计算机科学》 CSCD 北大核心 2004年第10期206-208,共3页 Computer Science

基金重庆市教委资助项目(030201)

关键词孤立点检测算法数据约简大规模数据知识发现点检识别样本数据区域抽样 Large data set, Biased sampling, Outlier detection

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1Han J, Kamber M. Data Mining: Concepts and Techniques.Copyright by Morgan Kaufmann Publishers, Inc. 2001
2Palmer C R, Faloutsos C. Density biased sampling: An improved method for data mining and clustering. In: Proc. Of the ACM SIGMOD'2000, 2000
3Guha S, Rastogi R,Shim K. CRUE: An Efficient Clustering Algorithm for Large Database. In: Proc. ACM SIGMOD, June 1998.73-84
4Knorr E, Ng R. Algorithms for Mining Distance Based Outliers in Large Databases. In: Proc. Very Large Data Bases Conf.,Aug. 1998. 392-403
5Barnett Y, Lewis T. Outliers in Statistical Data. John Wiley &Sons, 1994
6Scott D. Multivariate Density Estimation: Theory, Practice and Visualization. Wiley and Sons, 1992
7Wand M P, Jones M C. Kernel Smoothing. Monographs on Statistics and Applied Probability, Chapman and Hall, 1995
8Knorr E, Ng R. Algorithms for Mining Distance-based Outliers in Large Datasets. In: Proc. 1998 Int. Conf. Very Large Data Base(VLDB98), New York, 1998(8) :392-403

同被引文献30

1李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：69
2陆声链,林士敏.基于距离的孤立点检测及其应用[J].计算机与数字工程,2004,32(5):94-97. 被引量：22
3卢辉斌,徐刚,李段.一种基于孤立点检测的入侵检测方法[J].微机发展,2005,15(6):93-94. 被引量：3
4尹松,周永权,李陶深.数据聚类方法的研究与分析[J].航空计算技术,2005,35(1):63-66. 被引量：16
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：197
6孙焕良,鲍玉斌,于戈,赵法信,王大玲.一种基于划分的孤立点检测算法[J].软件学报,2006,17(5):1009-1016. 被引量：16
7刘爱芹.随机抽样中样本容量确定的影响因素分析[J].山东财政学院学报,2006(5):60-64. 被引量：15
8TIAN Zheng,LI XiaoBin,JU YanWei.Spectral clustering based on matrix perturbation theory[J].Science in China(Series F),2007,50(1):63-81. 被引量：19
9蒋建洪.C2C电子商务网站卖方信用数据挖掘研究[D].西安:西北工业大学,2012.
10Palmer C R, Faloutsos C.Density biased sampling : an improvedmethod for data mining and clustering[C]//Proceedings ofACM SIGMOD International Conference on Managementof Data.New York: ACM,2000 : 82-92.

引证文献3

1贾志先.考试数据分析及孤立点检测的谱聚类方法[J].计算机技术与发展,2013,23(1):103-106. 被引量：3
2蒋建洪,罗玫.电子商务卖方数据聚类方法的改进研究[J].计算机工程与应用,2013,49(8):27-31.
3吕丹,龙华,高杰,邵玉斌,杜庆治.基于不均匀数据的密度偏差抽样改进算法[J].软件导刊,2018,17(2):77-79. 被引量：3

二级引证文献6

1贾志先.基于谱聚类的网上阅卷质量控制研究[J].智能计算机与应用,2014,4(5):76-79. 被引量：5
2贾志先.维吾尔语水平考试试卷等值研究与应用[J].信息系统工程,2017,30(3):128-130. 被引量：1
3肖先勇,谭亚欧,胡文曦,汪颖.电压暂降系统指标的监测节点数量选择与评估方法[J].电力自动化设备,2020,40(10):8-14. 被引量：5
4刘兴建,原振文.Spark平台环境下基于Aco-k means算法的滚轴故障检测算法研究[J].计算机应用与软件,2021,38(1):256-261. 被引量：2
5金安.一种移动端APM系统框架设计与实现[J].软件导刊,2022,21(1):205-209. 被引量：3
6陈双,伍铁军.密度偏差抽样算法的设备样本点选择[J].机械制造与自动化,2025,54(5):57-61.

1纪良浩.基于密度偏差抽样的聚类算法研究[J].重庆邮电大学学报（自然科学版）,2007,19(6):729-732. 被引量：2
2余波,朱东华,刘嵩,郑涛.密度偏差抽样技术在聚类算法中的应用研究[J].计算机科学,2009,36(2):207-209. 被引量：7
3张建锦,吴渝,刘小霞.一种改进的密度偏差抽样算法[J].计算机应用,2007,27(7):1695-1698. 被引量：7
4何苗.一种基于DBS的聚类算法[J].重庆电子工程职业学院学报,2009,18(3):83-85. 被引量：1
5蒋建洪,罗玫.电子商务卖方数据聚类方法的改进研究[J].计算机工程与应用,2013,49(8):27-31.

计算机科学

2004年第10期

浏览历史

内容加载中请稍等...

一种基于密度偏差抽样的孤立点检测算法被引量：3

参考文献8

同被引文献30

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于密度偏差抽样的孤立点检测算法 被引量：3

参考文献8

同被引文献30

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于密度偏差抽样的孤立点检测算法被引量：3