期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
DP聚类的可信性加权模糊支持向量机 被引量:2
1
作者 盛晓遐 杨志民 王甜甜 《计算机工程与应用》 CSCD 北大核心 2019年第10期169-178,共10页
由于SVM(Support Vector Machine)在有离群点和不平衡数据的问题中分类性能相对较低,有研究者提出了一种面向不均衡分类的隶属度加权模糊支持向量机,只是文中的模糊隶属度并不能较好衡量样本点对确定最佳分划超平面所做的贡献大小。针... 由于SVM(Support Vector Machine)在有离群点和不平衡数据的问题中分类性能相对较低,有研究者提出了一种面向不均衡分类的隶属度加权模糊支持向量机,只是文中的模糊隶属度并不能较好衡量样本点对确定最佳分划超平面所做的贡献大小。针对以上问题提出了密度峰(Density Peaks,DP)聚类的可信性加权模糊支持向量机。首先由DP聚类找到离群点后剔除。再根据点到由DEC(Different Error Costs)确定的超平面的距离,得到初始隶属度,并用改进的FSVM-CIL(Fuzzy Support Vector Machines for Class Imbalance Learning)更新隶属度。之后剔除部分样本点,起到简约样本的作用,并减少数据不平衡带来的影响。通过实验验证了所提出算法的有效性。 展开更多
关键词 离群点 不平衡数据 密度峰(dp) 加权模糊支持向量机 模糊隶属度 可信性
在线阅读 下载PDF
离群点挖掘方法综述 被引量:69
2
作者 薛安荣 姚林 +2 位作者 鞠时光 陈伟鹤 马汉达 《计算机科学》 CSCD 北大核心 2008年第11期13-18,27,共7页
离群点挖掘可揭示稀有事件和现象、发现有趣的模式,有着广阔的应用前景,因此引起广泛关注。首先介绍离群点的定义、引起离群的原因和离群点挖掘算法的分类,对基于距离和基于密度的离群点挖掘算法进行了比较详细的讨论,指出了其优缺点和... 离群点挖掘可揭示稀有事件和现象、发现有趣的模式,有着广阔的应用前景,因此引起广泛关注。首先介绍离群点的定义、引起离群的原因和离群点挖掘算法的分类,对基于距离和基于密度的离群点挖掘算法进行了比较详细的讨论,指出了其优缺点和发展方向,重点对当前研究的热点——高维大数据量的挖掘、空间数据挖掘、时序离群点挖掘和离群点挖掘技术的应用进行了讨论,指出了进一步研究方向。 展开更多
关键词 离群点挖掘 局部离群点 子空间 剪枝 空间离群点 高维数据 数据流
在线阅读 下载PDF
一种基于多重聚类的离群点检测算法 被引量:21
3
作者 古平 刘海波 罗志恒 《计算机应用研究》 CSCD 北大核心 2013年第3期751-753,756,共4页
在LDOF算法的基础上,提出一种基于多重聚类的离群点检测算法PMLDOF。该算法针对局部离群度量计算量大的缺点,采用聚类剪枝技术作为减少计算量的方法;同时,为了避免将位于簇边缘的离群点错剪,算法利用多重聚类的差异性对簇的边缘点进行... 在LDOF算法的基础上,提出一种基于多重聚类的离群点检测算法PMLDOF。该算法针对局部离群度量计算量大的缺点,采用聚类剪枝技术作为减少计算量的方法;同时,为了避免将位于簇边缘的离群点错剪,算法利用多重聚类的差异性对簇的边缘点进行筛选。在对数据集进行剪枝后,计算剩余数据的局部离群度LDOF,并找出符合条件的离群数据点。实验结果表明,算法在时间复杂度和检测精度上具有更好的优越性。 展开更多
关键词 数据挖掘 离群检测 剪枝 多重聚类 局部离群度
在线阅读 下载PDF
基于距离的不确定离群点检测 被引量:20
4
作者 于浩 王斌 +1 位作者 肖刚 杨晓春 《计算机研究与发展》 EI CSCD 北大核心 2010年第3期474-484,共11页
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等... 在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能. 展开更多
关键词 不确定数据 离群点检测 过滤方法 高效 不确定数据模型
在线阅读 下载PDF
基于相似孤立系数的孤立点检测算法 被引量:3
5
作者 谢岳山 樊晓平 +2 位作者 廖志芳 周国恩 刘世杰 《计算机工程》 CAS CSCD 2013年第11期200-204,共5页
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法... 基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment-test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。 展开更多
关键词 聚类孤立点 孤立点检测 相似孤立系数 剪枝策略 孤立点候选集
在线阅读 下载PDF
基于聚类的两段式孤立点检测算法 被引量:8
6
作者 任建华 高立明 《计算机工程与应用》 CSCD 北大核心 2016年第20期98-102,176,共6页
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,... 现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。 展开更多
关键词 孤立点检测 距离 DBSCAN算法 剪枝
在线阅读 下载PDF
统计监控建模离群点检测数据预处理高效算法 被引量:5
7
作者 肖应旺 杨军 +1 位作者 张承忠 杜瑛 《仪器仪表学报》 EI CAS CSCD 北大核心 2012年第12期2742-2746,共5页
基于多向主元分析(multi-way principal component analysis,MPCA)(包括主元分析(principal component analysis,PCA))的统计监控模型易受建模数据中离群点影响,将数据点的k-最近邻(k-nearest neighbor,k-NN)距离dk作为离群度指标能有... 基于多向主元分析(multi-way principal component analysis,MPCA)(包括主元分析(principal component analysis,PCA))的统计监控模型易受建模数据中离群点影响,将数据点的k-最近邻(k-nearest neighbor,k-NN)距离dk作为离群度指标能有效地发现非线性数据集中的离群点,但现有的基于该定义的鲁棒离群点检测算法对不同尺度的中心化和标准化方法非常敏感,且需要计算每个数据点的dk,引起巨大的计算开销。提出一种改进尺度的近邻修剪(modified scale neighborhood pruning,MSNHP)高效鲁棒离群点检测算法用于对统计监控建模数据集的预处理。该算法利用改进尺度得到离线建模正常数据的均值和标准差,并对数据进行中心化和标准化处理;在每次dk查询过程中计算出其他点的dk上界用于直接修剪非离群点,以减少dk查询的次数;并通过优化搜索次序提高修剪效果和减少每次dk查询的计算开销。将该算法应用于β-甘露聚糖酶发酵间歇过程离群点检测,与其他鲁棒离群点检测算法相比,应用结果表明该算法明显减少了计算开销,对数据集数据个数和算法参数都具有更好的伸缩性。 展开更多
关键词 改进尺度的近邻修剪 高效鲁棒离群点检测 统计监控建模 数据预处理
在线阅读 下载PDF
一种基于反向K近邻的孤立点检测改进算法 被引量:3
8
作者 谢方方 徐连诚 牛冰茹 《计算机应用与软件》 CSCD 北大核心 2014年第6期267-270,共4页
基于反向k近邻的孤立点检测算法能够从全局角度较好地检测孤立点,但是在初始阶段求数据点的k近邻时,基本算法需要O(KN2)次数据点间的距离计算,不适合大数据集。同时参数k值的选取对数据集中孤立点的确定产生很大的影响。为此采用自适应... 基于反向k近邻的孤立点检测算法能够从全局角度较好地检测孤立点,但是在初始阶段求数据点的k近邻时,基本算法需要O(KN2)次数据点间的距离计算,不适合大数据集。同时参数k值的选取对数据集中孤立点的确定产生很大的影响。为此采用自适应的方法确定参数k值,然后提出一种利用度量空间的三角不等式的快速挖掘算法提前剪枝,减少孤立点检测时数据点之间距离计算的次数。理论分析和实验结果证明了算法的可行性和高效性。 展开更多
关键词 孤立点 K近邻 反向k近邻 三角不等式 剪枝
在线阅读 下载PDF
基于映射距离比离群因子的离群点检测算法 被引量:2
9
作者 张忠平 姚春辰 +3 位作者 孙光旭 刘硕 张睿博 魏永辉 《计算机集成制造系统》 EI CSCD 北大核心 2024年第5期1719-1732,共14页
针对基于邻近性的离群点检测方法需要花费大量时间过滤正常点,并且在检测全局离群点时难以检测出局部离群点的问题,提出一种基于映射距离比离群因子离群点检测(MDROF)算法。首先,为了减少正常点在检测过程中的时间消耗,给出了差异相似... 针对基于邻近性的离群点检测方法需要花费大量时间过滤正常点,并且在检测全局离群点时难以检测出局部离群点的问题,提出一种基于映射距离比离群因子离群点检测(MDROF)算法。首先,为了减少正常点在检测过程中的时间消耗,给出了差异相似度的概念,通过定义差异相似度剪枝因子过滤掉数据集中的大部分正常点。其次,定义映射k距离,通过映射距离与可达距离的比值刻画数据对象的局部离群程度,通过可达密度刻画数据对象的全局离群程度。最后,结合数据对象相互近邻点的平均排位定义映射距离比离群因子来检测离群点。在人工数据集以及真实数据集上分别对该算法与其他经典的离群点检测算法在精确率、AUC值和离群点发现曲线上进行实验对比分析。实验结果证明MDROF算法在离群点检测的准确性和稳定性上明显优于对比算法。 展开更多
关键词 数据挖掘 离群点检测 差异相似度剪枝 映射k距离 映射距离比
在线阅读 下载PDF
FNOD:基于近邻差波动因子的离群点检测算法 被引量:3
10
作者 张忠平 邓禹 +1 位作者 刘伟雄 张玉停 《高技术通讯》 CAS 2022年第7期674-686,共13页
针对现存离群点检测算法和剪枝方法存在算法精确度较低和剪枝程度小的问题,提出了一种基于近邻差波动因子的离群点检测方法。该方法首先依据离群点的相互k近邻(MUN)点数远小于参数k这一特点,提出了一种基于近邻关系的剪枝方法;然后提出... 针对现存离群点检测算法和剪枝方法存在算法精确度较低和剪枝程度小的问题,提出了一种基于近邻差波动因子的离群点检测方法。该方法首先依据离群点的相互k近邻(MUN)点数远小于参数k这一特点,提出了一种基于近邻关系的剪枝方法;然后提出近邻差的概念来刻画数据对象与其邻居点的分布特征,在变化的参数k下,离群点和正常点的近邻差的变化不同;最后采用近邻差波动衡量每个数据点的离群程度,进而检测出离群点。人工数据集和真实数据集下的实验结果表明,该算法能够有效且较为全面地检测出离群点。 展开更多
关键词 数据挖掘 离群点 剪枝 相互k近邻(MUN) 近邻差波动因子
在线阅读 下载PDF
基于熵距离的离群点检测及其应用 被引量:3
11
作者 孙爱程 《无线电工程》 2012年第6期45-47,51,共4页
离群数据检测是找出与正常数据不一致的数据。由于某种原因,会出现一些噪声数据。针对噪声数据的特征,提出了一个有效的离群点检测算法。通过层次k-means算法对数据集进行聚类,从包括离群点可能性最大的簇开始进行检测,在检测过程中提... 离群数据检测是找出与正常数据不一致的数据。由于某种原因,会出现一些噪声数据。针对噪声数据的特征,提出了一个有效的离群点检测算法。通过层次k-means算法对数据集进行聚类,从包括离群点可能性最大的簇开始进行检测,在检测过程中提出基于熵值距离来衡量数据点的离群程度,并通过剪枝规则来减少检测次数,从而提高了检测的效率。仿真结果表明该算法对出现的噪声数据具有较好的过滤效果。 展开更多
关键词 离群点 聚类 剪枝规则 熵距离
在线阅读 下载PDF
加速大规模数据集的离群点检测
12
作者 薛安荣 闻丹丹 刘彬 《计算机应用》 CSCD 北大核心 2013年第11期3057-3061,共5页
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI)算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化... 针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI)算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测。在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数量级。理论和实验分析表明,该算法可以有效提高大规模数据中离群点的检测效率。 展开更多
关键词 离群点 聚类 索引 分布式 优化策略 剪枝规则
在线阅读 下载PDF
一种基于p权值的离群数据挖掘算法 被引量:7
13
作者 娄圣金 张继福 刘爱琴 《小型微型计算机系统》 CSCD 北大核心 2014年第1期55-59,共5页
传统的基于距离的离群数据挖掘方法计算量大,挖掘效率和精度较低.本文利用大多数据集的聚类性特征,采用p权值和剪枝技术,给出一种基于距离的离群数据挖掘算法.该算法首先采用基于三角不等式的剪枝技术,寻找出离群候选集,仅候选集驻内存... 传统的基于距离的离群数据挖掘方法计算量大,挖掘效率和精度较低.本文利用大多数据集的聚类性特征,采用p权值和剪枝技术,给出一种基于距离的离群数据挖掘算法.该算法首先采用基于三角不等式的剪枝技术,寻找出离群候选集,仅候选集驻内存;然后对候选集中的每个数据点,分两种情况:若近邻达不到k值,赋予一个相对较大权值,若达到k值,运用p权值方法,计算该数据对象与其k最近邻的距离和,和越大,则离群的可能性越大;将离群候选集中的每个数据点按权值大小排序,并确定是否为离群数据,从而较好地克服了离群检测中的掩盖和淹没现象;最后采用UCI数据,实验验证了该算法的有效性. 展开更多
关键词 剪枝 离群数据挖掘 p权值 相似性搜索 三角不等式
在线阅读 下载PDF
支持差分隐私保护及离群点消除的并行K-means算法 被引量:13
14
作者 樊一康 刘建伟 《计算机应用研究》 CSCD 北大核心 2019年第6期1776-1781,1787,共7页
针对大数据环境下聚类分析的隐私保护问题,基于MapReduce计算框架,提出了一种并行化的支持差分隐私保护和离群点消除的K-means算法。算法并行地计算数据集中各点间的欧氏距离矩阵与最近邻超球半径以导出离群点的判定阈值,并在此基础上... 针对大数据环境下聚类分析的隐私保护问题,基于MapReduce计算框架,提出了一种并行化的支持差分隐私保护和离群点消除的K-means算法。算法并行地计算数据集中各点间的欧氏距离矩阵与最近邻超球半径以导出离群点的判定阈值,并在此基础上完成差分隐私保护下的初始聚类中心选取和并行聚类过程。理论分析证明整个算法满足ε-差分隐私保护,实验结果说明该算法在隐私保护的有效性、聚类结果的可用性以及执行效率等方面取得了很好的平衡,相比于同类算法有较优的表现。 展开更多
关键词 K-均值聚类 离群点消除 差分隐私 MAPREDUCE
在线阅读 下载PDF
一种相似度剪枝的离群点检测算法 被引量:2
15
作者 丁天一 张旻 方胜良 《小型微型计算机系统》 CSCD 北大核心 2018年第8期1680-1684,共5页
针对现有的离群点检测算法对于不规则形状数据集和复杂分布的多维数据集检测精度较低的问题,提出了一种基于相似度剪枝的离群点检测算法.算法首先通过构造相似度矩阵的方法,计算样本点之间的相似度,通过度矩阵获取与其他样本相似度较小... 针对现有的离群点检测算法对于不规则形状数据集和复杂分布的多维数据集检测精度较低的问题,提出了一种基于相似度剪枝的离群点检测算法.算法首先通过构造相似度矩阵的方法,计算样本点之间的相似度,通过度矩阵获取与其他样本相似度较小的样本作为离群点候选集,完成对非离群点的剪枝;然后,通过LOF算法计算离群点候选集中所有对象的局部离群因子,根据局部离群因子的大小进行判断得到最终的离群点.实验结果表明,所提出的算法可以得到较高的离群点检测精确度. 展开更多
关键词 离群点检测 局部离群因子 相似度矩阵 剪枝
在线阅读 下载PDF
基于非负矩阵欠逼近和剪枝技术的多结构几何模型拟合 被引量:2
16
作者 林舒源 赖桃桃 +2 位作者 严严 张立明 王菡子 《计算机学报》 EI CAS CSCD 北大核心 2021年第7期1414-1429,共16页
鲁棒几何模型拟合是计算机视觉中一项非常重要且具有挑战性的研究问题.它已被广泛应用于人工智能领域的多个相关任务,如车道线检测、三维重构、图像拼接和运动分割等.鲁棒几何模型拟合的主要任务是从包含离群点和噪声的多结构数据中估... 鲁棒几何模型拟合是计算机视觉中一项非常重要且具有挑战性的研究问题.它已被广泛应用于人工智能领域的多个相关任务,如车道线检测、三维重构、图像拼接和运动分割等.鲁棒几何模型拟合的主要任务是从包含离群点和噪声的多结构数据中估计模型实例的参数和数量.然而,当前的模型拟合方法在拟合精度和计算速度上仍然无法满足实际场景中应用的需求.为此,该文提出一种基于非负矩阵欠逼近和剪枝技术的模型拟合方法,以提升模型拟合的性能.该文所提出的模型拟合方法包含误匹配剪枝算法、模型假设剪枝算法和改进的非负矩阵欠逼近算法.我们首先将误匹配移除技术引入到模型拟合中,以减少离群点对数据点采样过程的影响,进而减少生成无效模型假设的数量;接着我们利用模型假设剪枝算法来修剪无效的模型假设并选择有意义的模型假设,以构建一个高质量的非负偏好矩阵;最后,我们将空间约束和稀疏约束引入到非负矩阵欠逼近的优化问题中,并采用结构合并策略自适应地估计模型实例的参数和数量.在合成数据和真实图像上的实验结果表明,该文所提出的方法比当前一些有代表性的模型拟合方法具有更好的拟合性能和鲁棒性.在拟合精度上,该方法比T-Linkage和RS-NMU分别提升了约197.2%和47.7%.在拟合速度上,该方法比T-Linkage和RS-NMU分别快了约2.3倍和1.9倍,而且在三维重建任务的运行速度上比最新的拟合方法MCT快了约42.5倍. 展开更多
关键词 计算机视觉 鲁棒几何模型拟合 多结构数据 非负矩阵欠逼近 离群点剪枝
在线阅读 下载PDF
基于划分和孤立点检测的审计证据获取研究 被引量:2
17
作者 张晓伟 谢强 陈伟 《计算机应用研究》 CSCD 北大核心 2009年第7期2495-2498,2501,共5页
为了改进传统的仅仅是把手工审计流程计算机化的计算机辅助审计方法和发现被审计数据中的隐藏信息和更多的审计证据,提出了一种先对海量数据进行数据划分,然后采用改进的孤立点检测技术的审计证据获取方法。该方法首先利用改进粒子群算... 为了改进传统的仅仅是把手工审计流程计算机化的计算机辅助审计方法和发现被审计数据中的隐藏信息和更多的审计证据,提出了一种先对海量数据进行数据划分,然后采用改进的孤立点检测技术的审计证据获取方法。该方法首先利用改进粒子群算法对被审计数据进行划分优化,找到高内聚、低耦合的数据划分;然后使用基于距离的改进孤立点检测技术,查找出孤立点数据;最后通过分析发现审计线索。通过相关对比实验表明,该方法易发现海量被审计数据中的隐藏信息,孤立点检测效率也有很大提高,从而提高了审计效率。 展开更多
关键词 计算机辅助审计 孤立点检测 粒子群算法 数据划分 剪枝技术
在线阅读 下载PDF
基于方形邻域和裁剪因子的离群点检测方法 被引量:7
18
作者 涂晓敏 石鸿雁 《小型微型计算机系统》 CSCD 北大核心 2019年第1期186-189,共4页
针对改进的局部稀疏系数(Enhanced Local Sparsity Coefficient,简称ELSC)算法在邻域查询过程中存在的不足,以及为了提高算法查准率,提出了一种基于方形邻域和裁剪因子的离群点检测算法.首先采用方形邻域,吸取网格算法的思想,以扩张的... 针对改进的局部稀疏系数(Enhanced Local Sparsity Coefficient,简称ELSC)算法在邻域查询过程中存在的不足,以及为了提高算法查准率,提出了一种基于方形邻域和裁剪因子的离群点检测算法.首先采用方形邻域,吸取网格算法的思想,以扩张的方形邻域代替网格分割,快速地排除聚类点,避免了网格算法的"维灾"问题.其次为了提高算法的精确度,引入裁剪因子的概念对候选离群点集进行精选.最后通过新定义的局部稀疏指数确定离群点.试验测试表明,该算法的执行效率与检测精度均优于ELSC算法. 展开更多
关键词 数据挖掘 离群点 方形邻域 裁剪因子 局部稀疏指数
在线阅读 下载PDF
基于逆k近邻计数和权值剪枝的离群数据挖掘算法 被引量:10
19
作者 朱云丽 张继福 《小型微型计算机系统》 CSCD 北大核心 2019年第8期1627-1632,共6页
利用逆k近邻计数与k近邻距离均值相结合的方式,给出了一种无监督离群数据挖掘算法.该算法以k近邻对象集合、k近邻对象距离作为前提条件,首先计算数据集中对象的逆k近邻计数,求得每个对象的antihub分数;其次,根据k近邻距离得到每个对象KN... 利用逆k近邻计数与k近邻距离均值相结合的方式,给出了一种无监督离群数据挖掘算法.该算法以k近邻对象集合、k近邻对象距离作为前提条件,首先计算数据集中对象的逆k近邻计数,求得每个对象的antihub分数;其次,根据k近邻距离得到每个对象KNN的antihub分数和权值,将权值大于等于1的对象保存在离群对象候选集List中;然后根据antihub分数以及k近邻距离均值,重新定义了离群分数公式,选取离群分数最大的若干个对象作为离群对象;最后,采用人工数据集和UCI标准数据集,实验验证了该算法的有效性. 展开更多
关键词 离群挖掘 逆k近邻 k近邻距离 权值剪枝 antihub分数
在线阅读 下载PDF
引入局部向量点积密度的数据流离群点快速检测算法 被引量:9
20
作者 毛亚琼 田立勤 +2 位作者 王艳 毛亚萍 王志刚 《计算机工程》 CAS CSCD 北大核心 2020年第11期132-138,147,共8页
现有数据流离群点检测算法在面对海量高维数据流时普遍存在运算时间过长的问题。为此,提出一种引入局部向量点积密度的高维数据流离群点快速检测算法。以保存少量中间结果的方式只对窗口内受影响的数据点进行增量计算,同时设计2种优化... 现有数据流离群点检测算法在面对海量高维数据流时普遍存在运算时间过长的问题。为此,提出一种引入局部向量点积密度的高维数据流离群点快速检测算法。以保存少量中间结果的方式只对窗口内受影响的数据点进行增量计算,同时设计2种优化策略和1条剪枝规则,减少检测过程中各点之间距离的计算次数,降低算法的时空开销,从而提高检测效率。理论分析和实验结果表明,该算法可以在保证检测准确性的情况下有效提高数据流的离群点检测效率,并且可扩展至并行环境进行并行加速。 展开更多
关键词 离群点检测 高维数据流 局部向量点积密度 增量计算 剪枝规则
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部