数据流是一类具有高生成率、动态分布特性的数据,其异常检测旨在从这一类数据中发现偏离预期行为的数据流,从而为医疗、工业生产、金融等诸多领域的决策提供支持。现有数据流异常检测方法普遍面临参数敏感性高、时空开销大、阈值选取难...数据流是一类具有高生成率、动态分布特性的数据,其异常检测旨在从这一类数据中发现偏离预期行为的数据流,从而为医疗、工业生产、金融等诸多领域的决策提供支持。现有数据流异常检测方法普遍面临参数敏感性高、时空开销大、阈值选取难等问题。为了解决上述问题,提出一种基于变密度的自适应数据流的异常检测方法。首先定义了可变局部离群因子(Va-riable Local Outlier Factor,VLOF),VLOF通过对比数据点在并行的不同k值的邻域窗口下,其局部可达密度和局部异常因子的变化情况,度量数据点的密度分布,降低单一k近邻密度度量导致的结果不准确。其次,计算VLOF与k值的相对增长率和绝对均值率,以反映数据流的动态变化趋势,并将适应这种动态变化趋势的数据点定义为核心点,通过核心点加快对后续正常点的判断。最后,将相对增长率和绝对均值率作为数据点理论分布的度量指标,计算理论分布和新数据点实际分布的差异,从而自适应地将偏离理论分布的点识别为异常。为了验证提出算法的有效性,在多个UCI数据集和真实数据集下与8个算法进行对比实验,实验结果表明:与基线模型相比,所提方法在精确率、召回率、F1性能指标上表现良好,且时间和空间效率也有相应提升。展开更多
数据流分类方法研究在开放环境下的模型动态更新,以期从实时到达且不断变化的数据流中检测并适应概念演化,目前多数数据流分类方法通常假设数据流中样本的类别数是固定的,并且样本的标签可以不受限制地获取,这在真实场景下是不现实的。...数据流分类方法研究在开放环境下的模型动态更新,以期从实时到达且不断变化的数据流中检测并适应概念演化,目前多数数据流分类方法通常假设数据流中样本的类别数是固定的,并且样本的标签可以不受限制地获取,这在真实场景下是不现实的。为此,该文提出了一种概念演化数据流主动学习方法(Active Learning Method for Concept Evolution Data Stream,ALM-CEDS)。定义基于样本标准差的基分类器重要性度量,提出基于加权预测概率的样本预测方法,提升分类器的分类性能;提出基于混合标签查询策略的分类器更新方法,使用难区分和代表当前数据分布的样本更新分类器;提出基于微簇q-近邻轮廓系数的新类检测方法,在数据流中快速识别新类。在4个真实数据流与5个合成数据流上的对比实验表明,该概念演化数据流主动学习方法在分类性能上优于已有的6种数据流学习方法。展开更多
文摘数据流是一类具有高生成率、动态分布特性的数据,其异常检测旨在从这一类数据中发现偏离预期行为的数据流,从而为医疗、工业生产、金融等诸多领域的决策提供支持。现有数据流异常检测方法普遍面临参数敏感性高、时空开销大、阈值选取难等问题。为了解决上述问题,提出一种基于变密度的自适应数据流的异常检测方法。首先定义了可变局部离群因子(Va-riable Local Outlier Factor,VLOF),VLOF通过对比数据点在并行的不同k值的邻域窗口下,其局部可达密度和局部异常因子的变化情况,度量数据点的密度分布,降低单一k近邻密度度量导致的结果不准确。其次,计算VLOF与k值的相对增长率和绝对均值率,以反映数据流的动态变化趋势,并将适应这种动态变化趋势的数据点定义为核心点,通过核心点加快对后续正常点的判断。最后,将相对增长率和绝对均值率作为数据点理论分布的度量指标,计算理论分布和新数据点实际分布的差异,从而自适应地将偏离理论分布的点识别为异常。为了验证提出算法的有效性,在多个UCI数据集和真实数据集下与8个算法进行对比实验,实验结果表明:与基线模型相比,所提方法在精确率、召回率、F1性能指标上表现良好,且时间和空间效率也有相应提升。
文摘数据流分类方法研究在开放环境下的模型动态更新,以期从实时到达且不断变化的数据流中检测并适应概念演化,目前多数数据流分类方法通常假设数据流中样本的类别数是固定的,并且样本的标签可以不受限制地获取,这在真实场景下是不现实的。为此,该文提出了一种概念演化数据流主动学习方法(Active Learning Method for Concept Evolution Data Stream,ALM-CEDS)。定义基于样本标准差的基分类器重要性度量,提出基于加权预测概率的样本预测方法,提升分类器的分类性能;提出基于混合标签查询策略的分类器更新方法,使用难区分和代表当前数据分布的样本更新分类器;提出基于微簇q-近邻轮廓系数的新类检测方法,在数据流中快速识别新类。在4个真实数据流与5个合成数据流上的对比实验表明,该概念演化数据流主动学习方法在分类性能上优于已有的6种数据流学习方法。