数据流是一类具有高生成率、动态分布特性的数据,其异常检测旨在从这一类数据中发现偏离预期行为的数据流,从而为医疗、工业生产、金融等诸多领域的决策提供支持。现有数据流异常检测方法普遍面临参数敏感性高、时空开销大、阈值选取难...数据流是一类具有高生成率、动态分布特性的数据,其异常检测旨在从这一类数据中发现偏离预期行为的数据流,从而为医疗、工业生产、金融等诸多领域的决策提供支持。现有数据流异常检测方法普遍面临参数敏感性高、时空开销大、阈值选取难等问题。为了解决上述问题,提出一种基于变密度的自适应数据流的异常检测方法。首先定义了可变局部离群因子(Va-riable Local Outlier Factor,VLOF),VLOF通过对比数据点在并行的不同k值的邻域窗口下,其局部可达密度和局部异常因子的变化情况,度量数据点的密度分布,降低单一k近邻密度度量导致的结果不准确。其次,计算VLOF与k值的相对增长率和绝对均值率,以反映数据流的动态变化趋势,并将适应这种动态变化趋势的数据点定义为核心点,通过核心点加快对后续正常点的判断。最后,将相对增长率和绝对均值率作为数据点理论分布的度量指标,计算理论分布和新数据点实际分布的差异,从而自适应地将偏离理论分布的点识别为异常。为了验证提出算法的有效性,在多个UCI数据集和真实数据集下与8个算法进行对比实验,实验结果表明:与基线模型相比,所提方法在精确率、召回率、F1性能指标上表现良好,且时间和空间效率也有相应提升。展开更多
齿轮箱的健康监测对于机械传动系统以及机械设备的健康管理极为重要。针对变工况齿轮箱在使用过程中的健康状态较难监测的情况,提出一种基于高斯混合模型(Gaussian mixture model,GMM)和局部分布差异(local distribution difference,LDD...齿轮箱的健康监测对于机械传动系统以及机械设备的健康管理极为重要。针对变工况齿轮箱在使用过程中的健康状态较难监测的情况,提出一种基于高斯混合模型(Gaussian mixture model,GMM)和局部分布差异(local distribution difference,LDD)的自适应动态阈值健康监测方法。首先,对原始振动信号进行处理,从处理信号中提取特征,并依据单调性排序;使用核主成分分析对单调性较好的特征进行降维,构建退化趋势。再使用健康数据训练高斯混合模型,确定模型参数,并计算贝叶斯推断的距离(Bayesian inference distance,BID)。最后使用LDD动态调整滑动窗口大小并结合核密度估计(kernel density estimation,KDE)建立自适应阈值,对齿轮箱的健康状态进行监测。通过实验对比分析表明:本方法的预测准确性为99%,假警率为0.05%,灵敏度为98%,相较于其他方法有较大优势。展开更多
针对视觉结构类似导致的文种相似性问题,基于局部三值模式的相邻共生矩阵(co-occurrence of adjacent local ternary patterns,CoALTP)提出一种具有判别性和鲁棒性的局部三值模式的相邻共生矩阵(discriminant and robust co-occurrence ...针对视觉结构类似导致的文种相似性问题,基于局部三值模式的相邻共生矩阵(co-occurrence of adjacent local ternary patterns,CoALTP)提出一种具有判别性和鲁棒性的局部三值模式的相邻共生矩阵(discriminant and robust co-occurrence of adjacent local ternary patterns,DRCoALTP)方法,用于获取图像纹理。计算文档图像的相邻稀疏局部三值模式(adjacent sparse local ternary patterns,ASLTP),将采样点数量设定为8,以便获得详细的局部纹理,设计出一种基于自适应中值滤波思想的半自适应阈值方法,用于提取灰度图像中心像素周边对角邻域像素的编码值。ASLTP在邻域像素位置存放稀疏局部三值模式(local ternary patterns,LTP)的值,提取灰度共生矩阵(gray-level co-occurrence matrix,GLCM),从4个方向统计使用ASLTP后灰度图像像素之间的频率关系。该算法在阿拉伯文、俄文、简体中文、哈萨克文、藏文、蒙古文、土耳其文、维吾尔文、英文、吉尔吉斯斯坦文和塔吉克斯坦文11个文种的自建印刷体文档图像数据集中验证。试验结果表明,相较于基线和先进的纹理方法,改进后的方法更具判别性,平均识别准确率为99.14%。为改善CoALTP方法可能产生低效分类特征的问题,提出半自适应阈值方法,有效提高识别率并抑制噪声。此外,针对算法产生的高维特征,采用基于均方差的特征选择方法,通过支持向量机(support vector machine,SVM)分类器特征选择后,识别速度提高284%,对11个文种的平均识别准确率达99.44%。展开更多
文摘数据流是一类具有高生成率、动态分布特性的数据,其异常检测旨在从这一类数据中发现偏离预期行为的数据流,从而为医疗、工业生产、金融等诸多领域的决策提供支持。现有数据流异常检测方法普遍面临参数敏感性高、时空开销大、阈值选取难等问题。为了解决上述问题,提出一种基于变密度的自适应数据流的异常检测方法。首先定义了可变局部离群因子(Va-riable Local Outlier Factor,VLOF),VLOF通过对比数据点在并行的不同k值的邻域窗口下,其局部可达密度和局部异常因子的变化情况,度量数据点的密度分布,降低单一k近邻密度度量导致的结果不准确。其次,计算VLOF与k值的相对增长率和绝对均值率,以反映数据流的动态变化趋势,并将适应这种动态变化趋势的数据点定义为核心点,通过核心点加快对后续正常点的判断。最后,将相对增长率和绝对均值率作为数据点理论分布的度量指标,计算理论分布和新数据点实际分布的差异,从而自适应地将偏离理论分布的点识别为异常。为了验证提出算法的有效性,在多个UCI数据集和真实数据集下与8个算法进行对比实验,实验结果表明:与基线模型相比,所提方法在精确率、召回率、F1性能指标上表现良好,且时间和空间效率也有相应提升。
文摘齿轮箱的健康监测对于机械传动系统以及机械设备的健康管理极为重要。针对变工况齿轮箱在使用过程中的健康状态较难监测的情况,提出一种基于高斯混合模型(Gaussian mixture model,GMM)和局部分布差异(local distribution difference,LDD)的自适应动态阈值健康监测方法。首先,对原始振动信号进行处理,从处理信号中提取特征,并依据单调性排序;使用核主成分分析对单调性较好的特征进行降维,构建退化趋势。再使用健康数据训练高斯混合模型,确定模型参数,并计算贝叶斯推断的距离(Bayesian inference distance,BID)。最后使用LDD动态调整滑动窗口大小并结合核密度估计(kernel density estimation,KDE)建立自适应阈值,对齿轮箱的健康状态进行监测。通过实验对比分析表明:本方法的预测准确性为99%,假警率为0.05%,灵敏度为98%,相较于其他方法有较大优势。
文摘针对视觉结构类似导致的文种相似性问题,基于局部三值模式的相邻共生矩阵(co-occurrence of adjacent local ternary patterns,CoALTP)提出一种具有判别性和鲁棒性的局部三值模式的相邻共生矩阵(discriminant and robust co-occurrence of adjacent local ternary patterns,DRCoALTP)方法,用于获取图像纹理。计算文档图像的相邻稀疏局部三值模式(adjacent sparse local ternary patterns,ASLTP),将采样点数量设定为8,以便获得详细的局部纹理,设计出一种基于自适应中值滤波思想的半自适应阈值方法,用于提取灰度图像中心像素周边对角邻域像素的编码值。ASLTP在邻域像素位置存放稀疏局部三值模式(local ternary patterns,LTP)的值,提取灰度共生矩阵(gray-level co-occurrence matrix,GLCM),从4个方向统计使用ASLTP后灰度图像像素之间的频率关系。该算法在阿拉伯文、俄文、简体中文、哈萨克文、藏文、蒙古文、土耳其文、维吾尔文、英文、吉尔吉斯斯坦文和塔吉克斯坦文11个文种的自建印刷体文档图像数据集中验证。试验结果表明,相较于基线和先进的纹理方法,改进后的方法更具判别性,平均识别准确率为99.14%。为改善CoALTP方法可能产生低效分类特征的问题,提出半自适应阈值方法,有效提高识别率并抑制噪声。此外,针对算法产生的高维特征,采用基于均方差的特征选择方法,通过支持向量机(support vector machine,SVM)分类器特征选择后,识别速度提高284%,对11个文种的平均识别准确率达99.44%。