Tri-training利用无标签数据进行分类可有效提高分类器的泛化能力,但其易将无标签数据误标,从而形成训练噪声。提出一种基于密度峰值聚类的Tri-training(Tri-training with density peaks clustering,DPC-TT)算法。密度峰值聚类通过类...Tri-training利用无标签数据进行分类可有效提高分类器的泛化能力,但其易将无标签数据误标,从而形成训练噪声。提出一种基于密度峰值聚类的Tri-training(Tri-training with density peaks clustering,DPC-TT)算法。密度峰值聚类通过类簇中心和局部密度可选出数据空间结构表现较好的样本。DPC-TT算法采用密度峰值聚类算法获取训练数据的类簇中心和样本的局部密度,对类簇中心的截断距离范围内的样本认定为空间结构表现较好,标记为核心数据,使用核心数据更新分类器,可降低迭代过程中的训练噪声,进而提高分类器的性能。实验结果表明:相比于标准Tritraining算法及其改进算法,DPC-TT算法具有更好的分类性能。展开更多
针对高铁列车运行数据中异常样本难以实时识别和聚类结构随数据演化动态变化等问题,本文提出一种基于狄利克雷过程混合模型的后验归类式增量聚类与异常检测方法(Posterior Classification-based Incremental Dirichlet Process Mixture ...针对高铁列车运行数据中异常样本难以实时识别和聚类结构随数据演化动态变化等问题,本文提出一种基于狄利克雷过程混合模型的后验归类式增量聚类与异常检测方法(Posterior Classification-based Incremental Dirichlet Process Mixture Model,PC-IDPMM)。该方法在离线阶段构建聚类模型并识别异常样本,在线阶段结合后验概率快速归类新样本,并通过密度聚类提取新结构,实现模型的结构扩展与参数更新。为验证模型性能,本文基于广深高铁实测数据开展实验。结果表明:PC-IDPMM在保持聚类结构一致性的同时,实现主簇统计特征的稳定更新,AUC(Area Under the Curve)达90.55%,优于多种离线方法;计算效率方面,训练时间与内存消耗较离线模型分别减少约85%和80%。此外,PC-IDPMM可基于列车前序站点数据实现实时异常预警,辅助调度系统在延误初期干预,将累计晚点由572 min降至320 min,实验结果验证了该方法在高频数据环境下的实时性与应用价值。展开更多
文摘Tri-training利用无标签数据进行分类可有效提高分类器的泛化能力,但其易将无标签数据误标,从而形成训练噪声。提出一种基于密度峰值聚类的Tri-training(Tri-training with density peaks clustering,DPC-TT)算法。密度峰值聚类通过类簇中心和局部密度可选出数据空间结构表现较好的样本。DPC-TT算法采用密度峰值聚类算法获取训练数据的类簇中心和样本的局部密度,对类簇中心的截断距离范围内的样本认定为空间结构表现较好,标记为核心数据,使用核心数据更新分类器,可降低迭代过程中的训练噪声,进而提高分类器的性能。实验结果表明:相比于标准Tritraining算法及其改进算法,DPC-TT算法具有更好的分类性能。
文摘针对高铁列车运行数据中异常样本难以实时识别和聚类结构随数据演化动态变化等问题,本文提出一种基于狄利克雷过程混合模型的后验归类式增量聚类与异常检测方法(Posterior Classification-based Incremental Dirichlet Process Mixture Model,PC-IDPMM)。该方法在离线阶段构建聚类模型并识别异常样本,在线阶段结合后验概率快速归类新样本,并通过密度聚类提取新结构,实现模型的结构扩展与参数更新。为验证模型性能,本文基于广深高铁实测数据开展实验。结果表明:PC-IDPMM在保持聚类结构一致性的同时,实现主簇统计特征的稳定更新,AUC(Area Under the Curve)达90.55%,优于多种离线方法;计算效率方面,训练时间与内存消耗较离线模型分别减少约85%和80%。此外,PC-IDPMM可基于列车前序站点数据实现实时异常预警,辅助调度系统在延误初期干预,将累计晚点由572 min降至320 min,实验结果验证了该方法在高频数据环境下的实时性与应用价值。