标签噪声可能对监督学习模型的泛化能力产生较大影响.噪声过滤通过删减噪声样本来提升数据质量,是解决标签噪声问题的有效方法.然而,目前大多数标签噪声过滤算法会将一些潜在的有价值样本错误地标记为噪声,这种过度清洗会导致样本信息缺...标签噪声可能对监督学习模型的泛化能力产生较大影响.噪声过滤通过删减噪声样本来提升数据质量,是解决标签噪声问题的有效方法.然而,目前大多数标签噪声过滤算法会将一些潜在的有价值样本错误地标记为噪声,这种过度清洗会导致样本信息缺失.针对此问题,本文提出一种基于数据增强的联合标签清洗方法(Combined Label Cleaning Method based on Data Augmentation,CCDA),该方法通过多次在数据集上进行特征加噪增强、特征划分增强和组合增强,使用多次增强后预测结果的信息熵和一致性来评估样本的稳定性.将最不稳定的样本交由专家标注进行主动清洗修正标签值;将最稳定的样本利用模型预测的集成结果自动清洗.通过主动与自动方式联合实施针对性标签清洗,以较小的人工标记代价有效降低了标签噪声对模型性能的影响,提高了模型的泛化能力.实验结果表明,与所比较的方法相比,本文所提CCDA方法在不同噪声环境下都取得了更高的分类准确率,而且人工修正标记代价小.展开更多
心电图(electrocardiogram,ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本.但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题.在一个标签完整且准...心电图(electrocardiogram,ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本.但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题.在一个标签完整且准确的示例数据集辅助下,提出一种基于异常特征模式(abnormality-feature pattern,AFP)的方法对弱标签心电数据进行标签清洗,以获取所有正确的异常标签.清洗分2个阶段,即基于聚类的规则构造和基于迭代的标签清洗.在第1阶段,通过狄利克雷过程混合模型(Dirichlet process mixture model,DPMM)聚类,识别每个异常标签对应的不同特征模式,进而构建异常发现规则、排除规则和1组二分类器.在第2阶段,根据发现和排除规则辨识初始相关标签集,然后根据二分类器迭代扩展相关标签并排除不相关标签.AFP方法捕捉了示例数据集和弱标签数据集的共享特征模式,既应用了人的知识,又充分利用了正确标记的标签;同时,渐进地去除错误标签和填补缺失标签,保证了标签清洗的可靠性.真实和模拟数据集上的实验证明了AFP方法的有效性.展开更多
基于主动学习的标签噪声清洗方法(Active label noise cleaning,ALNC)是一种通过主动学习筛选疑似噪声样本,进而交给人工专家进行再标记的标签噪声清洗方法.虽然该方法既有很好的噪声识别效果又能保持原有数据的完整性,但仍存在人工额...基于主动学习的标签噪声清洗方法(Active label noise cleaning,ALNC)是一种通过主动学习筛选疑似噪声样本,进而交给人工专家进行再标记的标签噪声清洗方法.虽然该方法既有很好的噪声识别效果又能保持原有数据的完整性,但仍存在人工额外标记代价较高的问题,即筛选出的疑似噪声样本中存在一定比例的正常样本.为了解决这一问题,降低标签噪声清洗过程中的人工额外检验代价,本文提出了一种基于SPXY(Sample Set Partitioning based on Joint X-Y Distance Sampling)采样的标签噪声主动清洗方法(Active label noise cleaning based on SPXY,SPXYALNC),该方法在主动学习筛选疑似噪声样本的过程中结合了SPXY采样方法,这样既考虑了样本的不确定性,又考虑了样本的代表性,并且在原有标准数据集上针对分类问题进行了实验,实验结果表明该方法在保持原有噪声识别效果的同时可以明显降低人工额外检验代价.展开更多
文摘标签噪声可能对监督学习模型的泛化能力产生较大影响.噪声过滤通过删减噪声样本来提升数据质量,是解决标签噪声问题的有效方法.然而,目前大多数标签噪声过滤算法会将一些潜在的有价值样本错误地标记为噪声,这种过度清洗会导致样本信息缺失.针对此问题,本文提出一种基于数据增强的联合标签清洗方法(Combined Label Cleaning Method based on Data Augmentation,CCDA),该方法通过多次在数据集上进行特征加噪增强、特征划分增强和组合增强,使用多次增强后预测结果的信息熵和一致性来评估样本的稳定性.将最不稳定的样本交由专家标注进行主动清洗修正标签值;将最稳定的样本利用模型预测的集成结果自动清洗.通过主动与自动方式联合实施针对性标签清洗,以较小的人工标记代价有效降低了标签噪声对模型性能的影响,提高了模型的泛化能力.实验结果表明,与所比较的方法相比,本文所提CCDA方法在不同噪声环境下都取得了更高的分类准确率,而且人工修正标记代价小.
文摘心电图(electrocardiogram,ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本.但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题.在一个标签完整且准确的示例数据集辅助下,提出一种基于异常特征模式(abnormality-feature pattern,AFP)的方法对弱标签心电数据进行标签清洗,以获取所有正确的异常标签.清洗分2个阶段,即基于聚类的规则构造和基于迭代的标签清洗.在第1阶段,通过狄利克雷过程混合模型(Dirichlet process mixture model,DPMM)聚类,识别每个异常标签对应的不同特征模式,进而构建异常发现规则、排除规则和1组二分类器.在第2阶段,根据发现和排除规则辨识初始相关标签集,然后根据二分类器迭代扩展相关标签并排除不相关标签.AFP方法捕捉了示例数据集和弱标签数据集的共享特征模式,既应用了人的知识,又充分利用了正确标记的标签;同时,渐进地去除错误标签和填补缺失标签,保证了标签清洗的可靠性.真实和模拟数据集上的实验证明了AFP方法的有效性.
文摘基于主动学习的标签噪声清洗方法(Active label noise cleaning,ALNC)是一种通过主动学习筛选疑似噪声样本,进而交给人工专家进行再标记的标签噪声清洗方法.虽然该方法既有很好的噪声识别效果又能保持原有数据的完整性,但仍存在人工额外标记代价较高的问题,即筛选出的疑似噪声样本中存在一定比例的正常样本.为了解决这一问题,降低标签噪声清洗过程中的人工额外检验代价,本文提出了一种基于SPXY(Sample Set Partitioning based on Joint X-Y Distance Sampling)采样的标签噪声主动清洗方法(Active label noise cleaning based on SPXY,SPXYALNC),该方法在主动学习筛选疑似噪声样本的过程中结合了SPXY采样方法,这样既考虑了样本的不确定性,又考虑了样本的代表性,并且在原有标准数据集上针对分类问题进行了实验,实验结果表明该方法在保持原有噪声识别效果的同时可以明显降低人工额外检验代价.