鉴于ROC曲线下面积(Area Under the ROC Curve,AUC)对数据分布的不敏感特性,面向AUC的对抗训练(AdAUC)近来已成为机器学习领域中抵御长尾分布下对抗攻击的有效范式之一。当前主流方法大多遵循基于平方替代损失的AUC对抗训练框架,并将成...鉴于ROC曲线下面积(Area Under the ROC Curve,AUC)对数据分布的不敏感特性,面向AUC的对抗训练(AdAUC)近来已成为机器学习领域中抵御长尾分布下对抗攻击的有效范式之一。当前主流方法大多遵循基于平方替代损失的AUC对抗训练框架,并将成对比较形式的AUC对抗损失重构为一个逐样本的随机鞍点优化问题,克服端到端的计算瓶颈。然而,面向复杂的实际应用场景,基于平方损失设计的AUC对抗训练框架恐难以适应多样的下游任务需求。此外,与传统对抗训练范式类似,面向AUC的对抗训练方法在提高模型对抗鲁棒性的同时,也会降低模型在正常样本上的AUC性能,而目前鲜有针对该问题的有效解决方案。鉴于此,本文对如何构建一般化的高效AUC对抗机器学习范式展开系统研究。首先,提出了一种基于标准化分数扰动的通用AUC对抗训练框架(NSAdAUC),在相对温和的条件下,该框架可通过直接扰动模型对样本的预测得分实现对AUC指标的攻击,且不依赖于特定的AUC替代损失。在此基础上,本文进一步指出鲁棒AUC误差可分解为标准AUC误差和边界AUC误差两项之和,并据此设计了一种基于排序感知对抗正则化的AUC对抗训练框架(RARAdAUC),同时兼顾模型的标准AUC和鲁棒AUC性能。为验证所提框架的有效性,在5个长尾基准数据集上进行了大量实验,结果表明所提NSAdAUC和RARAdAUC框架在多种对抗攻击下的鲁棒性均优于现有方法,可在平均意义上分别产生0.94%、5.52%的标准AUC和5.69%、5.41%的鲁棒AUC性能提升。展开更多
为了准确识别颈动脉斑块的重要生物标志物,在改进生物标志物所包含信息量的度量方法的基础上,通过向前逐步回归建立了基于变换AUC(Transformed area under curve)的颈动脉斑块稳定性预测模型。首先,在ROC(Receiver operating characteri...为了准确识别颈动脉斑块的重要生物标志物,在改进生物标志物所包含信息量的度量方法的基础上,通过向前逐步回归建立了基于变换AUC(Transformed area under curve)的颈动脉斑块稳定性预测模型。首先,在ROC(Receiver operating characteristic)空间提出变换AUC,并给出该指标在双正态分布模型和自由分布模型下的估计方法;然后,使用R统计软件,对比分析变换AUC与AUC等常用评估指标对非传统生物标志物的评估性能;最后,基于浙江医院提供的影像数据,利用变换AUC度量生物标志物的信息量,使用向前逐步回归筛选模型的方法建立高精度的颈动脉斑块稳定性预测模型。研究结果表明,该颈动脉斑块稳定性预测模型的AUC值达到0.9以上,能够准确识别斑块的稳定性,为临床医师对患者进行个性化诊疗提供更精准的参考依据。展开更多
接收者操作特性(Receiver operating characteristics,ROC)曲线下面积(Area under the ROC curve,AUC)常被用于度量分类器在整个类先验分布上的总体分类性能.原始Boosting算法优化分类精度,但在AUC度量下并非最优.提出了一种AUC优化Boos...接收者操作特性(Receiver operating characteristics,ROC)曲线下面积(Area under the ROC curve,AUC)常被用于度量分类器在整个类先验分布上的总体分类性能.原始Boosting算法优化分类精度,但在AUC度量下并非最优.提出了一种AUC优化Boosting改进算法,通过在原始Boosting迭代中引入数据重平衡操作,实现弱学习算法优化目标从精度向AUC的迁移.实验结果表明,较之原始Boosting算法,新算法在AUC度量下能获得更好性能.展开更多
准确率一直被作为分类器预测性能的主要评估标准,但是它存在着诸多的缺点和不足。本文将准确率与AUC(the area under the Receiver Operating Characteristic curve)进行了理论上的对比分析,并分别使用AUC和准确率对3种分类学习算法...准确率一直被作为分类器预测性能的主要评估标准,但是它存在着诸多的缺点和不足。本文将准确率与AUC(the area under the Receiver Operating Characteristic curve)进行了理论上的对比分析,并分别使用AUC和准确率对3种分类学习算法在15个两类数据集上进行了评估。综合理论和实验两个方面的结果,显示了AUC不但优于而且应该替代准确率,成为更好的分类器性能的评估度量。同时,用AUC对3种分类学习算法的重新评估,进一步证实了基于贝叶斯定理的Naive Bayes和TAN-CMI分类算法优于决策树分类算法C4.5。展开更多
文摘鉴于ROC曲线下面积(Area Under the ROC Curve,AUC)对数据分布的不敏感特性,面向AUC的对抗训练(AdAUC)近来已成为机器学习领域中抵御长尾分布下对抗攻击的有效范式之一。当前主流方法大多遵循基于平方替代损失的AUC对抗训练框架,并将成对比较形式的AUC对抗损失重构为一个逐样本的随机鞍点优化问题,克服端到端的计算瓶颈。然而,面向复杂的实际应用场景,基于平方损失设计的AUC对抗训练框架恐难以适应多样的下游任务需求。此外,与传统对抗训练范式类似,面向AUC的对抗训练方法在提高模型对抗鲁棒性的同时,也会降低模型在正常样本上的AUC性能,而目前鲜有针对该问题的有效解决方案。鉴于此,本文对如何构建一般化的高效AUC对抗机器学习范式展开系统研究。首先,提出了一种基于标准化分数扰动的通用AUC对抗训练框架(NSAdAUC),在相对温和的条件下,该框架可通过直接扰动模型对样本的预测得分实现对AUC指标的攻击,且不依赖于特定的AUC替代损失。在此基础上,本文进一步指出鲁棒AUC误差可分解为标准AUC误差和边界AUC误差两项之和,并据此设计了一种基于排序感知对抗正则化的AUC对抗训练框架(RARAdAUC),同时兼顾模型的标准AUC和鲁棒AUC性能。为验证所提框架的有效性,在5个长尾基准数据集上进行了大量实验,结果表明所提NSAdAUC和RARAdAUC框架在多种对抗攻击下的鲁棒性均优于现有方法,可在平均意义上分别产生0.94%、5.52%的标准AUC和5.69%、5.41%的鲁棒AUC性能提升。
文摘为了准确识别颈动脉斑块的重要生物标志物,在改进生物标志物所包含信息量的度量方法的基础上,通过向前逐步回归建立了基于变换AUC(Transformed area under curve)的颈动脉斑块稳定性预测模型。首先,在ROC(Receiver operating characteristic)空间提出变换AUC,并给出该指标在双正态分布模型和自由分布模型下的估计方法;然后,使用R统计软件,对比分析变换AUC与AUC等常用评估指标对非传统生物标志物的评估性能;最后,基于浙江医院提供的影像数据,利用变换AUC度量生物标志物的信息量,使用向前逐步回归筛选模型的方法建立高精度的颈动脉斑块稳定性预测模型。研究结果表明,该颈动脉斑块稳定性预测模型的AUC值达到0.9以上,能够准确识别斑块的稳定性,为临床医师对患者进行个性化诊疗提供更精准的参考依据。
文摘接收者操作特性(Receiver operating characteristics,ROC)曲线下面积(Area under the ROC curve,AUC)常被用于度量分类器在整个类先验分布上的总体分类性能.原始Boosting算法优化分类精度,但在AUC度量下并非最优.提出了一种AUC优化Boosting改进算法,通过在原始Boosting迭代中引入数据重平衡操作,实现弱学习算法优化目标从精度向AUC的迁移.实验结果表明,较之原始Boosting算法,新算法在AUC度量下能获得更好性能.
文摘准确率一直被作为分类器预测性能的主要评估标准,但是它存在着诸多的缺点和不足。本文将准确率与AUC(the area under the Receiver Operating Characteristic curve)进行了理论上的对比分析,并分别使用AUC和准确率对3种分类学习算法在15个两类数据集上进行了评估。综合理论和实验两个方面的结果,显示了AUC不但优于而且应该替代准确率,成为更好的分类器性能的评估度量。同时,用AUC对3种分类学习算法的重新评估,进一步证实了基于贝叶斯定理的Naive Bayes和TAN-CMI分类算法优于决策树分类算法C4.5。