在分类问题中,常常会遇到只能获得正标签和无标签样本的情况,即PU(positive and unlabeled)数据。针对此类PU数据建模,现有的研究大多需要类别先验(class prior),并在样本量充足的情况下才能取得较好的效果,当数据呈现“高维小样本”特...在分类问题中,常常会遇到只能获得正标签和无标签样本的情况,即PU(positive and unlabeled)数据。针对此类PU数据建模,现有的研究大多需要类别先验(class prior),并在样本量充足的情况下才能取得较好的效果,当数据呈现“高维小样本”特点时,模型估计效果往往不佳。基于此,本文提出了高维主动PU学习方法,通过对经典的A-optimality准则进行调整,不仅能够在高维情况下有效挑选新样本,提升模型估计效果,同时,显著减少了样本挑选的时间成本。此外,在挑选样本并标记的过程中,本文提出的方法无需初值即可对类别先验进行参数估计,减少先验信息错误带来的偏差。通过模拟实验发现,本文所提出的方法在变量选择、系数估计和分类预测上的效果均优于对比方法。最后,将本文提出的模型应用到实际的消费金融贷信用评分数据中,实证结果表明,利用本文提出的方法可以显著提高模型的预测效果。展开更多
文摘在分类问题中,常常会遇到只能获得正标签和无标签样本的情况,即PU(positive and unlabeled)数据。针对此类PU数据建模,现有的研究大多需要类别先验(class prior),并在样本量充足的情况下才能取得较好的效果,当数据呈现“高维小样本”特点时,模型估计效果往往不佳。基于此,本文提出了高维主动PU学习方法,通过对经典的A-optimality准则进行调整,不仅能够在高维情况下有效挑选新样本,提升模型估计效果,同时,显著减少了样本挑选的时间成本。此外,在挑选样本并标记的过程中,本文提出的方法无需初值即可对类别先验进行参数估计,减少先验信息错误带来的偏差。通过模拟实验发现,本文所提出的方法在变量选择、系数估计和分类预测上的效果均优于对比方法。最后,将本文提出的模型应用到实际的消费金融贷信用评分数据中,实证结果表明,利用本文提出的方法可以显著提高模型的预测效果。