摘要
近年来,医疗大模型一直是学术界广泛研究的领域,该领域涵盖了多种技术,其中机器学习是实现医疗大模型的关键技术之一,机器学习的目的是让计算机从数据中学习规律和模式,通过对数据的学习为人工智能赋予准确有效的预测能力.机器学习在训练模型时,会假定训练数据集内的不同类别数量近似相等且分布均匀,但在医疗临床工作中,收集到的医疗数据集中经常出现某些类别的样本数量远少于其他类别的情况,经过这类数据集训练得到的模型在预测时会偏向数量较多的类别,对数量较少的类别预测不够准确,学者将这种现象称为数据不平衡.目前,数据生成技术在故障检测、信用评估等领域的不平衡数据集中都有着广泛应用,但随着信息技术的飞速发展,数据量和维度不断增加,现有的数据生成方法需要耗费大量的计算资源和时间,对高维数据集的适应性也较差.通过从特征选择和数据填补的角度对数据不平衡处理方法进行研究,以达到提高分类模型性能的目的.