基因选择通常是在基因空间中进行的.由于基因空间的维数(基因数目)比该空间中的样本数要多得多,这种做法存在严重的维数发难(curse of dimensionality)问题,其结果是在基因空间中所建立数据模型难于获得满意的精度,基于所建立模型的基...基因选择通常是在基因空间中进行的.由于基因空间的维数(基因数目)比该空间中的样本数要多得多,这种做法存在严重的维数发难(curse of dimensionality)问题,其结果是在基因空间中所建立数据模型难于获得满意的精度,基于所建立模型的基因选择结果可信度低.如何对具有极少样本的极高维空间进行特征选择(基因选择)是一个极具挑战性的课题.将基因空间变换为它的对偶空间,称为类别空间,从而空间的维数仅为基因空间中样本的类别数,空间中的样本数则为基因空间的维数.显然,在类别空间中不存在任何维数发难现象;提出了在类别空间中基于将不同的类尽可能分开的原则、并借助主分量分析的基于类别空间基因选择方法.对真实基因数据的基因选择实验,并通过Fisher指标、加权Fisher指标以及leave-one-out cross validation等可分性指标,与其他两种基因选择方法进行了深入的比较,结果表明该方法是十分有效的.展开更多
文摘基因选择通常是在基因空间中进行的.由于基因空间的维数(基因数目)比该空间中的样本数要多得多,这种做法存在严重的维数发难(curse of dimensionality)问题,其结果是在基因空间中所建立数据模型难于获得满意的精度,基于所建立模型的基因选择结果可信度低.如何对具有极少样本的极高维空间进行特征选择(基因选择)是一个极具挑战性的课题.将基因空间变换为它的对偶空间,称为类别空间,从而空间的维数仅为基因空间中样本的类别数,空间中的样本数则为基因空间的维数.显然,在类别空间中不存在任何维数发难现象;提出了在类别空间中基于将不同的类尽可能分开的原则、并借助主分量分析的基于类别空间基因选择方法.对真实基因数据的基因选择实验,并通过Fisher指标、加权Fisher指标以及leave-one-out cross validation等可分性指标,与其他两种基因选择方法进行了深入的比较,结果表明该方法是十分有效的.