孪生支持向量机(twin support vector machine,TSVM)能有效地处理交叉或异或等类型的数据.然而,当处理集值数据时,TSVM通常利用集值对象的均值、中值等统计信息.不同于TSVM,提出能直接处理集值数据的孪生支持函数机(twin support functi...孪生支持向量机(twin support vector machine,TSVM)能有效地处理交叉或异或等类型的数据.然而,当处理集值数据时,TSVM通常利用集值对象的均值、中值等统计信息.不同于TSVM,提出能直接处理集值数据的孪生支持函数机(twin support function machine,TSFM).依据集值对象定义的支持函数,TSFM在巴拿赫空间取得非平行的超平面.为了抑制集值数据中的离群点,TSFM采用了弹球损失函数并引入了集值对象的权重.考虑到TSFM是无穷维空间的优化问题,测度采用狄拉克测度的线性组合的形式,这构建有限维空间的优化模型.为了有效地求解优化模型,利用采样策略将模型转化成二次规划(quadratic programming,QP)问题并推导出二次规划问题的对偶形式,这为判断哪些采样点是支持向量提供了理论基础.为了分类集值数据,定义集值对象到巴拿赫空间的超平面的距离并由此得出判别规则.也考虑支持函数的核化以便取得数据的非线性特征,这使得提出的模型可用于不定核函数.实验结果表明,TSFM能获取交叉类型的集值数据的内在结构,并且在离群点或集值对象包含少量高维事例的情况下取得了良好的分类性能.展开更多
针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF)。利用K-means算法对多数类样本聚类,引...针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF)。利用K-means算法对多数类样本聚类,引入欧氏距离作为欠采样时分配样本个数的权重依据,使采样后的多数类样本与少数类样本形成一个平衡的样本集,以CART决策树为基分类器,加权随机森林为整体框架,同时将测试样本的准确率作为每棵树的权值来完成对结果的最终投票,有效提高了整体分类性能。选择八组KEEL数据集进行实验,结果表明,与其余四种基于随机森林的不平衡数据处理算法相比,CUS-WRF算法的分类性能及稳定性更具优势。展开更多
文摘孪生支持向量机(twin support vector machine,TSVM)能有效地处理交叉或异或等类型的数据.然而,当处理集值数据时,TSVM通常利用集值对象的均值、中值等统计信息.不同于TSVM,提出能直接处理集值数据的孪生支持函数机(twin support function machine,TSFM).依据集值对象定义的支持函数,TSFM在巴拿赫空间取得非平行的超平面.为了抑制集值数据中的离群点,TSFM采用了弹球损失函数并引入了集值对象的权重.考虑到TSFM是无穷维空间的优化问题,测度采用狄拉克测度的线性组合的形式,这构建有限维空间的优化模型.为了有效地求解优化模型,利用采样策略将模型转化成二次规划(quadratic programming,QP)问题并推导出二次规划问题的对偶形式,这为判断哪些采样点是支持向量提供了理论基础.为了分类集值数据,定义集值对象到巴拿赫空间的超平面的距离并由此得出判别规则.也考虑支持函数的核化以便取得数据的非线性特征,这使得提出的模型可用于不定核函数.实验结果表明,TSFM能获取交叉类型的集值数据的内在结构,并且在离群点或集值对象包含少量高维事例的情况下取得了良好的分类性能.
文摘针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF)。利用K-means算法对多数类样本聚类,引入欧氏距离作为欠采样时分配样本个数的权重依据,使采样后的多数类样本与少数类样本形成一个平衡的样本集,以CART决策树为基分类器,加权随机森林为整体框架,同时将测试样本的准确率作为每棵树的权值来完成对结果的最终投票,有效提高了整体分类性能。选择八组KEEL数据集进行实验,结果表明,与其余四种基于随机森林的不平衡数据处理算法相比,CUS-WRF算法的分类性能及稳定性更具优势。