若干评价准则对不平衡数据学习的影响被引量：23

Effects of Several Evaluation Metrics on Imbalanced Data Learning

下载PDF

导出

摘要为解决绝大部分传统的以精度准则为优化目标而获得的分类器不适于不平衡数据学习(IDL)的问题,文中通过在支持向量机(SVM)模型上进行"元学习",研究了精度、平衡精度、几何平均、F1得分、信息增益、AUC(ROC曲线下方图面积)以及文中新提出的GAF和GBF等评价准则对IDL的影响.在16个来自UCI的不平衡数据集上进行了仿真实验.对实验结果的统计分析表明:不同准则对分类器性能的影响有显著差异;即便是对于先进的学习方法支持向量机(SVM)而言,若以精度准则最大化选择分类器,那么得到的SVM分类器也容易偏向预测多类;通过在其他准则上优化,能输出纠偏了的SVM分类器,它们的整体性能更好,尤其是在预测少类能力方面;在GAF以及GBF准则上优化所得的SVM分类器具有稳定且良好的性能. As most traditional classifiers optimized with the accuracy metric are unsuitable for imbalanced data learning（IDL）,this paper performs a meta-learning on a support vector machine（SVM） model,and investigates the IDL affected by such metrics as the accuracy,the balance accuracy,the geometric mean,the F1 score,the information gain,the AUC（Area Under ROC Curve）,as well as the two new metrics proposed in this paper,namely GAF and GBF.Moreover,simulation experiments are conducted on 16 imbalanced datasets from UCI,with a statistical analysis of the experimental results being also carried out.It is indicated that（1） there are distinct differences in the effects of these metrics on the classifier＇s performances;（2） even for the support vector machine（SVM）,an advanced learning method,its output classifier is still readily biased to majority class when the classifier is selected by maximizing the accuracy;（3） through the optimization with the help of other metrics,it is feasible to output bias-rectified SVM classifiers,which are of better overall performance,especially in terms of the prediction ability for minor classes;and（4） the output SVM classifiers optimized with GAF and GBF metrics are of stable and good performance.

作者林智勇郝志峰杨晓伟

机构地区华南理工大学计算机科学与工程学院广东工业大学应用数学学院华南理工大学理学院

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2010年第4期147-155,共9页 Journal of South China University of Technology(Natural Science Edition)

基金广东省教育部产学研结合项目(2007B090400031) 广东高校优秀青年创新人才培育项目(LYM08074)

关键词评价准则不平衡数据学习支持向量机 GAF准则 GBF准则 evaluation metric imbalanced data learning support vector machine GAF metric GBF metric

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1Chawla N V,Japkowicz N,Kotcz A.Editorial:special issue on learning from imbalanced data sets[J].ACM SIGKDD Explorations Newsletter,2004,6(1):1-6.
2Yang Q,Wu X.10 challenging problems in data mining research[J].International Journal of Information Technology & Decision Making,2006,5(4):597-604.
3Sokolova M,Japkowicz N,Szpakowicz S.Beyond accuracy,F-score and ROC:a family of discriminant measures for performance evaluation[C]∥Proceedings of the 2006 Australian Joint Conference on Artificial Intelligence (AI 2006).Hobart:Springer,2006:1015-1021.
4Caruana R,Niculescu-Mizil A.Data mining in metric space:an empirical analysis of supervised learning performance criteria[C]∥Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD 2004).Seattle:ACM Press,2004:69-78.
5Ferri C,Hernández-Orallo J,Modroiu R.An experimental comparison of performance measures for classification[J].Pattern Recognition Letters,2009,30(1):27-38.
6Vapnik V N.Statistical learning theory[M].New York:John Wiley & Sons,1998.
7Duda R O,Hart P E,Stork D G.Pattern Classification[M].2nd ed.New York:John Wiley & Sons,2001.
8Yan L,Dodier R,Mozer M C,et al.Optimizing classifier performance via an approximation to the Wilcoxon-Mann-Whitney statistic[C]∥Proceedings of the 20th International Conference on Machine Learning (ICML 2003).Washington:AAAI Press,2003:848-855.
9王泳,胡包钢.应用统计方法综合评估核函数分类能力的研究[J].计算机学报,2008,31(6):942-952. 被引量：22
10Veropoulos K,Campbell C,Cristianini N.Controlling the sensitivity of support vector machines[C]∥Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence.Stockholm:Morgan Kaufmann,1999:55-60.

二级参考文献21

1刘向东,骆斌,陈兆乾.支持向量机最优模型选择的研究[J].计算机研究与发展,2005,42(4):576-581. 被引量：50
2王玲,薄列峰,刘芳,焦李成.最小二乘隐空间支持向量机[J].计算机学报,2005,28(8):1302-1307. 被引量：12
3Vapnik V. The Nature of Statistical Learning Theory. 2nd Edition. New York: Springer-Verlag, 2000.
4Steinwart I, On the influence of the kernel on the consistency of support vector machines. Journal of Machine Learning Research, 2002, 2(2) : 67 -93.
5Chalimourda A, Scholkopf B, Smola A. Experimentally optimal v in support vector regression for different noise models and parameter settings. Neural Networks, 2004, 17(1): 127-141.
6Tan Y, Wang J. A support vector machine with a hybrid kernel and minimal vapnikchervonenkis dimension. IEEE Transactions on Knowledge and Data Engineering, 2004, 16 (4) : 385-395.
7Chen Y-X, Wang J-Z. Support vector learning for fuzzy rulebased classification systems. IEEE Transactions on Fuzzy System, 2003, 11(6): 716- 728.
8Browne M W. Cross-validation methods. Journal of Mathe matical Psychology, 2000, 44(1): 108- 132.
9Sincich T. Business Statistics by Example. 5th Edition. New Jersey: Prentice Hall, 1996.
10Nadeau C, Bengio Y. Inference for the generalization error. Machine Learning, 2003, 52(3): 239-281.

共引文献21

1刘书瑞,田继东,陈普春,赖立,宋国杰.基于文本数据的过滤式与嵌入式样本选择算法[J].数据分析与知识发现,2020,4(2):223-230.
2HU Bao-Gang,WANG Yong.Evaluation Criteria Based on Mutual Information for Classifications Including Rejected Class[J].自动化学报,2008,34(11):1396-1403. 被引量：7
3吕宁,于晓洋.基于二阶互信息特征选取的TE过程故障诊断[J].化工学报,2009,60(9):2252-2258. 被引量：9
4陈长军,詹永照,文传军.支持向量描述鉴别分析及在人脸识别中的应用[J].计算机应用研究,2010,27(2):488-490. 被引量：7
5段青,赵建国,马艳.优化组合核函数相关向量机电力负荷预测模型[J].电机与控制学报,2010,14(6):33-38. 被引量：43
6吴成茂.基于核空间的Otsu阈值法[J].数据采集与处理,2010,25(6):761-765. 被引量：2
7汪廷华,陈峻婷.核函数的度量研究进展[J].计算机应用研究,2011,28(1):25-28. 被引量：13
8赵延平,谢丽聪.面向电信领域的文本分类研究[J].计算机与现代化,2011(2):49-52.
9张志强,张爱华.电子线路性能检测的支持向量机方法[J].黑龙江科技学院学报,2011,21(2):128-132. 被引量：2
10阳春华,任会峰,桂卫华,鄢锋,唐朝晖.基于泡沫纹理信度分配SVM的矿物浮选工况识别[J].仪器仪表学报,2011,32(10):2205-2209. 被引量：18

同被引文献188

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：179
3李颖新,刘全金,阮晓钢.急性白血病的基因表达谱分析与亚型分类特征的鉴别[J].中国生物医学工程学报,2005,24(2):240-244. 被引量：19
4肖春景,张敏.基于减法聚类与模糊c-均值的模糊聚类的研究[J].计算机工程,2005,31(B07):135-137. 被引量：22
5田凤占,黄丽,于剑,黄厚宽.包含隐变量的贝叶斯网络增量学习方法[J].电子学报,2005,33(11):1925-1928. 被引量：9
6郑恩辉,李平,宋执环.不平衡数据知识挖掘:类分布对支持向量机分类的影响[J].信息与控制,2005,34(6):703-708. 被引量：17
7李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：117
8刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
9张翔,肖小玲,徐光祐.基于样本之间紧密度的模糊支持向量机方法[J].软件学报,2006,17(5):951-958. 被引量：84
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394

引证文献23

1陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
2李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报（工学版）,2011,41(3):7-11. 被引量：5
3张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
4李晶皎,许哲万,王爱侠,郭先日.基于移动模糊推理的DoS攻击检测方法[J].东北大学学报（自然科学版）,2012,33(10):1394-1398. 被引量：5
5蒋盛益,王连喜.不平衡数据的无监督特征选择方法[J].小型微型计算机系统,2013,34(1):63-67. 被引量：8
6蒋盛益,苗邦,王连喜.面向不平衡数据的特征加权聚类算法[J].小型微型计算机系统,2013,34(8):1809-1812. 被引量：4
7胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275. 被引量：6
8胡小生,张润晶,钟勇.一种基于聚类提升的不平衡数据分类算法[J].集成技术,2014,3(2):35-41. 被引量：6
9刘琼,王国华,申旻旻.基于边缘分割的车载单目远红外行人检测方法[J].华南理工大学学报（自然科学版）,2015,43(1):87-91. 被引量：6
10徐丽丽,闫德勤,高晴.基于聚类欠采样的极端学习机[J].微型机与应用,2015,34(17):81-84. 被引量：5

二级引证文献114

1张梦华,陆奎,高正康.基于YOLO的视频行人检测研究[J].忻州师范学院学报,2022,38(5):27-30. 被引量：2
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：20
3于重重,商利利,谭励,涂序彦,杨扬.半监督学习在不平衡样本集分类中的应用研究[J].计算机应用研究,2013,30(4):1085-1089. 被引量：8
4王连喜.图书馆个性化推荐面临的问题与挑战[J].现代情报,2013,33(6):3-5. 被引量：7
5姚旭,王晓丹,张玉玺,薛爱军.基于正则化互信息和差异度的集成特征选择[J].计算机科学,2013,40(6):225-228. 被引量：3
6姚丽华,于广州.关系型数据库信息资源检索结果分类方法仿真[J].计算机仿真,2019,36(1):445-448. 被引量：5
7谭台哲,叶青,尚鹏.基于局部重构的无监督特征选择方法[J].计算机应用研究,2014,31(9):2828-2831. 被引量：5
8蒋盛益,王连喜.聚类分析研究的挑战性问题[J].广东工业大学学报,2014,31(3):32-38. 被引量：6
9尹华,胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报（自然科学版）,2014,53(5):59-65. 被引量：34
10赵小强,杨佳敏.一种适应于不平衡数据集的改进TANC算法[J].兰州理工大学学报,2014,40(5):86-89. 被引量：1

1国外新闻[J].数字技术与应用,2005,23(10):6-7.
2李洋.Java：一场迟来的开源盛宴[J].互联网周刊,2006(41):48-49.
3郭凯.浅谈有限元的应用[J].北方经贸,2015(3):63-64.
4党宏社,张超,庞毅,侯金良.基于ORB算法的象棋快速识别和定位系统研究[J].科学技术与工程,2017,17(7):52-57. 被引量：6
5陈绍炜,柳光峰,冶帅.基于核极限学习机的模拟电路故障诊断研究[J].西北工业大学学报,2015,33(2):290-294. 被引量：17
6祝团飞,孙婧,李益洲,李梦龙.BOS:一种用于不平衡数据学习的边界过采样方法[J].四川大学学报（自然科学版）,2012,49(3):553-559. 被引量：3
7赵宁波,王彦林.基于几何平均的非线性细分算法[J].大众商务（下半月）,2009(9):171-171.
8温小隆,罗国富,张志远,云康,王小飞.硬支撑动平衡机自动测试及校正系统的设计[J].汽车零部件,2009(6):68-69.
9任金枝.Flash中实例教学初探[J].广东科技,2011,20(10):26-27.
10李永康,周军鹏,陈云峰.提升电力系统现有网络安全防御体系的解决方案[J].计算机光盘软件与应用,2011(23):32-34.

华南理工大学学报（自然科学版）

2010年第4期

浏览历史

内容加载中请稍等...

若干评价准则对不平衡数据学习的影响被引量：23

参考文献15

二级参考文献21

共引文献21

同被引文献188

引证文献23

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

若干评价准则对不平衡数据学习的影响 被引量：23

参考文献15

二级参考文献21

共引文献21

同被引文献188

引证文献23

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

若干评价准则对不平衡数据学习的影响被引量：23