基于Mean Decrease Impurity改进XGBoost算法被引量：2

Improved XGBoost algorithm based on mean decrease impurity

下载PDF

导出

摘要针对XGBoost算法在处理高维数据集分类准确率和效率下降的情况,文中提出一种基于mean decrease impurity算法改进的XGBoost算法;并设计频数算法解决mean decrease impurity算法对特征重要度排名的随机性。实验结果表明,本方法预测效率以及准确率要优于未改进XGBoost算法,同时mean decrease impurity算法也优于基于方差算法。因此,文中所提出的分类方法具有更高的准确率和效率。 Aiming at the accuracy and efficiency of XGBoost algorithm in processing high-dimensional datasets,an improved XGBoost algorithm based on mean decrease impurity algorithm is proposed,and a frequency algorithm is designed to solve the randomness of the mean decrease impurity algorithm.The experimental results show that the prediction efficiency and accuracy of this method are better than the unmodified XGBoost algorithm,and the mean decrease impurity algorithm is better than the variance-based feature selection method.Therefore,the algorithm proposed in this paper has higher accuracy and efficiency.

作者杜俊杰朱永忠丁根宏 DU Jun-jie;ZHU Yong-zhong;DING Gen-hong(School of Science,Hohai University,Nanjing 211100,China)

机构地区河海大学理学院

出处《信息技术》 2019年第9期1-4,共4页 Information Technology

基金中央高校基本科研业务费专项资金资助(JGLX19_030,2019B80014)

关键词 XGBoost 高维数据 mean DECREASE IMPURITY 集成学习 XGBoost high-dimensional datasets mean decrease impurity ensemble learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1宋国琴,刘斌.基于XGBoost特征选择的幕课翘课指数建立及应用[J].电子科技大学学报,2018,47(6):921-926. 被引量：11
2姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：280
3温博文,董文瀚,解武杰,马骏.基于改进网格搜索算法的随机森林参数优化[J].计算机工程与应用,2018,54(10):154-157. 被引量：116

二级参考文献16

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：33
2郑义,姚建铨,吴峰,房晓俊,施祥春.用修正的RELIEF方法测量高速空气流瞬时速度的理论研究[J].光学学报,1996,16(8):1148-1151. 被引量：4
3Davies S, Russl S. NP completeness of searches for smallest possible feature sets[C]//Proceedings of the AAAI Fall Symposiums on Relevance, Menlo Park, 1994:37-39.
4Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
5Strobl Carolin, Boulesteix Anne-Laure, Kneib Thomas, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9 (1) : 1-11.
6Reif David M, Motsinger Alison A, McKinney Brett A, et al. Feature selection using a random forests classifier for the integrated analysis of multiple data types[C]//IEEE Symposium on Computational In- telligence and Bioinformatics and Computational Bi- ology, 2006: 171-178.
7Mohammed Khalilia, Sounak Chakraborty, Mihail Popescu. Predicting disease risks from highly im- balanced data using random forese[J]. BMC Medi- cal Informaties and Decision Making, 2011, 11(7): 51-58.
8Verikas A, Gelzinis A, Bacauskiene M. Mining data with random forests: a survey and results of new tests[J]. Pattern Recognition, 2011, 44 (2): 330-349.
9Inza I, Larranaga P, Blanco R. Filter versus wrap- per gene selection approaches in DNA microarray domains [J]. Artificial Intelligence in Medicine, 2004, 31(2): 91-103.
10蒋盛益,郑琪,张倩生.基于聚类的特征选择方法[J].电子学报,2008,36(B12):157-160. 被引量：18

共引文献401

1陈文明.色谱重叠峰的解析方法概论[J].中国水运（下半月）,2020(5):69-71. 被引量：4
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：46
3盛晓欣,田翔华,周毅.基于随机森林癫痫患者脑电数据的分析研究[J].中国数字医学,2020,15(1):41-43. 被引量：1
4杨仙保,张王菲,孙斌,高志海,李毅夫,王晗.基于GEE和Sentinel-2时序数据的呼伦贝尔沙地及其周边植被类型识别研究[J].遥感技术与应用,2022,37(4):982-992. 被引量：7
5张王菲,文哲,张亚红,张庭苇,李云.Stokes参数在油菜长势监测中的可行性分析[J].武汉大学学报（信息科学版）,2020,45(2):242-249. 被引量：4
6伟利国,袁玉龙,董鑫,周达,汪雅琦,陈文科.拖挂式大载荷特种车辆导航控制系统设计与试验[J].农业机械学报,2022,53(S01):324-331. 被引量：3
7张丽颖,杨若瑾.基于机器学习的个人贷款违约预测模型的应用研究[J].金融监管研究,2022(6):46-59. 被引量：11
8方昕,陈玲玲,曹海燕.基于改进的随机森林算法股票收益率预测研究[J].杭州电子科技大学学报（自然科学版）,2020,40(1):35-40. 被引量：5
9王琛淇,陈晓东,曹瀚文,赵琰,马艳娟.短期光伏发电系统功率预测[J].辽宁工程技术大学学报（自然科学版）,2023(1):99-105. 被引量：7
10付华,韩冰,崔鹏,孟祥云.能量特性与随机森林的孤岛辨识模型[J].辽宁工程技术大学学报（自然科学版）,2021,40(1):41-47. 被引量：2

同被引文献32

1陈振宇,刘金波,李晨,季晓慧,李大鹏,黄运豪,狄方春,高兴宇,徐立中.基于LSTM与XGBoost组合模型的超短期电力负荷预测[J].电网技术,2020,44(2):614-620. 被引量：263
2陈元千.对翁氏预测模型的推导及应用[J].天然气工业,1996,16(2):22-26. 被引量：108
3任子晖,王坚.一种动态改变惯性权重的自适应粒子群算法[J].计算机科学,2009,36(2):227-229. 被引量：52
4业巧林,赵春霞,陈小波.基于正则化技术的对支持向量机特征选择算法[J].计算机研究与发展,2011,48(6):1029-1037. 被引量：12
5任伟建,武璇.一种动态改变学习因子的简化粒子群算法[J].自动化技术与应用,2012,31(10):9-11. 被引量：24
6周于皓,刘慧卿,祁鹏,赵萌,陈宇.基于循环神经网络的缝洞型油藏油井产量预测[J].计算物理,2018,35(6):668-674. 被引量：22
7李俊键,周代余,赵冀,丁帅伟,姜汉桥,张曙振,梁彬,旷曦域,王倩.基于粒子群优化支持向量机的注水井吸水剖面预测[J].中国海上油气,2016,28(5):66-70. 被引量：4
8刘秀婷,杨军,程仲平,王胜义.油田产量预测的新方法及其应用[J].石油勘探与开发,2002,29(4):74-76. 被引量：26
9薛茹.数据挖掘技术在油田中的应用[J].微型电脑应用,2018,34(5):26-28. 被引量：11
10赵辉,张兴凯,王春友,何宏,许凌飞,张贵玲,王硕亮.基于连通性方法的油藏分层精细注水优化[J].长江大学学报（自然科学版）,2018,15(23):42-51. 被引量：6

引证文献2

1赵洪涛,李金泽,杨毅,赵洪绪,房鑫磊,于伟强.基于长短期记忆神经网络的油井产液量和含水率预测方法[J].石油地质与工程,2022,36(5):75-80. 被引量：7
2赵洪绪,柴世超,毛敏,于伟强,李金泽,李庆庆,刘均荣.基于长短期记忆神经网络模型的分层注水优化方法[J].中国海上油气,2023,35(4):127-137. 被引量：9

二级引证文献16

1侯佐新,袁树文.采用神经网络建模对海下有机材料加固的油井产量预测研究[J].粘接,2023,50(3):178-182. 被引量：4
2刘剑平,杜佳欣,罗子云,尚麟.基于LSTM的小洋山北作业区投产初期洋山深水港主航道交通流量预测与分析[J].航海,2024(1):19-23. 被引量：1
3赵靖康,申春生,李媛婷,陈铭阳,肖波,谢京平.渤海P油田强水淹层水平井含水规律数值模拟[J].石油地质与工程,2024,38(1):79-83.
4周军,史叶,梁光川,彭操.分时电价下油田分压周期注水优化研究[J].石油钻探技术,2024,52(3):106-111. 被引量：4
5陈华兴,周玉刚,代磊阳,潘定成,冯阳,高永华,罗少锋.渤海海上疏松砂岩油田大通径分层注水一体化工艺管柱设计[J].中国海上油气,2024,36(3):167-173. 被引量：6
6张国辉,李伟勤.基于随机共振的井下无线电磁2FSK信号解调[J].石油机械,2024,52(9):10-16. 被引量：1
7刘义刚,刘长龙,张磊,张乐,薛德栋,徐元德.海上油田压力波控制高效测调注水技术[J].中国海上油气,2024,36(5):137-145. 被引量：2
8陈宝玉,董雅婷,冯诗淼,秦旗,杨其浩.D油田二类油层聚驱上返时机计算方法[J].深圳大学学报（理工版）,2024,41(6):653-658.
9张先敏,李闪闪,冯其红,刘晨,刘向斌.高含水油藏注水层段划分及注采液量调配协同优化设计方法[J].油气地质与采收率,2025,32(2):142-151. 被引量：1
10唐力辉,吴浩,高亚军,王振鹏,谢晓庆,王守磊.多层非均质水驱油藏分层配注方法研究[J].石油化工应用,2025,44(3):51-55.

1沈豫,项康利,黄夏楠,洪兰秀,蔡菁,许梓明.基于XGBoost算法的短期负荷预测研究[J].水利水电技术,2019,50(S1):256-261. 被引量：19
2杨晨,梁意文,谭成予,周雯.结合XGBoost的树突状细胞改进算法[J].计算机工程,2019,45(9):194-197. 被引量：6
3陈凯,南东亮,孙永辉,夏响.基于XGBoost算法的电网二次设备缺陷分类研究[J].南京信息工程大学学报（自然科学版）,2019,11(4):483-489. 被引量：10
4李孔渤,王春东.基于集成学习的安卓恶意程序检测技术[J].天津理工大学学报,2019,35(4):43-46. 被引量：2
5金朝.基于k-means聚类的Bagging算法研究[J].光学与光电技术,2019,0(4):27-32. 被引量：5
6覃民主.提高不同题型的物理作业的有效性[J].试题与研究（教学论坛）,2019(19):59-59.
7任雪,郭艳.基于主动集成学习的中医智能诊断模型及构建方法[J].中国循证医学杂志,2019,19(9):1118-1123. 被引量：11
8陈淑利.循道而行功成事遂——揭秘高考政治《生活与哲学》命题规律和应对策略[J].教学考试,2019,0(25):11-13.
9孙玥,杨国为,何鎏一.基于店铺特征和用户需求的广告转化率预测[J].青岛大学学报（工程技术版）,2019,34(3):16-20.
10冯代高,张友俊.改进随机子空间LDA结合多补丁集成学习的鲁棒人脸识别算法[J].计算机应用研究,2019,36(8):2556-2560. 被引量：5

信息技术

2019年第9期

浏览历史

内容加载中请稍等...

基于Mean Decrease Impurity改进XGBoost算法被引量：2

参考文献3

二级参考文献16

共引文献401

同被引文献32

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Mean Decrease Impurity改进XGBoost算法 被引量：2

参考文献3

二级参考文献16

共引文献401

同被引文献32

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Mean Decrease Impurity改进XGBoost算法被引量：2