基于训练集划分的随机森林算法被引量：2

A Random Forest Algorithm Based on Training set Splitting

下载PDF

导出

摘要本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。 In this paper, a random forest algorithm based on the training set splitting is proposed. Firstly, the majority class is divided into multiple disjointed sunsets. Then combine each subset with the rare class to train a decision tree. Finally, construct a random forest based on the average weighted strategy, and obtain the final classification rules. The proposed method avoids the loss of the original sample information, and maizes the training set balanced for each decision tree. Experiments on the artificial imbalanced data show that this method is very effective.

作者吴华芹

机构地区河南化工职业学院

出处《科技通报》北大核心 2013年第10期124-126,共3页 Bulletin of Science and Technology

关键词随机森林不相交子集决策树平均加权 random forest disjointed sunsets a decision tree average weighted

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Japkow Iczn, Stephen S. The class imbalance problem: asystematic study [J]. Intelligent Data Analysis Journal,2002, 6 (5): 429-450.
2Gustavo E A, Batista P A, Ronaldo C, et al. A study ofthe behavior of several methods for balancing machinelearning training data [J]. SIGKDD Explorations, 2004,6(1): 20- 29.
3Domngos P. METACOST: a general method for makingclassifiers cost sensitive [C]//. Proceedings of the 5th In-ternational Conference on Knowledge Discovery and DataMining. San Diego, CA:ACM Press, 1999: 155-164.
4王文震.基于流形学习的视频中文文本检测算法[J].科技通报,2012,28(10):46-48. 被引量：11
5Hawla N V, Bowyer K W, Hall L 0, et al. SMOTE: syn-thetic minority over-sampling technique[J]. Journal of Ar-tificial Intelligence Research, 2002, 16: 321-357.
6Yang J,Yu X,Xie Z Q.A novel virtual sample generationmethod based on Gaussian distribution [JJ.Knowledge -Based Systems,2011,24 (6):740-748.
7Kohavi R. A study of cross -validation and bootstrap foraccuracy estimation and model selection[C]//. In: WermterS,Riloff E, Scheler G, eds. Proc. 14th Joint Int. Conf. Ar-tificial Intelligence. San Mateo, CA: Morgan Kaufmann,1995. 1137-1145.

二级参考文献5

1谢毓湘,栾悉道,吴玲达,老松杨.新闻视频帧中的字幕探测[J].计算机工程,2004,30(20):167-168. 被引量：15
2Lienhart R. , Effelsberg W. , Automatic text segmentation and text recognition for video indexing [J]. Multimedia System, 2000,8(1):69-81.
3宋欣,叶世伟.基于局部线性逼近的流形学习算法[J].计算机仿真,2008,25(7):86-89. 被引量：5
4梁学战,张翔,朱明.基于边缘检测和线条特征的新闻字幕探测[J].计算机仿真,2009,26(3):223-226. 被引量：3
5庄越挺,刘骏伟,吴飞,潘云鹤,张引.基于支持向量机的视频字幕自动定位与提取[J].计算机辅助设计与图形学学报,2002,14(8):750-753. 被引量：38

共引文献10

1王春生.广播发射射频系统中的信号冲突消除方法研究[J].科技通报,2013,29(7):194-197. 被引量：10
2孙永科,周开来.核PCA神经网络集成算法在文本识别中的应用[J].科技通报,2013,29(8):124-126. 被引量：3
3马战宝,汪晓华.基于改进人工鱼群算法的物流服务定价决策模型研究[J].物流技术,2014,33(3):300-302.
4周跃忠.信号冲突对广播发射射频系统的影响及消除办法[J].科技创新与应用,2014,4(31):86-86. 被引量：9
5薛青林.解析消除广播发射系统中的信号冲突技术方法[J].山东工业技术,2015(6):175-175. 被引量：1
6梁雯.信号冲突对广播发射射频系统的影响与处理对策思考[J].通讯世界（下半月）,2015,0(4):16-17. 被引量：3
7王书砚.消除广播发射系统中的信号冲突技术方法探讨[J].西部广播电视,2015,36(12):229-229.
8王雪娇,张超敏.基于CNN和LSTM的自然场景文本检测应用[J].仪表技术,2020(9):17-23. 被引量：2
9朱志坚.基于Laplace变换的视频文本检测[J].广播与电视技术,2015(5):71-74.
10王雅琴.广播发射射频系统中的信号冲突消除方法分析[J].科技传播,2014,6(18):18-18. 被引量：9

同被引文献36

1哈凯,丁庆龙,门明新,许皞.山地丘陵区土地利用分布及其与地形因子关系——以河北省怀来县为例[J].地理研究,2015,34(5):909-921. 被引量：101
2姜广辉,张凤荣,颜国强,宋伟.科学发展观指导下的农村居民点布局调整和整理[J].国土资源科技管理,2005,22(4):60-65. 被引量：63
3易辉,宋晓峰,姜斌,等.基于AdaBoost方法的支持向量机训练样本选择[J].仪器仪表学报,2009,30(10):72-74.
4Aniruddha Ghosh, Richa Sharma, Joshi P K. Random Forest Classi- fication of Urban Landscape Using Landsat Archive and Ancillary Data: Combining Seasonal Maps with Decision Level Fusion [ J ]. Applied Geography,2014,48(3) :31-41.
5Evanthia E Tripohti, Dimitrios I Fotiadis, George Manis. Modifica- tions of the Construction and Voting Mechanisms of the Random Forests Algorithm[ J ]. Data and Knowledge Engineering, 2013,87 (9) :41-65.
6陈振杰,李满春,刘永学.基于GIS的桐庐县农村居民点空间格局研究[J].长江流域资源与环境,2008,17(2):180-184. 被引量：106
7代冬梅,吴国平,司惠超.基于DEM的浏阳市土地利用空间格局分析[J].安徽农业科学,2009,37(3):1231-1234. 被引量：15
8王丽婷,丁晓青,方驰.基于随机森林的人脸关键点精确定位方法[J].清华大学学报（自然科学版）,2009(4):543-546. 被引量：23
9黄海洋,杨庆媛,王成.基于DEM的土地利用类型与地形因子关系研究——以重庆市酉阳县麻旺镇为例[J].西南大学学报（自然科学版）,2009,31(4):159-164. 被引量：28
10吴学伟,龚文峰,袁力.基于DEM黑龙江省土地利用定量分析[J].东北林业大学学报,2009,37(9):74-75. 被引量：7

引证文献2

1陶栋琦,薄翠梅,易辉.基于随机森林的变压器故障检测方法的研究[J].电子器件,2015,38(4):840-844. 被引量：10
2钟克强,李爱迪,武伟,刘洪斌.西南山区地形因子对农村零散居民点分布的影响[J].湖南农业科学,2017(2):107-113. 被引量：1

二级引证文献11

1蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：272
2宋玉琴,王冰,李超,赵洋.基于优化随机森林算法的高压断路器故障诊断[J].电子测量技术,2018,41(21):95-98. 被引量：11
3徐州,林孝松,余情,崔梦瑞,彭孟竹.巫山县农村居民点分布与地形因子关系[J].水土保持研究,2018,25(4):338-343. 被引量：10
4田录林,柴俊岭,吴瞻,候彤辉,张欣,吕恒.基于关联气体和遗传算法优化支持向量机的电力变压器故障检测[J].电气应用,2018,37(19):40-45. 被引量：7
5郝姜伟,鲁斌.基于随机森林算法的飞机发动机故障诊断方法的研究[J].电脑知识与技术（过刊）,2016,22(8X):158-160. 被引量：4
6朱永利,刘少波,王方.基于Spark的三比值和随机森林结合的并行变压器故障诊断[J].电脑知识与技术,2017,13(9X):221-224.
7李树卿,陈鼎,仇群辉,史建立,徐伟明,宋晓,陈兆权.基于随机森林的电能质量综合评估[J].现代电力,2019,36(2):81-87. 被引量：15
8马砚堃,郭朝有,许喆.基于随机森林的船用柴油机故障诊断方法研究[J].舰船电子工程,2020,40(11):128-131. 被引量：6
9黄瑾,刘洋,钟麦英,杨瑞,李文博,刘成瑞.利用随机森林算法的卫星控制系统故障诊断[J].宇航学报,2021,42(4):513-521. 被引量：22
10罗龙,李岩,石岩,韩婷,杨文翠,井晓君.基于雾计算和随机森林算法的变压器温度监测及故障预测方法研究[J].变压器,2023,60(5):15-22. 被引量：12

1邬斌亮,熊琭.融合K-均值聚类、FNN、SVM的网络入侵检测模型[J].计算机应用与软件,2014,31(5):312-315. 被引量：4
2赵碧海,熊慧军,倪问尹,刘志兵,胡赛.一种改进的基于加权网络的蛋白质复合物识别算法[J].计算机科学,2014,41(6):231-234. 被引量：2
3宋云华,柏文阳,周琦.基于COG-OS框架利用SMART预测云计算平台的硬盘故障[J].计算机应用,2014,34(1):31-35. 被引量：4
4陶华伟,柳晶晶,梁瑞宇,查诚,张昕然,赵力.面向语音情感识别的Gabor分块局部二值模式特征[J].信号处理,2016,32(5):505-511. 被引量：5
5张彬,许廷发,倪国强.基于曲波变换的红外/可见光图像融合[J].计算机仿真,2008,25(11):226-228. 被引量：1
6刘湘崇,梁彦,潘泉,程咏梅,张洪才.导弹控制系统稳定性研究[J].计算机科学,2006,33(2):212-215.
7陆志峰.模糊逻辑的研究[J].计算机工程与应用,1999,35(8):27-28. 被引量：4
8焦玉民,王强,苏凡囤,徐婷,苏京.面向过程的虚拟训练动态评价方法研究[J].兵工学报,2012,33(7):875-880. 被引量：3
9冯德宁,王琰.一种自适应的小波方向对比度图像融合算法[J].沈阳理工大学学报,2010,29(6):28-30. 被引量：1
10郭丽娟,倪子伟,江弋,邹权.集成降采样不平衡数据分类方法研究[J].计算机科学与探索,2013,7(7):630-638. 被引量：4

科技通报

2013年第10期

浏览历史

内容加载中请稍等...

基于训练集划分的随机森林算法被引量：2

参考文献7

二级参考文献5

共引文献10

同被引文献36

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于训练集划分的随机森林算法 被引量：2

参考文献7

二级参考文献5

共引文献10

同被引文献36

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于训练集划分的随机森林算法被引量：2