期刊文献+
共找到336篇文章
< 1 2 17 >
每页显示 20 50 100
Prediction of sandstone porosity in coal seam roof based on variable mode decomposition and random forest method
1
作者 Huang Ya-ping Qi Xue-mei +3 位作者 Cheng Yan Zhou Ling-ling Yan Jia-hao Huang Fan-rui 《Applied Geophysics》 2025年第1期197-208,235,236,共14页
Evaluation of water richness in sandstone is an important research topic in the prevention and control of mine water disasters,and the water richness in sandstone is closely related to its porosity.The refl ection sei... Evaluation of water richness in sandstone is an important research topic in the prevention and control of mine water disasters,and the water richness in sandstone is closely related to its porosity.The refl ection seismic exploration data have high-density spatial sampling information,which provides an important data basis for the prediction of sandstone porosity in coal seam roofs by using refl ection seismic data.First,the basic principles of the variational mode decomposition(VMD)method and the random forest method are introduced.Then,the geological model of coal seam roof sandstone is constructed,seismic forward modeling is conducted,and random noise is added.The decomposition eff ects of the empirical mode decomposition(EMD)method and VMD method on noisy signals are compared and analyzed.The test results show that the firstorder intrinsic mode functions(IMF1)and IMF2 decomposed by the VMD method contain the main eff ective components of seismic signals.A prediction process of sandstone porosity in coal seam roofs based on the combination of VMD and random forest method is proposed.The feasibility and eff ectiveness of the method are verified by trial calculation in the porosity prediction of model data.Taking the actual coalfield refl ection seismic data as an example,the sandstone porosity of the 8 coal seam roof is predicted.The application results show the potential application value of the new porosity prediction method proposed in this study.This method has important theoretical guiding significance for evaluating water richness in coal seam roof sandstone and the prevention and control of mine water disasters. 展开更多
关键词 VMD random forest method coal seams SANDSTONE POROSITY
在线阅读 下载PDF
Modeling habitat suitability of range plant species using random forest method in arid mountainous rangelands 被引量:8
2
作者 Hossein PIRI SAHRAGARD Majid AJORLO Peyman KARAMI 《Journal of Mountain Science》 SCIE CSCD 2018年第10期2159-2171,共13页
Mountainous rangelands play a pivotal role in providing forage resources for livestock, particularly in summer, and maintaining ecological balance. This study aimed to identify environmental variables affecting range ... Mountainous rangelands play a pivotal role in providing forage resources for livestock, particularly in summer, and maintaining ecological balance. This study aimed to identify environmental variables affecting range plant species distribution, ecological analysis of the relationship between these variables and the distribution of plants, and to model and map the plant habitats suitability by the Random Forest Method(RFM) in rangelands of the Taftan Mountain, Sistan and Baluchestan Province, southeastern Iran. In order to determine the environmental variables and estimate the potential distribution of plant species, the presence points of plants were recorded by using systematic random sampling method(90 points of presence) and soils were sampled in 5 habitats by random method in 0–30 and 30–60 cm depths. The layers of environmental variables were prepared using the Kriging interpolation method and Geographic Information System facilities. The distribution of the plant habitats was finally modelled and mapped by the RFM. Continuous maps of the habitat suitability were converted to binary maps using Youden Index(?) in order to evaluate the accuracy of the RFM in estimation of the distribution of species potentialhabitat. Based on the values of the area under curve(AUC) statistics, accuracy of predictive models of all habitats was in good level. Investigating the agreement between the predicted map, generated by each model, and actual maps, generated from fieldmeasured data, of the plant habitats, was at a high level for all habitats, except for Amygdalus scoparia habitat. This study concluded that the RFM is a robust model to analyze the relationships between the distribution of plant species and environmental variables as well as to prepare potential distribution maps of plant habitats that are of higher priority for conservation on the local scale in arid mountainous rangelands. 展开更多
关键词 Environmental (predictor) variables Habitat mapping Habitat distribution random forest method Tartan Mountain
原文传递
A Data-Driven Car-Following Model Based on the Random Forest
3
作者 Huili Shi Tingli Wang +3 位作者 Fusheng Zhong Hanqing Wang Junyan Han Xiaoyuan Wang 《World Journal of Engineering and Technology》 2021年第3期503-515,共13页
The car-following models are the research basis of traffic flow theory and microscopic traffic simulation. Among the previous work, the theory-driven models are dominant, while the data-driven ones are relatively rare... The car-following models are the research basis of traffic flow theory and microscopic traffic simulation. Among the previous work, the theory-driven models are dominant, while the data-driven ones are relatively rare. In recent years, the related technologies of Intelligent Transportation System (ITS) re</span><span style="font-family:Verdana;">- </span><span style="font-family:Verdana;">presented by the Vehicles to Everything (V2X) technology have been developing rapidly. Utilizing the related technologies of ITS, the large-scale vehicle microscopic trajectory data with high quality can be acquired, which provides the research foundation for modeling the car-following behavior based on the data-driven methods. According to this point, a data-driven car-following model based on the Random Forest (RF) method was constructed in this work, and the Next Generation Simulation (NGSIM) dataset was used to calibrate and train the constructed model. The Artificial Neural Network (ANN) model, GM model, and Full Velocity Difference (FVD) model are em</span><span style="font-family:Verdana;">- </span><span style="font-family:Verdana;">ployed to comparatively verify the proposed model. The research results suggest that the model proposed in this work can accurately describe the car-</span><span style="font-family:Verdana;"> </span><span style="font-family:Verdana;">following behavior with better performance under multiple performance indicators. 展开更多
关键词 Traffic Flow Car-Following Model Data-Driven method random forest Intelligent Transportation System
在线阅读 下载PDF
Estimation of wear performance of AZ91 alloy under dry sliding conditions using machine learning methods 被引量:5
4
作者 Fatih AYDIN Rafet DURGUT 《Transactions of Nonferrous Metals Society of China》 SCIE EI CAS CSCD 2021年第1期125-137,共13页
The wear behavior of AZ91 alloy was investigated by considering different parameters,such as load(10−50 N),sliding speed(160−220 mm/s)and sliding distance(250−1000 m).It was found that wear volume loss increased as lo... The wear behavior of AZ91 alloy was investigated by considering different parameters,such as load(10−50 N),sliding speed(160−220 mm/s)and sliding distance(250−1000 m).It was found that wear volume loss increased as load increased for all sliding distances and some sliding speeds.For sliding speed of 220 mm/s and sliding distance of 1000 m,the wear volume losses under loads of 10,20,30,40 and 50 N were calculated to be 15.0,19.0,24.3,33.9 and 37.4 mm3,respectively.Worn surfaces show that abrasion and oxidation were present at a load of 10 N,which changes into delamination at a load of 50 N.ANOVA results show that the contributions of load,sliding distance and sliding speed were 12.99%,83.04%and 3.97%,respectively.The artificial neural networks(ANN),support vector regressor(SVR)and random forest(RF)methods were applied for the prediction of wear volume loss of AZ91 alloy.The correlation coefficient(R2)values of SVR,RF and ANN for the test were 0.9245,0.9800 and 0.9845,respectively.Thus,the ANN model has promising results for the prediction of wear performance of AZ91 alloy. 展开更多
关键词 AZ91 alloy wear performance artificial neural networks support vector regressor random forest method
在线阅读 下载PDF
随机森林方法在酒泉地区总云量预报中的应用
5
作者 宋文君 李旭 魏栋 《沙漠与绿洲气象》 2026年第1期156-164,共9页
使用2021年GRAPES(Global/Regional Assimilation and Prediction System)模式数据和FY-4A卫星数据分析酒泉地区云量时空特征,采用时间自适应方法、动态变参数方法以及随机森林方法建立云量预测模型。结果表明:酒泉及周边地区总云量日... 使用2021年GRAPES(Global/Regional Assimilation and Prediction System)模式数据和FY-4A卫星数据分析酒泉地区云量时空特征,采用时间自适应方法、动态变参数方法以及随机森林方法建立云量预测模型。结果表明:酒泉及周边地区总云量日变化幅度不大,季节变化特征明显,春、夏季多,秋、冬季较少,北部云量较少、南部云量多。不同格点的云量受到不同因素的影响,使用动态变参数方法,即根据预报因子和云量相关性在不同格点上动态选取预报因子构建随机森林模型,云量预测准确率为0.55~0.80。采用时间自适应方法使随机森林模型能够更新换代,云量预测准确性在0.55左右,数据量不足导致随机森林模型预测云量的准确率下降。 展开更多
关键词 云量 机器学习 随机森林 时间自适应法
在线阅读 下载PDF
基于随机森林算法的计量现场风险信息提取方法
6
作者 李秋实 施沩 +2 位作者 杭银丽 陆建锋 徐晓春 《信息技术》 2026年第2期174-178,186,共6页
计量现场数据可能来自不同的系统和平台,数据格式各不相同,增加了提取风险信息的复杂度。为此,提出基于随机森林算法的计量现场风险信息提取方法。利用模糊分析和层次分析对电力计量风险信息进行量化处理。构建随机森林风险信息提取模型... 计量现场数据可能来自不同的系统和平台,数据格式各不相同,增加了提取风险信息的复杂度。为此,提出基于随机森林算法的计量现场风险信息提取方法。利用模糊分析和层次分析对电力计量风险信息进行量化处理。构建随机森林风险信息提取模型,设计随机森林算法流程。建立基于改进随机森林算法的目标函数,完成计量现场风险信息的提取。实验结果表明:当随机森林树的数量持续增加时,对应的OOB误差会相应降低,说明研究方法具有较好的稳定性且AUC更大,说明该方法的计量现场风险信息提取精度更高。 展开更多
关键词 随机森林算法 计量现场 风险信息 提取方法 模糊分析
在线阅读 下载PDF
面向圈养模式的智能精准投喂系统研究
7
作者 黄凰 成佳卿 +4 位作者 简凡皓 陈焯然 黄磊 李潇 刘子乾 《农业机械学报》 北大核心 2026年第2期109-120,共12页
随着水产养殖业的快速发展,过度投喂导致饵料浪费与水质污染及投喂不足所引发的鱼群生长营养不良等问题愈发凸显,针对圈养模式,提出了一种基于视觉与多种传感器的圈养模式智能精准投喂系统,对RGB图像、深度图像、压强传感器和加速度传... 随着水产养殖业的快速发展,过度投喂导致饵料浪费与水质污染及投喂不足所引发的鱼群生长营养不良等问题愈发凸显,针对圈养模式,提出了一种基于视觉与多种传感器的圈养模式智能精准投喂系统,对RGB图像、深度图像、压强传感器和加速度传感器等多源数据融合实时量化成年鱼摄食强度并实现精准投喂控制。以改进的YOLO v8n-seg模型为核心进行RGB图像分割,将水面波动状态分为强、弱和无3种状态;在水面状态分割区域内采用HSV颜色检测方法对水面鱼饵进行面积检测;通过帧差法分析深度图像连续两帧的深度差异,将水面波动量化为强、弱、无3个等级;利用压强传感器和加速度传感器采集的数据提取关键特征,通过随机森林模型对鱼群摄食状态进行分类弥补单一视觉特征的局限性。通过加权融合策略将5类数据决策模块的结果进行融合并建立实时投喂决策模型。多次实地试验结果表明,投饵系统摄食强度评估精度达到95.45%,投喂误差率仅为1.72%,能够准确识别鱼群摄食强度,有效减少饵料浪费和水体污染,在实际圈养模式环境中具有较好的实用性和实时性。 展开更多
关键词 智能精准投喂 摄食强度 多源数据融合 YOLO v8n-seg 帧差法 随机森林
在线阅读 下载PDF
基于随机森林与Q-learning融合的多元电力数据存储优化决策方法
8
作者 叶学顺 贾东梨 +2 位作者 周俊 唐英 贾梓豪 《科学技术与工程》 北大核心 2026年第3期1065-1074,共10页
大规模和多样的电力数据存储面临效率低和内存容量不足的瓶颈问题。数据索引和数据压缩等传统数据存储优化方法各有优劣势,如何有效应用于电力数据存储是目前研究的难点。为了解决这个问题,提出了一种融合随机森林和Q-learning的多元电... 大规模和多样的电力数据存储面临效率低和内存容量不足的瓶颈问题。数据索引和数据压缩等传统数据存储优化方法各有优劣势,如何有效应用于电力数据存储是目前研究的难点。为了解决这个问题,提出了一种融合随机森林和Q-learning的多元电力数据存储优化决策方法。该方法中的关键技术包括:首先提出了基于改进随机森林算法的存储优化策略决策模型,引入信息增益方法,综合评价数据存储时对数据库的数据访问频率、查询时间、存储速度以及数据冗余率等因素影响,做出数据直接存储、数据索引存储和数据压缩存储的存储优化方法策略决策;其次提出了基于改进Q-learning算法的数据存储算法决策模型,引入多尺度学习机制、优先经验放回机制和正负向奖励机制,决策数据索引存储时适用的索引算法以及数据压缩存储时适用的数据压缩算法。本方法有效融合了数据索引与数据压缩的技术优势,大幅提升数据存储效率并节约存储空间,为大规模多元电力数据管理提供新的解决方案。 展开更多
关键词 随机森林算法 Q-learning算法 数据存储优化方法 数据索引算法 数据压缩算法
在线阅读 下载PDF
“一带一路”倡议下中国对共建国家出口贸易效率的影响研究——基于多期双重差分模型的实证分析
9
作者 卡哈尔·阿不拉 陈骁童 《中国商论》 2026年第2期1-7,共7页
本文选取2003—2023年中国与60个“一带一路”沿线及非沿线样本国家的出口贸易面板数据,构建随机前沿引力模型测算出口贸易效率,并运用双重差分法系统考察“一带一路”倡议对中国出口贸易效率的影响及作用机制。研究发现:(1)“一带一路... 本文选取2003—2023年中国与60个“一带一路”沿线及非沿线样本国家的出口贸易面板数据,构建随机前沿引力模型测算出口贸易效率,并运用双重差分法系统考察“一带一路”倡议对中国出口贸易效率的影响及作用机制。研究发现:(1)“一带一路”倡议的实施,显著提升了中国对沿线国家的出口贸易效率水平,特别是对高收入、中高收入国家及高经济自由度国家的促进作用更为显著。(2)机制检验揭示出,倡议通过“五通”有效降低了贸易成本,其中设施联通与贸易畅通的边际效应最为突出。(3)基于随机森林模型的变量重要性分析显示,沿线国家的物流绩效、政治稳定性及人均GDP是影响中国出口贸易效率的关键因素。基于此,本文提出相关政策建议,以供参考。 展开更多
关键词 “一带一路”倡议 贸易效率 出口贸易 双重差分法 随机森林模型
在线阅读 下载PDF
基于缺值填补和随机森林的窃电数据检测
10
作者 汤熠 李鹏 +2 位作者 李伟华 周宇 冯艳丽 《微型电脑应用》 2026年第1期163-166,共4页
为了实现窃电数据的准确检测,解决用户用电量数据集存在的数据缺失、样本不平衡等问题,提出一种基于缺值填补和随机森林的窃电数据检测方法。采用均值插补法对用户用电量数据集中的缺值进行填补,依据拉依达准则对异常值进行修正;使用合... 为了实现窃电数据的准确检测,解决用户用电量数据集存在的数据缺失、样本不平衡等问题,提出一种基于缺值填补和随机森林的窃电数据检测方法。采用均值插补法对用户用电量数据集中的缺值进行填补,依据拉依达准则对异常值进行修正;使用合成少数类过采样技术(SMOTE)对数据集中的窃电用户样本进行过采样,使样本数量达到平衡;采用随机森林对样本数量平衡的数据集进行窃电检测。实验结果表明,所提出的方法对用户用电量数据集进行窃电检测的准确率达到95.33%,高于比较方法,所提出的方法可有效检测窃电数据。 展开更多
关键词 窃电检测 均值插补法 拉依达准则 SMOTE 随机森林
在线阅读 下载PDF
城市洪涝风险的组合赋重方法研究与应用:以淮安市为例 被引量:3
11
作者 王金虎 张东晖 王钰尧 《水利水电技术(中英文)》 北大核心 2025年第8期91-104,共14页
【目的】城市洪涝灾害对人民的生命和财产安全造成了巨大的损失,客观、准确的对该灾害进行定量风险评估,对提高城市韧性发挥至关重要的作用。【方法】以淮安市为研究对象,从IPCC采纳的城市洪涝风险评估框架“危险性(Hazard)-暴露性(Expo... 【目的】城市洪涝灾害对人民的生命和财产安全造成了巨大的损失,客观、准确的对该灾害进行定量风险评估,对提高城市韧性发挥至关重要的作用。【方法】以淮安市为研究对象,从IPCC采纳的城市洪涝风险评估框架“危险性(Hazard)-暴露性(Exposure)-脆弱性(Vulnerability)”即“H-E-V”的框架出发,建立城市洪涝灾害风险的指标体系,基于随机森林算法计算洪涝因子对洪涝灾害的相对重要性,并以此作为客观权重,融合层次分析法确定各洪涝因子的主观权重。最后利用Kendall系数进行一致性检验并计算最优组合权重。使用优化后的新型指标赋权对淮安市的洪涝灾害风险进行精细化评估。【结果】结果表明:(1)利用Kendall法进行验证,协调系数W=0.1456,在0.05显著性水平下,客、主观权重存在一定的一致性。(2)暴露性和脆弱性的影响显著高于危险性,尤其在主要河流水系和高人口密度区域,两者贡献更加突出。(3)淮安市中高风险区与洪泽湖、高邮湖、淮河及三河等主要河流水系分布关系密切,受人口密度、地均GDP等因素的影响,清江浦区、涟水县西北、东部地区和淮安区的东南部也位于中高风险区。【结论】利用网络爬取近年的极端灾害点进行验证,88%的极端灾害点位于较高及高等级规划的组合风险等级图中。研究成果对未来城市应对洪涝灾害起到借鉴作用。 展开更多
关键词 城市洪涝灾害 随机森林法 层次分析法 风险评估 淮安市 韧性城市 极端天气 降雨
在线阅读 下载PDF
天然裂缝发育特征及智能化识别方法——以四川盆地川西坳陷上三叠统须家河组为例 被引量:2
12
作者 李伟 王民 +6 位作者 肖佃师 金惠 邵好明 崔俊峰 贾益东 张泽元 李明 《油气藏评价与开发》 北大核心 2025年第3期443-454,共12页
四川盆地川西坳陷上三叠统须家河组是四川盆地致密砂岩气(以下简称致密气)增储上产的重要领域。在实际生产中,高产稳产井与裂缝密集发育高度相关,裂缝为气体的运移和保存提供了路径和场所,裂缝发育与否成为制约优质储层形成的关键因素... 四川盆地川西坳陷上三叠统须家河组是四川盆地致密砂岩气(以下简称致密气)增储上产的重要领域。在实际生产中,高产稳产井与裂缝密集发育高度相关,裂缝为气体的运移和保存提供了路径和场所,裂缝发育与否成为制约优质储层形成的关键因素。为了评价须家河组气藏富集“甜点”区,依据岩心观察、测井资料及智能化算法,明确裂缝发育特征并建立有效的裂缝识别方法。研究认为:研究区的构造裂缝、成岩裂缝与异常高压裂缝均有发育。其中,构造裂缝主要分为3期,第1期NW—SE(北西—南东)向主要发育低角度裂缝,偶尔可见高角度裂缝;第2期NNE—SSW(北北东—南南西)向主要发育高角度裂缝;第3期E—W(东—西)向主要发育高角度裂缝。致密气储层裂缝层段具有低密度、高补偿中子、高声波时差、冲洗带电阻率和地层电阻率呈现正幅度差。对带有裂缝和非裂缝标签的常规测井数据进行归一化处理,应用机器学习算法进行裂缝智能化预测,K近邻算法、支持向量机、极端梯度提升树算法和随机森林算法的F_(1)分数分别为0.65、0.83、0.88、0.91,发现随机森林算法具有较强的鲁棒性和抗干扰能力,预测精确度和效率均高于其他3种算法。同时,为了兼顾运算效率与准确性,选择基因遗传算法作为优化算法进行超参数调优,优于网格搜索、贝叶斯优化及粒子群优化算法。使用沙普利可加性特征解释方法(SHapley Additive Explanations,简称SHAP)计算不同影响因素对预测的贡献值,发现声波时差、补偿中子和补偿密度为主要影响预测效果的测井曲线。裂缝密度呈现出明显的空间分布规律,即从四川盆地西南部至四川盆地西北部,裂缝密度依次降低。研究结果可为四川盆地西部地区致密气储层裂缝“甜点”区预测提供一套切实可行的智能化预测模型,为致密气增储上产奠定基础。 展开更多
关键词 川西坳陷 须家河组 裂缝发育特征 智能化预测方法 随机森林
在线阅读 下载PDF
Exploration of the Impact Mechanism of Government Credibility Based on Variable Screening Method
13
作者 Jiajun Wu Yuxiang Ma +2 位作者 Helin Zou Chun Zhang Ran Yan 《Journal of Data Analysis and Information Processing》 2024年第3期479-494,共16页
Government credibility is an important asset of contemporary national governance, an important criterion for evaluating government legitimacy, and a key factor in measuring the effectiveness of government governance. ... Government credibility is an important asset of contemporary national governance, an important criterion for evaluating government legitimacy, and a key factor in measuring the effectiveness of government governance. In recent years, researchers’ research on government credibility has mostly focused on exploring theories and mechanisms, with little empirical research on this topic. This article intends to apply variable selection models in the field of social statistics to the issue of government credibility, in order to achieve empirical research on government credibility and explore its core influencing factors from a statistical perspective. Specifically, this article intends to use four regression-analysis-based methods and three random-forest-based methods to study the influencing factors of government credibility in various provinces in China, and compare the performance of these seven variable selection methods in different dimensions. The research results show that there are certain differences in simplicity, accuracy, and variable importance ranking among different variable selection methods, which present different importance in the study of government credibility issues. This study provides a methodological reference for variable selection models in the field of social science research, and also offers a multidimensional comparative perspective for analyzing the influencing factors of government credibility. 展开更多
关键词 Government Credibility Variable Selection Models Social Statistics Regression Based Approach method Based on random forest
在线阅读 下载PDF
不同复合经营模式下杨树人工林蓄积量和林地总收益评价
14
作者 刘俊龙 吴中能 +5 位作者 苗婷婷 丁昌俊 苏晓华 唐雪海 闫彩霞 欧强新 《安徽林业科技》 2025年第5期3-8,39,共7页
本研究采用随机森林分析法(RF)对不同复合经营模式下的综合效益进行分析评价,选取杨树胸径(DBH)、林龄(Age)、林农复合经营模式(Mode)等指标,通过不同数学模型的模拟分析,构建了杨树不同复合经营模式收益评价方法,为提高沿江地区杨树大... 本研究采用随机森林分析法(RF)对不同复合经营模式下的综合效益进行分析评价,选取杨树胸径(DBH)、林龄(Age)、林农复合经营模式(Mode)等指标,通过不同数学模型的模拟分析,构建了杨树不同复合经营模式收益评价方法,为提高沿江地区杨树大径材培育综合效益提供参考。结果表明:杨树生长、材积和经济效益最优模式是杨树-小麦-大豆复合模式;基于RF算法,参数ntrees=1000,mtry=3时的杨树蓄积量模型为最优模型。采取RF算法对杨树蓄积量影响因素分析结果显示,胸径是对杨树蓄积量影响最大的因素,相对贡献率达77.40%;其次是林龄,相对贡献率为22.11%;林农复合经营模式对杨树蓄积量的影响最小,相对贡献率仅0.47%。本研究将胸径、林龄和林农复合经营模式作为随机森林模型自变量,具有较强的信息互补性与算法适配性,为算法提供充足的“非线性建模素材”,避免线性模型的拟合偏差,能从生长本质与数据特征双维度提升模型性能。 展开更多
关键词 杨树人工林 蓄积量 林农复合经营 随机森林分析法 预测模型
在线阅读 下载PDF
A Statistical Analysis of Textual E-Commerce Reviews Using Tree-Based Methods
15
作者 Jessica Kubrusly Ana Luiza Neves Thamires Louzada Marques 《Open Journal of Statistics》 2022年第3期357-372,共16页
With the increasing interest in e-commerce shopping, customer reviews have become one of the most important elements that determine customer satisfaction regarding products. This demonstrates the importance of working... With the increasing interest in e-commerce shopping, customer reviews have become one of the most important elements that determine customer satisfaction regarding products. This demonstrates the importance of working with Text Mining. This study is based on The Women’s Clothing E-Commerce Reviews database, which consists of reviews written by real customers. The aim of this paper is to conduct a Text Mining approach on a set of customer reviews. Each review was classified as either a positive or negative review by employing a classification method. Four tree-based methods were applied to solve the classification problem, namely Classification Tree, Random Forest, Gradient Boosting and XGBoost. The dataset was categorized into training and test sets. The results indicate that the Random Forest method displays an overfitting, XGBoost displays an overfitting if the number of trees is too high, Classification Tree is good at detecting negative reviews and bad at detecting positive reviews and the Gradient Boosting shows stable values and quality measures above 77% for the test dataset. A consensus between the applied methods is noted for important classification terms. 展开更多
关键词 Text Mining Supervised Classification Tree-Based methods Classification Trees random forest Gradient Boosting XGBoost
在线阅读 下载PDF
融合相似度与随机森林的数据挖掘算法改进 被引量:2
16
作者 孙宝刚 何国斌 《计算机仿真》 2025年第1期362-366,共5页
为了避免噪声数据干扰数据挖掘效果,提高数据挖掘的精度和质量,提出融合相似度与随机森林的数据挖掘算法。采用奇异值分解算法分解数据矩阵,获得一系列奇异值,同时引入中位数绝对偏差法在上述奇异值中选取较大的奇异值,利用这些奇异值... 为了避免噪声数据干扰数据挖掘效果,提高数据挖掘的精度和质量,提出融合相似度与随机森林的数据挖掘算法。采用奇异值分解算法分解数据矩阵,获得一系列奇异值,同时引入中位数绝对偏差法在上述奇异值中选取较大的奇异值,利用这些奇异值展开重构,得到去噪后的数据;计算去噪后数据的样本熵,将其作为数据特征,结合P值和特征相似度对数据特征展开筛选,剔除冗余特征,选取最优数据特征;建立极限随机森林,将数据特征输入极限随机森林中,实现数据挖掘。实验结果表明,所提算法在数据挖掘过程中具有较高的查全率、F-measure指标以及AUC值,表明所提算法具有良好的数据挖掘性能。 展开更多
关键词 数据相似度 奇异值分解算法 中位数绝对偏差法 极限随机森林 数据挖掘
在线阅读 下载PDF
基于分类递归特征消除法-随机森林优化算法的山洪灾害风险模拟技术
17
作者 张晓蕾 秦瑞华 +2 位作者 姚秋玲 董长奇 刘荣华 《水利水电技术(中英文)》 北大核心 2025年第11期71-82,共12页
【目的】山洪灾害给人类社会带来严重的经济损失和人员伤亡,因此科学识别、评估山洪灾害风险是亟待解决的科学问题。旨在通过耦合特征选择和随机森林算法提高山洪灾害风险预测的准确性,为灾害预警提供科学依据。【方法】选取17个与山洪... 【目的】山洪灾害给人类社会带来严重的经济损失和人员伤亡,因此科学识别、评估山洪灾害风险是亟待解决的科学问题。旨在通过耦合特征选择和随机森林算法提高山洪灾害风险预测的准确性,为灾害预警提供科学依据。【方法】选取17个与山洪灾害发生相关的特征因子,提出了耦合分类递归特征消除法(Classified Recursive Feature Elimination,RFE-class)和随机森林优化算法的特征选择技术,识别山洪灾害风险模拟最优特征组合。【结果】研究结果表明,采用分类递归特征法获得的最佳特征组合可以显著提高随机森林模型的预测性能,ROC(Receiver Operating Characteristic)曲线值达到了94.7%,相比单独使用随机森林算法精度提升了约5%。【结论】福建省山洪灾害高风险区域主要分布在武夷山脉、戴云山和玳瑁山区,涉及面积4.9万km^(2),影响人口2700万人口。 展开更多
关键词 山洪灾害风险 随机森林 递归特征选择法 小流域尺度 影响因素
在线阅读 下载PDF
GPS数据驱动的货车运行风险评估与辨识方法
18
作者 熊志华 李嘉钰 黄韵合 《安全与环境学报》 北大核心 2025年第12期4529-4536,共8页
货车车均事故率高,事故后果严重,研究货运车辆运行风险对提升道路交通安全与效率具有重要意义。基于924辆货车全球定位系统(Global Positioning System,GPS)数据,提取货运车辆的启动、运行和制动3个层面的13个运动学参数;借助熵权法测... 货车车均事故率高,事故后果严重,研究货运车辆运行风险对提升道路交通安全与效率具有重要意义。基于924辆货车全球定位系统(Global Positioning System,GPS)数据,提取货运车辆的启动、运行和制动3个层面的13个运动学参数;借助熵权法测算各参数权重和样本数据的安全性评分,结合随机森林模型筛选出6个关键指标;基于关键指标和K-means聚类算法,对货车的出行风险进行分类和评估;将评估结果作为训练集,构建麻雀搜索算法-支持向量机(Sparrow Search Algorithm-Support Vector Machine,SSA-SVM)模型,辨识货车在途出行安全性。筛选出的6个关键指标对样本描述的准确率达96.7%,将货车出行风险分为优良差三类,从启动、运行和制动三方面刻画货车行驶安全性画像。构建SSA-SVM辨识模型,判别货车出行风险类型准确率为96%。通过挖掘GPS数据将货车运行的历史数据的安全评估和在途运行的安全辨识结合起来,构建数据基座-关键指标-安全画像-风险辨识体系框架,为提升预警的准确性和安全培训的针对性、强化监管的智能化提供支撑。 展开更多
关键词 安全工程 熵权法 随机森林模型 K-MEANS聚类 麻雀搜索算法 支持向量机
原文传递
基于多源数据多特征组合的白洋淀生态修复工程前后湿地变化 被引量:2
19
作者 郑晓玲 于一雷 +3 位作者 吕翠翠 李文彦 姜纪沂 王仕琴 《北京林业大学学报》 北大核心 2025年第2期152-162,共11页
【目的】白洋淀湿地是华北平原最大的淡水湿地生态系统,对改善和调节雄安新区乃至整个京津冀的气候和生态环境具有重要作用。探究白洋淀湿地生态修复前后下垫面的变化特征,旨在为后续的生态修复工程提供理论参考。【方法】本研究通过选... 【目的】白洋淀湿地是华北平原最大的淡水湿地生态系统,对改善和调节雄安新区乃至整个京津冀的气候和生态环境具有重要作用。探究白洋淀湿地生态修复前后下垫面的变化特征,旨在为后续的生态修复工程提供理论参考。【方法】本研究通过选取生态修复前后(2017年和2022年)的Sentinel-1 SAR影像和Sentinel-2多光谱影像,提取光谱指数特征、SAR指数特征和纹理特征,结合随机森林方法,对白洋淀湿地进行分类;从下垫面类型、面积和景观格局指数变化,分析生态修复前后白洋淀湿地的变化情况。【结果】(1)同时使用光谱指数特征、SAR指数特征和纹理特征3种特征进行分类的总体精度最高,光谱指数特征、SAR指数特征和纹理特征的重要性贡献率分别为40.713%、27.269%和32.018%。(2)2017—2022年,耕地面积明显减少,湿地面积显著增加,湿地面积的增长主要来自耕地的转换。(3)生态修复后,2022年林地和水体的破碎化程度均有减小的趋势,水体、挺水植物和林地的聚集度和连通性都有不同程度的提升,其中最明显的为林地。【结论】生态修复之前白洋淀湿地景观趋于破碎化,生态修复后白洋淀湿地的水体、挺水植物以及林地各自的连通性和聚集度明显提升。淀区内的退耕还淀、生态清淤和生态补水等工程增加了白洋淀湿地面积,提升了白洋淀水体的连通性。 展开更多
关键词 白洋淀湿地 生态修复 湿地分类 特征组合 景观指数 随机森林
在线阅读 下载PDF
适合西藏地区的归一化植被指数预测模型构建及验证 被引量:1
20
作者 孟慧美 吴凌霄 +1 位作者 宣越健 米玛旺堆 《气候与环境研究》 北大核心 2025年第2期199-211,共13页
基于差分自回归移动平均(ARIMA)方法、随机森林(RF)方法、Prophet方法构建适合西藏地区的归一化植被指数(Normalized Difference Vegetation Index,NDVI)预测模型,利用羊八井地区2000~2021年MODIS遥感NDVI数据进行了验证,结果表明:该地... 基于差分自回归移动平均(ARIMA)方法、随机森林(RF)方法、Prophet方法构建适合西藏地区的归一化植被指数(Normalized Difference Vegetation Index,NDVI)预测模型,利用羊八井地区2000~2021年MODIS遥感NDVI数据进行了验证,结果表明:该地区植被覆盖率总体呈现不明显减少趋势;3个预测模型中,RF预测精度最高,其归一化均方根误差、平均绝对百分比误差、决定系数,分别达到了6.92%、4.04%、0.9;小波变换方法能有效提高模型预测精度;组合模型可以提高预测精度,其中误差倒数权重组合模型优于平均权重和方差倒数加权组合模型。因此可以利用RF等机器学习方法结合小波变换、组合模型在西藏地区进行NDVI预测,为生态环境保护和农牧业生产决策提供科学指导。 展开更多
关键词 归一化植被指数(NDVI)预测模型 随机森林(RF)方法 差分自回归移动平均(ARIMA)方法 Prophet方法 小波变换
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部