期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
融合MHSA与Boruta的电力系统暂态功角稳定关键特征筛选 被引量:1
1
作者 王曼 周小雨 +2 位作者 陈凡 赖业宁 朱瑛 《电力工程技术》 北大核心 2025年第1期155-164,共10页
现有暂态稳定特征选择方法中初始特征的选定会限制后续寻找最佳特征组合的能力,同时缺乏客观方法来确定关键特征的数量,为此,文中提出一种融合多头自注意力(multi-head self-attention,MHSA)与Boruta的暂态功角稳定关键特征筛选方法。首... 现有暂态稳定特征选择方法中初始特征的选定会限制后续寻找最佳特征组合的能力,同时缺乏客观方法来确定关键特征的数量,为此,文中提出一种融合多头自注意力(multi-head self-attention,MHSA)与Boruta的暂态功角稳定关键特征筛选方法。首先,构建深度神经网络模型,并在输入侧添加MHSA模块进行暂态稳定评估。MHSA直接面向输入的电网特征,可在模型训练过程中自适应调整注意力权重,聚焦关键特征。其次,利用Boruta算法生成真假特征组合,经过MHSA模型的训练,选择高于最大虚假特征权重的真实特征,由模型本身确定关键特征数量。最后,在IEEE 39和IEEE 118节点系统上进行算例分析。算例结果表明,所提方法可在保证评估精度的同时大幅减少输入特征的数量,相比于传统方法,可选出评估精度更高的关键特征。 展开更多
关键词 多头自注意力(MHSA) boruta算法 暂态稳定 特征选择 关键特征 虚假特征
在线阅读 下载PDF
基于Boruta算法和logistic回归模型的欧盟建筑业员工职业伤害影响因素分析 被引量:1
2
作者 李志安 张林 +1 位作者 张鹏 朱晓俊 《环境与职业医学》 北大核心 2025年第2期151-156,共6页
[背景]建筑业员工是职业伤害的高发群体。目前,国内外关于建筑业员工职业伤害影响因素的探讨多侧重于人口学以及行为特征等,对社会心理风险、数字技术使用以及员工健康状况则关注不足。[目的]分析建筑业员工职业伤害的发生情况,探讨社... [背景]建筑业员工是职业伤害的高发群体。目前,国内外关于建筑业员工职业伤害影响因素的探讨多侧重于人口学以及行为特征等,对社会心理风险、数字技术使用以及员工健康状况则关注不足。[目的]分析建筑业员工职业伤害的发生情况,探讨社会心理风险、数字技术使用、健康状况和工作场所预防措施等层面因素对职业伤害的影响,为预防措施的制定提供依据。[方法]应用欧盟职业安全与健康管理局公开数据,样本包括2 167名建筑业员工。以员工存在职业伤害为结局变量,通过卡方检验提取其中社会心理风险、对数字技术的使用、健康状况和工作场所预防措施等层面共25个变量,应用Boruta算法和多因素logistic回归分析模型相结合的方法,识别影响职业伤害的关键因素。[结果]在调查的2 167名建筑业员工中,存在职业伤害的有182人(占8.6%)。Boruta算法识别出8个重要特征变量,变量重要性由高到低依次是肌肉骨骼疾患、工种、抑郁与焦虑、受教育水平、使用电子智能产品、工作场所及时解决安全问题、全身疲劳、年龄;logistic回归分析显示:年龄、工种、受教育水平、全身疲劳、肌肉骨骼疾患以及工作场所及时解决安全问题共6个变量对职业伤害的影响有统计学意义(P <0.05)。[结论]建筑业员工职业伤害的发生受多种因素影响,包括年龄、工种、受教育水平、全身疲劳、肌肉骨骼疾患以及工作场所及时解决安全问题。企业和员工应采取针对性的措施,减少职业伤害的发生。 展开更多
关键词 建筑业员工 职业伤害 影响因素 boruta算法 LOGISTIC回归
原文传递
高维数据下基于Boruta-RFE算法的特征选择研究
3
作者 饶文康 黄介武 +1 位作者 陈星悦 王淋杰 《智能计算机与应用》 2025年第8期52-58,共7页
针对高维数据特征选择过程中传统的Boruta算法通常会选择出一些冗余或不相关的特征,从而降低分类器性能的问题,本文在Boruta算法的基础上提出了Boruta-RFE算法,进一步筛选出更优的特征子集。首先将Boruta算法对4个不同高维数据集进行特... 针对高维数据特征选择过程中传统的Boruta算法通常会选择出一些冗余或不相关的特征,从而降低分类器性能的问题,本文在Boruta算法的基础上提出了Boruta-RFE算法,进一步筛选出更优的特征子集。首先将Boruta算法对4个不同高维数据集进行特征选择,然后在其基础上利用递归特征消除(RFE)分别对其进行特征选择后得到所需最优特征子集,最后用随机森林、支持向量机及逻辑回归分类器分别对其进行分类,分类结果表明该算法分别在准确率、AUC值、F1值、精确率及Kappa值整体上优于传统的Boruta算法,有效减少了所选特征子集的特征数量,并提高了分类效率,由此验证了此方法的有效性。 展开更多
关键词 特征选择 boruta算法 RFE算法 机器学习
在线阅读 下载PDF
Prediction of hot-rolled strip crown based on Boruta and extremely randomized trees algorithms 被引量:4
4
作者 Li Wang Song-lin He +1 位作者 Zhi-ting Zhao Xian-du Zhang 《Journal of Iron and Steel Research International》 SCIE EI CAS CSCD 2023年第5期1022-1031,共10页
The quality of hot-rolled steel strip is directly affected by the strip crown.Traditional machine learning models have shown limitations in accurately predicting the strip crown,particularly when dealing with imbalanc... The quality of hot-rolled steel strip is directly affected by the strip crown.Traditional machine learning models have shown limitations in accurately predicting the strip crown,particularly when dealing with imbalanced data.This limitation results in poor production quality and efficiency,leading to increased production costs.Thus,a novel strip crown prediction model that uses the Boruta and extremely randomized trees(Boruta-ERT)algorithms to address this issue was proposed.To improve the accuracy of our model,we utilized the synthetic minority over-sampling technique to balance the imbalance data sets.The Boruta-ERT prediction model was then used to select features and predict the strip crown.With the 2160 mm hot rolling production lines of a steel plant serving as the research object,the experimental results showed that 97.01% of prediction data have an absolute error of less than 8 lm.This level of accuracy met the control requirements for strip crown and demonstrated significant benefits for the improvement in production quality of steel strip. 展开更多
关键词 Hot-rolled strip Data improvement Strip crown Feature selection boruta algorithm Extremely randomized trees algorithm
原文传递
一种基于SAR影像的气候复杂地区地表水提取方法 被引量:3
5
作者 顾祯蓉 李勇 +5 位作者 葛莹 王鸿燕 储思敏 刘秀慧 赖美芸 丁涵 《时空信息学报》 2025年第1期83-93,共11页
地表水是保障生态平衡、维系人类生存的重要自然资源。在可见光影像匮乏的多云多雨区域,如何借助合成孔径雷达(synthetic aperture radar,SAR)影像,克服样本数量有限这一难题,精准获取地表水分布信息,是一个极具挑战性的问题。以肯尼亚... 地表水是保障生态平衡、维系人类生存的重要自然资源。在可见光影像匮乏的多云多雨区域,如何借助合成孔径雷达(synthetic aperture radar,SAR)影像,克服样本数量有限这一难题,精准获取地表水分布信息,是一个极具挑战性的问题。以肯尼亚地表水资源监测为研究对象,本文利用Sentinel-1A数据,提出一种半监督协同随机森林的SAR影像气候复杂地区地表水提取方法。首先,利用灰度共生矩阵提取SAR影像的纹理特征,结合极化特征、水体指数和地形特征等,建立多维特征空间;其次,利用Boruta算法进行特征优选,并利用随机森林基分类器结合半监督协同训练方法,构建半监督协同随机森林模型,提取研究区地表水分布;最后,为验证方法可行性,与常用方法进行比较评价。结果表明,本文方法在仅有少量样本的情况下,能够更好地区分水体与非水体的差异,提高了对水体细节处的识别能力,降低模型漏检率,水体分类总体精度、召回率、F1分数分别达到91.54%、88.31%、92.08%。 展开更多
关键词 SAR影像 Sentinel-1卫星遥感 水体提取 特征优选 半监督学习 随机森林 boruta算法
在线阅读 下载PDF
基于三种特征筛选法的乳腺癌复发转移预测模型构建 被引量:1
6
作者 蔡一伟 吴尔律 +3 位作者 王冶 李程 刘晓红 蒙华 《中国数字医学》 2025年第3期36-43,共8页
目的:基于3种特征筛选方法构建乳腺癌复发转移预测模型,并比较其预测性能。方法:回顾性收集2017年―2021年广西某三甲医院乳腺癌复发转移患者373例的临床资料,纳入自变量指标30个。采用单因素和多因素分析、随机森林嵌套结合递归特征消... 目的:基于3种特征筛选方法构建乳腺癌复发转移预测模型,并比较其预测性能。方法:回顾性收集2017年―2021年广西某三甲医院乳腺癌复发转移患者373例的临床资料,纳入自变量指标30个。采用单因素和多因素分析、随机森林嵌套结合递归特征消除、基于Boruta的随机森林特征降维3种方法,按训练集和测试集6:4分别构建基于随机森林的乳腺癌复发转移预测模型,并比较其准确率、精确率、召回率、F1值和AUC值。结果:基于Boruta的随机森林模型(Boruta-RF)筛选获得的重要特征为组织学分级、N分期、肿瘤分期、治疗中是否发生肺叶炎症、CA153,其预测模型整体精度及泛化能力综合最佳,在测试集准确率为0.787、精确率0.760、召回率0.655、F1值0.703、AUC 0.819。结论:Boruta-RF模型预测乳腺癌复发转移效果较好,可为临床制定个性化治疗方案提供参考,但仍需更多前瞻性多中心研究验证。 展开更多
关键词 乳腺癌 特征筛选 机器学习 boruta算法 预测模型
在线阅读 下载PDF
早期心房颤动预测模型构建:基于中国人群窦性心律期间心电定量特征
7
作者 朱晓庆 石亚君 +5 位作者 沈娟 王清松 宋婷婷 修建成 陈韬 郭军 《南方医科大学学报》 北大核心 2025年第2期223-228,共6页
目的基于中国人群的心电大数据开发早期房颤风险预测模型。方法回顾性纳入2009年~2023年于解放军总医院有多次心电图检查记录的患者30383例。患者按7∶3的比例随机划分为训练集和内部测试集。使用训练集数据,采用单因素分析、LASSO回归... 目的基于中国人群的心电大数据开发早期房颤风险预测模型。方法回顾性纳入2009年~2023年于解放军总医院有多次心电图检查记录的患者30383例。患者按7∶3的比例随机划分为训练集和内部测试集。使用训练集数据,采用单因素分析、LASSO回归、Boruta算法筛选预测因子。基于Cox比例风险回归建立心电模型以及结合年龄、性别和心电模型评分的复合模型。采用受试者工作特征分析曲线下面积(AUROC)、校准曲线、决策曲线评估模型区分度、校准度及临床净获益。结果纳入患者的中位年龄为51(36,62)岁,男性占比51.1%,房颤的发生率为4.5%(1370/30383)。在心电模型中,P波相关参数及QRS波相关参数是重要预测变量。在测试集中,心电模型预测5年房颤风险的AUROC为0.77(95%CI:0.74-0.80),加入年龄和性别后的复合模型AUROC提升至0.81(95%CI:0.78-0.83),净重新分类指数为0.123,综合判别改善指数为0.04(P<0.05)。模型校准曲线斜率接近对角线。决策曲线分析显示复合模型的临床净获益在绝大多数风险阈值范围内均高于心电模型。结论基于中国人群窦性心律期间的心电图定量特征及年龄和性别开发的复合模型可有效预测未来房颤风险,为房颤的早期风险评估及预防干预提供了低成本的筛查工具。 展开更多
关键词 心电图 心房颤动 LASSO回归 boruta算法
暂未订购
基于随机森林模型上海市社区家庭康复护理项目医保纳入现况调查
8
作者 胡玉红 张明辉 +3 位作者 郭丽君 孙炜 黄春玉 鲍勇 《中国卫生事业管理》 北大核心 2025年第4期381-388,397,共9页
目的:调查上海市社区卫生服务机构康复护理项目纳入医保实际情况,探究康复护理纳入医保的影响因素,为开展康复护理项目提供建议。方法:采用分阶段随机整群抽样方法,对上海市36家社区卫生服务机构进行问卷调查。采用Spearman相关分析探... 目的:调查上海市社区卫生服务机构康复护理项目纳入医保实际情况,探究康复护理纳入医保的影响因素,为开展康复护理项目提供建议。方法:采用分阶段随机整群抽样方法,对上海市36家社区卫生服务机构进行问卷调查。采用Spearman相关分析探讨康复护理项目纳入医保的单相关因素,采用Boruta算法进行特征筛选,将相关性分析和特征筛选结果综合,纳入二元Logistic回归模型来探索是否将康复护理项目纳入医保的影响因素。结果:27.78%的机构将康复护理纳入医保支付,Spearman相关分析显示是否将康复指导项目纳入医保支付呈显著的正相关(r=0.531,P<0.05),而推荐康复指导家庭项目(r=-0.482,P<0.05)、推荐康复护理家庭项目(r=-0.446,P<0.05)则呈显著的负相关。Boruta算法显示是否将康复指导纳入医保支付、推荐家庭康复护理项目、推荐家庭康复指导项目为重要变量,家庭病床数、职工医保结算方式、常住人口数、康复床位数为暂定变量。二元Logistic回归显示是否将康复指导项目纳入医保支付(OR=10.994,95%CI:1.583~76.342)、推荐康复护理家庭项目进入方程(OR=0.108,95%CI:0.015~0.801),且结果显著。结论:应该规范康复护理及康复指导定义,制定合理康复护理收费标准;将家庭康复护理项目纳入长期护理保险服务范畴;多方面加强家庭康复护理的发展,加大对家庭照护者康复护理知识普及。 展开更多
关键词 康复护理项目 医保支付 boruta算法 现况
暂未订购
构建和验证乳腺癌患者麻醉苏醒延迟风险的机器学习网络计算器
9
作者 葛亮 冷玉芳 +2 位作者 张鹏 孔令国 韩旭东 《中国临床药理学与治疗学》 北大核心 2025年第9期1182-1192,共11页
目的:基于机器学习(ML)模型构建网络计算器预测乳腺癌(BC)患者麻醉苏醒延迟风险。方法:选取本院2023年1月至2024年6月手术治疗的435例BC患者。使用Boruta算法筛选麻醉苏醒延迟风险重要特征变量。根据3∶2比例将所有患者随机分配为训练集... 目的:基于机器学习(ML)模型构建网络计算器预测乳腺癌(BC)患者麻醉苏醒延迟风险。方法:选取本院2023年1月至2024年6月手术治疗的435例BC患者。使用Boruta算法筛选麻醉苏醒延迟风险重要特征变量。根据3∶2比例将所有患者随机分配为训练集(n=261)和测试集(n=174)并构建和训练9种ML模型。根据10次随机抽样的受试者工作特征(ROC)曲线评估9种ML模型并使用决策曲线分析评估模型临床实用价值。结合SHapley加法解释(SHAP)条形图、摘要图和力图附加解释和可视化ML模型。使用R包构建预测BC患者麻醉苏醒延迟风险的网络计算器。结果:435例BC患者中,25.1%患者出现麻醉苏醒延迟。Boruta算法筛选出7个特征变量。ROC曲线显示9种ML模型中XGBoost模型的10次随机抽样的曲线下面积(AUC)最高,决策曲线显示XGBoost模型具有显著临床净收益。SHAP条形图显示重要性排序为ASA分级、手术时间、麻醉时间、术中失血量、丙泊酚、术前贫血和术中低体温。SHAP摘要图反映7个重要特征变量的影响范围分布,呈“两端分离”现象。SHAP力图可视化XGBoost模型预测单个患者麻醉苏醒延迟风险,麻醉苏醒延迟患者预测值为0.998,无麻醉苏醒延迟患者预测值为0.00891。基于可解释XGBoost模型的网络计算器(https://xz-nomogram.shinyapps.io/DE_web/)能有效预测BC患者麻醉苏醒延迟风险。结论:ASA分级、手术时间、丙泊酚、术中失血量、麻醉时间、术前贫血和术中低体温是BC患者麻醉苏醒延迟风险重要特征变量。基于可解释XGBoost模型的网络计算器能准确快捷定量麻醉苏醒延迟风险,有助于临床医生有效调整治疗策略,更好改善患者预后。 展开更多
关键词 乳腺癌 麻醉苏醒延迟 机器学习 boruta算法 SHAP XGBoost模型 网络计算器
暂未订购
城市群新质生产力与新型城镇化发展质量耦合协调的时空演变及驱动机制研究
10
作者 张世斌 何云鹏 +1 位作者 杨肃昌 张瑾 《经济问题探索》 北大核心 2025年第7期94-115,共22页
推进新质生产力与新型城镇化的协同发展是中国城市群实现高质量发展的双重战略支点。基于2011—2021年中国十大城市群的数据,评估了新质生产力和新型城镇化发展质量耦合协调的时空演变与驱动机制。研究发现:新质生产力与新型城镇化发展... 推进新质生产力与新型城镇化的协同发展是中国城市群实现高质量发展的双重战略支点。基于2011—2021年中国十大城市群的数据,评估了新质生产力和新型城镇化发展质量耦合协调的时空演变与驱动机制。研究发现:新质生产力与新型城镇化发展质量之间的共生关系和协同进步趋势日益强化,不同城市群之间的耦合协调度存在显著差异。珠三角城市群处于中级协调水平,长三角和海峡西岸城市群处于初级协调水平,京津冀、辽中南、山东半岛和中原城市群勉强达到协调水平,而长江中游、成渝和关中平原城市群则接近失调状态。新质生产力和新型城镇化发展质量的耦合协调度呈现集聚效应,主要集聚在珠三角、长三角和京津冀等城市群的核心城市。结合机器学习和实证分析,揭示经济发展、经济集聚、金融发展、就业结构、产业结构和数字经济政策是推动二者耦合协调发展的主要驱动因素。研究结论对于促进城市群新质生产力与新型城镇化发展质量的良性互动和协同发展具有重要的指导意义。 展开更多
关键词 城市群 新质生产力 新型城镇化发展质量 耦合协调 Lasso算法 boruta算法
原文传递
基于机器学习构建全髋置换术患者术后谵妄风险的预测模型
11
作者 王小锋 蔡宁 +2 位作者 王建彭 杨芳芳 王秋锋 《临床麻醉学杂志》 北大核心 2025年第10期1021-1027,共7页
目的 基于Shapley加性解释(SHAP)和机器学习(ML)模型构建预测全髋置换术(THA)患者术后谵妄(POD)风险预测模型并开发在线应用程序。方法 选择2023年1月至2024年11月行THA的患者277例,男76例,女201例,年龄≥65岁,BMI 18.5~30.0 kg/m^(2),... 目的 基于Shapley加性解释(SHAP)和机器学习(ML)模型构建预测全髋置换术(THA)患者术后谵妄(POD)风险预测模型并开发在线应用程序。方法 选择2023年1月至2024年11月行THA的患者277例,男76例,女201例,年龄≥65岁,BMI 18.5~30.0 kg/m^(2),ASAⅠ—Ⅲ级。通过Boruta算法筛选THA患者发生POD的风险因素。基于风险因素构建、训练和比较6种ML模型,使用受试者工作特征(ROC)曲线和校准曲线评估6种ML模型,筛选最佳预测性能模型。使用SHAP值对ML模型进行解释和可视化,并使用Shiny等R包开发预测THA患者POD风险的在线应用程序。结果 有65例(23.8%)患者发生POD。Boruta算法筛选出麻醉时间、C-反应蛋白(CRP)浓度、年龄、顺式阿曲库铵用量、七氟醚用量、术中失血量、手术时间以及白蛋白(Alb)浓度是THA患者发生POD的风险因素。6种ML算法中,ROC曲线和校准曲线证实极端梯度提升(XGBoost)模型预测POD风险性能最高。基于SHAP值附加解释和可视化XGBoost模型能以极高准确度预测POD风险。在线应用程序网址https://mldynamic.shinyapps.io/PD-web/。结论 麻醉时间、CRP浓度、年龄、顺式阿曲库铵用量、七氟醚用量、术中失血量、手术时间以及Alb浓度是THA患者发生POD的风险因素。基于SHAP值解释的XGBoost模型有极高的预测性能,基于此开发的在线应用程序能帮助使用者快捷计算THA患者POD风险,优化治疗方案。 展开更多
关键词 全髋置换术 术后谵妄 机器学习 boruta算法 Shapley加性解释
暂未订购
基于合成影像和多变量的博斯腾湖流域土壤有机碳含量估测
12
作者 李顿 王雪梅 +1 位作者 李坤玉 郭艳萍 《环境科学》 北大核心 2025年第7期4428-4440,共13页
选择合适的多时相遥感影像合成方法以及建模变量对于土壤有机碳含量的估测及其空间分布反演具有重要作用.以新疆博斯腾湖流域土壤有机碳含量为研究对象,按照最小值、中值以及均值Sentinel-2多时相卫星影像合成方法生成光谱变量,同时引... 选择合适的多时相遥感影像合成方法以及建模变量对于土壤有机碳含量的估测及其空间分布反演具有重要作用.以新疆博斯腾湖流域土壤有机碳含量为研究对象,按照最小值、中值以及均值Sentinel-2多时相卫星影像合成方法生成光谱变量,同时引入气候和地形等环境变量作为建模变量.结合Boruta变量筛选算法和随机森林(RF)模型分析探究不同影像合成方法以及变量集合对耕层土壤有机碳含量估测的影响及差异.结果表明:①环境变量结合光谱变量能够较好地估测土壤有机碳含量,环境变量中的气候变量对博斯腾湖流域土壤有机碳含量的建模估测发挥着关键作用;②相对于全变量集合,经过Boruta变量筛选算法后的特征变量模型估测精度要更好;③均值合成的影像光谱变量结合环境变量的建模效果最好,最优模型的估测精度R^(2)为0.97,RMSE为2.919 g·kg^(−1),RPD为5.319.使用Boruta变量筛选算法对多时相均值合成光谱变量与环境变量所建立的RF模型能够准确地实现博斯腾湖流域土壤有机碳含量的空间反演估测,为该流域土壤有机碳含量的准确估测提供技术支持. 展开更多
关键词 影像合成 光谱和环境变量 boruta算法 随机森林(RF)模型 土壤有机碳(SOC) 博斯腾湖流域
原文传递
急性加重性慢性阻塞性肺疾病低钠血症风险因素分析及预测模型构建
13
作者 余同乐 吴安安 +3 位作者 张叶斌 黄超 方柳 王涛 《蚌埠医科大学学报》 2025年第8期1065-1069,共5页
目的:分析慢性阻塞性肺疾病急性加重期(AECOPD)病人发生低钠血症风险因素,并构建预测低钠血症风险的动态列线图。方法:分析224例AECOPD病人,通过Boruta算法筛选低钠血症重要风险因素。采用受试者工作特征(ROC)曲线分析变量曲线下面积(A... 目的:分析慢性阻塞性肺疾病急性加重期(AECOPD)病人发生低钠血症风险因素,并构建预测低钠血症风险的动态列线图。方法:分析224例AECOPD病人,通过Boruta算法筛选低钠血症重要风险因素。采用受试者工作特征(ROC)曲线分析变量曲线下面积(AUC)。基于风险因素构建AECOPD病人发生低钠血症风险的列线图;使用内部数据集评估列线图预测性能。使用DynNom包将列线图发布至网络中构建AECOPD病人发生低钠血症风险的动态列线图。结果:224例中50例出现低钠血症,发生率为22.3%。Boruta算法发现白蛋白(ALB)、体质量指数(BMI)、红细胞沉降率(ESR)、2型糖尿病(T2DM)、C反应蛋白(CRP)、血糖(FBG)、肌酐(Cr)是AECOPD病人发生低钠血症的独立风险因素。ALB、BMI、ESR、T2DM、CRP、FBG和Cr诊断低钠血症AUC值分别为0.759(0.698~0.814)、0.772(0.712~0.826)、0.689(0.624~0.749)、0.625(0.558~0.689)、0.503(0.435~0.570)、0.574(0.506~0.639)、0.516(0.448~0.583)。构建AECOPD病人发生低钠血症的列线图模型,校正曲线预测值和实际值具有较好的一致性,决策曲线显示阈值概率为2.7%~100%时,列线图预测AECOPD病人发生低钠血症的净获益率较高。结论:ALB、BMI、ESR、T2DM、CPR、FBG、Cr是AECOPD病人发生低钠血症的独立危险因素,基于此构建AECOPD病人发生低钠血症的动态列线图预测模型有较好预测和临床使用价值。 展开更多
关键词 慢性阻塞性肺疾病 急性加重期 低钠血症 列线图 boruta算法
暂未订购
基于Boruta-支持向量回归的安徽省土壤pH值预测制图 被引量:14
14
作者 卢宏亮 赵明松 +2 位作者 刘斌寅 张平 陆龙妹 《地理与地理信息科学》 CSCD 北大核心 2019年第5期66-72,共7页
以安徽省为研究区域,将Boruta算法用于特征筛选,选择最优变量组合输入支持向量回归(SVR)模型,经参数优化和核函数对比后,选择最优的SVR预测模型进行土壤pH值空间分布制图。结果表明:1)使用Boruta算法筛选后的特征变量建模优于全部变量建... 以安徽省为研究区域,将Boruta算法用于特征筛选,选择最优变量组合输入支持向量回归(SVR)模型,经参数优化和核函数对比后,选择最优的SVR预测模型进行土壤pH值空间分布制图。结果表明:1)使用Boruta算法筛选后的特征变量建模优于全部变量建模;特征变量重要性分析表明,年均降水(MAP)是影响安徽省土壤pH值的最重要因素,多尺度山谷平坦指数(MrVBF)、多尺度山脊平坦指数(MrRTF)和年均温(MAT)等特征变量均对土壤pH值有较重要的影响。2)选择径向基函数(RBF)作为核函数建立SVR模型进行土壤pH值预测最为合理;参数C=1,γ=0.125时,SVR模型精度最高,可以解释土壤pH值变异的74%,验证集R^2为0.62。3)土壤pH值预测制图结果表明,安徽省土壤pH值空间分布呈由北至南逐渐降低的趋势,符合“南酸北碱”特征,且预测制图的统计结果与样本点的统计结果基本一致。将Boruta算法与SVR模型结合可以提高土壤pH值的预测制图精度,且模型的泛化能力较强。 展开更多
关键词 土壤pH值预测 boruta算法 核函数 支持向量机回归 安徽省
在线阅读 下载PDF
基于CEA+Boruta模式的特征选择算法 被引量:3
15
作者 朱颢东 常志芳 《湖北民族大学学报(自然科学版)》 CAS 2020年第3期349-354,共6页
近年来,特征选择在机器学习领域中应用十分广泛.为提高文本计算效率,改善数据分类性能,提出两步法解决特征选择问题.结合过滤式中CEA算法和封装式中Boruta算法,引入参数p控制Boruta算法中阴影部分比例,提高封装阶段效率,降低整体算法时... 近年来,特征选择在机器学习领域中应用十分广泛.为提高文本计算效率,改善数据分类性能,提出两步法解决特征选择问题.结合过滤式中CEA算法和封装式中Boruta算法,引入参数p控制Boruta算法中阴影部分比例,提高封装阶段效率,降低整体算法时间复杂度,筛选出较优的候选特征集.在三个数据集上利用随机森林分类器进行实验,结果表明,该算法在平均分类错误率,召回率,准确率和F1值上均优于传统的Boruta和CEA算法,能够有效地减少最终选择的特征子集中的特征数量,提高文本分类效率和预测性能. 展开更多
关键词 特征选择 降维 boruta CEA 机器学习
在线阅读 下载PDF
基于不同算法筛选糖尿病足溃疡截肢预测模型的比较 被引量:1
16
作者 杨镇玮 马文杰 +1 位作者 杨启帆 田野 《血管与腔内血管外科杂志》 2024年第3期275-281,共7页
目的 探讨不同算法筛选的糖尿病足溃疡(DFU)截肢预测模型。方法 收集2015年1月至2020年12月新疆医科大学第一附属医院收治的364例DFU患者的临床资料,按照截肢情况将其分为截肢组(n=213)和非截肢组(n=151),分别通过单因素分析、Boruta算... 目的 探讨不同算法筛选的糖尿病足溃疡(DFU)截肢预测模型。方法 收集2015年1月至2020年12月新疆医科大学第一附属医院收治的364例DFU患者的临床资料,按照截肢情况将其分为截肢组(n=213)和非截肢组(n=151),分别通过单因素分析、Boruta算法和随机森林-递归特征消除(RF-RFE)算法进行截肢危险因素分析,并构建临床预测模型,比较模型的c指数、F1分数和Brier分数,评估模型的预测效能和临床意义。结果 两组患者年龄、高血压病程、冠心病病程、Wagner评分、部位-缺血-神经病变-细菌感染-面积-深度(SINBAD)评分、国际糖尿病足工作组(IWGDF)分级比较,差异均有统计学意义(P﹤0.05)。实验室指标中截肢组患者低密度脂蛋白(LDL)、高密度脂蛋白(HDL)、甘油三酯(TG)、血钙、血磷、白蛋白与球蛋白比值(A/G)、平均血小板分布宽度(PDW)、血红蛋白(Hb)均低于非截肢组患者,截肢组患者球蛋白(GB)、中性粒细胞比例(N)、纤维蛋白原(FIB)、国际标准化比值(INR)、平均红细胞分布宽度(RDW)/白蛋白比率、中性粒细胞/淋巴细胞比值(NLR)、血小板与淋巴细胞比值(PLR)均高于非截肢组患者,差异均有统计学意义(P﹤0.05)。多因素分析结果显示,Wagner分级﹥2级、SINBAD评分﹥3分、FIB、Hb、PDW、INR、年龄均是DFU患者截肢的独立危险因素(P﹤0.05)。传统Logistic回归模型c指数、F1分数和Brier分数分别为0.771、0.809、0.163。采用Boruta算法得出对截肢影响最大的影响因素为年龄、Wagner分级﹥2级、SINBAD评分﹥3分、IWGDF分级﹥3级、A/G、INR、FIB、N、Hb、RDW比白蛋白比率、NLR和PLR,模型c指数、F1分数、Brier分数分别为0.686、0.744、0.163.RF-RFE算法得出DFU截肢危险因素为NLR、PLR、N、肌酐和PDW,模型c指数、F1分数和Brier分数分别为0.748、0.769、0.220。结论 不同算法从不同逻辑对DFU患者截肢的危险因素进行评估,可与传统统计学方法结合,为DFU的治疗决策提供依据互补。 展开更多
关键词 糖尿病足溃疡 截肢 预测模型 boruta算法 随机森林-递归特征消除算法
暂未订购
Stock Type Prediction Based on Multiple Machine Learning Methods
17
作者 Zhonger Zhu Wansheng Wang 《Journal of Intelligent Learning Systems and Applications》 2024年第3期242-261,共20页
Stocks in the Chinese stock market can be divided into ST stocks and normal stocks, so to prevent investors from buying potential ST stocks, this paper first performs SMOTEENN oversampling data preprocessing for the S... Stocks in the Chinese stock market can be divided into ST stocks and normal stocks, so to prevent investors from buying potential ST stocks, this paper first performs SMOTEENN oversampling data preprocessing for the ST stock category, and selects 139 financial indicators and technical factor as predictive features. Then, it combines the Boruta algorithm and Copula entropy method for feature selection, effectively improving the machine learning model’s performance in ST stock classification, with the AUC values of the two models reaching 98% on the test set. In the model selection and optimization, this paper uses six major models, including logistic regression, XGBoost, AdaBoost, LightGBM, Catboost, and MLP, for modeling and optimizes them using the Optuna framework. Ultimately, XGBoost model is selected as the best model because its AUC value exceeds 95% and its running time is less. Finally, the XGBoost model is explained using the SHAP theory and the interaction between features is discovered, further improving the model’s accuracy and AUC value by about 0.6%, verifying the effectiveness of the model. 展开更多
关键词 Stock Classification boruta algorithm COPULA Machine Learning INTERACTION
在线阅读 下载PDF
基于遥感的北京市森林地上碳储量监测 被引量:2
18
作者 贺晨瑞 庞丽峰 +2 位作者 谭炳香 黄逸飞 孙学霞 《西北林学院学报》 CSCD 北大核心 2024年第3期162-170,265,共10页
城市是CO_(2)排放的主要区域,推动城市碳减排与低碳发展对于早日实现“双碳”战略具有重要帮助。城市森林碳储量是反映城市CO_(2)吸收能力和评估生态系统质量的重要指标。以北京市森林为对象,以Landsat8OLI遥感影像、数字高程和森林资... 城市是CO_(2)排放的主要区域,推动城市碳减排与低碳发展对于早日实现“双碳”战略具有重要帮助。城市森林碳储量是反映城市CO_(2)吸收能力和评估生态系统质量的重要指标。以北京市森林为对象,以Landsat8OLI遥感影像、数字高程和森林资源二类调查数据为数据源,采用逐步回归分析、递归消除算法和Boruta算法进行特征选择,然后采用多元线性回归模型、BP神经网络、随机森林算法以及极端梯度提升算法模型(XGBoost)进行北京市森林AGC模型构建,最后选择效果最好的模型对北京市整体森林AGC进行反演估测。结果表明:1)基于Boruta算法选择特征集进行4种AGC模型构建时,其R 2是最好的,优于SRA与RFE选择方法;2)XGBoost算法构建的森林AGC模型的精度最高,其根据Boruta算法选择特征集得到的训练集、测试集R^(2)、RMSE、RRMSE分别为0.95、0.69、3.16、5.18、17.70%、21.49%;3)2014年北京市总体森林AGC为8931820.34 t,与实际值差距较小;在空间分布上均呈西北部高、中部及东南部低的现象;密云区、怀柔区及延庆区森林AGC较多,而朝阳区、丰台区及石景山区较少。总体上说,基于Boruta的特征选择与现代集成的XGBoost森林AGC模型有着较好的估测效果。该研究为超大城市森林AGC精准监测提供了技术支撑。 展开更多
关键词 城市森林 碳储量 XGBoost模型 boruta算法 北京市
在线阅读 下载PDF
基于变量筛选与机器学习算法的渭-库绿洲土壤有机质含量估测研究 被引量:8
19
作者 李顿 王雪梅 +1 位作者 李坤玉 安柏耸 《地球与环境》 CAS CSCD 北大核心 2024年第3期375-385,共11页
选择合适的变量筛选方法和模型可有效提升土壤有机质含量的估测精度。本研究以新疆渭干河-库车河绿洲为研究区,基于哨兵2号(Sentinel-2)卫星影像和实测土壤有机质,通过对土壤有机质与遥感影像波段及多种光谱指数进行相关分析,结合Borut... 选择合适的变量筛选方法和模型可有效提升土壤有机质含量的估测精度。本研究以新疆渭干河-库车河绿洲为研究区,基于哨兵2号(Sentinel-2)卫星影像和实测土壤有机质,通过对土壤有机质与遥感影像波段及多种光谱指数进行相关分析,结合Boruta算法和连续投影算法(Successive Projections Algorithm,SPA)进行变量筛选,构建随机森林(Random Forest,RF)模型和BP神经网络(Back Propagation Neural Network,BPNN)模型进行表层土壤有机质含量的估测。结果表明:(1)波段B3、B4、B5、B7和B8A以及转换植被指数(Transformed Vegetation Index,TVI)、颜色指数(Color Index,CI)对土壤有机质含量的估测具有重要作用;(2)单独使用Boruta算法和SPA算法筛选的变量集建模效果要优于全变量集以及结合算法筛选的变量集,Boruta算法优于SPA算法;(3)RF模型的估测能力优于BPNN模型,最优估测模型训练集和验证集的决定系数(R^(2))均大于0.74,模型拟合效果较好,均方根误差(RMSE)小于2.0 g/kg,相对分析误差(RPD)大于1.6,能够较好地进行土壤有机质含量的估测。采用Boruta算法结合随机森林模型可较好地反演绿洲表层土壤有机质的空间分布,为该区域土壤养分评价提供参考。 展开更多
关键词 boruta算法 连续投影算法 随机森林 BP神经网络 土壤有机质
原文传递
基于随机森林的高速公路变路径偷逃费行为识别 被引量:1
20
作者 邹杰 曹宏禄 +2 位作者 李平安 黄诗音 赵建东 《科学技术与工程》 北大核心 2024年第36期15694-15700,共7页
为提高高速公路变路径偷逃费行为识别效率,针对改变路径偷逃费行为进行研究,建立一种基于随机森林的高速公路变路径偷逃费行为识别模型,能够有效识别该类偷逃费行为,协助高速公路相关管理部门追缴偷逃费用。首先,分析原始收费数据,筛选... 为提高高速公路变路径偷逃费行为识别效率,针对改变路径偷逃费行为进行研究,建立一种基于随机森林的高速公路变路径偷逃费行为识别模型,能够有效识别该类偷逃费行为,协助高速公路相关管理部门追缴偷逃费用。首先,分析原始收费数据,筛选出与本次研究相关的字段,经过运算得到12个模型可输入的初始特征;然后,通过计算各个特征的方差膨胀因子(variance inflation factor,VIF)和容忍度(tolerance,TOL)值来剔除存在共线性的特征,并利用Boruta算法筛选高重要性特征(“行驶方向是否一致”“入出站是否一致”“通行时间”和“最小费额里程”);其次,使用SMOTETomek综合采样技术来平衡数据集;再其次,利用网格搜索法对随机森林进行超参数调优;最后,利用所建立模型进行训练和识别,并与基准模型的识别效果进行对比。结果表明:所建立模型能够更好地对高速公路变路径偷逃费行为进行识别,Macro-F1分数达到了0.966,优于极限梯度提升(extreme gradient boost,XGBoost)(0.9431)、决策树(decision tree,DT)(0.9563)和梯度提升决策树(gradient boosting decision trees,GBDT)(0.9382),能够为运营管理部门稽查该类偷逃费车辆提供参考。 展开更多
关键词 随机森林(RF) 改变路径偷逃费 boruta算法 数据不平衡处理
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部