期刊文献+
共找到599篇文章
< 1 2 30 >
每页显示 20 50 100
基于SMOTE算法构建风险预警模型对急性脑梗死患者静脉溶栓预后的预测价值
1
作者 冯会方 张建刚 +2 位作者 谢卫征 肖彩霞 杨新丽 《河南医学研究》 2026年第5期852-857,共6页
目的分析基于合成少数类过采样技术(SMOTE)算法构建风险预警模型对急性脑梗死(ACI)患者预后的预测价值。方法前瞻性选取2023年1月至2025年1月安阳市人民医院行阿替普酶(rt-PA)静脉溶栓治疗的210例ACI患者,根据溶栓后第3个月预后情况分... 目的分析基于合成少数类过采样技术(SMOTE)算法构建风险预警模型对急性脑梗死(ACI)患者预后的预测价值。方法前瞻性选取2023年1月至2025年1月安阳市人民医院行阿替普酶(rt-PA)静脉溶栓治疗的210例ACI患者,根据溶栓后第3个月预后情况分为预后不良组(61例)、预后良好组(149例)。比较不同预后患者临床资料,分析预后不良影响因素,根据影响因素构建logistic回归方程(LR)模型1;基于SMOTE算法改进数据集,构建基于SMOTE算法的LR模型2,分析比较两种模型的预测效能。结果ACI患者溶栓后第3个月预后不良率为29.05%;预后不良组患者的糖尿病占比、入院美国国立卫生研究院卒中量表(NIHSS)评分、发病至溶栓时间、血清趋化因子CXC配体12(CXCL12)、单核细胞趋化蛋白-1(MCP-1)水平高于预后良好组,血清解偶联蛋白2(UCP2)水平低于预后良好组(P<0.05);多因素logistic分析显示,发病至溶栓时间、糖尿病、入院NIHSS评分、血清CXCL12、MCP-1均为ACI患者预后不良的危险因素,血清UCP2为独立保护因素(P<0.05);构建LR模型1为Y=-1.482+0.657 X_(1)+0.407 X_(2)+0.326 X_(3)+0.233 X_(4)-0.074 X_(5)+0.046 X_(6),其中Y为logit(P),X_(1)为糖尿病,X_(2)为入院NIHSS评分,X_(3)为发病至溶栓时间,X_(4)为CXCL12,X_(5)为UCP2,X_(6)为MCP-1;基于SMOTE算法的LR模型2为Y=-1.039+0.576 X_(1)+0.293 X_(2)+0.198 X_(3)+0.112 X_(4)-0.062 X_(5)+0.029 X_(6);受试者工作特征(ROC)曲线分析显示,LR模型2预测ACI患者预后不良的曲线下面积(AUC)为0.938,大于LR模型1预测的AUC(0.866)(P<0.05),且LR模型2与LR模型1比较,净重新分类指数(NRI)、综合判别改善指数(IDI)均>0(P<0.05)。结论与常规LR模型比较,基于SMOTE算法的LR模型预测ACI患者预后不良的预测价值明显改善,可为临床识别预后不良高风险患者提供更可靠临床依据。 展开更多
关键词 急性脑梗死 静脉溶栓 smote算法 预后 预测价值
暂未订购
基于Borderline-SMOTE-RF模型的岩爆预测
2
作者 高泽星 缪海波 +2 位作者 张庆贺 梁超 潘红桂 《科学技术与工程》 北大核心 2026年第1期350-361,共12页
岩爆的准确预测是消减岩爆灾害的基础,并对深部地下工程的安全具有重要意义。构建了241组岩爆数据集,选取单轴抗压强度、单轴抗拉强度、脆性系数、最大切向应力、弹性能指数、最大切向应力与单轴抗压强度之比作为岩爆预测指标。首先对... 岩爆的准确预测是消减岩爆灾害的基础,并对深部地下工程的安全具有重要意义。构建了241组岩爆数据集,选取单轴抗压强度、单轴抗拉强度、脆性系数、最大切向应力、弹性能指数、最大切向应力与单轴抗压强度之比作为岩爆预测指标。首先对原始岩爆数据进行统计分析,通过变异系数初步判断存在离群点,使用t-分布随机邻域嵌入(t-distributed stochastic neighbor embedding,t-SNE)方法将数据降维至三维进行可视化分析,从而直观判断出原始岩爆数据不平衡且存在离群点,然后采用Borderline-SMOTE过采样使数据平衡化、Yeo-Johnson变换使数据正态化。通过不同数据预处理手段,建立3种随机森林模型,即RF模型、SMOTE-RF模型及Borderline-SMOTE-RF模型,采用网格搜索与十折交叉验证进行参数调优,结合混淆矩阵和多个评价指标对模型性能进行评估。结果表明,Borderline-SMOTE-RF模型预测准确率最高,为82.7%。最后将该模型应用于江边水电站引水隧洞岩爆预测,预测结果与实际情况高度吻合。研究成果可为岩爆灾害预测提供有益参考。 展开更多
关键词 岩爆预测 随机森林 t-SNE Yeo-Johnson变换 Borderline-smote
在线阅读 下载PDF
基于SMOTE算法构建原发性肺癌化疗患者并发静脉血栓栓塞的风险预测模型
3
作者 裘翔铭 张益绰 +2 位作者 吴楠 黄婷婷 张洪波 《广东医学》 2026年第2期261-267,共7页
目的探究基于SMOTE算法的原发性肺癌化疗患者并发静脉血栓栓塞(venous thromboembolism,VTE)预测模型构建。方法以132例原发性肺癌患者为研究对象,均于2022年6月至2024年6月进行化疗。将研究对象根据是否发生VTE分为VTE组和非VTE组,收... 目的探究基于SMOTE算法的原发性肺癌化疗患者并发静脉血栓栓塞(venous thromboembolism,VTE)预测模型构建。方法以132例原发性肺癌患者为研究对象,均于2022年6月至2024年6月进行化疗。将研究对象根据是否发生VTE分为VTE组和非VTE组,收集两组患者临床资料。通过多因素logistic回归分析筛选影响原发性肺癌化疗患者并发VTE的独立危险因素,并构建原始数据的预测风险模型;然后基于SMOTE算法改进数据,同时构建基于改进数据原发性肺癌化疗患者并发VTE的预测风险模型,采用受试者工作特征(ROC)曲线、Hosmer-Lemeshow检验评估模型区分度和校准度,模型数据准确性采用应用F分数(F-score)、真正类率(TPR)、阳性预测值(PPV)评估。结果132例原发性肺癌患者中有20例发生VTE,VTE发生率为15.15%。KPS(≤80分)、临床分期(Ⅲ~Ⅳ级)、体质指数(BMI)、D-二聚体(D-D)、白细胞计数(WBC)、血栓调节蛋白、C反应蛋白(CRP)均是影响原发性肺癌化疗患者并发VTE的危险因素(P<0.05)。原始数据预警模型P1=0.782X1+1.038X2+0.891X3+1.715X4+1.406X5+1.356X6+1.203X7-6.345。基于SMOTE算法的预警模型P2=0.805X1+1.064X2+0.915X3+1.726X4+1.425X5+1.368X6+1.224X7-7.021。预警模型P1和P2的ROC曲线下面积(AUC)分别为0.812、0.846,敏感度分别为80.20%、94.60%,特异度分别为82.40%、81.80%。Hosmer-Lemeshow检验结果显示,P1和P2的拟合度良好(R2=0.456,P=0.668)、(R2=0.632,P=0.864)。P2的TPR值低于P1,而F-score值、PPV值均高于P1。结论KPS(≤80分)、临床分期(Ⅲ~Ⅳ级)、BMI及CRP、D-D、WBC、血栓调节蛋白、CRP均是影响原发性肺癌化疗患者并发VTE的危险因素,基于上述因素建立的SMOTE预警模型预测效能优于logistic回归模型。 展开更多
关键词 原发性肺癌 化疗 静脉血栓栓塞 smote算法 风险模型
暂未订购
基于SMOTE算法构建糖尿病肾病血液透析病人继发栓塞性卒中风险预测模型
4
作者 王珺 陈阳春 谢晓慧 《循证护理》 2026年第7期1540-1545,共6页
目的:对糖尿病肾病(DN)血液透析病人继发栓塞性卒中的危险因素进行分析,基于SMOTE算法构建风险预测模型。方法:回顾性选取2022年5月—2024年5月本院接受治疗的282例DN血液透析病人作为研究对象,收集病人的临床相关资料,根据DN血液透析... 目的:对糖尿病肾病(DN)血液透析病人继发栓塞性卒中的危险因素进行分析,基于SMOTE算法构建风险预测模型。方法:回顾性选取2022年5月—2024年5月本院接受治疗的282例DN血液透析病人作为研究对象,收集病人的临床相关资料,根据DN血液透析病人是否发生继发栓塞性卒中,将其分为发生组和未发生组,采用单因素及多因素Logistic回归分析DN血液透析病人继发栓塞性卒中的独立危险因素,构建Logistic回归模型(P1),同时基于SMOTE算法改进数据集,构建预测模型(P2),比较2种模型的预测效能。结果:282例DN血液透析病人中,有85例发生继发栓塞性卒中,其发生率为30.14%。多因素Logistic回归分析显示,体质指数、冠心病、高血压、总胆固醇、超敏C反应蛋白是DN血液透析病人继发栓塞性卒中的独立危险因素(P<0.05),血清清蛋白水平是其保护因素(P<0.05);模型P1和模型P2经Hosmer‑Lemeshow检验,模型拟合度良好;2种模型受试者工作特征(ROC)曲线分析结果显示,模型P2的ROC曲线下面积(AUC)为0.927,高于模型P1的0.853,差异有统计学意义(P<0.05)。结论:基于SMOTE算法构建的预测模型对DN血液透析病人继发栓塞性卒中具有较高的预测效能,医护人员可根据该模型在早期进行有效的干预,以预防或降低继发栓塞性卒中的发生率。 展开更多
关键词 smote算法 糖尿病肾病 血液透析 继发栓塞性卒中 预测模型 护理
暂未订购
基于SMOTE与Focal Loss的医保欺诈集成识别算法优化研究
5
作者 邹竞慷 石玲 +2 位作者 窦成皓 宗科 吴思涵 《中国新技术新产品》 2026年第6期37-40,共4页
医保欺诈问题在我国越来越严重,现有的检测工具难以处理不平衡数据。针对医保欺诈识别中存在的数据类别不平衡的问题,本文提出一种融合SMOTE过采样与Focal Loss损失函数的集成优化算法。结果表明,与传统算法相比,改进算法的精确度较高,... 医保欺诈问题在我国越来越严重,现有的检测工具难以处理不平衡数据。针对医保欺诈识别中存在的数据类别不平衡的问题,本文提出一种融合SMOTE过采样与Focal Loss损失函数的集成优化算法。结果表明,与传统算法相比,改进算法的精确度较高,该算法在医疗欺诈检测方面成效显著,能有效提高医保欺诈检测的精准性。 展开更多
关键词 医保欺诈识别 数据失衡处理 smote过采样 Focal Loss
在线阅读 下载PDF
改进K-SMOTE随机森林算法在地震信息发布安全风险评估中的应用研究 被引量:4
6
作者 李亚龙 何琳 +2 位作者 万杰 潘丹 孙静 《地震工程学报》 北大核心 2025年第1期168-177,共10页
为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本... 为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本划分与模型优化,最终实现目标安全风险等级评估。对实际地震信息发布案例进行评测,文章所提方法构建模型评估准确率为92%,模型精确率和查全率分别为0.81和0.92,模型泛化能力强,能有效用于地震信息发布安全风险评估。本研究为完善地震信息发布安全评估体系、改进地震信息发布环境、降低安全风险提供了参考。 展开更多
关键词 地震信息发布 风险等级评估 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于改进K-SMOTE随机森林算法的房屋建筑抗震能力判定 被引量:1
7
作者 李亚龙 张洁 檀斌 《工程抗震与加固改造》 北大核心 2025年第1期67-78,共12页
为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体... 为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体系;采用基尼指数计算体系中各指标因子的权重并对指标的重要性进行分析,在对指标进行斯皮尔曼相关系数计算的基础上,结合指标重要性基于随机森林(RF)方法构建了房屋建筑抗震设防能力判定模型,以霍山县部分房屋建筑基础数据构建样本集,为提升RF模型泛化能力,避免模型过度拟合,通过改进K-SMOTE算法混合采样提高样本均衡度,使用随机K折交叉验证方法进行样本划分与模型优化,实现房屋建筑抗震设防能力等级判定。研究结果表明:(1)模型评估准确率为93.81%,模型精确率和查全率分别为0.883和0.938,模型泛化能力强;(2)选择实际房屋建筑样例,模型判定结果与实际结果一致,验证了所提方法构建模型的正确性,能有效用于房屋建筑抗震能力判定;(3)将所提方法应用霍山县乡镇区域房屋建筑抗震设防能力判定,得出霍山县城区房屋建筑抗震能力一般,乡村房屋建筑抗震能力较差。本研究可有效用于房屋建筑抗震能力判定,为改进区域抗震设防措施、降低区域震害风险提供参考。 展开更多
关键词 抗震设防判定 FTA 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于SMOTE算法的结直肠癌患者术后发生腹腔感染的预警模型构建 被引量:1
8
作者 杨静 杨婕 蒋理立 《肿瘤药学》 2025年第3期363-369,共7页
目的基于SMOTE算法构建结直肠癌患者术后发生腹腔感染的预警模型。方法将328例结直肠癌患者作为观察对象,根据术后是否发生腹腔感染分为感染组(50例)和非感染组(278例),收集和分析受试者资料,用单因素及Logistic回归分析筛选结直肠癌患... 目的基于SMOTE算法构建结直肠癌患者术后发生腹腔感染的预警模型。方法将328例结直肠癌患者作为观察对象,根据术后是否发生腹腔感染分为感染组(50例)和非感染组(278例),收集和分析受试者资料,用单因素及Logistic回归分析筛选结直肠癌患者术后发生腹腔感染的影响因素,再通过SMOTE算法重建影响因素的原始数据集,构建风险预警模型并验证其预测效能。结果328例结直肠癌患者中有50例术后发生腹腔感染,发生率为15.24%。合并糖尿病(X_(1))、切口长度(X_(2))、手术时间(X_(3))、出血量(X_(4))、联合脏器切除(X_(5))、术后发生吻合口瘘(X_(6))、术后引流管留置时间(X7)是结直肠癌患者术后发生腹腔感染的危险因素(P<0.05)。得到原始预警模型P_(1)=1/[1+e^(-(-5.009+1.190X_(1)+0.737X_(2)+0.905X_(3)+0.941X_(4)+1.028X_(5)+1.047X_(6)+0.929X_(7)))]和基于SMOTE算法的预警模型P_(2)=1/[1+e^(-(-6.152+1.251X_(1)+0.788X_(2)+0.915X_(3)+0.972X_(4)+1.109X_(5)+1.276X_(6)+0.958X_(7)))]。基于SMOTE算法的预警模型P_(2)的AUC值[0.833(95%CI:0.792~0.854)]高于原始预警模型P_(1)的AUC值[0.814(95%CI:0.765~0.826)]。结论基于SMOTE算法构建的预警模型AUC值高于原始预警模型,其预测性能更优。 展开更多
关键词 结直肠癌患者 腹腔感染 预警模型 smote算法 术后
暂未订购
基于SMOTE增强与多模型择优的银行客户忠诚度预测研究
9
作者 刘政永 孙娜 《计算机科学与应用》 2025年第11期305-319,共15页
本研究针对银行客户流失预测问题,通过系统性数据处理、可视化分析与特征工程,构建了多种机器学习模型(包括逻辑回归、随机森林、AdaBoost和支持向量机),并基于ROC曲线、F1分数等指标评估模型性能。核心发现表明,随机森林模型在应对数... 本研究针对银行客户流失预测问题,通过系统性数据处理、可视化分析与特征工程,构建了多种机器学习模型(包括逻辑回归、随机森林、AdaBoost和支持向量机),并基于ROC曲线、F1分数等指标评估模型性能。核心发现表明,随机森林模型在应对数据不平衡和捕捉复杂特征关系方面表现最优(测试集F1分数达0.8546),显著优于其他模型;方法贡献在于提出了一套结合可视化探索与特征优化的建模框架,强调了数据质量与衍生特征对预测性能的关键作用;研究局限包括数据来源单一性及模型对特定业务场景的泛化能力有待进一步验证。本研究为银行客户忠诚度管理提供了数据驱动的决策支持。 展开更多
关键词 银行客户忠诚度 smote增强 逻辑回归 随机森林 ADABOOST 支持向量机
在线阅读 下载PDF
基于SMOTE算法的物流企业财务风险预警研究
10
作者 贺晓英 薛雅琪 《榆林学院学报》 2025年第6期66-75,共10页
有效的财务风险预警指标体系有助于物流企业面对多变的外部环境,及时发现风险并应对。从2021~2023年物流上市公司面板数据中筛选出8家ST公司和96家正常企业作为样本,采用T-3年财务数据;基于合成少数类过采样技术(SMOTE)算法的随机森林... 有效的财务风险预警指标体系有助于物流企业面对多变的外部环境,及时发现风险并应对。从2021~2023年物流上市公司面板数据中筛选出8家ST公司和96家正常企业作为样本,采用T-3年财务数据;基于合成少数类过采样技术(SMOTE)算法的随机森林模型构建了物流行业上市公司财务风险预警模型;通过相关性分析和预测效能对比,筛选出19项核心指标构建评价体系。研究表明,通过模型训练得到的指标重要度排序揭示关键风险驱动因子为市盈率、财务杠杆系数、应收账款周转率及利息保障倍数,物流企业应重点关注这4项指标的动态阈值监测。SMOTE过采样与随机森林算法整合,通过数据平衡处理提升了模型的泛化能力,使构建的财务预警机制误判率低、综合性能强,可为企业管理层提供可分级应对的精准决策依据。 展开更多
关键词 财务风险 smote算法 随机森林模型 财务预警 物流行业
在线阅读 下载PDF
基于SMOTE+ENN的煤矿安全隐患文本分类研究 被引量:4
11
作者 罗海平 曾向阳 陈勇 《中国矿业》 北大核心 2025年第1期116-125,共10页
在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic... 在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)与编辑最近邻规则欠采样技术(Edited Nearest Neighbor,ENN)相结合的混合采样方法,并基于卷积神经网络(Convolutional Neural Network,CNN)对安全隐患文本输出类别预测结果。以安全文库网中某煤业安全风险清单共计4539条数据为例,首先,对安全隐患文本进行清洗、分词及向量化,采用SMOTE算法对小类别数据集进行插值样本生成,平衡各类样本之间数量分布差异;然后,利用ENN算法对生成的合成样本进行欠采样,剔除异常和噪声样本;最后,采用基于CNN的分类器对抽样后安全隐患文本进行建模和预测。实验结果表明,该方法相较于传统基准采样方法在准确率上提升了4%~8%,在F-Measure上提升了4%~7%,证明该方法在处理多类别不平衡煤矿安全隐患文本分类问题上的有效性和可行性,在煤矿安全管理和隐患预警等方面具有重要意义和实际应用价值。 展开更多
关键词 深度学习 smote ENN CNN 煤矿安全隐患 安全管理
在线阅读 下载PDF
改进Smote算法在不平衡数据集上的分类研究 被引量:9
12
作者 易未 毛力 +1 位作者 孙俊 吴林海 《计算机与现代化》 2018年第3期83-88,共6页
在不平衡数据集中,过抽样算法如Smote(Synthetic Minority Oversampling)算法、R-Smote算法与SD-ISmote算法可能会模糊多数类与少数类的边界以及使用噪声数据合成新样本。本文提出的ImprovedSmote算法使用少数数据集的簇心与其对应类别... 在不平衡数据集中,过抽样算法如Smote(Synthetic Minority Oversampling)算法、R-Smote算法与SD-ISmote算法可能会模糊多数类与少数类的边界以及使用噪声数据合成新样本。本文提出的ImprovedSmote算法使用少数数据集的簇心与其对应类别的少数集数据,在簇心与不大于样本属性数的对应类别少数集数据形成的图形内随机插值来生成新数据。ImprovedSmote算法结合C4.5决策树与神经网络算法在实验数据集上的结果比Smote,R-Smote与SD-ISmote算法更好,可以有效地提高分类器分类性能。 展开更多
关键词 不平衡数据集 smote算法 R-smote算法 SD-Ismote算法 Improvedsmote算法 簇心
在线阅读 下载PDF
Addressing Imbalance in Health Datasets: A New Method NR-Clustering SMOTE and Distance Metric Modification
13
作者 Hairani Hairani Triyanna Widiyaningtyas +1 位作者 Didik Dwi Prasetya Afrig Aminuddin 《Computers, Materials & Continua》 2025年第2期2931-2949,共19页
An imbalanced dataset often challenges machine learning, particularly classification methods. Underrepresented minority classes can result in biased and inaccurate models. The Synthetic Minority Over-Sampling Techniqu... An imbalanced dataset often challenges machine learning, particularly classification methods. Underrepresented minority classes can result in biased and inaccurate models. The Synthetic Minority Over-Sampling Technique (SMOTE) was developed to address the problem of imbalanced data. Over time, several weaknesses of the SMOTE method have been identified in generating synthetic minority class data, such as overlapping, noise, and small disjuncts. However, these studies generally focus on only one of SMOTE’s weaknesses: noise or overlapping. Therefore, this study addresses both issues simultaneously by tackling noise and overlapping in SMOTE-generated data. This study proposes a combined approach of filtering, clustering, and distance modification to reduce noise and overlapping produced by SMOTE. Filtering removes minority class data (noise) located in majority class regions, with the k-nn method applied for filtering. The use of Noise Reduction (NR), which removes data that is considered noise before applying SMOTE, has a positive impact in overcoming data imbalance. Clustering establishes decision boundaries by partitioning data into clusters, allowing SMOTE with modified distance metrics to generate minority class data within each cluster. This SMOTE clustering and distance modification approach aims to minimize overlap in synthetic minority data that could introduce noise. The proposed method is called “NR-Clustering SMOTE,” which has several stages in balancing data: (1) filtering by removing minority classes close to majority classes (data noise) using the k-nn method;(2) clustering data using K-means aims to establish decision boundaries by partitioning data into several clusters;(3) applying SMOTE oversampling with Manhattan distance within each cluster. Test results indicate that the proposed NR-Clustering SMOTE method achieves the best performance across all evaluation metrics for classification methods such as Random Forest, SVM, and Naїve Bayes, compared to the original data and traditional SMOTE. The proposed method (NR-Clustering SMOTE) improves accuracy by 15.34% on the Pima dataset and 20.96% on the Haberman dataset compared to SMOTE-LOF. Compared to Radius-SMOTE, this method increases accuracy by 3.16% on the Pima dataset and 13.24% on the Haberman dataset. Meanwhile, compared to RN-SMOTE, the accuracy improvement reaches 15.56% on the Pima dataset and 19.84% on the Haberman dataset. This research result implies that the proposed method experiences consistent performance improvement compared to traditional SMOTE and its latest variants, such as SMOTE-LOF, Radius-SMOTE, and RN-SMOTE, in solving imbalanced health data with class binaries. 展开更多
关键词 smote modification Clustering-smote manhattan distance
在线阅读 下载PDF
基于SMOTE采样和集成学习的低渗透率储层流体性质识别方法 被引量:2
14
作者 杨文凯 孙建孟 +2 位作者 杜钦波 张宇昆 罗歆 《测井技术》 2025年第1期1-9,共9页
目前低渗透率储层是我国油气开发领域的重点,其流体性质的识别对油田勘探开发具有重要指导意义。低渗透率储层岩石物理特征复杂、测井响应特征表现不明显,导致流体性质识别困难。集成学习因其强大的非线性能力和高效性成为储层智能评价... 目前低渗透率储层是我国油气开发领域的重点,其流体性质的识别对油田勘探开发具有重要指导意义。低渗透率储层岩石物理特征复杂、测井响应特征表现不明显,导致流体性质识别困难。集成学习因其强大的非线性能力和高效性成为储层智能评价的有力工具,但最终评价效果受限于样本质量。针对低渗透率储层的标签数据分布不均匀和稀缺的问题,提出了一种基于SMOTE(Synthetic Minority Oversampling Technique)采样和集成学习的低渗透率储层流体性质识别方法。利用SMOTE采样合理增加岩心标签数据,以符合集成学习模型的训练需求,进而优选集成学习模型,实现对低渗透率储层流体性质的准确识别。基于SMOTE采样和集成学习的流体识别方法在东营凹陷Y9XX井组的应用结果表明,该方法能有效识别低渗透率储层的流体性质,其准确率达87.44%。在此基础上,对东营凹陷的Y94X井进行盲井测试,最终的分类结果满足实际测井解释对精度的需求。SMOTE采样结合集成学习的流体识别模式为后续机器学习在储层评价的广泛应用提供了依据。 展开更多
关键词 流体性质识别 集成学习 smote采样 样本不均匀 东营凹陷
在线阅读 下载PDF
基于SMOTE算法的航班正常率预测 被引量:1
15
作者 张嘉懿 胡明华 黄梵根 《华东交通大学学报》 2025年第3期57-66,共10页
为实现对航班正常率的精准预测,根据航班延误原因进行数据统计,构建了包含起飞机场、目的地机场、流控信息、航路航线性质的航班正常预测指标体系,提出了基于SMOTE算法的XGBoost分类预测模型(SM-XGBoost模型)和基于SMOTE算法的LightGBM... 为实现对航班正常率的精准预测,根据航班延误原因进行数据统计,构建了包含起飞机场、目的地机场、流控信息、航路航线性质的航班正常预测指标体系,提出了基于SMOTE算法的XGBoost分类预测模型(SM-XGBoost模型)和基于SMOTE算法的LightGBM分类预测模型(SM-LightGBM模型),并以华东地区主要机场实际数据为基础,对所提模型的有效性和先进性进行了验证。结果表明:SM-XGBoost模型和SM-LightGBM模型在预测准确度和误差上明显优于决策树和随机森林模型;在训练集和测试集稳定性上,SM-LightGBM模型优于SM-XGBoost模型,对测试集的预测准确率最高达88.2%。该方法为类似复杂系统事件预测提供了一种新的分析思路。 展开更多
关键词 smote算法 航班正常率 XGBoost模型
在线阅读 下载PDF
基于SMOTEBo-trtu-aiLghGBM的中小企业信用风险评估研究rtu 被引量:1
16
作者 张顺云 王爱银 《时代经贸》 2025年第4期42-48,共7页
准确把握中小企业的信用风险状态,对监管者和银行等金融机构意义重大。融合财务指标与非财务指标构建信用风险预测指标集,本文提出中小企业信用风险预测组合算法SMOTE-Boruta-LightGBM(以下简称“SBL模型”),即通过SMOTE过采样算法方式... 准确把握中小企业的信用风险状态,对监管者和银行等金融机构意义重大。融合财务指标与非财务指标构建信用风险预测指标集,本文提出中小企业信用风险预测组合算法SMOTE-Boruta-LightGBM(以下简称“SBL模型”),即通过SMOTE过采样算法方式,解决样本分类不平衡问题;Boruta算法将自动筛选信用风险特征,选出真正对预测目标变量有影响的特征;LightGBM作为分类器,实现中小企业信用风险预测。为验证算法的有效性,本文以A股618家上市公司为研究对象,设计模型对比实验和模型稳定性检验进行算法测试。研究结果表明,SBL模型信用风险预测算法综合表现优于SVM、Logistic等基本模型,解决了数据不平衡引起的分类紊乱和特征选择问题,对金融机构评估上市公司的违约风险具有一定的指导意义。 展开更多
关键词 smote过采样 Boruta 信用违约风险 LightGBM
在线阅读 下载PDF
基于局部合力改进的Borderline-SMOTE过采样方法
17
作者 吕峰 宋媚 +2 位作者 赵礼 祝义 李赫男 《南京师大学报(自然科学版)》 北大核心 2025年第5期93-103,共11页
数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样... 数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样策略,导致机器学习模型预测时出现过拟合.因此,本文提出一种基于局部合力改进的Borderline-SMOTE过采样方法(IBSLG).首先,根据少数类样本最近邻分布构建边界区域;其次,基于局部合力计算边界区域内样本的集中度,根据集中度将样本划分为低概率/高概率边界样本;然后,基于两类边界样本分布,计算缩放因子构建新边界区域;最后,基于类不平衡比,对新边界区域自适应生成新样本.通过IBSLG与6种采样方法在4种分类器、8个不平衡数据集上进行对比实验,结果表明,IBSLG在大部分数据集上取得了最优的F1、G-mean、AUC和Friedman排名,并在大部分分类器上取得了最高的平均次优率,说明所提方法的有效性. 展开更多
关键词 不平衡数据 过拟合 类重叠 过采样 Borderline-smote 局部合力
在线阅读 下载PDF
基于SMOTE辅助分区误差控制的随机森林土壤重金属含量预测模型 被引量:1
18
作者 陈敏 董泽馨 +3 位作者 秦莉 张晨晨 张彦儒 孙思佳 《农业资源与环境学报》 北大核心 2025年第3期580-591,共12页
土壤中重金属空间分布的准确预测是制定科学合理的土地利用规划以及构建有效风险管理措施的关键环节。本研究旨在探索一种结合合成少数类过采样技术(SMOTE)和分区误差控制混合策略的随机森林(RF)模型,利用长株潭(长沙市、株洲市和湘潭市... 土壤中重金属空间分布的准确预测是制定科学合理的土地利用规划以及构建有效风险管理措施的关键环节。本研究旨在探索一种结合合成少数类过采样技术(SMOTE)和分区误差控制混合策略的随机森林(RF)模型,利用长株潭(长沙市、株洲市和湘潭市)区域8种重金属元素(As、Cd、Cr、Cu、Hg、Ni、Pb和Zn)及29项环境辅助变量数据,开展区域土壤重金属空间预测精度比较研究。将本研究构建的模型与全区及分区随机森林建模方法进行了比较分析,同时,也与三种经典地统计学方法——普通克里金(OK)、协同克里金(CK)和反距离加权法(IDW)进行了对比。结果表明:相较于全区建模方法,本研究构建的模型在预测Cd、Cr、Hg、Ni、Pb和Zn 6种重金属含量的R^(2)值提升了15.87%~35.39%;与分区建模方法相比,所有8种重金属的预测精度也有了显著提高,R^(2)值的增幅为3.03%~66.86%。与地统计学方法比较,本模型在Cd、Cr、Hg、Pb和Zn 5种重金属预测中表现出优越性,与OK、CK和IDW法相比,R^(2)值分别提升了2.45%~13.80%、15.09%~89.95%、1.57%~102.91%。本研究探索的混合策略模型显著提高了长株潭区域土壤中8种重金属元素的预测准确度,表明SMOTE技术和分区误差控制策略的结合应用在环境科学领域内有巨大潜力。该模型不仅在预测精度上超越了传统模型和方法,还为环境监测和管理提供了一种有效的新工具。 展开更多
关键词 土壤重金属预测 随机森林 smote过采样 普通克里金 协同克里金 反距离加权
在线阅读 下载PDF
基于GRU-Attention网络与SMOTE算法的疲劳驾驶检测方法 被引量:2
19
作者 周纪 《汽车实用技术》 2025年第9期46-51,66,共7页
文章提出了一种基于合成少数类过采样技术(SMOTE)、门控循环单元(GRU)神经网络与注意力(Attention)机制的疲劳驾驶检测方法。疲劳驾驶是导致交通事故的重要因素,尤其在长途驾驶或夜间行车时,驾驶员的警觉度会下降。文章通过分析方向盘... 文章提出了一种基于合成少数类过采样技术(SMOTE)、门控循环单元(GRU)神经网络与注意力(Attention)机制的疲劳驾驶检测方法。疲劳驾驶是导致交通事故的重要因素,尤其在长途驾驶或夜间行车时,驾驶员的警觉度会下降。文章通过分析方向盘转角数据,提取驾驶员行为特征,判断其疲劳状态。为解决数据不平衡问题,文章采用SMOTE算法对少数类样本进行过采样,缓解了类别不平衡对模型训练的影响,研究共采集了4 320个驾驶片段样本,并将疲劳程度划分为三类:正常、疲劳、非常疲劳。结合GRU神经网络和Attention机制(GRU能够处理长时序数据,而Attention机制能够帮助网络关注关键时刻的转角变化),提高疲劳特征的识别能力。实验结果表明,所提出的方法在疲劳驾驶检测中取得了98%以上的命中率(POD),能够有效识别不同疲劳程度,对交通安全具有重要意义。 展开更多
关键词 疲劳驾驶 smote算法 GRU神经网络 Attention机制
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部