期刊文献+
共找到579篇文章
< 1 2 29 >
每页显示 20 50 100
改进K-SMOTE随机森林算法在地震信息发布安全风险评估中的应用研究 被引量:3
1
作者 李亚龙 何琳 +2 位作者 万杰 潘丹 孙静 《地震工程学报》 北大核心 2025年第1期168-177,共10页
为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本... 为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本划分与模型优化,最终实现目标安全风险等级评估。对实际地震信息发布案例进行评测,文章所提方法构建模型评估准确率为92%,模型精确率和查全率分别为0.81和0.92,模型泛化能力强,能有效用于地震信息发布安全风险评估。本研究为完善地震信息发布安全评估体系、改进地震信息发布环境、降低安全风险提供了参考。 展开更多
关键词 地震信息发布 风险等级评估 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于改进K-SMOTE随机森林算法的房屋建筑抗震能力判定 被引量:1
2
作者 李亚龙 张洁 檀斌 《工程抗震与加固改造》 北大核心 2025年第1期67-78,共12页
为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体... 为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体系;采用基尼指数计算体系中各指标因子的权重并对指标的重要性进行分析,在对指标进行斯皮尔曼相关系数计算的基础上,结合指标重要性基于随机森林(RF)方法构建了房屋建筑抗震设防能力判定模型,以霍山县部分房屋建筑基础数据构建样本集,为提升RF模型泛化能力,避免模型过度拟合,通过改进K-SMOTE算法混合采样提高样本均衡度,使用随机K折交叉验证方法进行样本划分与模型优化,实现房屋建筑抗震设防能力等级判定。研究结果表明:(1)模型评估准确率为93.81%,模型精确率和查全率分别为0.883和0.938,模型泛化能力强;(2)选择实际房屋建筑样例,模型判定结果与实际结果一致,验证了所提方法构建模型的正确性,能有效用于房屋建筑抗震能力判定;(3)将所提方法应用霍山县乡镇区域房屋建筑抗震设防能力判定,得出霍山县城区房屋建筑抗震能力一般,乡村房屋建筑抗震能力较差。本研究可有效用于房屋建筑抗震能力判定,为改进区域抗震设防措施、降低区域震害风险提供参考。 展开更多
关键词 抗震设防判定 FTA 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于SMOTE算法的结直肠癌患者术后发生腹腔感染的预警模型构建
3
作者 杨静 杨婕 蒋理立 《肿瘤药学》 2025年第3期363-369,共7页
目的基于SMOTE算法构建结直肠癌患者术后发生腹腔感染的预警模型。方法将328例结直肠癌患者作为观察对象,根据术后是否发生腹腔感染分为感染组(50例)和非感染组(278例),收集和分析受试者资料,用单因素及Logistic回归分析筛选结直肠癌患... 目的基于SMOTE算法构建结直肠癌患者术后发生腹腔感染的预警模型。方法将328例结直肠癌患者作为观察对象,根据术后是否发生腹腔感染分为感染组(50例)和非感染组(278例),收集和分析受试者资料,用单因素及Logistic回归分析筛选结直肠癌患者术后发生腹腔感染的影响因素,再通过SMOTE算法重建影响因素的原始数据集,构建风险预警模型并验证其预测效能。结果328例结直肠癌患者中有50例术后发生腹腔感染,发生率为15.24%。合并糖尿病(X_(1))、切口长度(X_(2))、手术时间(X_(3))、出血量(X_(4))、联合脏器切除(X_(5))、术后发生吻合口瘘(X_(6))、术后引流管留置时间(X7)是结直肠癌患者术后发生腹腔感染的危险因素(P<0.05)。得到原始预警模型P_(1)=1/[1+e^(-(-5.009+1.190X_(1)+0.737X_(2)+0.905X_(3)+0.941X_(4)+1.028X_(5)+1.047X_(6)+0.929X_(7)))]和基于SMOTE算法的预警模型P_(2)=1/[1+e^(-(-6.152+1.251X_(1)+0.788X_(2)+0.915X_(3)+0.972X_(4)+1.109X_(5)+1.276X_(6)+0.958X_(7)))]。基于SMOTE算法的预警模型P_(2)的AUC值[0.833(95%CI:0.792~0.854)]高于原始预警模型P_(1)的AUC值[0.814(95%CI:0.765~0.826)]。结论基于SMOTE算法构建的预警模型AUC值高于原始预警模型,其预测性能更优。 展开更多
关键词 结直肠癌患者 腹腔感染 预警模型 smote算法 术后
暂未订购
基于SMOTE增强与多模型择优的银行客户忠诚度预测研究
4
作者 刘政永 孙娜 《计算机科学与应用》 2025年第11期305-319,共15页
本研究针对银行客户流失预测问题,通过系统性数据处理、可视化分析与特征工程,构建了多种机器学习模型(包括逻辑回归、随机森林、AdaBoost和支持向量机),并基于ROC曲线、F1分数等指标评估模型性能。核心发现表明,随机森林模型在应对数... 本研究针对银行客户流失预测问题,通过系统性数据处理、可视化分析与特征工程,构建了多种机器学习模型(包括逻辑回归、随机森林、AdaBoost和支持向量机),并基于ROC曲线、F1分数等指标评估模型性能。核心发现表明,随机森林模型在应对数据不平衡和捕捉复杂特征关系方面表现最优(测试集F1分数达0.8546),显著优于其他模型;方法贡献在于提出了一套结合可视化探索与特征优化的建模框架,强调了数据质量与衍生特征对预测性能的关键作用;研究局限包括数据来源单一性及模型对特定业务场景的泛化能力有待进一步验证。本研究为银行客户忠诚度管理提供了数据驱动的决策支持。 展开更多
关键词 银行客户忠诚度 smote增强 逻辑回归 随机森林 ADABOOST 支持向量机
在线阅读 下载PDF
基于SMOTE算法的物流企业财务风险预警研究
5
作者 贺晓英 薛雅琪 《榆林学院学报》 2025年第6期66-75,共10页
有效的财务风险预警指标体系有助于物流企业面对多变的外部环境,及时发现风险并应对。从2021~2023年物流上市公司面板数据中筛选出8家ST公司和96家正常企业作为样本,采用T-3年财务数据;基于合成少数类过采样技术(SMOTE)算法的随机森林... 有效的财务风险预警指标体系有助于物流企业面对多变的外部环境,及时发现风险并应对。从2021~2023年物流上市公司面板数据中筛选出8家ST公司和96家正常企业作为样本,采用T-3年财务数据;基于合成少数类过采样技术(SMOTE)算法的随机森林模型构建了物流行业上市公司财务风险预警模型;通过相关性分析和预测效能对比,筛选出19项核心指标构建评价体系。研究表明,通过模型训练得到的指标重要度排序揭示关键风险驱动因子为市盈率、财务杠杆系数、应收账款周转率及利息保障倍数,物流企业应重点关注这4项指标的动态阈值监测。SMOTE过采样与随机森林算法整合,通过数据平衡处理提升了模型的泛化能力,使构建的财务预警机制误判率低、综合性能强,可为企业管理层提供可分级应对的精准决策依据。 展开更多
关键词 财务风险 smote算法 随机森林模型 财务预警 物流行业
在线阅读 下载PDF
改进Smote算法在不平衡数据集上的分类研究 被引量:9
6
作者 易未 毛力 +1 位作者 孙俊 吴林海 《计算机与现代化》 2018年第3期83-88,共6页
在不平衡数据集中,过抽样算法如Smote(Synthetic Minority Oversampling)算法、R-Smote算法与SD-ISmote算法可能会模糊多数类与少数类的边界以及使用噪声数据合成新样本。本文提出的ImprovedSmote算法使用少数数据集的簇心与其对应类别... 在不平衡数据集中,过抽样算法如Smote(Synthetic Minority Oversampling)算法、R-Smote算法与SD-ISmote算法可能会模糊多数类与少数类的边界以及使用噪声数据合成新样本。本文提出的ImprovedSmote算法使用少数数据集的簇心与其对应类别的少数集数据,在簇心与不大于样本属性数的对应类别少数集数据形成的图形内随机插值来生成新数据。ImprovedSmote算法结合C4.5决策树与神经网络算法在实验数据集上的结果比Smote,R-Smote与SD-ISmote算法更好,可以有效地提高分类器分类性能。 展开更多
关键词 不平衡数据集 smote算法 R-smote算法 SD-Ismote算法 Improvedsmote算法 簇心
在线阅读 下载PDF
Addressing Imbalance in Health Datasets: A New Method NR-Clustering SMOTE and Distance Metric Modification
7
作者 Hairani Hairani Triyanna Widiyaningtyas +1 位作者 Didik Dwi Prasetya Afrig Aminuddin 《Computers, Materials & Continua》 2025年第2期2931-2949,共19页
An imbalanced dataset often challenges machine learning, particularly classification methods. Underrepresented minority classes can result in biased and inaccurate models. The Synthetic Minority Over-Sampling Techniqu... An imbalanced dataset often challenges machine learning, particularly classification methods. Underrepresented minority classes can result in biased and inaccurate models. The Synthetic Minority Over-Sampling Technique (SMOTE) was developed to address the problem of imbalanced data. Over time, several weaknesses of the SMOTE method have been identified in generating synthetic minority class data, such as overlapping, noise, and small disjuncts. However, these studies generally focus on only one of SMOTE’s weaknesses: noise or overlapping. Therefore, this study addresses both issues simultaneously by tackling noise and overlapping in SMOTE-generated data. This study proposes a combined approach of filtering, clustering, and distance modification to reduce noise and overlapping produced by SMOTE. Filtering removes minority class data (noise) located in majority class regions, with the k-nn method applied for filtering. The use of Noise Reduction (NR), which removes data that is considered noise before applying SMOTE, has a positive impact in overcoming data imbalance. Clustering establishes decision boundaries by partitioning data into clusters, allowing SMOTE with modified distance metrics to generate minority class data within each cluster. This SMOTE clustering and distance modification approach aims to minimize overlap in synthetic minority data that could introduce noise. The proposed method is called “NR-Clustering SMOTE,” which has several stages in balancing data: (1) filtering by removing minority classes close to majority classes (data noise) using the k-nn method;(2) clustering data using K-means aims to establish decision boundaries by partitioning data into several clusters;(3) applying SMOTE oversampling with Manhattan distance within each cluster. Test results indicate that the proposed NR-Clustering SMOTE method achieves the best performance across all evaluation metrics for classification methods such as Random Forest, SVM, and Naїve Bayes, compared to the original data and traditional SMOTE. The proposed method (NR-Clustering SMOTE) improves accuracy by 15.34% on the Pima dataset and 20.96% on the Haberman dataset compared to SMOTE-LOF. Compared to Radius-SMOTE, this method increases accuracy by 3.16% on the Pima dataset and 13.24% on the Haberman dataset. Meanwhile, compared to RN-SMOTE, the accuracy improvement reaches 15.56% on the Pima dataset and 19.84% on the Haberman dataset. This research result implies that the proposed method experiences consistent performance improvement compared to traditional SMOTE and its latest variants, such as SMOTE-LOF, Radius-SMOTE, and RN-SMOTE, in solving imbalanced health data with class binaries. 展开更多
关键词 smote modification Clustering-smote manhattan distance
在线阅读 下载PDF
基于SMOTE+ENN的煤矿安全隐患文本分类研究 被引量:1
8
作者 罗海平 曾向阳 陈勇 《中国矿业》 北大核心 2025年第1期116-125,共10页
在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic... 在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)与编辑最近邻规则欠采样技术(Edited Nearest Neighbor,ENN)相结合的混合采样方法,并基于卷积神经网络(Convolutional Neural Network,CNN)对安全隐患文本输出类别预测结果。以安全文库网中某煤业安全风险清单共计4539条数据为例,首先,对安全隐患文本进行清洗、分词及向量化,采用SMOTE算法对小类别数据集进行插值样本生成,平衡各类样本之间数量分布差异;然后,利用ENN算法对生成的合成样本进行欠采样,剔除异常和噪声样本;最后,采用基于CNN的分类器对抽样后安全隐患文本进行建模和预测。实验结果表明,该方法相较于传统基准采样方法在准确率上提升了4%~8%,在F-Measure上提升了4%~7%,证明该方法在处理多类别不平衡煤矿安全隐患文本分类问题上的有效性和可行性,在煤矿安全管理和隐患预警等方面具有重要意义和实际应用价值。 展开更多
关键词 深度学习 smote ENN CNN 煤矿安全隐患 安全管理
在线阅读 下载PDF
基于SMOTE采样和集成学习的低渗透率储层流体性质识别方法 被引量:1
9
作者 杨文凯 孙建孟 +2 位作者 杜钦波 张宇昆 罗歆 《测井技术》 2025年第1期1-9,共9页
目前低渗透率储层是我国油气开发领域的重点,其流体性质的识别对油田勘探开发具有重要指导意义。低渗透率储层岩石物理特征复杂、测井响应特征表现不明显,导致流体性质识别困难。集成学习因其强大的非线性能力和高效性成为储层智能评价... 目前低渗透率储层是我国油气开发领域的重点,其流体性质的识别对油田勘探开发具有重要指导意义。低渗透率储层岩石物理特征复杂、测井响应特征表现不明显,导致流体性质识别困难。集成学习因其强大的非线性能力和高效性成为储层智能评价的有力工具,但最终评价效果受限于样本质量。针对低渗透率储层的标签数据分布不均匀和稀缺的问题,提出了一种基于SMOTE(Synthetic Minority Oversampling Technique)采样和集成学习的低渗透率储层流体性质识别方法。利用SMOTE采样合理增加岩心标签数据,以符合集成学习模型的训练需求,进而优选集成学习模型,实现对低渗透率储层流体性质的准确识别。基于SMOTE采样和集成学习的流体识别方法在东营凹陷Y9XX井组的应用结果表明,该方法能有效识别低渗透率储层的流体性质,其准确率达87.44%。在此基础上,对东营凹陷的Y94X井进行盲井测试,最终的分类结果满足实际测井解释对精度的需求。SMOTE采样结合集成学习的流体识别模式为后续机器学习在储层评价的广泛应用提供了依据。 展开更多
关键词 流体性质识别 集成学习 smote采样 样本不均匀 东营凹陷
在线阅读 下载PDF
基于SMOTE算法的航班正常率预测 被引量:1
10
作者 张嘉懿 胡明华 黄梵根 《华东交通大学学报》 2025年第3期57-66,共10页
为实现对航班正常率的精准预测,根据航班延误原因进行数据统计,构建了包含起飞机场、目的地机场、流控信息、航路航线性质的航班正常预测指标体系,提出了基于SMOTE算法的XGBoost分类预测模型(SM-XGBoost模型)和基于SMOTE算法的LightGBM... 为实现对航班正常率的精准预测,根据航班延误原因进行数据统计,构建了包含起飞机场、目的地机场、流控信息、航路航线性质的航班正常预测指标体系,提出了基于SMOTE算法的XGBoost分类预测模型(SM-XGBoost模型)和基于SMOTE算法的LightGBM分类预测模型(SM-LightGBM模型),并以华东地区主要机场实际数据为基础,对所提模型的有效性和先进性进行了验证。结果表明:SM-XGBoost模型和SM-LightGBM模型在预测准确度和误差上明显优于决策树和随机森林模型;在训练集和测试集稳定性上,SM-LightGBM模型优于SM-XGBoost模型,对测试集的预测准确率最高达88.2%。该方法为类似复杂系统事件预测提供了一种新的分析思路。 展开更多
关键词 smote算法 航班正常率 XGBoost模型
在线阅读 下载PDF
基于局部合力改进的Borderline-SMOTE过采样方法
11
作者 吕峰 宋媚 +2 位作者 赵礼 祝义 李赫男 《南京师大学报(自然科学版)》 北大核心 2025年第5期93-103,共11页
数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样... 数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样策略,导致机器学习模型预测时出现过拟合.因此,本文提出一种基于局部合力改进的Borderline-SMOTE过采样方法(IBSLG).首先,根据少数类样本最近邻分布构建边界区域;其次,基于局部合力计算边界区域内样本的集中度,根据集中度将样本划分为低概率/高概率边界样本;然后,基于两类边界样本分布,计算缩放因子构建新边界区域;最后,基于类不平衡比,对新边界区域自适应生成新样本.通过IBSLG与6种采样方法在4种分类器、8个不平衡数据集上进行对比实验,结果表明,IBSLG在大部分数据集上取得了最优的F1、G-mean、AUC和Friedman排名,并在大部分分类器上取得了最高的平均次优率,说明所提方法的有效性. 展开更多
关键词 不平衡数据 过拟合 类重叠 过采样 Borderline-smote 局部合力
在线阅读 下载PDF
基于SMOTE辅助分区误差控制的随机森林土壤重金属含量预测模型 被引量:1
12
作者 陈敏 董泽馨 +3 位作者 秦莉 张晨晨 张彦儒 孙思佳 《农业资源与环境学报》 北大核心 2025年第3期580-591,共12页
土壤中重金属空间分布的准确预测是制定科学合理的土地利用规划以及构建有效风险管理措施的关键环节。本研究旨在探索一种结合合成少数类过采样技术(SMOTE)和分区误差控制混合策略的随机森林(RF)模型,利用长株潭(长沙市、株洲市和湘潭市... 土壤中重金属空间分布的准确预测是制定科学合理的土地利用规划以及构建有效风险管理措施的关键环节。本研究旨在探索一种结合合成少数类过采样技术(SMOTE)和分区误差控制混合策略的随机森林(RF)模型,利用长株潭(长沙市、株洲市和湘潭市)区域8种重金属元素(As、Cd、Cr、Cu、Hg、Ni、Pb和Zn)及29项环境辅助变量数据,开展区域土壤重金属空间预测精度比较研究。将本研究构建的模型与全区及分区随机森林建模方法进行了比较分析,同时,也与三种经典地统计学方法——普通克里金(OK)、协同克里金(CK)和反距离加权法(IDW)进行了对比。结果表明:相较于全区建模方法,本研究构建的模型在预测Cd、Cr、Hg、Ni、Pb和Zn 6种重金属含量的R^(2)值提升了15.87%~35.39%;与分区建模方法相比,所有8种重金属的预测精度也有了显著提高,R^(2)值的增幅为3.03%~66.86%。与地统计学方法比较,本模型在Cd、Cr、Hg、Pb和Zn 5种重金属预测中表现出优越性,与OK、CK和IDW法相比,R^(2)值分别提升了2.45%~13.80%、15.09%~89.95%、1.57%~102.91%。本研究探索的混合策略模型显著提高了长株潭区域土壤中8种重金属元素的预测准确度,表明SMOTE技术和分区误差控制策略的结合应用在环境科学领域内有巨大潜力。该模型不仅在预测精度上超越了传统模型和方法,还为环境监测和管理提供了一种有效的新工具。 展开更多
关键词 土壤重金属预测 随机森林 smote过采样 普通克里金 协同克里金 反距离加权
在线阅读 下载PDF
基于GRU-Attention网络与SMOTE算法的疲劳驾驶检测方法 被引量:2
13
作者 周纪 《汽车实用技术》 2025年第9期46-51,66,共7页
文章提出了一种基于合成少数类过采样技术(SMOTE)、门控循环单元(GRU)神经网络与注意力(Attention)机制的疲劳驾驶检测方法。疲劳驾驶是导致交通事故的重要因素,尤其在长途驾驶或夜间行车时,驾驶员的警觉度会下降。文章通过分析方向盘... 文章提出了一种基于合成少数类过采样技术(SMOTE)、门控循环单元(GRU)神经网络与注意力(Attention)机制的疲劳驾驶检测方法。疲劳驾驶是导致交通事故的重要因素,尤其在长途驾驶或夜间行车时,驾驶员的警觉度会下降。文章通过分析方向盘转角数据,提取驾驶员行为特征,判断其疲劳状态。为解决数据不平衡问题,文章采用SMOTE算法对少数类样本进行过采样,缓解了类别不平衡对模型训练的影响,研究共采集了4 320个驾驶片段样本,并将疲劳程度划分为三类:正常、疲劳、非常疲劳。结合GRU神经网络和Attention机制(GRU能够处理长时序数据,而Attention机制能够帮助网络关注关键时刻的转角变化),提高疲劳特征的识别能力。实验结果表明,所提出的方法在疲劳驾驶检测中取得了98%以上的命中率(POD),能够有效识别不同疲劳程度,对交通安全具有重要意义。 展开更多
关键词 疲劳驾驶 smote算法 GRU神经网络 Attention机制
在线阅读 下载PDF
基于SMOTE的TDBO-SVM变压器故障诊断
14
作者 孟秋彤 刘为国 朱洪波 《佳木斯大学学报(自然科学版)》 2025年第7期9-12,16,共5页
变压器在电力系统中发挥着至关重要的作用,为了保证变压器故障诊断的可靠性,提出了基于合成少数类过采样技术(SMOTE)的TDBO-SVM变压器故障诊断模型。首先,通过SMOTE均衡数据集,降低不平衡故障数据对模型诊断精度的影响;其次,引入了SPM... 变压器在电力系统中发挥着至关重要的作用,为了保证变压器故障诊断的可靠性,提出了基于合成少数类过采样技术(SMOTE)的TDBO-SVM变压器故障诊断模型。首先,通过SMOTE均衡数据集,降低不平衡故障数据对模型诊断精度的影响;其次,引入了SPM混沌映射、可变螺旋搜索策略、Levy飞行策略、自适应t分布扰动变异对蜣螂算法进行改进;随后利用TDBO对SVM的惩罚参数和核参数进行组合寻优,建立TDBO-SVM模型;最后,对不同变压器故障诊断模型进行实例仿真对比,验证了该模型在油浸式变压器故障诊断中具有较高的诊断精度和较好的收敛性。 展开更多
关键词 smote 改进蜣螂优化算法 SVM 变压器 故障诊断
在线阅读 下载PDF
基于SMOTE-XGBoost算法的信用卡违约预测模型研究 被引量:1
15
作者 赵阳 张杰萌 严国义 《武汉工程大学学报》 2025年第3期343-348,共6页
针对信用卡违约现象,提出了一种基于SMOTE-XGBoost算法的预测模型。该模型采用合成少数类过采样技术(SMOTE)对数据集进行处理,选择极限梯度提升树(XGBoost)模型作为学习器,提升模型整体的预测效果。为验证SMOTE的有效性以及XGBoost算法... 针对信用卡违约现象,提出了一种基于SMOTE-XGBoost算法的预测模型。该模型采用合成少数类过采样技术(SMOTE)对数据集进行处理,选择极限梯度提升树(XGBoost)模型作为学习器,提升模型整体的预测效果。为验证SMOTE的有效性以及XGBoost算法的最优性,本文首先采用随机森林、神经网络、梯度提升决策树、逻辑回归、k近邻、XGBoost和LightGBM模型对原数据集进行数据建模分析和预测,之后使用Regular-SMOTE、Borderline-SMOTE和SVM-SMOTE采样方式对数据集做相对平衡处理,然后再使用7种模型分别对平衡处理后的数据集进行建模分析和预测,并引入准确率、精确率、F1指数、曲线下面积作为模型好坏的评价指标。不同采样方式和模型之间的对比分析结果表明,在经过SMOTE采样后,各模型的预测效果显著提升,其中使用XGBoost模型对经过SVM-SMOTE采样后的数据进行建模分析,该方法的预测效果最好,采用此模型可为金融行业制定放贷策略和降低企业风险提供决策支持。 展开更多
关键词 smote XGBoost 违约预测 不平衡数据
在线阅读 下载PDF
基于Borderline-SMOTE和OOA-SVM的心脏病诊断预测模型 被引量:2
16
作者 祖璇 张广海 《兰州文理学院学报(自然科学版)》 2025年第1期46-52,共7页
为实现心脏病精准预测,构建了一种预测准确率较高的心脏病诊断预测模型.首先对原始数据集进行pearson相关性分析和归一化处理;然后采用过采样技术Borderline-SMOTE算法,平衡训练数据集的少数类;之后利用鱼鹰优化算法(Osprey Optimizatio... 为实现心脏病精准预测,构建了一种预测准确率较高的心脏病诊断预测模型.首先对原始数据集进行pearson相关性分析和归一化处理;然后采用过采样技术Borderline-SMOTE算法,平衡训练数据集的少数类;之后利用鱼鹰优化算法(Osprey Optimization Algorithm,OOA)优化支持向量机(support vector machine,SVM),获得最优参数组合(C,g);最后在测试数据集上进行分类预测.与SSA-SVM、SMA-SVM和SVM相比,本文方法OOA-SVM的预测准确率最高,达到了95.08%,且模型稳定性最好. 展开更多
关键词 Borderline-smote 鱼鹰优化算法 支持向量机 心脏病诊断预测
在线阅读 下载PDF
基于SMOTE算法的垃圾邮件检测研究
17
作者 张博航 闫嘉 《数据挖掘》 2025年第2期151-158,共8页
垃圾邮件检测一直是大数据和人工智能领域的研究热点。本文对Kaggle平台上的垃圾邮件数据集,进行了从数据预处理、文本特征构建,到垃圾邮件检测模型构建的完整数据处理过程。由于在垃圾邮件数据集中正常邮件和垃圾邮件占比极度不均衡,... 垃圾邮件检测一直是大数据和人工智能领域的研究热点。本文对Kaggle平台上的垃圾邮件数据集,进行了从数据预处理、文本特征构建,到垃圾邮件检测模型构建的完整数据处理过程。由于在垃圾邮件数据集中正常邮件和垃圾邮件占比极度不均衡,故采用SMOTE算法对垃圾邮件进行数据扩充,之后采用逻辑回归、支持向量机、决策树和随机森林四种学习算法构建垃圾邮件检测模型。本文对比了SMOTE前后四种检测模型的性能,尤其比较了准确率、精确度、召回率和F1-Score几个指标,以及混淆矩阵。实验结果可见,SMOTE算法有效提高了垃圾邮件检出的准确度,基于SMOTE算法的垃圾邮件检测模型具有较好性能。The detection of spam has always been a research hotspot in big data and artificial intelligence. This paper presents a complete data analysis process for the spam data set on the Kaggle, including data preprocessing, the construction of text feature, building the detection model of a spam. Due to the imbalance between ham and spam, the SMOTE algorithm is used to expand the spam data, then four learning algorithms such as logistic regression, SVM, decision tree and random forest are used to build the detection model of spam. The performance of four detection models is compared before and after SMOTE, especially the classification accuracy, precision, recall, F1-Score and confusion matrix. The experimental results show that SMOTE algorithm can effectively improve the accuracy of spam detection, and the spam detection model based on SMOTE algorithm has good performance. 展开更多
关键词 smote 精确度 召回率 F1-Score 混淆矩阵
在线阅读 下载PDF
基于SMOTEBo-trtu-aiLghGBM的中小企业信用风险评估研究rtu
18
作者 张顺云 王爱银 《时代经贸》 2025年第4期42-48,共7页
准确把握中小企业的信用风险状态,对监管者和银行等金融机构意义重大。融合财务指标与非财务指标构建信用风险预测指标集,本文提出中小企业信用风险预测组合算法SMOTE-Boruta-LightGBM(以下简称“SBL模型”),即通过SMOTE过采样算法方式... 准确把握中小企业的信用风险状态,对监管者和银行等金融机构意义重大。融合财务指标与非财务指标构建信用风险预测指标集,本文提出中小企业信用风险预测组合算法SMOTE-Boruta-LightGBM(以下简称“SBL模型”),即通过SMOTE过采样算法方式,解决样本分类不平衡问题;Boruta算法将自动筛选信用风险特征,选出真正对预测目标变量有影响的特征;LightGBM作为分类器,实现中小企业信用风险预测。为验证算法的有效性,本文以A股618家上市公司为研究对象,设计模型对比实验和模型稳定性检验进行算法测试。研究结果表明,SBL模型信用风险预测算法综合表现优于SVM、Logistic等基本模型,解决了数据不平衡引起的分类紊乱和特征选择问题,对金融机构评估上市公司的违约风险具有一定的指导意义。 展开更多
关键词 smote过采样 Boruta 信用违约风险 LightGBM
在线阅读 下载PDF
基于KPCA-FCM聚类和SMOTE分层扩增的农药残留风险预测方法研究
19
作者 赵杰斌 冯家兴 +1 位作者 梁绮雯 徐振林 《山地农业生物学报》 2025年第6期29-37,45,共10页
为解决小样本下多分类预测模型预测能力不足的问题,探索出高维监测数据下的风险评价模型。研究基于332份蔬菜和水果样品,以30种在选取的样品中已检出农药作为风险指标,利用核主成分分析(Kernel Canonical Correlation Analysis, KPCA)... 为解决小样本下多分类预测模型预测能力不足的问题,探索出高维监测数据下的风险评价模型。研究基于332份蔬菜和水果样品,以30种在选取的样品中已检出农药作为风险指标,利用核主成分分析(Kernel Canonical Correlation Analysis, KPCA)对数据进行降维并选取主成分,随后基于降维后的数据和指标权重加权构建评价得分模型,并利用模糊C均值聚类(Fuzzy C-Means Algorithm, FCM)结合风险指标值划分风险等级,最终利用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)和随机森林(Random Forest, RF)算法建立多分类预测模型。结果表明:KPCA算法从数据集中的30个指标中选出15个主成分,累计贡献率达到81.03%,经轮廓系数(Silhouette Coefficient, SC)比对,选择4个聚类点时,FCM聚类的效果最佳,按风险严重程度由高到低划分为1~4类,各类样本数依次为27、19、10、276,综合得分区间依次为2.43×10^(-6)~3.95×10^(-5)、2.74×10^(-7)~2.23×10^(-6)、-3.98×10^(-7)~8.18×10^(-7)、-2.90×10^(-7)~-1.29×10^(-6)。利用SMOTE分层扩增的方法,对小样本下极限学习机(ELM)、径向基函数(RBF)、随机森林(RF)算法构建的分类模型预测能力均可以提升,其中利用SMOTE-RF对模型预测能力提升最佳,宏观平均精准率、召回率、平衡F分数分别为96.57%、98.66%、0.98,能够实现在30个风险指标下对4个分类结果的准确预测。本研究建立的风险评价模型能在小样本、多分类情况下完成风险类别的准确预测,为食品安全监测提供了一种新的技术手段。 展开更多
关键词 农药残留 核主成分分析 FCM聚类 smote 随机森林
在线阅读 下载PDF
上一页 1 2 29 下一页 到第
使用帮助 返回顶部