期刊文献+
共找到97篇文章
< 1 2 5 >
每页显示 20 50 100
基于合成少数类过采样技术算法构建颌面部骨折术后内固定装置感染的预警模型
1
作者 姜金凤 王海燕 +1 位作者 施燕峰 徐克 《华西口腔医学杂志》 北大核心 2025年第6期837-844,共8页
目的探索颌面部骨折术后内固定装置感染的独立风险因素,并基于合成少数类过采样技术(SMOTE)算法构建预警模型。方法选取2021年1月—2024年12月期间于南通大学附属医院口腔颌面外科进行诊治的颌面部骨折手术患者1104例为研究对象,根据患... 目的探索颌面部骨折术后内固定装置感染的独立风险因素,并基于合成少数类过采样技术(SMOTE)算法构建预警模型。方法选取2021年1月—2024年12月期间于南通大学附属医院口腔颌面外科进行诊治的颌面部骨折手术患者1104例为研究对象,根据患者术后是否发生内固定装置感染分为装置感染组(27例)与非装置感染组(1077例)。收集并分析2组患者的临床资料,运用单因素及二元Logistic回归分析方法筛选颌面部骨折术后内固定装置感染的危险因素,并进行Logistic回归分析,同时基于SMOTE算法改进数据集,构建改进数据集的预警模型,并对比验证模型的预测效能。结果1104例颌面部骨折术后内固定装置感染者27例,其发生率为2.45%(27/1104)。年龄、糖尿病史、骨折严重程度及口腔卫生状况均为颌面部骨折术后内固定装置感染的危险因素(P值均<0.05);原始预警模型P1的受试者工作特征(ROC)曲线下面积(AUC)为0.861,基于SMOTE算法的预警模型P2的AUC为0.882,P2模型的预测效能优于P1模型。DeLong检验结果显示,2种模型在AUC上的差异具有统计学意义(P<0.05)。结论年龄、糖尿病史、骨折严重程度及口腔卫生状况均为颌面部骨折术后内固定装置感染的危险因素。本研究基于SMOTE算法构建的颌面部骨折术后内固定装置感染的预警模型具有较好的预测效能,医护人员可据此进行有效干预,以预判颌面部骨折术后内固定装置感染情况。 展开更多
关键词 合成少数过采样技术 颌面部骨折 术后 内固定装置感染 预警模型
暂未订购
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:20
2
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 少数样本合成过采样技术 采样倍率 遗传算法
在线阅读 下载PDF
基于自组织映射优化k均值聚类合成少数类算法及应用
3
作者 罗博炜 谭家驹 冯纪强 《广西大学学报(自然科学版)》 北大核心 2025年第3期679-689,共11页
针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特... 针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特征,将高维数据有效地映射至低维空间。在此基础上,结合k-Means算法进行数据聚类,以识别少数类样本的潜在群集,从而更准确地确定过采样的焦点区域。最后运用SMOTE技术对这些焦点区域进行过采样,增加少数类样本数量的同时保持数据的原始特征分布,从而减少过拟合的风险。在Bank marketing、Credit_Fraud等多个经典的真实金融数据集上的实验证明,该方法能够通过增加聚类稳定性来提升传统过采样算法的质量,在提升模型性能的同时降低算法复杂度。 展开更多
关键词 自组织映射神经网络 算法 k均值聚合成少数过采样方法 信贷违约预警
在线阅读 下载PDF
基于改进合成少数类过采样技术的非概率可靠性指标解 被引量:3
4
作者 张梦 陈旭勇 +1 位作者 彭元林 李书雅 《武汉工程大学学报》 CAS 2024年第2期231-236,共6页
当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠... 当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠性指标的几何意义,将样本分类策略、超球限制策略与标准SMOTE算法相结合,提出了改进SMOTE算法来进一步提升算法在极限状态曲面附近的采样效率;然后结合改进SMOTE算法在标准化空间中高精度的拟合局部极限状态曲面,进而搜索得到非概率可靠性指标;最后给出了基于改进SMOTE算法的非概率可靠性指标解的主要流程。数值算例表明,当极限状态曲面呈现局部闭合、多区域的特点时,改进后的SMOTE算法可以高效地获取位于极限状态曲面附近的样本点,进而高精度地拟合极限状态曲面。将本文方法的计算结果与解析解对比,相对误差远远小于工程中的最大误差限值5%,说明改进SMOTE算法能够较好地处理高度非线性功能函数,验证了所提算法的有效性和实用性。 展开更多
关键词 非概率可靠性指标 合成少数过采样技术 样本分策略 超球限制策略 极限状态曲面
在线阅读 下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
5
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数过采样技术(smote)算法 条件生成对抗网络 XGBoost模型 问题
在线阅读 下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:11
6
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数过采样技术(smote) 构造性覆盖算法(CCA)
在线阅读 下载PDF
基于融合少数类过采样均衡多分类数据的改进极限学习机的变压器故障诊断方法 被引量:18
7
作者 王艳 李伟 +2 位作者 赵洪山 申宗旺 王寅初 《电网技术》 EI CSCD 北大核心 2023年第9期3799-3807,共9页
针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorith... 针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorithm,ISSA)优化极限学习机(extreme learning machine,ELM)的变压器故障诊断方法。首先,利用K-means算法对样本空间进行聚类,基于不平衡度选择聚类中心,利用SMOTE算法向聚类簇合成新样本以增强类内特征的聚合性;其次,针对边界区的样本,利用基于不同策略的Borderline-SMOTE算法向聚类簇合成新样本以增大类间特征的差异性;最后,利用基于Tent混沌映射的麻雀搜索算法(sparrow search algorithm,SSA)对极限学习机(extreme learning machine,ELM)模型中的输入权值和隐藏层偏置进行优化,以提高算法的全局搜索能力和模型的诊断精度。基于变压器油色谱数据的故障诊断实验结果表明:所提基于融合SMOTE均衡多分类数据的ISSA-ELM变压器故障诊断方法能够有效改善诊断模型对多数类的偏向问题,进一步提升模型的诊断精度、收敛速度和稳定性,适用于变压器非均衡数据集的多分类故障诊断。 展开更多
关键词 变压器 故障诊断 非均衡数据 合成少数过采样 麻雀搜索算法 极限学习机
原文传递
利用采样安全系数的多类不平衡过采样算法 被引量:4
8
作者 董明刚 刘明 敬超 《计算机科学与探索》 CSCD 北大核心 2020年第10期1776-1786,共11页
传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那... 传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那些会造成过度泛化的邻域分配一个较小的权重。然后考虑到样本点的全局特性,采用反向近邻采样安全系数防止新合成的样本点侵入到其他类别区域,减轻类别之间的重叠问题。最后以C4.5决策树作为基分类器,将SSCMIO算法与7种典型的过采样算法进行了对比实验。在16个公开的真实数据集上,SSCMIO算法在准确率、召回率、F-measure、MG、MAUC这5个指标上均能取得11个以上的最优值,在5个指标上最大提升分别是0.4818、0.3053、0.3420、0.2664、0.1307。实验结果表明SSCMIO算法相比其他7种算法可以取得更好的分类性能。 展开更多
关键词 采样安全系数 过采样 合成少数技术 不平衡问题
在线阅读 下载PDF
改进SMOTE的不平衡数据集成分类算法 被引量:33
9
作者 王忠震 黄勃 +2 位作者 方志军 高永彬 张娟 《计算机应用》 CSCD 北大核心 2019年第9期2591-2596,共6页
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目... 针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。 展开更多
关键词 不平衡数据分 合成少数过采样技术 K近邻 过采样 ADABOOST算法
在线阅读 下载PDF
基于混合采样的非平衡数据分类算法 被引量:20
10
作者 吴艺凡 梁吉业 王俊红 《计算机科学与探索》 CSCD 北大核心 2019年第2期342-349,共8页
过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector mac... 过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。 展开更多
关键词 非平衡 支持向量机(SVM) 少数样本过采样技术(smote) 超平面 混合采样
在线阅读 下载PDF
面向非平衡多分类问题的二次合成QSMOTE方法 被引量:3
11
作者 韩明鸣 郭虎升 王文剑 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第1期1-13,共13页
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善... 近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况.此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度.为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE).首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成.在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升. 展开更多
关键词 非平衡问题 过泛化 重叠 合成少数采样技术(smote)
在线阅读 下载PDF
基于少数类过采样的倾向得分匹配插补法 被引量:4
12
作者 杨贵军 杜飞 孙玲莉 《统计与信息论坛》 CSSCI 北大核心 2021年第1期3-12,共10页
无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配... 无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配插补法中,提出基于少数类过采样的倾向得分匹配插补法。利用统计模拟与实证研究,在不同无回答率、插补重数和误差分布情形下,演示新插补法的统计性质和应用效果。统计模拟显示,新插补法具有明显高于倾向得分匹配插补法的精度,统计性质受无回答率、插补重数和误差分布的影响小。实证结果显示,新插补法在实际数据中具有较好的应用性。基于少数类过采样的倾向得分匹配插补法提供了处理无回答问题的新思路,并具有较好的扩展性。 展开更多
关键词 倾向得分匹配插补法 合成少数过采样算法 无回答率 无回答机制
在线阅读 下载PDF
整合DBSCAN和改进SMOTE的过采样算法 被引量:17
13
作者 王亮 冶继民 《计算机工程与应用》 CSCD 北大核心 2020年第18期111-118,共8页
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOT... 针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。 展开更多
关键词 过采样 内不平衡 少数 多样性 smote算法 DBSCAN算法
在线阅读 下载PDF
SMOTE类算法研究综述 被引量:16
14
作者 王晓霞 李雷孝 林浩 《计算机科学与探索》 CSCD 北大核心 2024年第5期1135-1159,共25页
合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细... 合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细阐述了SMOTE方法的基本原理,然后主要从数据级、算法级两个层面系统性地梳理分析SMOTE类算法,并介绍数据级和算法级混合改进的新思路。数据级改进是在预处理时通过不同操作删除或添加数据来平衡数据分布;算法级改进不会改变数据分布,主要通过修改或创建算法来加强对少数类样本的关注度。二者相比,数据级方法应用受限更少,算法级改进的算法鲁棒性普遍更高。为了更全面地提供SMOTE类算法的基础研究材料,最后列出常用数据集、评价指标,给出未来可能尝试进行的研究思路,以更好地应对不平衡数据问题。 展开更多
关键词 不平衡数据 合成少数过采样技术(smote) 过采样 监督学习
在线阅读 下载PDF
基于新型采样技术的非平衡数据分类方法 被引量:1
15
作者 刘子桐 刘振远 +1 位作者 庞娜 马铭 《北华大学学报(自然科学版)》 CAS 2024年第5期694-700,共7页
在一些现实场景中,数据不平衡问题普遍存在,严重影响模型的预测结果。合成少数类过采样技术(Synthetic Minority Over-Sampling Technique,SMOTE)是解决非平衡分类问题的一种方法,但存在局限性。针对数据中的类不平衡问题,提出基于数据... 在一些现实场景中,数据不平衡问题普遍存在,严重影响模型的预测结果。合成少数类过采样技术(Synthetic Minority Over-Sampling Technique,SMOTE)是解决非平衡分类问题的一种方法,但存在局限性。针对数据中的类不平衡问题,提出基于数据分布和聚类加权的改进SMOTE随机森林分类算法(Random Forest Using SMOTE Based on Data Distribution and Cluster Weighting,DCSMOTE-RF)。该算法通过获取样本分布信息,将少数类样本划分到不同簇群,根据簇群信息量为每个区域分配不同合成份额;少数类样本结合自身权重,生成相应规模的目标样本;通过基于随机森林学习评价训练数据。10组非平衡数据集仿真试验结果表明,DCSMOTE-RF算法对非平衡数据具有较好的预测效果。 展开更多
关键词 非平衡分 合成少数过采样技术 随机森林
在线阅读 下载PDF
基于SMOTE算法的创伤性骨折患者术后手术部位感染预测模型构建及其效能评估
16
作者 顾久青 潘柔仪 《河北医科大学学报》 2025年第12期1413-1419,共7页
目的 基于合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)算法构建创伤性骨折患者术后手术部位感染的风险预测模型,并分析其应用价值。方法 回顾性分析2020年1月—2025年2月于扬州大学附属医院接受内固定手... 目的 基于合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)算法构建创伤性骨折患者术后手术部位感染的风险预测模型,并分析其应用价值。方法 回顾性分析2020年1月—2025年2月于扬州大学附属医院接受内固定手术治疗的创伤性骨折患者523例。根据术后30 d内手术部位是否发生感染,将其分为感染组和未感染组。比较2组临床资料,筛选与创伤性骨折患者术后手术部位感染有关的危险因素,并基于SMOTE算法重建影响因素原始数据,获得风险预测模型,评估模型预测效能。结果 感染组糖尿病、开放性骨折、Ⅱ/Ⅲ类手术切口占比均较高于未感染组(P<0.05),手术时间长于未感染组(P<0.05),白蛋白(albumin,ALB)水平低于未感染组(P<0.05),其余参数比较差异无统计学意义(P>0.05);多因素分析结果显示,糖尿病、开放性骨折、Ⅱ/Ⅲ类手术切口、手术时间长、ALB水平低均为创伤性骨折患者术后手术部位感染的独立危险因素(P<0.05);原始数据预警模型:Logit(P1)=-3.826+0.719×糖尿病+1.009×骨折类型+0.852×手术时间+0.626×手术切口+0.924×ALB,基于SMOTE算法的模型:Logit(P2)=-2.549+0.760×糖尿病+0.990×骨折类型+0.867×手术时间+0.653×手术切口+0.957×ALB,Hosmer-Lemeshow(H-L)检验结果显示,2个模型均具有良好的拟合度(决定系数R2=0.671、0.623,P均>0.05);分别以2个模型的预警概率P为诊断变量,以创伤性骨折患者术后是否出现手术部位感染为金标准,绘制受试者工作特征曲线,结果显示,2个模型的曲线下面积分别为0.825(95%CI:0.742~0.853)、0.939(95%CI:0.886~0.947);相较于原始数据预测模型,基于SMOTE算法的预测模型的阳性预测值、F分数均较高,真阳性率值偏低。结论 糖尿病、开放性骨折、手术切口类型、手术时间、ALB水平均为创伤性骨折患者术后手术部位感染的影响因素,根据上述参数构建的SMOTE模型预测效能优于传统Logistic回归模型。 展开更多
关键词 骨折 合成少数过采样技术 感染
暂未订购
术前基于SMOTE算法联合临床及MRI特征构建对单结节型双表型肝细胞癌预测的动态列线图模型及其验证
17
作者 张露 孙元昕 +2 位作者 郜玉洁 曾蒙苏 梁亮 《医学影像学杂志》 2025年第11期88-95,共8页
目的探讨术前基于SMOTE算法联合临床及MRI特征构建对单结节型双表型肝细胞癌预测的动态列线图模型及其验证。方法选取单结节型肝细胞癌(HCC)患者187例,根据免疫组化结果分为单结节型DPHCC组128例和单结节型非DPHCC组59例。比较两组临床... 目的探讨术前基于SMOTE算法联合临床及MRI特征构建对单结节型双表型肝细胞癌预测的动态列线图模型及其验证。方法选取单结节型肝细胞癌(HCC)患者187例,根据免疫组化结果分为单结节型DPHCC组128例和单结节型非DPHCC组59例。比较两组临床和MRI特征。采用合成少数类过采样技术(SMOTE)平衡两组数据至1∶1。将两组差异有统计学意义的临床和MRI特征纳入多因素二元Logistic回归分析,筛选DPHCC的独立预测因素。基于多因素预测模型构建ROC曲线和动态列线图,并评价模型临床应用价值。结果结合SMOTE算法的多因素Logistic回归分析结果显示,甲胎蛋白(AFP)(OR=2.759,95%CI:1.414~5.383,P=0.003)、肝硬化(OR=3.141,95%CI:1.562~6.316,P=0.001)、脂质成分(OR=2.838,95%CI:1.388~5.803,P=0.004)、胆管扩张(OR=6.698,95%CI:2.453~18.292,P<0.001)、淋巴结肿大(OR=4.200,95%CI:1.962~8.991,P<0.001)是预测DPHCC的独立危险因素,性别(OR=0.309,95%CI:0.118~0.811,P=0.017)则为其独立保护因素。临床及MRI特征联合诊断DPHCC的ROC曲线下面积为0.806。动态列线图将预测模型可视化,校准曲线显示模型拟合优度高,决策曲线分析、临床影响曲线明确模型具有临床实用价值。结论借助SMOTE算法的临床及MRI特征联合诊断术前预测模型可有效区分DPHCC和非DPHCC,动态列线图为术前预测单结节型DPHCC提供了一种可视、便捷且交互性强的诊断工具。 展开更多
关键词 单结节型双表型肝细胞癌 磁共振成像 合成少数过采样技术 动态列线图
暂未订购
基于改进SMOTE的非平衡数据集分类研究 被引量:19
18
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 支持度 轮盘赌选择 合成少数过采样技术(smote)
在线阅读 下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:26
19
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 遗传算子 少数样本合成过采样技术(smote) SYNTHETIC MINORITY OVER-SAMPLING technique (smote)
在线阅读 下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:9
20
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数过采样(smote)算法 岩爆指标 托梅克联系(Tomek Link)
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部