期刊文献+
共找到184篇文章
< 1 2 10 >
每页显示 20 50 100
基于SMOTE算法的结直肠癌患者术后发生腹腔感染的预警模型构建
1
作者 杨静 杨婕 蒋理立 《肿瘤药学》 2025年第3期363-369,共7页
目的基于SMOTE算法构建结直肠癌患者术后发生腹腔感染的预警模型。方法将328例结直肠癌患者作为观察对象,根据术后是否发生腹腔感染分为感染组(50例)和非感染组(278例),收集和分析受试者资料,用单因素及Logistic回归分析筛选结直肠癌患... 目的基于SMOTE算法构建结直肠癌患者术后发生腹腔感染的预警模型。方法将328例结直肠癌患者作为观察对象,根据术后是否发生腹腔感染分为感染组(50例)和非感染组(278例),收集和分析受试者资料,用单因素及Logistic回归分析筛选结直肠癌患者术后发生腹腔感染的影响因素,再通过SMOTE算法重建影响因素的原始数据集,构建风险预警模型并验证其预测效能。结果328例结直肠癌患者中有50例术后发生腹腔感染,发生率为15.24%。合并糖尿病(X_(1))、切口长度(X_(2))、手术时间(X_(3))、出血量(X_(4))、联合脏器切除(X_(5))、术后发生吻合口瘘(X_(6))、术后引流管留置时间(X7)是结直肠癌患者术后发生腹腔感染的危险因素(P<0.05)。得到原始预警模型P_(1)=1/[1+e^(-(-5.009+1.190X_(1)+0.737X_(2)+0.905X_(3)+0.941X_(4)+1.028X_(5)+1.047X_(6)+0.929X_(7)))]和基于SMOTE算法的预警模型P_(2)=1/[1+e^(-(-6.152+1.251X_(1)+0.788X_(2)+0.915X_(3)+0.972X_(4)+1.109X_(5)+1.276X_(6)+0.958X_(7)))]。基于SMOTE算法的预警模型P_(2)的AUC值[0.833(95%CI:0.792~0.854)]高于原始预警模型P_(1)的AUC值[0.814(95%CI:0.765~0.826)]。结论基于SMOTE算法构建的预警模型AUC值高于原始预警模型,其预测性能更优。 展开更多
关键词 结直肠癌患者 腹腔感染 预警模型 smote算法 术后
暂未订购
基于SMOTE算法的航班正常率预测 被引量:1
2
作者 张嘉懿 胡明华 黄梵根 《华东交通大学学报》 2025年第3期57-66,共10页
为实现对航班正常率的精准预测,根据航班延误原因进行数据统计,构建了包含起飞机场、目的地机场、流控信息、航路航线性质的航班正常预测指标体系,提出了基于SMOTE算法的XGBoost分类预测模型(SM-XGBoost模型)和基于SMOTE算法的LightGBM... 为实现对航班正常率的精准预测,根据航班延误原因进行数据统计,构建了包含起飞机场、目的地机场、流控信息、航路航线性质的航班正常预测指标体系,提出了基于SMOTE算法的XGBoost分类预测模型(SM-XGBoost模型)和基于SMOTE算法的LightGBM分类预测模型(SM-LightGBM模型),并以华东地区主要机场实际数据为基础,对所提模型的有效性和先进性进行了验证。结果表明:SM-XGBoost模型和SM-LightGBM模型在预测准确度和误差上明显优于决策树和随机森林模型;在训练集和测试集稳定性上,SM-LightGBM模型优于SM-XGBoost模型,对测试集的预测准确率最高达88.2%。该方法为类似复杂系统事件预测提供了一种新的分析思路。 展开更多
关键词 smote算法 航班正常率 XGBoost模型
在线阅读 下载PDF
基于GRU-Attention网络与SMOTE算法的疲劳驾驶检测方法 被引量:2
3
作者 周纪 《汽车实用技术》 2025年第9期46-51,66,共7页
文章提出了一种基于合成少数类过采样技术(SMOTE)、门控循环单元(GRU)神经网络与注意力(Attention)机制的疲劳驾驶检测方法。疲劳驾驶是导致交通事故的重要因素,尤其在长途驾驶或夜间行车时,驾驶员的警觉度会下降。文章通过分析方向盘... 文章提出了一种基于合成少数类过采样技术(SMOTE)、门控循环单元(GRU)神经网络与注意力(Attention)机制的疲劳驾驶检测方法。疲劳驾驶是导致交通事故的重要因素,尤其在长途驾驶或夜间行车时,驾驶员的警觉度会下降。文章通过分析方向盘转角数据,提取驾驶员行为特征,判断其疲劳状态。为解决数据不平衡问题,文章采用SMOTE算法对少数类样本进行过采样,缓解了类别不平衡对模型训练的影响,研究共采集了4 320个驾驶片段样本,并将疲劳程度划分为三类:正常、疲劳、非常疲劳。结合GRU神经网络和Attention机制(GRU能够处理长时序数据,而Attention机制能够帮助网络关注关键时刻的转角变化),提高疲劳特征的识别能力。实验结果表明,所提出的方法在疲劳驾驶检测中取得了98%以上的命中率(POD),能够有效识别不同疲劳程度,对交通安全具有重要意义。 展开更多
关键词 疲劳驾驶 smote算法 GRU神经网络 Attention机制
在线阅读 下载PDF
基于Borderline-SMOTE和OOA-SVM的心脏病诊断预测模型 被引量:2
4
作者 祖璇 张广海 《兰州文理学院学报(自然科学版)》 2025年第1期46-52,共7页
为实现心脏病精准预测,构建了一种预测准确率较高的心脏病诊断预测模型.首先对原始数据集进行pearson相关性分析和归一化处理;然后采用过采样技术Borderline-SMOTE算法,平衡训练数据集的少数类;之后利用鱼鹰优化算法(Osprey Optimizatio... 为实现心脏病精准预测,构建了一种预测准确率较高的心脏病诊断预测模型.首先对原始数据集进行pearson相关性分析和归一化处理;然后采用过采样技术Borderline-SMOTE算法,平衡训练数据集的少数类;之后利用鱼鹰优化算法(Osprey Optimization Algorithm,OOA)优化支持向量机(support vector machine,SVM),获得最优参数组合(C,g);最后在测试数据集上进行分类预测.与SSA-SVM、SMA-SVM和SVM相比,本文方法OOA-SVM的预测准确率最高,达到了95.08%,且模型稳定性最好. 展开更多
关键词 Borderline-smote 鱼鹰优化算法 支持向量机 心脏病诊断预测
在线阅读 下载PDF
基于SMOTE的TDBO-SVM变压器故障诊断
5
作者 孟秋彤 刘为国 朱洪波 《佳木斯大学学报(自然科学版)》 2025年第7期9-12,16,共5页
变压器在电力系统中发挥着至关重要的作用,为了保证变压器故障诊断的可靠性,提出了基于合成少数类过采样技术(SMOTE)的TDBO-SVM变压器故障诊断模型。首先,通过SMOTE均衡数据集,降低不平衡故障数据对模型诊断精度的影响;其次,引入了SPM... 变压器在电力系统中发挥着至关重要的作用,为了保证变压器故障诊断的可靠性,提出了基于合成少数类过采样技术(SMOTE)的TDBO-SVM变压器故障诊断模型。首先,通过SMOTE均衡数据集,降低不平衡故障数据对模型诊断精度的影响;其次,引入了SPM混沌映射、可变螺旋搜索策略、Levy飞行策略、自适应t分布扰动变异对蜣螂算法进行改进;随后利用TDBO对SVM的惩罚参数和核参数进行组合寻优,建立TDBO-SVM模型;最后,对不同变压器故障诊断模型进行实例仿真对比,验证了该模型在油浸式变压器故障诊断中具有较高的诊断精度和较好的收敛性。 展开更多
关键词 smote 改进蜣螂优化算法 SVM 变压器 故障诊断
在线阅读 下载PDF
基于改进SMOTE算法的体育运动录入系统的不平衡数据分类研究分析
6
作者 姚继富 黄鹏霖 《微型电脑应用》 2025年第11期39-42,共4页
不平衡体育数据成绩具有高维和分布不平衡的双重特征,对于不平衡分类问题,大多数传统分类模型往往需要大量的标注样本,导致不平衡数据分类效率低。因此提出利用基于SMOTE算法和正态分布思想,将原SMOTE算法中的均匀随机分布替换为正态随... 不平衡体育数据成绩具有高维和分布不平衡的双重特征,对于不平衡分类问题,大多数传统分类模型往往需要大量的标注样本,导致不平衡数据分类效率低。因此提出利用基于SMOTE算法和正态分布思想,将原SMOTE算法中的均匀随机分布替换为正态随机分布,使新生成的样本点以更高的概率分布在少数样本中心附近,避免扩展数据的边缘化,提高不平衡数据分类效率。实验结果表明,随着过采样倍数增加,准确率、召回率、F_(1)分数呈先增加后下降趋势。过采样倍数为1和5时,准确率等评估指标变化幅度较小,当过采样倍数为10时,准确率、召回率、F_(1)分数增加幅度明显增加,最大准确率为97.77%。当不平衡比从1∶20变为1∶30时,改进SMOTE算法的精度从99.08%下降到98.67%。当不平衡比非常大时,改进SMOTE算法仍有较高的分类精度。 展开更多
关键词 smote算法 正态分布 采样倍数 分类精度
在线阅读 下载PDF
基于SMOTE改进方法的交通事故风险预测模型
7
作者 江煦宁 薛雅慧 王一菲 《智能计算机与应用》 2025年第7期42-47,共6页
近年来,交通事故发生率居高不下,给社会稳定和经济发展造成了严重影响。交通事故预测属于不平衡数据的二分类问题,具有数据量大、样本不平衡率高、计算强度大等问题。采集G15上海路段高速公路交通数据,采用合成少数类样本过采样技术(Syn... 近年来,交通事故发生率居高不下,给社会稳定和经济发展造成了严重影响。交通事故预测属于不平衡数据的二分类问题,具有数据量大、样本不平衡率高、计算强度大等问题。采集G15上海路段高速公路交通数据,采用合成少数类样本过采样技术(Synthetic Minority Oversampling Technique,SMOTE)改进方法和机器学习、深度学习模型结合,改善SMOTE方法合成数据时的盲目性和不同分类模型处理不平衡数据时产生的过拟合问题,分类探究了不同模型对交通事故风险预测的适用性和鲁棒性,并针对实验数据得出结论。实验表明,属性分类合成过采样(Attribute-Synthetic Minority Oversampling Technique,ASMOTE)和极致梯度提升(eXtreme Gradient Boosting,XGBoost),改进合成过采样(Improved Synthetic Minority Oversampling Technique,ISMOTE)和随机森林(Random Forest,RF)两种结合模型在交通事故预测领域具有一定优势。运用SMOTE改进方法有效避免了交通事故样本误分类率高的问题,提升了交通事故风险预测的准确性,为实现交通事故预测提供解决策略与方向。 展开更多
关键词 交通事故 风险预测 不平衡数据 过采样 smote改进方法
在线阅读 下载PDF
基于SMOTE算法与可解释性机器学习的鼻咽癌远处转移预测模型研究
8
作者 赵迎喜 梁立莉 +4 位作者 黄雪旗 罗香妮 蒋效益 蓝柳 谢园枝 《右江医学》 2025年第10期912-920,共9页
目的 构建基于SMOTE算法和可解释性机器学习的鼻咽癌(NPC)远处转移预测模型,评估不同算法的预测性能,并通过SHAP解释方法和PR曲线解析模型决策依据,为NPC远处转移的早期预测提供临床辅助工具。方法 收集广西科技大学第二附属医院于2020... 目的 构建基于SMOTE算法和可解释性机器学习的鼻咽癌(NPC)远处转移预测模型,评估不同算法的预测性能,并通过SHAP解释方法和PR曲线解析模型决策依据,为NPC远处转移的早期预测提供临床辅助工具。方法 收集广西科技大学第二附属医院于2020年1月至2023年12月期间收治的145例NPC患者的临床及实验室检查资料。对数据差异性进行分析,筛选NPC远处转移组与未转移组间有统计学意义的指标作为特征变量。采用四种机器学习算法(XGBoost、随机森林、LightGBM和逻辑回归)构建NPC远处转移预测模型,基于准确率、精确率、召回率、F1得分和受试者工作特征(ROC)曲线下面积(AUC)值五个常用评价指标,并结合ROC曲线和PR曲线选取最优的预测模型,对最优模型进行SHAP可解释性分析,以挖掘影响NPC远处转移的关键特征变量。结果 在未处理类别不平衡的情况下,XGBoost模型展现出最优的预测性能,其AUC值达到0.86,准确率为0.86,F1得分为0.72,敏感性为0.62,特异性为0.97。采用SMOTE算法进行过采样平衡类别后,XGBoost模型的性能进一步提升,AUC值达到0.96,准确率为0.92,F1得分为0.93,敏感性为0.91,特异性为0.93。PR曲线分析结果表明,XGBoost模型在不同阈值下均表现出良好的稳定性。在SHAP模型解释中,鳞状细胞癌抗原、红细胞分布宽度和细胞角蛋白19片段被识别为对NPC远处转移预测结果具有显著影响的重要特征。结论 基于SMOTE和XGBoost的预测模型能有效识别NPC远处转移风险,结合SHAP可解释性分析,为临床提供了具有生物学意义的决策依据。该模型有望辅助医生早期筛选高风险患者,制订个体化治疗策略。 展开更多
关键词 鼻咽癌 机器学习 预测模型 SHAP值 smote算法
暂未订购
基于SMOTE算法构建糖尿病足溃疡患者风险预测模型的初步探索
9
作者 郭福蝶 李希西 +3 位作者 李叶萍 罗杨 张红梅 白迎春 《北京生物医学工程》 2025年第3期284-289,共6页
目的探索糖尿病患者发生糖尿病足溃疡(diabetic foot ulcers,DFU)的独立风险因素,并基于SMOTE算法构建预警模型。方法回顾性分析2017年2月至2021年2月期绵阳市中心医院收治的272例糖尿病患者的临床资料,根据患者是否发生DFU将患者分为DF... 目的探索糖尿病患者发生糖尿病足溃疡(diabetic foot ulcers,DFU)的独立风险因素,并基于SMOTE算法构建预警模型。方法回顾性分析2017年2月至2021年2月期绵阳市中心医院收治的272例糖尿病患者的临床资料,根据患者是否发生DFU将患者分为DFU组和非DFU组,采用多因素Logistic回归分析筛选糖尿病DFU的独立风险因素并构建预测模型X_(1),同时基于SMOTE算法改进数据集,构建预警模型X_(2),并对比验证模型的预测效能,内部验证方法采用5折交叉验证。结果高血压、周围神经病变、C反应蛋白(C-reactive protein,CRP)≥8 mg/L、糖化血红蛋白(glycosylated hemoglobin,type A1C,HbA1c)≥6%、纤维蛋白原(fibrinogen,FIB)≥4 g/L为糖尿病患者发生DFU的独立风险因素(P<0.05)。基于上述风险因素建立预警模型X_(1)的ROC曲线下面积为0.888(95%CI:0.826~0.951),基于SMOTE算法改进数据集的预警模型X_(2)的ROC曲线下面积为0.916(95%CI:0.891~0.941),两者均具有较高的预测精准度,但后者的预测效果稍高于前者。5折交叉验证的模型正确率为77.2%。结论高血压或血压升高、发生周围神经病变及高CRP、HbA1c、FIB水平均是糖尿病足溃疡的独立风险因素,在临床治疗中应重点关注。基于SMOTE过抽样算法建立的风险预警模型具有较高的预测效能,临床可根据上述因予以足溃疡高危人群制定相应的防治措施。 展开更多
关键词 smote算法 糖尿病足溃疡 LOGISTIC分析 风险预测模型
暂未订购
融合改进K-SMOTE与LightGBM算法的故障检测方法
10
作者 包家丽 《现代信息科技》 2025年第15期174-178,共5页
针对工业故障检测中类别不平衡数据导致的模型泛化能力弱、对少数类故障识别精度不足等问题,文章提出一种融合聚类优化与集成学习的分类框架,旨在提升多类故障检测的鲁棒性与准确性。采用了基于K-means聚类的改进SMOTE算法(K-SMOTE),通... 针对工业故障检测中类别不平衡数据导致的模型泛化能力弱、对少数类故障识别精度不足等问题,文章提出一种融合聚类优化与集成学习的分类框架,旨在提升多类故障检测的鲁棒性与准确性。采用了基于K-means聚类的改进SMOTE算法(K-SMOTE),通过簇内样本插值策略增强少数类样本的分布合理性,结合随机K折交叉验证动态划分均衡化数据集,构建LightGBM算法训练集成分类模型。在UCI钢板缺陷数据集上的实验表明,所提方法的准确率、精确率及召回率分别达到0.930、0.920和0.920,显著优于随机森林和MLP等模型,各类别ROC曲线的AUC值均高于0.98,最高达1.00,验证了其对复杂故障模式的高区分能力。 展开更多
关键词 工业故障诊断 K-smote算法 LightGBM
在线阅读 下载PDF
基于SMOTE算法的岩爆烈度等级预测模型研究
11
作者 李璐佳 周爱红 +1 位作者 袁颖 戎密仁 《河北地质大学学报》 2025年第3期30-37,共8页
为了解决岩爆数据库中存在数据不均衡的问题,导致岩爆预测准确率较低等问题,基于SMOTE(synthetic minority oversampling technique)过采样算法提出了SMOTE-随机森林、SMOTE-梯度提升决策树、SMOTE-支持向量机、SMOTE-BP神经网络、SMOTE... 为了解决岩爆数据库中存在数据不均衡的问题,导致岩爆预测准确率较低等问题,基于SMOTE(synthetic minority oversampling technique)过采样算法提出了SMOTE-随机森林、SMOTE-梯度提升决策树、SMOTE-支持向量机、SMOTE-BP神经网络、SMOTE-卷积神经网络5种模型。选取6个指标,并将岩爆烈度等级划分为4个等级,以此建立岩爆指标体系。然后,针对岩爆数据库存在数据不均衡问题,使用SMOTE过采样算法扩增数据库。最后引入5种常用的机器学习模型预测岩爆烈度等级,并将这5种模型分别对原始的岩爆数据库和经过SMOTE算法后的岩爆数据库进行预测,验证预处理过程的有效性。结果表明:1)相比于传统模型,引入SMOTE算法后,模型预测准确率提高了10.000%~35.000%;2)SMOTE-随机森林模型相比于其他4种模型预测准确率最高。 展开更多
关键词 岩爆 smote过采样算法 随机森林 烈度等级预测
在线阅读 下载PDF
基于LightGBM-SMOTE模型的新能源上市公司财务困境预警研究
12
作者 李泗颍 史新和 《金陵科技学院学报(社会科学版)》 2025年第3期25-32,共8页
以我国新能源上市公司为研究对象,基于2014—2024年沪深A股73家ST新能源公司数据和作为对照样本的219家非ST公司的配对样本数据,利用LightGBM算法和SMOTE技术构建财务困境预警模型,并与其他财务困境预警模型进行对比分析。结果表明:Ligh... 以我国新能源上市公司为研究对象,基于2014—2024年沪深A股73家ST新能源公司数据和作为对照样本的219家非ST公司的配对样本数据,利用LightGBM算法和SMOTE技术构建财务困境预警模型,并与其他财务困境预警模型进行对比分析。结果表明:LightGBM-SMOTE模型预测效能显著优于随机森林、决策树、BP神经网络、XGBoost、CatBoost以及未使用SMOTE技术的LightGBM等基准模型。在此基础上,对特征重要性进行分析,发现政府补助占利润比、营业净利率、净资产收益率、资产报酬率、总资产增长率和前十大股东持股比例是识别财务困境的关键指标。基于研究结论,对新能源企业财务风险管理提出如下建议:构建常态化预警机制,动态监测关键指标变化趋势;通过技术创新与成本优化增强内生盈利能力,降低对政府补贴的依赖程度;完善治理机制,优化股权结构,强化独立董事的监督作用。 展开更多
关键词 新能源上市公司 财务困境预警 机器学习 LightGBM算法 smote技术
在线阅读 下载PDF
改进SMOTE的非平衡数据集分类算法研究 被引量:28
13
作者 赵清华 张艺豪 +1 位作者 马建芬 段倩倩 《计算机工程与应用》 CSCD 北大核心 2018年第18期168-173,共6页
针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本... 针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本集分布趋于中心化,用更少的正类样本点人为构造样本,从而达到限制样本区域、降低算法复杂度的目的。在6种不平衡数据集上的大量实验表明,改进算法与传统算法相比,算法消耗时间大幅减少,取得更高的G-mean值、F-value值和AUC值。 展开更多
关键词 随机森林 smote算法 不平衡数据集
在线阅读 下载PDF
基于SMOTE算法的颅脑损伤患者继发精神障碍预警模型 被引量:8
14
作者 孙秀彬 辛涛 +1 位作者 薛付忠 庞琦 《中国卫生统计》 CSCD 北大核心 2013年第6期790-793,共4页
目的分析颅脑损伤患者继发精神障碍的影响因素,同时考虑病例和非病例间数量不平衡的特点,构建基于SMOTE算法的logistic预警模型。方法根据2008年山东省18家医院的颅脑损伤患者继发精神障碍的数据,利用logistic回归分析筛选影响因素并建... 目的分析颅脑损伤患者继发精神障碍的影响因素,同时考虑病例和非病例间数量不平衡的特点,构建基于SMOTE算法的logistic预警模型。方法根据2008年山东省18家医院的颅脑损伤患者继发精神障碍的数据,利用logistic回归分析筛选影响因素并建立基于原始数据的预警模型;在此基础上,采用SMOTE过抽样算法改进数据集,并构建基于改进数据集的精神障碍预警模型。结果额叶脑挫伤、弥漫性轴索损伤、并发颅内感染、颞叶硬膜下血肿、颅盖骨线性骨折、颅内积气、患者性别和颅脑损伤严重程度(GCS评分)均为颅脑损伤患者发生精神障碍的危险因素;而基于SMOTE过抽样算法所构建预警模型的预测效果明显优于利用原始数据所建模型的效果。结论基于SMOTE过抽样算法所构建的预警模型能更准确预测颅脑损伤患者继发的精神障碍。 展开更多
关键词 smote算法 过抽样 颅脑损伤精神障碍
暂未订购
面向不平衡数据集的SMOTE-SVM交通事件检测算法 被引量:10
15
作者 郑文昌 陈淑燕 王宣强 《武汉理工大学学报》 CAS CSCD 北大核心 2012年第11期58-62,123,共6页
针对现实中交通正常运行状态远多于事件状态这一事实,提出了面向不平衡数据集的交通事件检测算法。运用SMOTE(Synthetic Minority Over-sampling Technique)算法重构训练集,使之平衡,以支持向量机(Support VectorMachine,SVM)作为分类器... 针对现实中交通正常运行状态远多于事件状态这一事实,提出了面向不平衡数据集的交通事件检测算法。运用SMOTE(Synthetic Minority Over-sampling Technique)算法重构训练集,使之平衡,以支持向量机(Support VectorMachine,SVM)作为分类器,对交通事件进行检测。使用美国I-880高速公路获取的交通数据进行算法的训练和性能测试。结果表明,基于SMOTE-SVM的交通事件自动检测(Automatic Incident Detection,AID)算法可以提高检测率,减少平均检测时间。 展开更多
关键词 交通事件检测 不平衡数据集 smote算法 支持向量机
原文传递
基于KM-SMOTE和随机森林的不平衡数据分类 被引量:22
16
作者 陈斌 苏一丹 黄山 《计算机技术与发展》 2015年第9期17-21,共5页
基于SMOTE算法的随机森林能够很好地处理不平衡数据集的分类,是一种通过对数据进行改造以达到良好分类要求的分类器。但SMOTE算法在处理不平衡数据后,可能会导致不平衡数据集分布的整体变化以及模糊正负类边界。这两个缺陷极易导致平衡... 基于SMOTE算法的随机森林能够很好地处理不平衡数据集的分类,是一种通过对数据进行改造以达到良好分类要求的分类器。但SMOTE算法在处理不平衡数据后,可能会导致不平衡数据集分布的整体变化以及模糊正负类边界。这两个缺陷极易导致平衡后的数据与原始数据集有很大差异,从而使分类结果有提高但仍旧不够理想。K-means算法能够有效地聚类,并达到对数据分布的描述。在此基础上,结合K-means算法与SMOTE算法,利用两者优点,文中提出了一种基于K-means的KM-SMOTE算法,有效地解决了上述两个问题。并用于随机森林分类器进行实验,结果表明,改进后的算法分类效果更加明显。 展开更多
关键词 smote算法 随机森林 不平衡数据集
在线阅读 下载PDF
基于SMOTE算法的化疗肿瘤患者下呼吸道感染预警模型构建 被引量:13
17
作者 王梅英 杨敏 +1 位作者 刘佳微 张慧琳 《中国感染控制杂志》 CAS CSCD 北大核心 2021年第12期1094-1101,共8页
目的构建基于少数类样本合成过抽样技术(synthetic minority over-sampling technique,SMOTE)算法的化学治疗(化疗)肿瘤患者下呼吸道感染预警模型。方法共纳入西宁市4所三级医院2019年1月—2021年6月收治的2384例接受化疗的肿瘤患者为... 目的构建基于少数类样本合成过抽样技术(synthetic minority over-sampling technique,SMOTE)算法的化学治疗(化疗)肿瘤患者下呼吸道感染预警模型。方法共纳入西宁市4所三级医院2019年1月—2021年6月收治的2384例接受化疗的肿瘤患者为研究对象,将所收集病例按照7∶3的比例随机分为建模组1668例和验证组716例,建模组数据用来建立模型,验证组数据对所建立的模型进行验证,利用单因素比较和logistic回归分析筛选下呼吸道感染影响因素,基于SMOTE算法建立化疗肿瘤患者下呼吸道感染预警模型。结果logistic回归分析可得,年龄(x_(1))、身体质量指数(BMI)值是否正常(x_(2))、恶性肿瘤分期(x_(3))、吸烟史(x_(4))、合并糖尿病(x_(5))、合并肺部疾病(x_(6))均是化疗肿瘤患者下呼吸道感染的危险因素(均P<0.01),获得原始数据预警模型:Logit(P)=0.055x_(1)+0.967x_(2)-0.195x_(3)+1.383x_(4)+0.968x_(5)+0.939x_(6)-14.073和基于SMOTE算法的预警模型:Logit(P)=0.090x_(1)+1.092x_(2)-0.249x_(3)+1.724x_(4)+1.136x_(5)+1.344x_(6)-14.859。基于SMOTE算法预警模型AUC为0.949(95%CI:0.937~0.961),高于原始数据预警模型AUC 0.780(95%CI:0.734~0.846)。结论基于SMOTE算法所构建的预警模型能更准确预警化疗肿瘤患者下呼吸道感染,有效解决感染与非感染患者样本数据不平衡所导致的预测误差,基于预测模型可选择相应的对策进行应对。 展开更多
关键词 smote算法 化疗 肿瘤 下呼吸道感染 预警模型
暂未订购
SMOTE过采样及其改进算法研究综述 被引量:79
18
作者 石洪波 陈雨文 陈鑫 《智能系统学报》 CSCD 北大核心 2019年第6期1073-1083,共11页
近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了... 近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和应用提供有价值的借鉴和参考。 展开更多
关键词 不平衡数据分类 smote 算法 K-NN 过采样 欠采样 高维数据 分类型数据
在线阅读 下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
19
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数类过采样技术(smote)算法 条件生成对抗网络 XGBoost模型 分类问题
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部