期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
Over-sampling algorithm for imbalanced data classification 被引量:14
1
作者 XU Xiaolong CHEN Wen SUN Yanfei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第6期1182-1191,共10页
For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic... For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic minority over-sampling technique(SMOTE) is specifically designed for learning from imbalanced datasets, generating synthetic minority class examples by interpolating between minority class examples nearby. However, the SMOTE encounters the overgeneralization problem. The densitybased spatial clustering of applications with noise(DBSCAN) is not rigorous when dealing with the samples near the borderline.We optimize the DBSCAN algorithm for this problem to make clustering more reasonable. This paper integrates the optimized DBSCAN and SMOTE, and proposes a density-based synthetic minority over-sampling technique(DSMOTE). First, the optimized DBSCAN is used to divide the samples of the minority class into three groups, including core samples, borderline samples and noise samples, and then the noise samples of minority class is removed to synthesize more effective samples. In order to make full use of the information of core samples and borderline samples,different strategies are used to over-sample core samples and borderline samples. Experiments show that DSMOTE can achieve better results compared with SMOTE and Borderline-SMOTE in terms of precision, recall and F-value. 展开更多
关键词 imbalanced data density-based spatial clustering of applications with noise(DBSCAN) synthetic minority over sampling technique(SMOTE) over-sampling.
在线阅读 下载PDF
A novel integrated framework for enhanced water source identification
2
作者 CHAI Xin MA Xiaomin +4 位作者 LI Han WU Baobao LIU Junsheng GUAN Haipeng YANG Zhenwei 《Journal of Mountain Science》 2026年第3期1318-1333,共16页
Accurate identification of water sources is crucial for effective water management and safety in mining operations.However,imbalanced water sample datasets often lead to suboptimal classification accuracy.To address t... Accurate identification of water sources is crucial for effective water management and safety in mining operations.However,imbalanced water sample datasets often lead to suboptimal classification accuracy.To address this challenge,this study proposes a novel water source identification method integrating Synthetic Minority Over-Sampling Technique(SMOTE),Zebra Optimization Algorithm(ZOA),and Light Gradient Boosting Machine(LightGBM).Initially,SMOTE is utilized to synthesize samples for the minority class within the imbalanced dataset,thereby generating a balanced water sample dataset and mitigating class distribution disparities.Subsequently,an efficient water source identification model is constructed by combining ZOA with LightGBM,leveraging the strengths of both algorithms.The model’s performance is validated using a test set and compared with other common classification models.Results demonstrate that SMOTE significantly alleviates class imbalance and enhances the classification accuracy of LightGBM for minority class water samples.ZOA parameter tuning accelerates model convergence and further improves classification accuracy,optimizing the model’s overall performance.In experimental validation,the proposed SMOTE-ZOA-LightGBM model achieved an accuracy of 88.41%and a F1 score of 88.24%,outperforming six other classification models.The method proposed in this paper can accurately identify water source types,effectively addressing the issue of low classification accuracy caused by imbalanced water sample data.It provides reliable technical support and scientific basis for identifying and preventing water inrush sources in mines. 展开更多
关键词 Water source identification Machine learning synthetic minority over-sampling technique Zebra Optimization algorithm Isolation Forest
原文传递
深部高应力区岩爆烈度等级预测模型及应用
3
作者 祁云 白晨浩 +3 位作者 段宏飞 代连朋 李绪萍 汪伟 《高压物理学报》 北大核心 2026年第2期73-88,共16页
为确保深部高应力区岩土工程的施工安全,提升岩爆烈度等级预测的精准度,针对岩爆的突发性和复杂性,提出了一种基于鲸鱼优化算法(whale optimization algorithm,WOA)与极端梯度提升树(extreme gradient boosting,XGBoost)的组合岩爆烈度... 为确保深部高应力区岩土工程的施工安全,提升岩爆烈度等级预测的精准度,针对岩爆的突发性和复杂性,提出了一种基于鲸鱼优化算法(whale optimization algorithm,WOA)与极端梯度提升树(extreme gradient boosting,XGBoost)的组合岩爆烈度等级预测模型。首先,分析了影响岩爆烈度等级的主控因素,选取单轴抗压强度、最大切向应力、单轴抗拉强度、脆性系数、应力系数和弹性能量指数建立岩爆烈度等级预测指标体系,引入Pearson相关系数、链式方程多重插补法、合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)和主成分分析法处理原始样本。其次,通过WOA优化XGBoost模型的最大迭代次数、树的最大深度和学习率,并采用准确率、精准度、召回率、F1分数和科恩卡帕系数综合评价所建模型的预测结果。最后,将该模型应用于秦岭终南山公路隧道和江边水电站引水系统预测岩爆烈度等级。结果表明:经WOA优化后XGBoost模型的最大迭代次数、树的最大深度和学习率分别为51、13和0.7325时效果最佳;基于WOA-XGBoost岩爆烈度等级预测模型得到的结果与实际等级的拟合度优于传统智能算法模型;通过将WOA-XGBoost模型应用于工程实践中,验证了该模型预测岩爆烈度等级具有较高的准确度和可靠性。 展开更多
关键词 岩爆 鲸鱼优化算法(WOA) 极端梯度提升树(XGBoost) 链式方程多重插补法(MICE) 合成少数类过采样技术(SMOTE)
在线阅读 下载PDF
样本不平衡条件下煤矿突水水源识别——以谢桥煤矿为例
4
作者 王彦彬 闫晓杉 《安全与环境学报》 北大核心 2025年第7期2553-2561,共9页
为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条... 为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条谢桥煤矿水化学数据进行分析,首先对样本数据进行标准化处理和主成分分析(Principal Component Analysis, PCA),将数据集划分为训练集和测试集,对训练集中少数类样本采用SMOTE法生成新的样本,然后采用改进混沌哈里斯鹰优化(Chaos Harris Hawks Optimization, CHHO)算法结合十折交叉验证优化支持向量机惩罚因子C和径向基函数(Radial Basis Function, RBF)核的参数γ,根据优化结果建立突水水源识别模型,对测试集中突水水源进行识别。将该方法与朴素贝叶斯、随机森林所得结果进行比较,结果显示,采用本方法对测试集识别结果准确性优于其他两种方法,表明该方法在突水水源识别上具有良好的实用性和有效性。 展开更多
关键词 安全工程 突水水源识别 主成分分析 合成少数类过采样技术 混沌哈里斯鹰优化算法 支持向量机
原文传递
基于LASSO回归与随机森林算法的心血管代谢性共病危险因素 被引量:2
5
作者 张书迎 许珊 +3 位作者 谭艳芳 凌可欣 李元 刘相佟 《中华疾病控制杂志》 北大核心 2025年第1期82-88,共7页
目的 基于LASSO回归和随机森林算法分析心血管代谢性共病(cardiometabolic multimorbidity,CMM)的危险因素,为临床决策提供依据。方法 基于中国健康与养老追踪调查(China health and retirement longitudinal study,CHARLS)2011―2020... 目的 基于LASSO回归和随机森林算法分析心血管代谢性共病(cardiometabolic multimorbidity,CMM)的危险因素,为临床决策提供依据。方法 基于中国健康与养老追踪调查(China health and retirement longitudinal study,CHARLS)2011―2020年随访14 358名≥45岁人群的数据,通过LASSO回归和随机森林的特征重要性评估进行变量筛选后,将研究对象按8∶2的比例随机分为训练集和测试集,利用合成少数样本过采样方法(synthetic minority over-sampling technique,SMOTE)将训练集调整为平衡数据集,应用随机森林算法构建疾病预测模型,应用网格搜索和5折交叉验证优化预测模型。采用敏感性分析保证模型的稳健性。结果 该预测模型的准确率达到99.46%,召回率达到69.03%,F1得分为0.82,平均曲线下面积为0.93,敏感性分析显示,模型具有良好稳健性。性别、年龄、腰围、职业、教育程度、空腹血糖、不良行为生活方式、基线自报疾病、风速、使用不清洁能源等可作为CMM的发病预测因素(均P<0.05)。结论 本研究成功构建了CMM的预测模型,发现多种危险因素与CMM发生相关,为临床医生在CMM高危群体中实施早期干预提供科学依据。 展开更多
关键词 心血管代谢性共病 LASSO回归 随机森林算法 合成少数样本过采样方法
原文传递
基于HEOA-XGBoost组合模型的边坡稳定性预测
6
作者 祁云 白晨浩 +3 位作者 秦凯 段宏飞 李绪萍 汪伟 《中国安全科学学报》 北大核心 2025年第9期137-144,共8页
为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因... 为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因素建立边坡稳定性预测指标体系;其次利用极差标准化统一样本量纲,并采用合成少数类过采样技术(SMOTE)平衡样本等级分布;然后通过HEOA优化XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失;最后利用准确率、精确率、召回率、F_(1)分数和科恩卡帕系数综合评价所建模型的预测结果,并将该模型应用于具体工程实例。结果表明:经HEOA优化后XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失分别为6、0.5838、0.4615、0.5846和0.0244时效果凸显;HEOA-XGBoost组合模型预测边坡稳定性状态相比于其他智能算法优化的XGBoost模型和单一XGBoost模型,其各评价指标均有所提升,表明该模型预测边坡稳定性状态具有较高的精准度和泛化性。 展开更多
关键词 边坡稳定性 人类进化优化算法(HEOA) 极端梯度提升(XGBoost) 极差标准化 合成少数类过采样技术(SMOTE)
原文传递
XGBoost-Liver:An Intelligent Integrated Features Approach for Classifying Liver Diseases Using Ensemble XGBoost Training Model
7
作者 Sumaiya Noor Salman A.AlQahtani Salman Khan 《Computers, Materials & Continua》 2025年第4期1459-1474,共16页
The liver is a crucial gland and the second-largest organ in the human body and also essential in digestion,metabolism,detoxification,and immunity.Liver diseases result from factors such as viral infections,obesity,al... The liver is a crucial gland and the second-largest organ in the human body and also essential in digestion,metabolism,detoxification,and immunity.Liver diseases result from factors such as viral infections,obesity,alcohol consumption,injuries,or genetic predispositions.Pose significant health risks and demand timely diagnosis and treatment to enhance survival rates.Traditionally,diagnosing liver diseases relied heavily on clinical expertise,often leading to subjective,challenging,and time-intensive processes.However,early detection is essential for effective intervention,and advancements in machine learning(ML)have demonstrated remarkable success in predicting various conditions,including Chronic Obstructive Pulmonary Disease(COPD),hypertension,and diabetes.This study proposed a novel XGBoost-liver predictor by integrating distinct feature methodologies,including Ranking and Statistical Projection-based strategies to detect early signs of liver disease.The Fisher score method is applied to perform global interpretation analysis,helping to select optimal features by assessing their contributions to the overall model.The performance of the proposed model has been extensively evaluated through k-fold cross-validation tests.Firstly,the performance of the proposed model is evaluated using individual and hybrid features.Secondly,the XGBoost-Liver model performance is compared to that of commonly used classifier algorithms.Thirdly,its performance is compared with the existing state-of-the-art computational models.The experimental results show that the proposed model performed better than the existing predictors,reaching an average accuracy rate of 92.07%.This paper demonstrates the potential of machine learning to improve liver disease prediction,enhance diagnostic accuracy,and enable timely medical interventions for better patient outcomes. 展开更多
关键词 Machine learning deep neural network SHAP(SHapley Additive exPlanation) liver disease classifica-tion SMOTE(synthetic minority over-sampling technique)
在线阅读 下载PDF
基于数据-特征增强与参数优化的变压器故障识别方法
8
作者 童宇轩 李灿 周佳炎 《电工电气》 2025年第12期42-47,共6页
针对油浸式电力变压器故障诊断中存在的样本不平衡及模型参数优化问题,提出一种基于数据-特征增强与自适应参数优化的油浸式变压器机器学习故障识别模型。通过合成少数类过采样技术(SMOTE)解决数据集故障类别不平衡问题,并结合IEC三比... 针对油浸式电力变压器故障诊断中存在的样本不平衡及模型参数优化问题,提出一种基于数据-特征增强与自适应参数优化的油浸式变压器机器学习故障识别模型。通过合成少数类过采样技术(SMOTE)解决数据集故障类别不平衡问题,并结合IEC三比值法构建多维故障特征增强数据集特征表征能力;采用融合正余弦策略和柯西变异机制的改进麻雀搜索算法(SCSSA)实现对机器学习模型的自适应调参,来有效提升最小二乘支持向量机(LSSVM)超参数寻优性能。实验对比表明,所提模型较传统模型具有更高的诊断精度和稳定性,对提升超期服役变压器的故障诊断能力具有工程应用价值。 展开更多
关键词 变压器 故障诊断 合成少数类过采样技术 改进麻雀搜索算法 最小二乘支持向量机
在线阅读 下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:27
9
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 分类 遗传算子 少数类样本合成过采样技术(SMOTE) synthetic minority over-sampling technique (SMOTE)
在线阅读 下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:11
10
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数类过采样技术(SMOTE) 构造性覆盖算法(CCA)
在线阅读 下载PDF
基于地质大数据的泥石流灾害易发性评价 被引量:20
11
作者 张永宏 葛涛涛 +2 位作者 田伟 夏广浩 何静 《计算机应用》 CSCD 北大核心 2018年第11期3319-3325,共7页
在地质大数据背景下,为了更加精准、客观地评估泥石流易发程度,提出一种基于神经网络的区域泥石流易发性评价模型,并结合使用平均影响值算法(MIV)、遗传算法(GA)、Borderline-SMOTE算法提升模型精度。在预处理阶段使用Borderline-SMOTE... 在地质大数据背景下,为了更加精准、客观地评估泥石流易发程度,提出一种基于神经网络的区域泥石流易发性评价模型,并结合使用平均影响值算法(MIV)、遗传算法(GA)、Borderline-SMOTE算法提升模型精度。在预处理阶段使用Borderline-SMOTE算法处理非平衡数据集的分类问题,之后采用神经网络拟合主要指标与易发程度的非线性关系并结合遗传算法提升拟合速度,最后结合MIV算法定量分析指标与易发程度相关性。选取雅鲁藏布江中上游流域作为研究区域,实验结果显示,模型能够有效降低非平衡数据集的过拟合,优化原始输入维度,同时在拟合速度上有了很大提升。采用AUC指标检验评价结果,测试集的分类精度达到97.95%,说明模型能够在非平衡数据集下为评价研究区域泥石流易发程度提供参考。 展开更多
关键词 地质大数据 泥石流 易发性 平均影响值算法 遗传算法 Borderline-SMOTE算法
在线阅读 下载PDF
基于AVOA-XGBoost模型的岩爆预测研究 被引量:10
12
作者 高永涛 朱强 +1 位作者 吴顺川 陈龙 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第12期151-157,共7页
为了安全高效地开采矿产资源,提出一种AVOA-XGBoost模型来预测岩爆烈度.依据初步选取的6个评价指标收集了326个岩爆案例,并采用Boruta算法和合成少数类过采样技术(SMOTE)进行特征筛选和解决类不平衡问题.经过预处理后的数据集通过分层... 为了安全高效地开采矿产资源,提出一种AVOA-XGBoost模型来预测岩爆烈度.依据初步选取的6个评价指标收集了326个岩爆案例,并采用Boruta算法和合成少数类过采样技术(SMOTE)进行特征筛选和解决类不平衡问题.经过预处理后的数据集通过分层抽样被划分为训练集(80%)和测试集(20%),分别用于训练和测试模型,结果表明:非洲秃鹰优化算法(AVOA)可以高效地确定XGBoost算法的超参数;与现有的智能模型相比,该模型的准确率优异,Kappa系数为0.92,且较单一的XGBoost模型表现出更优的收敛速度;对特征的重要性分析发现岩石的弹性能量指数对模型的贡献最大.最后,将模型应用于三山岛金矿工程案例,验证了AVOA-XGBoost模型在岩爆预测中的有效性和实用性. 展开更多
关键词 岩石力学 岩爆预测 极限梯度提升 非洲秃鹰优化算法 合成少数类过采样技术
原文传递
非平衡技术在高速网络入侵检测中的应用 被引量:3
13
作者 赵月爱 陈俊杰 穆晓芳 《计算机应用》 CSCD 北大核心 2009年第7期1806-1808,1812,共4页
针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的... 针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的数据进行学习建模,供在线部分检测。在讨论非平衡数据处理的各种采样技术基础上,采用改进后的过抽样少数样本合成过采样技术(SMOTE)对网络数据进行预处理,采用AdaBoost、随机森林算法等进行分类。另外对特征选取等方面进行了实验,结果表明SMOTE过抽样可提高各少数类的检测,随机森林算法分类效果好而且建模所用的时间稳定。 展开更多
关键词 高速网络 入侵检测 非平衡数据 少数样本合成过采样技术 集成学习 ADABOOST算法 随机森林算法
在线阅读 下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
14
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数类过采样技术(SMOTE)算法 条件生成对抗网络 XGBoost模型 分类问题
在线阅读 下载PDF
基于SVM的高维不平衡数据集分类算法 被引量:3
15
作者 赵小强 张露 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第2期452-461,共10页
由于数据量的不断增长,出现了大量的不平衡高维数据,传统的数据挖掘分类算法在处理这些数据时,易受到样本分布和维数的影响,存在分类性能不佳的问题.提出一种针对不平衡高维数据集的改进支持向量机(Supported Vector Machine,SVM)分类算... 由于数据量的不断增长,出现了大量的不平衡高维数据,传统的数据挖掘分类算法在处理这些数据时,易受到样本分布和维数的影响,存在分类性能不佳的问题.提出一种针对不平衡高维数据集的改进支持向量机(Supported Vector Machine,SVM)分类算法,首先通过核函数将数据集映射到特征空间中,再引入改进的核SMOTE(Kernel Synthetic Minority Over-sampling Technique)算法而得到正类样本,使两类样本数目平衡化;然后将维数高的数据集通过稀疏表示的方法投影到低维的空间中,实现降维;最后根据空间的距离关系来确定在输入空间中合成样本的原像,再对得到的平衡样本集通过SVM来分类,通过仿真实验验证了该算法对于高维不平衡数据集有较优的分类性能. 展开更多
关键词 高维不平衡数据集 分类算法 支持向量机(SVM) 核SMOTE 稀疏表示
在线阅读 下载PDF
针对非平衡警情数据改进的K-Means-Boosting-BP模型 被引量:4
16
作者 李卫红 童昊昕 《中国图象图形学报》 CSCD 北大核心 2017年第9期1314-1324,共11页
目的掌握警情的时空分布规律,通过机器学习算法建立警情时空预测模型,制定科学的警务防控方案,有效抑制犯罪的发生,是犯罪地理研究的重点。已有研究表明,警情时空分布多集中在中心城区或居民密集区,在时空上属于非平衡数据,这种数据的... 目的掌握警情的时空分布规律,通过机器学习算法建立警情时空预测模型,制定科学的警务防控方案,有效抑制犯罪的发生,是犯罪地理研究的重点。已有研究表明,警情时空分布多集中在中心城区或居民密集区,在时空上属于非平衡数据,这种数据的非平衡性通常导致在该数据上训练的模型成为弱学习器,预测精度较低。为解决这种非平衡数据的回归问题,提出一种基于KMeans均值聚类的Boosting算法。方法该算法以Boosting集成学习算法为基础,应用GA-BP神经网络生成基分类器,借助KMeans均值聚类算法进行基分类器的集成,从而实现将弱学习器提升为强学习器的目标。结果与常用的解决非平衡数据回归问题的Synthetic Minority Oversampling Technique Boosting算法,简称SMOTEBoosting算法相比,该算法具有两方面的优势:1)在降低非平衡数据中少数类均方误差的同时也降低了数据的整体均方误差,SMOTEBoosting算法的整体均方误差为2.14E-04,KMeans-Boosting算法的整体均方误差达到9.85E-05;2)更好地平衡了少数类样本识别的准确率和召回率,KMeans-Boosting算法的召回率约等于52%,SMOTEBoosting算法的召回率约等于91%;但KMeans-Boosting算法的准确率等于85%,远高于SMOTEBoosting算法的19%。结论 KMeans-Boosting算法能够显著的降低非平衡数据的整体均方误差,提高少数类样本识别的准确率和召回率,是一种有效地解决非平衡数据回归问题和分类问题的算法,可以推广至其他需要处理非平衡数据的领域中。 展开更多
关键词 非平衡数据 synthetic minority OVERSAMPLING technique算法 BOOSTING算法 KMeans聚类算法 警情时空预测
原文传递
一种基于随机森林的OFDM系统自适应算法 被引量:2
17
作者 王波 刘潇然 +2 位作者 熊俊 辜方林 张晓瀛 《信号处理》 CSCD 北大核心 2024年第6期1007-1018,共12页
针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间... 针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间隔和循环前缀长度取值,本文提出了基于随机森林的OFDM系统自适应算法。随机森林算法基于集成的思想,能够有效处理高维度数据,并且具有高效率、高准确率和强泛化能力等优势,可以在复杂的数据场景下进行有效的分类。通过提取通信过程中信噪比、用户移动速度、最大多普勒频率和均方根时延扩展等信道特征与OFDM系统的子载波间隔和循环前缀长度组成训练样本,利用随机森林算法创建了OFDM系统参数多分类模型。所提模型可以根据输入的信道特征,实现OFDM系统子载波间隔和循环前缀长度的自适应分配。同时,针对训练样本主要集中在少数几个系统参数类别的情况,利用合成少数类过采样技术对较少样本数的类别进行扩充,满足了随机森林算法对训练样本类别平衡化的需求,进一步提高了算法的分类准确率。相比传统的自适应算法,所提算法具有更高的分类准确率和模型泛化能力。分析和仿真结果表明,与子载波间隔和循环前缀长度固定的OFDM系统相比,本文所提出的自适应算法能够准确选择出最优的系统参数,可以有效地减轻信道中符号间干扰和子载波间干扰的影响,从而在整个信噪比范围上提供最大的平均频谱效率。基于随机森林的OFDM系统自适应算法能够动态地分配子载波间隔和循环前缀长度,增强OFDM系统的通信质量和抗干扰能力,实现在不同信道环境下的可靠传输。 展开更多
关键词 正交频分复用 合成少数类过采样技术 随机森林 自适应算法
在线阅读 下载PDF
基于自适应GA-RF的用户流失预测研究
18
作者 赵峰 徐丹华 《信息通信技术》 2024年第1期58-63,72,共7页
针对电信用户流失问题,文章提出一种自适应遗传算法优化随机森林的预测模型。首先对Kaggle平台提供的电信数据进行数据清洗、特征提取及无量纲化处理,然后运用SMOTE过采样以解决数据不平衡问题,对决策树、随机森林等模型预测的召回率、F... 针对电信用户流失问题,文章提出一种自适应遗传算法优化随机森林的预测模型。首先对Kaggle平台提供的电信数据进行数据清洗、特征提取及无量纲化处理,然后运用SMOTE过采样以解决数据不平衡问题,对决策树、随机森林等模型预测的召回率、F1和AUC值进行对比。最后提出一种自适应遗传算法优化随机森林的电信用户流失预测模型。结果表明,自适应遗传算法优化的随机森林模型的预测性能优于单一分类模型。 展开更多
关键词 用户流失 自适应 遗传算法 随机森林 SMOTE
在线阅读 下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:20
19
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 分类 少数类样本合成过采样技术 采样倍率 遗传算法
在线阅读 下载PDF
改进SMOTE的不平衡数据集成分类算法 被引量:33
20
作者 王忠震 黄勃 +2 位作者 方志军 高永彬 张娟 《计算机应用》 CSCD 北大核心 2019年第9期2591-2596,共6页
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目... 针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。 展开更多
关键词 不平衡数据分类 合成少数类过采样技术 K近邻 过采样 聚类 ADABOOST算法
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部