期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
基于边界信息的自适应过采样算法
1
作者 杜睿山 靳明洋 +1 位作者 孟令东 宋健辉 《郑州大学学报(理学版)》 CAS 北大核心 2025年第1期23-30,共8页
针对人工少数类过采样(synthetic minority over-sampling technique,SMOTE)算法存在样本合成区域狭小,容易将少数类泛化到多数类及引入噪声的问题,提出一种基于噪声过滤、边界点自适应采样的过采样算法。首先,该算法使用K近邻算法进行... 针对人工少数类过采样(synthetic minority over-sampling technique,SMOTE)算法存在样本合成区域狭小,容易将少数类泛化到多数类及引入噪声的问题,提出一种基于噪声过滤、边界点自适应采样的过采样算法。首先,该算法使用K近邻算法进行噪声过滤,接着确定边界点并在边界点中寻找合适的点作为根样本点,并以其K近邻点中与其同类且欧氏距离最远的点作为候选样本点。然后,根据根样本点所携带的边界信息确定该点所合成的样本数量,并根据根样本点和候选样本点生成一个N维球体作为样本的合成区间。最后,对合成样本进行判断以确定其是否满足条件。通过实验证明,该算法生成的样本质量要优于SMOTE及其常见变种算法。 展开更多
关键词 SMOTE KNN 过采样算法 数据不均衡 ISMOTE
在线阅读 下载PDF
基于卡尔曼滤波的高精度电压采集系统设计
2
作者 文丰 武新玲 张凯华 《工业仪表与自动化装置》 2025年第4期3-9,20,共8页
在箭载设备电压信号采集进程中,高频噪声干扰会显著影响采集系统的精度。为解决该难题,该文构建了一种高精度低频电压信号采集系统。该系统主要包含供电模块、高精度调理采集量化模块以及数据处理传输模块三部分。供电模块采用缓启动电... 在箭载设备电压信号采集进程中,高频噪声干扰会显著影响采集系统的精度。为解决该难题,该文构建了一种高精度低频电压信号采集系统。该系统主要包含供电模块、高精度调理采集量化模块以及数据处理传输模块三部分。供电模块采用缓启动电路,以防止上电瞬间浪涌电流对后级电路形成损害。高精度调理采集量化模块借助调理电路对输入信号实施等比例缩减及滤波操作,并采用AD9240芯片开展模数转换。数据处理传输模块利用FPGA对电压数据运用8倍过采样量化和卡尔曼滤波算法降噪,提升了系统精度,最终系统将数据传送至上位机进行实时显示。实验测试结果表明,电压采集系统的精度达1%,信噪比为74.18 dB,设计传输过程未出现丢帧误码现象,具备一定的工程应用价值。 展开更多
关键词 数据采集 高精度 8倍过采样算法 卡尔曼滤波算法
在线阅读 下载PDF
样本不平衡条件下煤矿突水水源识别——以谢桥煤矿为例
3
作者 王彦彬 闫晓杉 《安全与环境学报》 北大核心 2025年第7期2553-2561,共9页
为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条... 为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条谢桥煤矿水化学数据进行分析,首先对样本数据进行标准化处理和主成分分析(Principal Component Analysis, PCA),将数据集划分为训练集和测试集,对训练集中少数类样本采用SMOTE法生成新的样本,然后采用改进混沌哈里斯鹰优化(Chaos Harris Hawks Optimization, CHHO)算法结合十折交叉验证优化支持向量机惩罚因子C和径向基函数(Radial Basis Function, RBF)核的参数γ,根据优化结果建立突水水源识别模型,对测试集中突水水源进行识别。将该方法与朴素贝叶斯、随机森林所得结果进行比较,结果显示,采用本方法对测试集识别结果准确性优于其他两种方法,表明该方法在突水水源识别上具有良好的实用性和有效性。 展开更多
关键词 安全工程 突水水源识别 主成分分析 合成少数类过采样技术 混沌哈里斯鹰优化算法 支持向量机
原文传递
基于KOA-CNN-LSTM的变压器故障诊断研究 被引量:2
4
作者 王明洋 马学军 +4 位作者 葛丽娟 周守航 徐志伟 吴昊 任晓丹 《内蒙古农业大学学报(自然科学版)》 北大核心 2025年第4期65-73,共9页
变压器是电力系统中昂贵且重要的电气设备,其稳定运行是电力系统供电可靠性和运行稳定性的重要保障,但变压器故障是不可避免的,及时、准确的故障诊断是变压器安全运行的技术基础。变压器油中溶解气体分析(dissolved gas analysis,DGA)... 变压器是电力系统中昂贵且重要的电气设备,其稳定运行是电力系统供电可靠性和运行稳定性的重要保障,但变压器故障是不可避免的,及时、准确的故障诊断是变压器安全运行的技术基础。变压器油中溶解气体分析(dissolved gas analysis,DGA)数据的不均衡是影响诊断模型训练精度的重要因素,本文通过安全级过采样法对DGA数据进行增强,同时引入三比值法扩充特征,得出增强后的数据集,对于变压器故障诊断算法方面提出基于开普勒优化算法(kepler optimization algorithm,KOA)的卷积神经网络(convolutional neural network,CNN)-长短期记忆网络(long short-term memory,LSTM)变压器故障诊断算法。该算法通过CNN提取特征,LSTM提取深层次的特征,通过组合开普勒优化算法及CNN-LSTM深度学习网络对变压器DGA增强数据集进行深度学习,得出优化诊断模型,以达到较高的诊断准确率。 展开更多
关键词 变压器 故障诊断 过采样算法 深度学习 开普勒优化算法
原文传递
基于CEEMDAN的脉搏波数据增强双层SMOTE算法 被引量:1
5
作者 李辉 李振华 +2 位作者 李瑞杰 张志东 薛晨阳 《电子测量技术》 北大核心 2025年第15期35-41,共7页
针对SMOTE算法在处理脉搏波数据不平衡问题中存在噪声干扰敏感及生成样本物理特性失真等问题。本文提出了一种基于CEEMDAN改进的CP-SMOTE算法,将预处理的脉搏波分解为主波层与次波层分别生成样本,可有效去除残余噪声。同时,在生成新样本... 针对SMOTE算法在处理脉搏波数据不平衡问题中存在噪声干扰敏感及生成样本物理特性失真等问题。本文提出了一种基于CEEMDAN改进的CP-SMOTE算法,将预处理的脉搏波分解为主波层与次波层分别生成样本,可有效去除残余噪声。同时,在生成新样本时,本算法结合脉搏波信号特征,设计了自适应距离度量和约束监督机制,确保生成样本在保持数据物理特性的同时增强类间区分度。基于自建数据集和公开PPG-BP数据集,结合四种分类器对改进算法进行了全面实验。在自建数据集中,CP-SMOTE在AUC、G-mean、F1等关键指标上全面超越SMOTE系列算法,最低提升1.51%,最高提升18.25%。在公开数据集中对比其他改进算法准确率、G-mean和AUC分别提升2.24%、1.47%和1.43%以上。结果表明,该算法显著优于传统SMOTE及其他变种算法,研究结果验证了该算法生成的样本有效避免了物理特性失真问题与噪声干扰问题。 展开更多
关键词 数据不平衡 CEEMDAN 自适应距离 约束监督机制 过采样算法
原文传递
基于SMOTE和GWO-XGBoost的变压器故障诊断研究
6
作者 吴秋伶 刘孙俊 +3 位作者 王杰 王琪凯 李刚 何俊江 《计算机测量与控制》 2025年第9期27-35,共9页
为提高变压器故障诊断的准确性及降低样本不平衡对模型识别准确率的影响,提出了基于SMOTE和GWO-XGBoost的变压器故障诊断方法;该方法利用SMOTE技术扩大少数派样本,采用非编码比例法构建多维特征参数,并引入邻域粗糙集优化策略以及灰狼... 为提高变压器故障诊断的准确性及降低样本不平衡对模型识别准确率的影响,提出了基于SMOTE和GWO-XGBoost的变压器故障诊断方法;该方法利用SMOTE技术扩大少数派样本,采用非编码比例法构建多维特征参数,并引入邻域粗糙集优化策略以及灰狼优化算法对XGBoost参数进行优化;实验验证显示,该方法显著减少了少数派样本的误判,并展示出高精度、低误判率及稳定性,适用于实际变压器故障诊断应用。 展开更多
关键词 故障诊断 变压器 过采样 邻域粗糙集 XGBoost 灰狼优化算法
在线阅读 下载PDF
基于密度峰值快速聚类算法的合成过采样方法
7
作者 冷强奎 李梓涵 《计算机科学与探索》 北大核心 2025年第10期2697-2711,共15页
类不平衡问题,作为分类任务中的一大挑战,源于训练数据集中多数类与少数类样本数量的显著失衡。这种不平衡性不仅影响分类器的泛化能力,还可能导致对少数类样本的识别精度大幅下降。过采样技术,尤其是合成过采样技术(SMOTE)及其变种方法... 类不平衡问题,作为分类任务中的一大挑战,源于训练数据集中多数类与少数类样本数量的显著失衡。这种不平衡性不仅影响分类器的泛化能力,还可能导致对少数类样本的识别精度大幅下降。过采样技术,尤其是合成过采样技术(SMOTE)及其变种方法,作为缓解此类问题的有效手段,通过生成额外的少数类样本来平衡数据集。然而,这些方法存在生成样本可能引入噪声、样本多样性不足以及未能充分关注边界区域等局限性。鉴于边界样本在分类决策中的关键作用及其易受分类器误判的特性,提出了一种创新的过采样策略,旨在精准识别边界样本,并在其周围生成高质量的新样本。该方法采用密度峰值快速聚类算法CFSFDP,凭借其识别局部密度峰值的能力,计算出每个少数类样本的局部密度,进而筛选出位于分类边界样本。通过计算这些边界样本与其最近多数类样本之间的欧式距离,为每个边界样本定义一个合适的球形区域,该区域既涵盖了边界样本的潜在分布范围,又避免了与多数类样本的过度重叠。在确定了边界样本及其对应的球形区域后,该方法在该区域内随机生成新的合成样本。这一步骤不仅增加了少数类样本的多样性,还使得生成的样本更加贴近真实的边界分布,从而有助于分类器更好地学习少数类的复杂特征。为验证该方法的有效性,将其与现有的9种过采样方法在32个真实世界的不平衡数据集上进行了全面比较。实验结果表明,提出的方法在多个评价指标上均表现出色。 展开更多
关键词 不平衡数据 CFSFDP聚类算法 合成过采样 边界样本
在线阅读 下载PDF
基于HEOA-XGBoost组合模型的边坡稳定性预测
8
作者 祁云 白晨浩 +3 位作者 秦凯 段宏飞 李绪萍 汪伟 《中国安全科学学报》 北大核心 2025年第9期137-144,共8页
为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因... 为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因素建立边坡稳定性预测指标体系;其次利用极差标准化统一样本量纲,并采用合成少数类过采样技术(SMOTE)平衡样本等级分布;然后通过HEOA优化XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失;最后利用准确率、精确率、召回率、F_(1)分数和科恩卡帕系数综合评价所建模型的预测结果,并将该模型应用于具体工程实例。结果表明:经HEOA优化后XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失分别为6、0.5838、0.4615、0.5846和0.0244时效果凸显;HEOA-XGBoost组合模型预测边坡稳定性状态相比于其他智能算法优化的XGBoost模型和单一XGBoost模型,其各评价指标均有所提升,表明该模型预测边坡稳定性状态具有较高的精准度和泛化性。 展开更多
关键词 边坡稳定性 人类进化优化算法(HEOA) 极端梯度提升(XGBoost) 极差标准化 合成少数类过采样技术(SMOTE)
原文传递
基于SMOTE算法的岩爆烈度等级预测模型研究
9
作者 李璐佳 周爱红 +1 位作者 袁颖 戎密仁 《河北地质大学学报》 2025年第3期30-37,共8页
为了解决岩爆数据库中存在数据不均衡的问题,导致岩爆预测准确率较低等问题,基于SMOTE(synthetic minority oversampling technique)过采样算法提出了SMOTE-随机森林、SMOTE-梯度提升决策树、SMOTE-支持向量机、SMOTE-BP神经网络、SMOTE... 为了解决岩爆数据库中存在数据不均衡的问题,导致岩爆预测准确率较低等问题,基于SMOTE(synthetic minority oversampling technique)过采样算法提出了SMOTE-随机森林、SMOTE-梯度提升决策树、SMOTE-支持向量机、SMOTE-BP神经网络、SMOTE-卷积神经网络5种模型。选取6个指标,并将岩爆烈度等级划分为4个等级,以此建立岩爆指标体系。然后,针对岩爆数据库存在数据不均衡问题,使用SMOTE过采样算法扩增数据库。最后引入5种常用的机器学习模型预测岩爆烈度等级,并将这5种模型分别对原始的岩爆数据库和经过SMOTE算法后的岩爆数据库进行预测,验证预处理过程的有效性。结果表明:1)相比于传统模型,引入SMOTE算法后,模型预测准确率提高了10.000%~35.000%;2)SMOTE-随机森林模型相比于其他4种模型预测准确率最高。 展开更多
关键词 岩爆 SMOTE过采样算法 随机森林 烈度等级预测
在线阅读 下载PDF
基于SMOTE改进方法的交通事故风险预测模型
10
作者 江煦宁 薛雅慧 王一菲 《智能计算机与应用》 2025年第7期42-47,共6页
近年来,交通事故发生率居高不下,给社会稳定和经济发展造成了严重影响。交通事故预测属于不平衡数据的二分类问题,具有数据量大、样本不平衡率高、计算强度大等问题。采集G15上海路段高速公路交通数据,采用合成少数类样本过采样技术(Syn... 近年来,交通事故发生率居高不下,给社会稳定和经济发展造成了严重影响。交通事故预测属于不平衡数据的二分类问题,具有数据量大、样本不平衡率高、计算强度大等问题。采集G15上海路段高速公路交通数据,采用合成少数类样本过采样技术(Synthetic Minority Oversampling Technique,SMOTE)改进方法和机器学习、深度学习模型结合,改善SMOTE方法合成数据时的盲目性和不同分类模型处理不平衡数据时产生的过拟合问题,分类探究了不同模型对交通事故风险预测的适用性和鲁棒性,并针对实验数据得出结论。实验表明,属性分类合成过采样(Attribute-Synthetic Minority Oversampling Technique,ASMOTE)和极致梯度提升(eXtreme Gradient Boosting,XGBoost),改进合成过采样(Improved Synthetic Minority Oversampling Technique,ISMOTE)和随机森林(Random Forest,RF)两种结合模型在交通事故预测领域具有一定优势。运用SMOTE改进方法有效避免了交通事故样本误分类率高的问题,提升了交通事故风险预测的准确性,为实现交通事故预测提供解决策略与方向。 展开更多
关键词 交通事故 风险预测 不平衡数据 过采样 SMOTE改进方法
在线阅读 下载PDF
多尺度特征金字塔网络融合下用电异常用户识别
11
作者 王娜 王绍娟 +3 位作者 邢文冠 李小萍 王诒亮 吴淑美 《国外电子测量技术》 2025年第7期206-211,共6页
用电异常用户用电信息数据量庞大,难以从大规模数据集中学习出结构化知识,不同用户之间的负荷差距量比较大,导致正常样本和异常分类效果较差,难以提取最有可能指示异常的关键特征,提出多尺度特征金字塔网络融合下用电异常用户识别方法... 用电异常用户用电信息数据量庞大,难以从大规模数据集中学习出结构化知识,不同用户之间的负荷差距量比较大,导致正常样本和异常分类效果较差,难以提取最有可能指示异常的关键特征,提出多尺度特征金字塔网络融合下用电异常用户识别方法。基于智能电表采集的电压、电流、功率等实时测量数据,使用合成少数类过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)改进过采样模型,对用电异常用户数据进行过采样,合成新异常样本,改善偏向正常样本的情况;采用Softmax算法对电表测量曲线进行特征聚类。结合sigmoid激发函数,定位可选特征并输入卷积神经网络中,结合多尺度特征金字塔网络融合不同时间粒度的测量数据,通过内置函数输出用电异常用户。实验结果表明,该方法应用后,DBI平均值降低至0.18,CH的平均值降低至165.63、SC平均值提升至0.94,关键特征聚类效果较高。可以有效确定异常样本,用电异常用户识别过程稳定且识别效果得到保证。 展开更多
关键词 深度学习 用电异常 过采样 关键特征矢量 Softmax算法 卷积神经网络
原文传递
Employee Attrition Classification Model Based on Stacking Algorithm
12
作者 CHEN Yanming LIN Xinyu ZHAN Kunye 《Psychology Research》 2023年第6期279-285,共7页
This paper aims to build an employee attrition classification model based on the Stacking algorithm.Oversampling algorithm is applied to address the issue of data imbalance and the Randomforest feature importance rank... This paper aims to build an employee attrition classification model based on the Stacking algorithm.Oversampling algorithm is applied to address the issue of data imbalance and the Randomforest feature importance ranking method is used to resolve the overfitting problem after data cleaning and preprocessing.Then,different algorithms are used to establish classification models as control experiments,and R-squared indicators are used to compare.Finally,the Stacking algorithm is used to establish the final classification model.This model has practical and significant implications for both human resource management and employee attrition analysis. 展开更多
关键词 employee attrition classification model machine learning ensemble learning oversampling algorithm Randomforest stacking algorithm
在线阅读 下载PDF
改进的采样算法与无监督聚类相结合的软件缺陷预测模型 被引量:1
13
作者 石海鹤 周世文 +1 位作者 钟林辉 肖正兴 《江西师范大学学报(自然科学版)》 CAS 北大核心 2024年第3期301-310,共10页
该文首先在自适应综合过采样算法ADASYN(adaptive synthetic sampling)的基础上,考虑少数类内部不同密度簇之间的连接性问题,将与采样点距离为中等的点纳入新样本生成范围,改进得到T-ADASYN过采样优化算法,有效地增加了少数类内部不同... 该文首先在自适应综合过采样算法ADASYN(adaptive synthetic sampling)的基础上,考虑少数类内部不同密度簇之间的连接性问题,将与采样点距离为中等的点纳入新样本生成范围,改进得到T-ADASYN过采样优化算法,有效地增加了少数类内部不同密度簇的连接性,生成了分布更为均衡的数据集.然后使用基于连接的spectral clustering算法进行聚类预测操作,将过采样算法和无监督聚类相结合,提出一种新型实用的软件缺陷预测模型TA-SC(T-ADASYN+spectral clustering).以F-score为评价指标,spectral clustering为聚类模型进行验证.实验结果表明:改进的T-ADASYN过采样算法在公开的PROMISE数据集和NASA数据集上比常用的过采样算法均有6%的性能提升,且TA-SC模型在PROMISE和NASA 2个数据集上比常用聚类算法分别有3%和2%的性能提升. 展开更多
关键词 软件缺陷预测 类别不平衡 过采样算法 聚类算法 无监督学习
在线阅读 下载PDF
多尺度卷积与双注意力机制融合的入侵检测方法 被引量:4
14
作者 陈虹 李泓绪 金海波 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2024年第1期93-100,共8页
为提高互联网入侵检测方法的准确率,提出一种卷积神经网络与注意力机制结合的入侵检测方法。利用Borderline-SMOTE过采样算法和MinMax归一化对数据进行预处理,有效缓解入侵数据量差异较大问题,提升非平衡数据检测性能;使用卷积神经网络I... 为提高互联网入侵检测方法的准确率,提出一种卷积神经网络与注意力机制结合的入侵检测方法。利用Borderline-SMOTE过采样算法和MinMax归一化对数据进行预处理,有效缓解入侵数据量差异较大问题,提升非平衡数据检测性能;使用卷积神经网络Inception结构多尺度对数据进行特征提取,并配合注意力机制进行维度更新,提高模型处理海量数据时特征表达的准确性。研究结果表明:入侵检测方法的平均准确率为99.57%;相较于SVM方法、CNN方法、RNN方法、BLS-GMM方法,准确率分别提升了4.48%、1.35%、1.62%和0.04%,召回率分别提高了4.48%、1.36%、1.62%和0.14%。 展开更多
关键词 入侵检测 卷积神经网络 注意力机制 过采样算法 非平衡数据
原文传递
一种基于随机森林的OFDM系统自适应算法 被引量:2
15
作者 王波 刘潇然 +2 位作者 熊俊 辜方林 张晓瀛 《信号处理》 CSCD 北大核心 2024年第6期1007-1018,共12页
针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间... 针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间隔和循环前缀长度取值,本文提出了基于随机森林的OFDM系统自适应算法。随机森林算法基于集成的思想,能够有效处理高维度数据,并且具有高效率、高准确率和强泛化能力等优势,可以在复杂的数据场景下进行有效的分类。通过提取通信过程中信噪比、用户移动速度、最大多普勒频率和均方根时延扩展等信道特征与OFDM系统的子载波间隔和循环前缀长度组成训练样本,利用随机森林算法创建了OFDM系统参数多分类模型。所提模型可以根据输入的信道特征,实现OFDM系统子载波间隔和循环前缀长度的自适应分配。同时,针对训练样本主要集中在少数几个系统参数类别的情况,利用合成少数类过采样技术对较少样本数的类别进行扩充,满足了随机森林算法对训练样本类别平衡化的需求,进一步提高了算法的分类准确率。相比传统的自适应算法,所提算法具有更高的分类准确率和模型泛化能力。分析和仿真结果表明,与子载波间隔和循环前缀长度固定的OFDM系统相比,本文所提出的自适应算法能够准确选择出最优的系统参数,可以有效地减轻信道中符号间干扰和子载波间干扰的影响,从而在整个信噪比范围上提供最大的平均频谱效率。基于随机森林的OFDM系统自适应算法能够动态地分配子载波间隔和循环前缀长度,增强OFDM系统的通信质量和抗干扰能力,实现在不同信道环境下的可靠传输。 展开更多
关键词 正交频分复用 合成少数类过采样技术 随机森林 自适应算法
在线阅读 下载PDF
基于自适应GA-RF的用户流失预测研究
16
作者 赵峰 徐丹华 《信息通信技术》 2024年第1期58-63,72,共7页
针对电信用户流失问题,文章提出一种自适应遗传算法优化随机森林的预测模型。首先对Kaggle平台提供的电信数据进行数据清洗、特征提取及无量纲化处理,然后运用SMOTE过采样以解决数据不平衡问题,对决策树、随机森林等模型预测的召回率、F... 针对电信用户流失问题,文章提出一种自适应遗传算法优化随机森林的预测模型。首先对Kaggle平台提供的电信数据进行数据清洗、特征提取及无量纲化处理,然后运用SMOTE过采样以解决数据不平衡问题,对决策树、随机森林等模型预测的召回率、F1和AUC值进行对比。最后提出一种自适应遗传算法优化随机森林的电信用户流失预测模型。结果表明,自适应遗传算法优化的随机森林模型的预测性能优于单一分类模型。 展开更多
关键词 用户流失 自适应 遗传算法 随机森林 SMOTE
在线阅读 下载PDF
基于故障现象文本的水轮机故障诊断研究 被引量:2
17
作者 刘海洋 祝迪 劳鹏飞 《水电能源科学》 北大核心 2024年第8期164-167,共4页
为诊断水轮机故障,基于文本挖掘与机器学习技术,提出了一种基于故障现象文本的水轮机故障诊断模型。该模型首先使用Word2vec将故障文本映射到向量空间,然后将提取的文本特征输入到XGBOOST分类器中进行故障诊断;此外,还使用KmeansSMOTE... 为诊断水轮机故障,基于文本挖掘与机器学习技术,提出了一种基于故障现象文本的水轮机故障诊断模型。该模型首先使用Word2vec将故障文本映射到向量空间,然后将提取的文本特征输入到XGBOOST分类器中进行故障诊断;此外,还使用KmeansSMOTE算法来弥补由于数据不平衡造成的分类误差。在一个真实的数据集中进行了模型性能验证,结果表明所提的故障诊断模型的综合性能优于其他对比模型。 展开更多
关键词 文本挖掘 故障诊断模型 过采样算法 水轮机
原文传递
基于Attention-GRU的SHDoS攻击检测研究 被引量:2
18
作者 江魁 卢橹帆 +1 位作者 苏耀阳 聂伟 《信息网络安全》 CSCD 北大核心 2024年第3期427-437,共11页
针对SHDoS发起变频攻击导致阈值检测方案失效的问题,文章提出一种基于Attention-GRU的深度学习模型。该模型首先利用改进的Borderline-SMOTE进行数据平衡处理,然后引入自注意力机制构建双层GRU分类网络,对预处理后的数据进行学习训练,... 针对SHDoS发起变频攻击导致阈值检测方案失效的问题,文章提出一种基于Attention-GRU的深度学习模型。该模型首先利用改进的Borderline-SMOTE进行数据平衡处理,然后引入自注意力机制构建双层GRU分类网络,对预处理后的数据进行学习训练,最后对SHDoS攻击流量进行检测。在CICIDS2018数据集和SHDo S自制数据集上进行验证,实验结果表明,文章所提模型的精确率分别为98.73%和97.64%,召回率分别为96.57%和96.27%,相较于未采用自注意力机制的模型,在精确率和召回率上有显著提升,相较于以往采用SMOTE或Borderline-SMOTE进行数据预处理的模型,文章所提模型的性能也是最佳的。 展开更多
关键词 SHDoS攻击 borderline-smote过采样算法 自注意力机制 门控循环单元
在线阅读 下载PDF
改进的机器学习模型在肺结节良恶性分类中的研究 被引量:1
19
作者 杨愉 谭雨豪 王丽嘉 《计算机与数字工程》 2024年第7期2227-2232,共6页
肺癌发病率不断上升,借助影像手段快速进行肺结节的早期评估,对提高患者生存质量具有重要意义。针对这个问题,提出了一种新的肺结节良恶性分类模型,该模型首先采用过采样算法消除良性样本比例过高导致的结果偏移现象;然后提取每个结节... 肺癌发病率不断上升,借助影像手段快速进行肺结节的早期评估,对提高患者生存质量具有重要意义。针对这个问题,提出了一种新的肺结节良恶性分类模型,该模型首先采用过采样算法消除良性样本比例过高导致的结果偏移现象;然后提取每个结节的影像组学特征,并结合斯皮尔曼相关性变量剔除以及最小绝对收缩选择算子进行特征筛选,选取最优特征子集;最后采用余弦递减型惯性权重改进随机发生分布式延迟粒子群算法,以精准搜索全局最优参数,建立最佳分类模型。利用LIDC数据库上的608例训练集和68例测试集对模型进行训练和测试。模型在测试集上的AUC、准确率、精确率、召回率分别为0.93、0.941、0.917以及0.971。结果表明该模型能有效分类肺结节,有望在临床上进行肺结节的良恶性辅助诊断。 展开更多
关键词 肺结节 分类 影像组学 过采样 随机发生分布式延迟粒子群算法
在线阅读 下载PDF
基于生成对抗网络的高斯型数据的过采样算法 被引量:2
20
作者 陈刚 侯宾杰 《信息与控制》 CSCD 北大核心 2024年第2期182-190,共9页
针对在非平衡数据分类中倾向于少数类而导致分类效果降低的问题,提出了一种基于生成对抗网络的蒙特卡洛过采样算法。首先,利用生成对抗网络(GAN)生成少数类数据的概率密度函数,通过少数类数据的概率密度值确定少数类数据的过采样权重;其... 针对在非平衡数据分类中倾向于少数类而导致分类效果降低的问题,提出了一种基于生成对抗网络的蒙特卡洛过采样算法。首先,利用生成对抗网络(GAN)生成少数类数据的概率密度函数,通过少数类数据的概率密度值确定少数类数据的过采样权重;其次,为了保证生成数据的多样性,采用蒙特卡洛算法对少数类数据进行过采样;同时,为了避免与多数类产生交叉与重叠,通过高斯分布的3σ法则对进入到多数类区间3σ内的少数类数据进行翻转,使数据集达到平衡。最后,从UCI与KEEL数据库中选取7组数据集进行算例实验,将决策树分类器作为基分类器对数据进行分类。实验结果表明所提算法是有效的。 展开更多
关键词 非平衡数据 生成对抗网络 蒙特卡洛算法 概率密度函数 过采样算法
原文传递
上一页 1 2 4 下一页 到第
使用帮助 返回顶部