期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
Addressing Class Overlap in Sonic Hedgehog Medulloblastoma Molecular Subtypes Classification Using Under-Sampling and SVD-Enhanced Multinomial Regression
1
作者 Isra Mohammed Mohamed Elhafiz M.Musa +4 位作者 Murtada K.Elbashir Ayman Mohamed Mostafa Amin Ibrahim Adam Mahmood A.Mahmood Areeg S.Faggad 《Computers, Materials & Continua》 2025年第8期3749-3763,共15页
Sonic Hedgehog Medulloblastoma(SHH-MB)is one of the four primary molecular subgroups of Medulloblastoma.It is estimated to be responsible for nearly one-third of allMB cases.Using transcriptomic and DNA methylation pr... Sonic Hedgehog Medulloblastoma(SHH-MB)is one of the four primary molecular subgroups of Medulloblastoma.It is estimated to be responsible for nearly one-third of allMB cases.Using transcriptomic and DNA methylation profiling techniques,new developments in this field determined four molecular subtypes for SHH-MB.SHH-MB subtypes show distinct DNAmethylation patterns that allow their discrimination fromoverlapping subtypes and predict clinical outcomes.Class overlapping occurs when two or more classes share common features,making it difficult to distinguish them as separate.Using the DNA methylation dataset,a novel classification technique is presented to address the issue of overlapping SHH-MBsubtypes.Penalizedmultinomial regression(PMR),Tomek links(TL),and singular value decomposition(SVD)were all smoothly integrated into a single framework.SVD and group lasso improve computational efficiency,address the problem of high-dimensional datasets,and clarify class distinctions by removing redundant or irrelevant features that might lead to class overlap.As a method to eliminate the issues of decision boundary overlap and class imbalance in the classification task,TL enhances dataset balance and increases the clarity of decision boundaries through the elimination of overlapping samples.Using fivefold cross-validation,our proposed method(TL-SVDPMR)achieved a remarkable overall accuracy of almost 95%in the classification of SHH-MB molecular subtypes.The results demonstrate the strong performance of the proposed classification model among the various SHH-MB subtypes given a high average of the area under the curve(AUC)values.Additionally,the statistical significance test indicates that TL-SVDPMR is more accurate than both SVM and random forest algorithms in classifying the overlapping SHH-MB subtypes,highlighting its importance for precision medicine applications.Our findings emphasized the success of combining SVD,TL,and PMRtechniques to improve the classification performance for biomedical applications with many features and overlapping subtypes. 展开更多
关键词 class overlap SHH-MB molecular subtypes UNDER-SAMPLING singular value decomposition penalized multinomial regression DNA methylation profiles
暂未订购
An Imbalanced Dataset and Class Overlapping Classification Model for Big Data 被引量:1
2
作者 Mini Prince P.M.Joe Prathap 《Computer Systems Science & Engineering》 SCIE EI 2023年第2期1009-1024,共16页
Most modern technologies,such as social media,smart cities,and the internet of things(IoT),rely on big data.When big data is used in the real-world applications,two data challenges such as class overlap and class imba... Most modern technologies,such as social media,smart cities,and the internet of things(IoT),rely on big data.When big data is used in the real-world applications,two data challenges such as class overlap and class imbalance arises.When dealing with large datasets,most traditional classifiers are stuck in the local optimum problem.As a result,it’s necessary to look into new methods for dealing with large data collections.Several solutions have been proposed for overcoming this issue.The rapid growth of the available data threatens to limit the usefulness of many traditional methods.Methods such as oversampling and undersampling have shown great promises in addressing the issues of class imbalance.Among all of these techniques,Synthetic Minority Oversampling TechniquE(SMOTE)has produced the best results by generating synthetic samples for the minority class in creating a balanced dataset.The issue is that their practical applicability is restricted to problems involving tens of thousands or lower instances of each.In this paper,we have proposed a parallel mode method using SMOTE and MapReduce strategy,this distributes the operation of the algorithm among a group of computational nodes for addressing the aforementioned problem.Our proposed solution has been divided into three stages.Thefirst stage involves the process of splitting the data into different blocks using a mapping function,followed by a pre-processing step for each mapping block that employs a hybrid SMOTE algo-rithm for solving the class imbalanced problem.On each map block,a decision tree model would be constructed.Finally,the decision tree blocks would be com-bined for creating a classification model.We have used numerous datasets with up to 4 million instances in our experiments for testing the proposed scheme’s cap-abilities.As a result,the Hybrid SMOTE appears to have good scalability within the framework proposed,and it also cuts down the processing time. 展开更多
关键词 Imbalanced dataset class overlapping SMOTE MAPREDUCE parallel programming OVERSAMPLING
在线阅读 下载PDF
A Computationally Efficient Density-Aware Adversarial Resampling Framework Using Wasserstein GANs for Imbalance and Overlapping Data Classification
3
作者 Sidra Jubair Jie Yang +2 位作者 Bilal Ali Walid Emam Yusra Tashkandy 《Computer Modeling in Engineering & Sciences》 2025年第7期511-534,共24页
Effectively handling imbalanced datasets remains a fundamental challenge in computational modeling and machine learning,particularly when class overlap significantly deteriorates classification performance.Traditional... Effectively handling imbalanced datasets remains a fundamental challenge in computational modeling and machine learning,particularly when class overlap significantly deteriorates classification performance.Traditional oversampling methods often generate synthetic samples without considering density variations,leading to redundant or misleading instances that exacerbate class overlap in high-density regions.To address these limitations,we propose Wasserstein Generative Adversarial Network Variational Density Estimation WGAN-VDE,a computationally efficient density-aware adversarial resampling framework that enhances minority class representation while strategically reducing class overlap.The originality of WGAN-VDE lies in its density-aware sample refinement,ensuring that synthetic samples are positioned in underrepresented regions,thereby improving class distinctiveness.By applying structured feature representation,targeted sample generation,and density-based selection mechanisms strategies,the proposed framework ensures the generation of well-separated and diverse synthetic samples,improving class separability and reducing redundancy.The experimental evaluation on 20 benchmark datasets demonstrates that this approach outperforms 11 state-of-the-art rebalancing techniques,achieving superior results in F1-score,Accuracy,G-Mean,and AUC metrics.These results establish the proposed method as an effective and robust computational approach,suitable for diverse engineering and scientific applications involving imbalanced data classification and computational modeling. 展开更多
关键词 Machine learning imbalanced classification class overlap computational modelling adversarial resampling density estimation
在线阅读 下载PDF
面向类不平衡和重叠的工控数据异常检测的半监督欠采样方法 被引量:1
4
作者 顾兆军 扬雪影 +1 位作者 隋翯 张一诺 《计算机应用研究》 北大核心 2025年第1期156-164,共9页
工业控制系统异常检测面临着数据缺乏标签信息、类不平衡和类重叠的耦合问题,导致现有的分类器难以精准检测异常数据。现有的数据级采样方法在打伪标签、数据平衡或检测重叠区域时存在着打伪标签结果不准确、采样效果稳定性差以及重叠... 工业控制系统异常检测面临着数据缺乏标签信息、类不平衡和类重叠的耦合问题,导致现有的分类器难以精准检测异常数据。现有的数据级采样方法在打伪标签、数据平衡或检测重叠区域时存在着打伪标签结果不准确、采样效果稳定性差以及重叠识别率低等问题。为此,提出一种基于半监督学习的欠采样方法(SSLU-LP)。该方法通过异构集成将标签传播机制和单类分类器结合,补充数据伪标签;利用最小生成树策略构建重叠区域检测模型;采用欠采样策略,通过最近邻搜索有选择性地去除部分多数类样本。最后该方法与四种经典分类器结合,在九个工控数据集上与九种混合算法进行比较。实验结果表明,所提方法可以精准地为无标签数据打伪标签,高效且有效检测出不平衡数据集中的重叠数据,改善了分类器的训练效果,提高了分类器的异常检测性能。 展开更多
关键词 工业控制系统 类不平衡 类重叠 半监督学习 异常检测
在线阅读 下载PDF
基于局部合力改进的Borderline-SMOTE过采样方法
5
作者 吕峰 宋媚 +2 位作者 赵礼 祝义 李赫男 《南京师大学报(自然科学版)》 北大核心 2025年第5期93-103,共11页
数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样... 数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样策略,导致机器学习模型预测时出现过拟合.因此,本文提出一种基于局部合力改进的Borderline-SMOTE过采样方法(IBSLG).首先,根据少数类样本最近邻分布构建边界区域;其次,基于局部合力计算边界区域内样本的集中度,根据集中度将样本划分为低概率/高概率边界样本;然后,基于两类边界样本分布,计算缩放因子构建新边界区域;最后,基于类不平衡比,对新边界区域自适应生成新样本.通过IBSLG与6种采样方法在4种分类器、8个不平衡数据集上进行对比实验,结果表明,IBSLG在大部分数据集上取得了最优的F1、G-mean、AUC和Friedman排名,并在大部分分类器上取得了最高的平均次优率,说明所提方法的有效性. 展开更多
关键词 不平衡数据 过拟合 类重叠 过采样 Borderline-SMOTE 局部合力
在线阅读 下载PDF
可减轻腰椎间盘样本集类重叠的采样算法
6
作者 赵鑫鑫 吴晓锋 《软件工程》 2025年第1期40-45,共6页
医学数据的类重叠问题会严重影响疾病的智能诊断效果。为了减轻腰椎间盘样本的类重叠对分类器产生的不良影响,提出了一种可减轻类重叠的混合采样算法——CO_HS算法。该算法将训练样本划分为核心样本、边界样本和噪声样本,对重叠区域的... 医学数据的类重叠问题会严重影响疾病的智能诊断效果。为了减轻腰椎间盘样本的类重叠对分类器产生的不良影响,提出了一种可减轻类重叠的混合采样算法——CO_HS算法。该算法将训练样本划分为核心样本、边界样本和噪声样本,对重叠区域的样本进行采样,以减轻样本集的类重叠程度。采用CO_HS算法产生的新训练样本集训练RF等分类模型,并建立了6种新的腰椎间盘退变分类器。实验结果显示,建立的新分类器在多项性能指标上均实现了显著提升,其中准确度提升了7.8百分点~12.7百分点,kappa系数提升了11.6百分点~20.2百分点,敏感性提升了7.9百分点~16.8百分点,特异性提升了9.0百分点~18.2百分点,F指标提升了9.4百分点~18.4百分点。因此,CO_HS算法被证明是一种能有效解决样本类重叠问题、改善分类性能的高效方法。 展开更多
关键词 智能医学 类重叠 混合采样 腰椎间盘退变
在线阅读 下载PDF
结合模糊聚类和集成学习的不平衡数据过采样方法
7
作者 李金 王彪 《计算机技术与发展》 2025年第10期18-27,共10页
目前,不平衡数据的处理方法主要致力于解决类分布不平衡问题,通常采用重采样方法来构建更为平衡的数据集。然而,与类分布不平衡相比,类间重叠问题对不平衡数据分类性能产生的不利影响更大。因此,针对不平衡数据中存在的类内不平衡以及... 目前,不平衡数据的处理方法主要致力于解决类分布不平衡问题,通常采用重采样方法来构建更为平衡的数据集。然而,与类分布不平衡相比,类间重叠问题对不平衡数据分类性能产生的不利影响更大。因此,针对不平衡数据中存在的类内不平衡以及类间重叠问题,提出了一种基于模糊聚类和集成学习的不平衡数据过采样方法FCEL。在数据层面,首先运用SMOTE过采样合成新样本;其次利用软聚类和自适应阈值对数据空间进行区域划分;随后对划分的区域进行重采样,生成两个采样子集。在算法层面,首先根据不同的采样子集构建相应的集成模型;其次通过模型选择算法,根据每个样本的分布选择合适的模型。在9个不平衡数据集上进行对比实验,实验结果表明:与现有一些典型方法相比,FCEL方法的Recall、F 1、G-mean和AUC这四项指标的平均值至少提升17.67百分点、0.09百分点、7.25百分点和1.21百分点;最多提升30.29百分点、4.62百分点、17.25百分点和4.35百分点,说明该方法能有效地提高少数类样本的分类精度。 展开更多
关键词 不平衡数据分类 类别重叠 过采样 软聚类 集成学习
在线阅读 下载PDF
基于改进Switching集成算法的具有类间重叠不平衡数据分类 被引量:2
8
作者 张建同 李君昌 +1 位作者 王来 樊重俊 《系统工程》 CSSCI CSCD 北大核心 2024年第3期136-148,共13页
准确识别具有类间重叠的不平衡数据类别有着重要的理论意义与应用价值。首先,基于Switching集成学习框架,结合样本类间重叠度和邻域分布信息,定义了样本类别待转换的概率,进而提出了一种针对具有类间重叠的不平衡数据分类的集成学习算法... 准确识别具有类间重叠的不平衡数据类别有着重要的理论意义与应用价值。首先,基于Switching集成学习框架,结合样本类间重叠度和邻域分布信息,定义了样本类别待转换的概率,进而提出了一种针对具有类间重叠的不平衡数据分类的集成学习算法SwitchingHD。该方法在提升少数类样本可见性的同时,完全保留了少数类样本的真实信息,能有效克服已有Switching集成学习算法在具有类间重叠的不平衡数据分类中的局限性。其次,在3种评价指标下,对比了SwitchingHD与3类Switching集成算法及2类传统集成学习算法在33个具有类间重叠的不平衡数据集上的分类表现。再次,分析了6类集成学习算法分类效果对待转换样本比例和基分类器数目的敏感性,给出了最优待转换样本比例的范围及这两个因素的作用效果,分析表明SwitchingHD在AUC下的分类效果显著优于其他集成学习算法,针对具有类间重叠的不平衡数据分类问题具有有效性与优越性。最后,以某地区电信客户数据为例,进一步对比SwitchingHD与11种新颖集成学习算法识别潜在流失客户的效果。 展开更多
关键词 不平衡数据分类 类间重叠 邻域分布 Switching算法
原文传递
面向类重叠日志的一致性异常检测模型 被引量:1
9
作者 吕宗平 梁孟孟 +2 位作者 顾兆军 刘春波 王志 《计算机应用与软件》 北大核心 2024年第8期367-375,共9页
在系统日志异常检测中,决策边界出现的类重叠问题将导致传统分类器很难实现正确分类。为避免耗时的预处理技术或依赖特定算法,提出一致性异常检测模型。该模型计算样本与不同类别的隶属度,根据传统分类器的准确率差值选择最佳模糊度分... 在系统日志异常检测中,决策边界出现的类重叠问题将导致传统分类器很难实现正确分类。为避免耗时的预处理技术或依赖特定算法,提出一致性异常检测模型。该模型计算样本与不同类别的隶属度,根据传统分类器的准确率差值选择最佳模糊度分离出类重叠日志;通过集成分类器的不一致性度量函数得到p值,根据预设置信度得到类重叠日志标签。实验结果表明,相比传统分类器,该模型的召回率和F值等平均提高10百分点左右,验证了该模型在处理类重叠问题的有效性。 展开更多
关键词 异常检测 类重叠 一致性检测 模糊度 置信度
在线阅读 下载PDF
以类重叠度为优化目标的不平衡数据学习方法 被引量:1
10
作者 孙博 周倩 陈海燕 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第11期2139-2146,共8页
分类是机器学习中的一项重要学习任务,基本思想是使用在训练样例集上生成的分类器对测试样例的类别进行预测.然而,很多实际应用中的训练集具有不平衡的类分布,这通常会制约学习算法的分类性能.为此,本文提出以类重叠度为优化目标的不平... 分类是机器学习中的一项重要学习任务,基本思想是使用在训练样例集上生成的分类器对测试样例的类别进行预测.然而,很多实际应用中的训练集具有不平衡的类分布,这通常会制约学习算法的分类性能.为此,本文提出以类重叠度为优化目标的不平衡数据学习方法(COA-RBU).将相对类间势作为多数类样例效用的评价标准,并根据训练集的类重叠度自适应地确定合适欠采样比例,以降低不平衡训练集的数据复杂性.实验结果表明,类重叠度能较好地反映数据集的学习难度,并且COA-RBU具有良好的性能和较高的效率.因此,本文工作从类重叠数据复杂性角度为合适欠采样比例的确定提供了一种新的思路. 展开更多
关键词 分类 类不平衡 欠采样 类重叠度 数据复杂性 机器学习
在线阅读 下载PDF
我国“交叠式”家校社课后体育服务机制构建与实践路径 被引量:17
11
作者 刘建武 钟丽萍 +1 位作者 范成文 隋晓东 《体育学刊》 CAS CSSCI 北大核心 2024年第3期118-125,共8页
运用文献资料、逻辑分析等方法,发现我国家校社推进课后体育服务的“分离式”困境表现为:家校社协同意识不强、家校社协同供给缺乏、家校社有效沟通不足、家校社协同管理不到位。以交叠影响域理论为基础,构建我国“交叠式”家校社课后... 运用文献资料、逻辑分析等方法,发现我国家校社推进课后体育服务的“分离式”困境表现为:家校社协同意识不强、家校社协同供给缺乏、家校社有效沟通不足、家校社协同管理不到位。以交叠影响域理论为基础,构建我国“交叠式”家校社课后体育服务机制,提出我国“交叠式”家校社课后体育服务机制的实践路径:营造协同氛围,达成体育育人目标共识;协调三方资源,强化课后体育服务育人成效;健全沟通机制,促进家校社深度融合;搭建智慧平台,优化课后体育服务管理。 展开更多
关键词 学校体育 课后体育服务 家校社协同 交叠影响域 服务机制
在线阅读 下载PDF
基于改进主动生成式过采样的个人信用风险评估研究
12
作者 顾哲涵 黄宝凤 《软件导刊》 2024年第9期163-169,共7页
针对个人信用风险评估中的样本不均衡和类别重叠问题,提出一种改进的主动生成式过采样模型。首先,在辅助分类器生成对抗网络(ACGAN)框架的基础上引入Wasserstein距离改善真假判别损失函数,加入梯度惩罚以防止模式崩溃;其次,采用Focallos... 针对个人信用风险评估中的样本不均衡和类别重叠问题,提出一种改进的主动生成式过采样模型。首先,在辅助分类器生成对抗网络(ACGAN)框架的基础上引入Wasserstein距离改善真假判别损失函数,加入梯度惩罚以防止模式崩溃;其次,采用Focalloss代替传统交叉熵损失,以增强对困难样本的识别能力;最后,利用所提模型对不平衡数据进行过采样,以提升分类器性能。针对真实信贷数据的实验表明,该模型将分类器的分类性能指标F1、AUC及G-means分别提升11.2%、1.7%、12.8%,在增强样本多样性、减少类别重叠及提升分类器针对非平衡数据集的分类效能方面取得了显著成效。 展开更多
关键词 深度学习 不平衡数据 类重叠 ACGAN focalloss Wasserstein距离
在线阅读 下载PDF
Classification Hardness Based Adaptive Sampling Ensemble for Imbalanced Data Classification
13
作者 Zenghao Cui Ziyi Gao +2 位作者 Shuaibing Yue Rui Wang Haiyan Zhu 《Tsinghua Science and Technology》 2025年第6期2419-2433,共15页
Class imbalance can substantially affect classification tasks using traditional classifiers,especially when identifying instances of minority categories.In addition to class imbalance,other challenges can also hinder ... Class imbalance can substantially affect classification tasks using traditional classifiers,especially when identifying instances of minority categories.In addition to class imbalance,other challenges can also hinder accurate classification.Researchers have explored various approaches to mitigate the effects of class imbalance.However,most studies focus only on processing correlations within a single category of samples.This paper introduces an ensemble framework called Inter-and Intra-Class Overlapping Ensemble(llCOE),which incorporates two sampling methods.The first method,which is based on classification hardness undersampling,targets majority category samples by using simple samples as the foundation for classification and improving performance by focusing on samples near classification boundaries.The second method addresses the issue of overfitting minority category samples in undersampling and ensemble learning.To mitigate this,an adaptive augment hybrid sampling method is proposed,which enhances the classification boundary of samples and reduces overfitting.This paper conducts multiple experiments on 15 public datasets and concludes that the IlCOE ensemble framework outperforms other ensemble learning algorithms in classifying imbalanced data. 展开更多
关键词 imbalanced data class overlapping hybrid sampling ensemble learning
原文传递
分类中的类重叠问题及其处理方法研究 被引量:9
14
作者 熊海涛 吴俊杰 +1 位作者 刘洪甫 刘鲁 《管理科学学报》 CSSCI 北大核心 2013年第4期8-21,共14页
类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法:分隔法,并首次将支持向量数据描述算法用于实际数据的... 类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法:分隔法,并首次将支持向量数据描述算法用于实际数据的重叠样本识别,对类重叠问题及其与类不均衡问题的相互影响进行了系统研究.在真实数据上采用五种分类器的实验结果表明:1)多数情况下"分隔法"是表现最佳的类重叠学习算法;2)分隔法通常对基于分界面而非规则的分类器更为有效;3)分隔法在类不均衡问题中表现很好,当基础分类器为支持向量机时尤为突出.最后针对支持向量机的实验结果给出了理论分析. 展开更多
关键词 数据挖掘 分类 类重叠 类不均衡 支持向量数据描述
在线阅读 下载PDF
基于条件生成对抗网络的不平衡学习研究 被引量:9
15
作者 赵海霞 石洪波 +1 位作者 武建 陈鑫 《控制与决策》 EI CSCD 北大核心 2021年第3期619-628,共10页
对于不平衡数据的分类,不平衡率并不是影响分类效果的唯一因素,类别间的重叠、正类样本的分离以及噪音样本的存在等均会对分类效果造成影响.针对具有类别重叠的不平衡数据集,提出基于CGAN模型的重抽样方法(RECGAN).该方法结合负类样本... 对于不平衡数据的分类,不平衡率并不是影响分类效果的唯一因素,类别间的重叠、正类样本的分离以及噪音样本的存在等均会对分类效果造成影响.针对具有类别重叠的不平衡数据集,提出基于CGAN模型的重抽样方法(RECGAN).该方法结合负类样本的欠抽样和正类样本的过抽样,既能够提高重叠区域正类样本的识别度,又可以克服以往均从样本点的局部邻域出发合成样本的缺陷.实验结果表明,无论是从AUC和F1的取值看,还是从数据集上的平均排序看, RECGAN方法均具有明显的优势. 展开更多
关键词 不平衡学习 类别重叠 重抽样方法 条件生成对抗网络
原文传递
基于油中气体分析与类重叠特征的变压器分层故障诊断模型 被引量:10
16
作者 陈铁 冷昊伟 +1 位作者 李咸善 陈一夫 《中国电力》 CSCD 北大核心 2022年第7期22-32,41,共12页
油中溶解气体分析可以有效识别变压器放电故障与过热故障,为提高变压器故障诊断准确度,提出一种基于类重叠特征的变压器分层故障诊断方法。首先使用支持向量数据描述(SVDD)划分出变压器故障样本数据空间的重叠区域,选择类重叠率与类重... 油中溶解气体分析可以有效识别变压器放电故障与过热故障,为提高变压器故障诊断准确度,提出一种基于类重叠特征的变压器分层故障诊断方法。首先使用支持向量数据描述(SVDD)划分出变压器故障样本数据空间的重叠区域,选择类重叠率与类重叠度作为重叠特征,分别对类重叠程度和样本点重要性进行描述,然后以类重叠率为分层标准建立分层故障诊断模型,采用分隔训练法将各诊断层的样本集分开训练,针对分类难度较大的重叠区,基于类重叠度构造二分类模糊支持向量机(FSVM)进行故障诊断。实验结果表明,相比于其他模型,所提方法具有更高的准确度。 展开更多
关键词 变压器故障诊断 类重叠 分层诊断 支持向量数据描述 模糊支持向量机
在线阅读 下载PDF
面向ICS不平衡数据的重叠区混合采样方法 被引量:4
17
作者 高冰 顾兆军 +1 位作者 周景贤 隋翯 《计算机工程与应用》 CSCD 北大核心 2023年第19期305-315,共11页
工业控制系统异常检测面临着数据不平衡问题,其中,不平衡数据存在的类重叠现象加剧了分类器的检测难度。基于数据类别平衡或数据重叠检测的应对策略较常被采用,但这些策略方法存在着模型稳定性差或重叠识别率低等问题。对此,提出了一种... 工业控制系统异常检测面临着数据不平衡问题,其中,不平衡数据存在的类重叠现象加剧了分类器的检测难度。基于数据类别平衡或数据重叠检测的应对策略较常被采用,但这些策略方法存在着模型稳定性差或重叠识别率低等问题。对此,提出了一种面向重叠区域的混合采样方法:OverlapRHS。该方法利用支持向量数据描述分别在多数类和少数类样本上构建重叠检测模型,并通过将合成少数类与邻域清洗进行组合,对重叠数据区域内的样本施以混合采样。最后该方法与4种经典分类器结合,在4个公开的不平衡数据集上进行了测试,并与其他4种处理不平衡问题的采样方法进行了比较。实验结果表明,所提方法能够有效检测出不平衡数据集中的重叠数据,并通过高效且针对性强的数据混合采样改善了分类器的训练效果,提高了分类器对不平衡数据的异常检测性能,展现了较之于其他采样方法在不平衡数据处理上的显著优势。 展开更多
关键词 工业控制系统 不平衡数据 类重叠 支持向量数据描述 混合采样 异常检测
在线阅读 下载PDF
类别混叠度对非均衡数据分类的有效性分析 被引量:2
18
作者 邢延 陈嘉锋 +1 位作者 贾小彦 汪新 《数据采集与处理》 CSCD 北大核心 2018年第5期936-944,共9页
类别混叠度是指不同类别数据之间互相交叠、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易。实际分类任务中存在大量的非均衡数据,大类与小类样本之间悬殊的数量差别给分类造成了极大的困难。本... 类别混叠度是指不同类别数据之间互相交叠、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易。实际分类任务中存在大量的非均衡数据,大类与小类样本之间悬殊的数量差别给分类造成了极大的困难。本文采用实验研究的方法,验证类别混叠度量化指标指导非均衡数据分类的有效性,以减少甚至避免盲目试错带来的庞大计算开销。首先,针对两类分类问题,设计验证实验,在不同类数据非均衡率,不同别边界形状、不同特征类型、不同概率分布的非均衡仿真数据上研究类别混叠度的有效性。其次,在实验研究的基础上,分析数据的非均衡性对类别混叠度的影响规律,找出类别混叠度指导非均衡分类的有效方法。最后,在真实的非均衡数据上验证类别混叠度指导非均衡分类的实际效果。实验结果表明,对数据的非均衡率具有较强鲁棒性的类别混叠度量化指标可以有效地指导非均衡数据的分类器选择。 展开更多
关键词 类别混叠度 分类复杂度 非均衡数据 分类 非均衡率
在线阅读 下载PDF
多分类SVDD混叠域识别新方法与故障诊断应用 被引量:6
19
作者 蔡金燕 杜敏杰 《航天控制》 CSCD 北大核心 2012年第6期83-88,共6页
针对支持向量数据描述(SVDD)多分类方法中混叠域样本识别精度差的问题,提出了一种提高精度的K近邻隶属度估计算法。首先提取训练样本中的两类混叠样本并在混叠域分别搜寻测试样本的K个近邻,然后通过估计待测样本到K近邻样本中心欧式距... 针对支持向量数据描述(SVDD)多分类方法中混叠域样本识别精度差的问题,提出了一种提高精度的K近邻隶属度估计算法。首先提取训练样本中的两类混叠样本并在混叠域分别搜寻测试样本的K个近邻,然后通过估计待测样本到K近邻样本中心欧式距离的方法计算样本隶属度,最后通过比较隶属度大小实现样本识别。仿真和UCI数据及模拟电路故障诊断应用验证了算法较传统方法更为有效,尤其适用于不平衡数据的识别。 展开更多
关键词 支持向量数据描述 多分类 混叠 K近邻 隶属度 故障诊断
原文传递
基于GIS的图层叠加法在地震次生火灾区划单元中的应用 被引量:3
20
作者 陈艳华 张琳 《河北联合大学学报(自然科学版)》 CAS 2014年第2期124-128,共5页
通过比较现有区划单元的确定方法,分析了现有区划单元确定方法的优缺点,论证了利用地理信息系统(GIS)图层叠加法进行基本区划单元确定的可行性。并以此将收集到的曹妃甸地区相关影响因子按照点、线、面进行分类、提取,并结合实地情况的... 通过比较现有区划单元的确定方法,分析了现有区划单元确定方法的优缺点,论证了利用地理信息系统(GIS)图层叠加法进行基本区划单元确定的可行性。并以此将收集到的曹妃甸地区相关影响因子按照点、线、面进行分类、提取,并结合实地情况的权重,将曹妃甸工业区划分为1391个地震次生火灾基本区划单元,为今后进行地震次生火灾综合评价提供基础,为今后有针对性地进行抗震防灾工作提供借鉴。 展开更多
关键词 地理信息系统 地震次生火灾 区划单元 图层叠加
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部