期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于谱聚类欠取样的不平衡漂移大数据流分类算法
1
作者 康耀龙 冯丽露 张景安 《吉林大学学报(工学版)》 北大核心 2026年第2期509-515,共7页
在不平衡数据分类中,多数类样本在数量上占优,其分布会对聚类结果产生较大的“拉扯”作用,而少数类样本由于数量少,其特征在整个数据集中相对不明显,导致数据流出现漂移问题,影响数据流分类效果。为解决此问题,本文研究基于谱聚类欠取... 在不平衡数据分类中,多数类样本在数量上占优,其分布会对聚类结果产生较大的“拉扯”作用,而少数类样本由于数量少,其特征在整个数据集中相对不明显,导致数据流出现漂移问题,影响数据流分类效果。为解决此问题,本文研究基于谱聚类欠取样的不平衡漂移大数据流分类算法。通过欠取样技术减少不平衡漂移大数据流中多数类数据的冗余数据量,均衡多数类数据与少数类数据的数据量,缓解数据因聚类“拉扯”导致的漂移问题;选取均衡后大数据流的核心点构成核心点集,通过谱聚类算法对此核心点集实施聚类,基于谱聚类所得到的聚类结构以及选定的核心点,实现不平衡漂移大数据流分类。实验结果显示:该算法可实现不平衡漂移大数据流的均衡处理,处理后平均不均衡度可降至1.024,几乎接近于平衡状态;可实现不同属性大数据流核心点的选定与有效分组,为此类大数据流的后续有效应用提供保障。 展开更多
关键词 谱聚类 欠取样 不平衡 漂移大数据流 核心点集 组别划分
原文传递
A Classifier Using Online Bagging Ensemble Method for Big Data Stream Learning 被引量:6
2
作者 Yanxia Lv Sancheng Peng +4 位作者 Ying Yuan Cong Wang Pengfei Yin Jiemin Liu Cuirong Wang 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2019年第4期379-388,共10页
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this ... By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream. 展开更多
关键词 big data stream classification ONLINE BAGGING ensemble LEARNING concept drift
原文传递
概念漂移数据流分类研究综述 被引量:26
3
作者 文益民 强保华 范志刚 《智能系统学报》 CSCD 北大核心 2013年第2期95-104,共10页
由于现有各种机器学习算法本质上都基于一个静态学习环境,而以尽量保证学习系统泛化能力为目标的寻优过程,概念漂移数据流分类给机器学习带来了巨大挑战.从数据流与概念漂移、概念漂移数据流分类研究的发展与趋势、概念漂移数据流分类... 由于现有各种机器学习算法本质上都基于一个静态学习环境,而以尽量保证学习系统泛化能力为目标的寻优过程,概念漂移数据流分类给机器学习带来了巨大挑战.从数据流与概念漂移、概念漂移数据流分类研究的发展与趋势、概念漂移数据流分类的主要研究领域、概念漂移数据流分类研究的新动态4个方面展开了文献综述,并分析了当前概念漂移数据流分类算法存在的问题. 展开更多
关键词 大数据 概念漂移 增量学习 适应学习 数据流 机器学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部