基于半监督学习的数据流混合集成分类算法被引量：1

Data Stream Mixture Ensemble Classification Algorithm Based on Semi-Supervised Learning

下载PDF

导出

摘要当前已有的数据流分类模型都需要大量已标记样本来进行训练，但在实际应用中，对大量样本标记的成本相对较高。针对此问题，提出了一种基于半监督学习的数据流混合集成分类算法SMEClass，选用混合模式来组织基础分类器，用K个决策树分类器投票表决为未标记数据添加标记，以提高数据类标的置信度，增强集成分类器的准确度，同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示，SMEClass算法与最新基于半监督学习的集成分类算法相比，其准确率有所提高，在运行时间和抗噪能力方面有明显优势。 The existing data stream classification algorithms require a large number of labeled data samples for training.But in prac-tical applications,the cost of labeling vast data is quite high.As for this problem, this paper proposed a data stream mixture ensem-ble classification algorithm based on semi-supervised learning-SMEClass that uses mixed mode to organize the base classifier. Firstly,using K C4.5 classifiers label the unlabeled data with the majority vote , which improves the label confidence of data and enhances the accuracy of ensemble classifier.What’s more,algorithm joins a Na？ve Bayes classifier to effectively reduce the noise in the process of labeling data.The experimental results showed that the accuracy of SMEClass algorithm is high compared with the latest semi-supervised ensemble classification algorithm.Especially,the SMEClass algorithm have obvious superiority in run-ning time and anti-noise ability.

作者任钊婷王治和杨晏 REN Zhao-ting,WANG Zhi-he,YANG Yan （School of Computer Science and Engineering, Northwest Normal University, Lanzhou 730070, China）

机构地区西北师范大学计算机科学与工程学院

出处《电脑知识与技术》 2013年第12期7770-7775,7781,共7页 Computer Knowledge and Technology

关键词数据流半监督学习集成分类概念漂移混合集成 data stream semi-supervised learning ensemble classification concept drifting mixture ensemble

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献17

1Liao S H,Chu P H,Hsiao P Y. Data mining techniques and applications-A decade review from 2000 to 2011[J].{H}Expert systems with application,2012,(12):11303-11311.
2Read J,Bifet A,Holmes G,PfahRINGER B. Scalable and efficient multi-label classification for evolving data streams[J].{H}Machine Learning,2012,(1-2):243-272.
3白雪冰,王宝军.数据流分类算法分析[J].电脑知识与技术（过刊）,2012,18(4X):2445-2446. 被引量：2
4Zliobaite I. Learning under concept drift:an overview[OL].http://arxiv.org/pdf/1010.4784v1pdf,2009.
5Widmer G,Kubat M. Learning in the presence of concept drift and hidden contexts[J].{H}Machine Learning,1996,(1):69-101.
6Ho S-s,Wechsler H. A Martingale framework for detecting changes in data streams by testing exchange ability[J].{H}IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,(12):2113-2127.
7Scholz M,Klinkenberg R. An Ensemble Classifier for Drifting Concepts[A].Portugal:Porto,2005.53-64.
8Aggarwal C C,Han J,Wang J Y. A Framework for On-Demand Classification of Evolving Data Streams[J].{H}IEEE Transactions on Knowledge and Data Engineering,2006,(5):577-589.
9Bieft A,Holmes G,Pfahringer B. New Ensemble Methods for Evolving Data Streams[A].France:Paris,2009.139-148.
10Chapelle O,Scholkopf B,Zien A,editors. Semi-Supervised Learning[M].{H}Cambridge:The MIT Press,2006.

二级参考文献17

1Han Jiawei,Kamber M. Data Mining:Concepts and Techniques[M].Singapore,Singapore:Elsevier,2006.
2Wang Haixun,Fan Wei,Yu P S. Mining Concept-Drifting Data Streams Using Ensemble Classifiers[A].Washington DC USA,2003.226-235.
3Aggarwal C. Data Streams:Models and Algorithms[M].Berlin,Germany:Springer-Verlag,2007.
4Gehrke J,Ganti V,Ramakrishnan R. Boat-Optimistic Decision Tree Construction[A].Philadelphia USA,1999.169-180.
5Domingos P,Hulten G. Mining High-Speed Data Streams[A].Boston,USA,2000.71-80.
6Hulten G,Spencer L,Domingos P. Mining Time-Changing Data Streams[A].San Francisco,CA,USA,2001.97-106.
7Scholz M,Klinkenberg R. An Ensemble Classifier for Drifting Concepts[A].Portugal,Porto,2005.53-64.
8Aggarwal C C,Hat J,Wang Jianyong. A Framework for OnDemand Classification of Evolving Data Streams[J].IEEE Transactions on Knowledge and Data Engineering,2006,(05):577-589.
9Masud M M,Gao Jing,Khan L. A Practical Approach to Classify Evolving Data Streams:Training with Limited Amount of Labeled Data[A].Pisa,Italy,2008.929-934.
10Bifet A,Holmes G,Pfahringer B. New Ensemble Methods for Evolving Data Streams[A].France:Paris,2009.139-148.

共引文献18

1熊忠阳,周兴勤,张玉芳.针对标记数据不足的数据流分类器[J].计算机工程与应用,2015,51(6):124-128. 被引量：1
2邓大勇,徐小玉,黄厚宽.基于并行约简的概念漂移探测[J].计算机研究与发展,2015,52(5):1071-1079. 被引量：20
3孙雪,李昆仑,韩蕾,白晓亮.基于特征项分布的信息熵及特征动态加权概念漂移检测模型[J].电子学报,2015,43(7):1356-1361. 被引量：6
4刘志鹏,张国毅.一种新的雷达信号实时分选方法[J].航天电子对抗,2016,32(2):6-9. 被引量：3
5张任.基于模糊并行约简的模糊概念漂移探测[J].微型机与应用,2016,35(12):55-58. 被引量：2
6王伦文,冯彦卿,张铃.动态数据挖掘的构造性学习方法综述[J].小型微型计算机系统,2016,37(9):1953-1958. 被引量：5
7王中心,孙刚,王浩.面向不完全标记数据流的集成分类算法[J].阜阳师范学院学报（自然科学版）,2016,33(3):46-52. 被引量：1
8邓大勇,苗夺谦,黄厚宽.信息表中概念漂移与不确定性分析[J].计算机研究与发展,2016,53(11):2607-2612. 被引量：5
9李南.低代价的数据流分类算法[J].计算机系统应用,2016,25(12):187-192. 被引量：1
10李南.基于聚类假设的数据流分类算法[J].模式识别与人工智能,2017,30(1):1-10. 被引量：11

同被引文献28

1李秋洁,茅耀斌,叶曙光,王执铨.代价敏感Boosting算法研究[J].南京理工大学学报,2013,37(1):19-24. 被引量：3
2王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：42
3黄启春,刘仰光,何钦铭.基于支持向量机的增量式算法[J].浙江大学学报（工学版）,2008,42(12):2121-2126. 被引量：3
4刘伟,张化祥.数据集动态重构的集成迁移学习[J].计算机工程与应用,2010,46(12):126-128. 被引量：5
5王锡文,贾银山.基于多分类器集成的数据流分类方法[J].科学技术与工程,2010,10(18):4521-4524. 被引量：1
6吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：177
7张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399-1410. 被引量：144
8王爱平,万国伟,程志全,李思昆.支持在线学习的增量式极端随机森林分类器[J].软件学报,2011,22(9):2059-2074. 被引量：59
9李秋洁,茅耀斌,王执铨.基于Boosting的不平衡数据分类算法研究[J].计算机科学,2011,38(12):224-228. 被引量：17
10徐文华,覃征,常扬.基于半监督学习的数据流集成分类算法[J].模式识别与人工智能,2012,25(2):292-299. 被引量：18

引证文献1

1王军,刘三民,刘涛.面向概念漂移的数据流分类研究分析[J].绵阳师范学院学报,2017,36(5):80-89.

1王蕊楠,余谅,贾钊.网格环境下统一的认证与授权的研究[J].计算机与信息技术,2008(10):66-67.
2王小平,李柳柏.基于AdaBoost算法的图像自动标注[J].西南大学学报（自然科学版）,2015,37(7):174-180. 被引量：6
3蒋芸,陈娜,明利特,周泽寻,谢国城,陈珊.基于Bagging的概率神经网络集成分类算法[J].计算机科学,2013,40(5):242-246. 被引量：43
4赵姝,吕靖,张燕平,张以文.不完整数据集的信息熵集成分类算法[J].模式识别与人工智能,2014,27(3):193-198. 被引量：6
5孙丽红.MapX控件在开发GIS中的应用研究[J].电脑编程技巧与维护,2009(18):28-30.
6张盼盼,尹绍宏.隐含概念漂移的不确定数据流集成分类算法[J].计算机工程与科学,2016,38(7):1510-1516. 被引量：3
7姚远,张林剑,乔文豹.RGB-D图像中手部样本标记与手势识别[J].计算机辅助设计与图形学学报,2013,25(12):1810-1817. 被引量：14
8张凯,王东安,李超,贾冰.基于协同采样主动学习的恶意代码检测[J].高技术通讯,2016,26(5):458-463. 被引量：1
9郝宇晨.贝叶斯网络分类器近似学习算法[J].计算机系统应用,2014,23(8):189-193. 被引量：3
10韩俊英,刘成忠.一种改进的支持向量机集成分类算法[J].甘肃农业大学学报,2008,43(1):147-150. 被引量：3

电脑知识与技术

2013年第12期

浏览历史

内容加载中请稍等...

基于半监督学习的数据流混合集成分类算法被引量：1

参考文献17

二级参考文献17

共引文献18

同被引文献28

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于半监督学习的数据流混合集成分类算法 被引量：1

参考文献17

二级参考文献17

共引文献18

同被引文献28

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于半监督学习的数据流混合集成分类算法被引量：1