基于快速SVM的大规模网络流量分类方法被引量：5

Large-scale network traffic classification with fast support vector machine method

下载PDF

导出

摘要支持向量机方法具有良好的分类准确率、稳定性与泛化性,在网络流量分类领域已有初步应用,但在面对大规模网络流量分类问题时却存在计算复杂度高、分类器训练速度慢的缺陷。为此,提出一种基于比特压缩的快速SVM方法,利用比特压缩算法对初始训练样本集进行聚合与压缩,建立具有权重信息的新样本集,在损失尽量少原始样本信息的前提下缩减样本集规模,进一步利用基于权重的SVM算法训练流量分类器。通过大规模样本集流量分类实验对比,快速SVM方法能在损失较少分类准确率的情况下,较大程度地缩减流量分类器的训练时间以及未知样本的预测时间,同时,在无过度压缩前提下,其分类准确率优于同等压缩比例下的随机取样SVM方法。本方法在保留SVM方法较好分类稳定性与泛化性能的同时,有效提升了其应对大规模流量分类问题的能力。 SVM has been applied for network traffic classification preliminarily because of its high classification accuracy, sta- bility and generalization. However, scaling up SVM to large-scale network traffic classification is still an open problem because of the high computation complexity as well as long training and prediction time. This paper proposed a hit-reduction based fast SVM. Firstly, it applied the bit-reduction algorithm to reduce the cardinality of the samples by weighting representative exam- ples, and reduced the scale of training dataset with minimum loss of initial sample information. Then it developed SVM trained on weighted samples. The experiment results of large-scale network traffic classification show that bit-reduction SVM produces a significant reduction in the time required for both classifier training and prediction of unknown samples with minimum loss in accuracy. Meanwhile, its results in more accurate classifiers than random sampling based SVM when the dataset are not overcompressed. This method scales up SYM to large-scale network traffic classification with retaining the stability and generalization performance of SVM.

作者王涛程良伦

机构地区广东工业大学自动化学院广东工业大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2012年第6期2301-2305,共5页 Application Research of Computers

基金国家自然科学基金-广东省联合基金重点资助项目(U0935002) 广东省重大科技专项资助项目(2009A080207008) 广州市科技计划资助项目(2010Z1-D00061) 广东省高校优秀青年创新人才培养计划资助项目(LYM11057)

关键词支持向量机大规模流量分类比特压缩权重SVM 分类器分类准确率 support vector machine （SVM） large-scale network traffic classification bit reduction weighted SVM classifi- er classification accuracy

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1MADI-IUKAR A, WILLIAMSON C. A longitudinal study of P2P traffic classification[ C]//Proc of the 14th IEEE Int'l Symposium on Modeling, Analysis, and Simulation. 2006.
2CALLADO A, KAMIENSKI C, SZABO G, et al. A survey on internet traffic identification[ J]. IEEE Communications Surveys & Tutorials,2009,11 ( 3 ) : 37- 52.
3NGUYEN T, ARMITAGE G. A survey of techniques for Intemet traffic using machine learning[ J]. IEEE Communications Surveys & Tutorials, 2008,10 (4) : 56- 76.
4ROUGHAN M, SEN S, SPATSCHECK O, et al. Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification[ C ]//Proc of ACM/SIGCOMM Internet Measurement Conference (IMC). 2004.
5MOORE A W, ZUEV D. Internet traffic classification using Bayesian analysis techniques [ C ]//Proc of ACM International Conference on Measurement and Modeling of Computer Systems (SIGMETRICS). 2005.
6AULD T, MOORE A W, GULL S F. Bayesian neural networks for Intemet traffic classification[ J]. IEEE Trans on Neural Networks, 2007,18( 1 ) :223-239.
7王宇,余顺争.网络流量的决策树分类[J].小型微型计算机系统,2009,30(11):2150-2156. 被引量：8
8徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：171
9徐鹏,刘琼,林森.基于支持向量机的Internet流量分类研究[J].计算机研究与发展,2009,46(3):407-414. 被引量：59
10ZANDER S, NGUYEN T, ARMITAGE G. Automated traffic classification and application identification using machine learning [ C ]// Proc of the 30th IEEE Conference on Local Computer Networks. 2005.

二级参考文献31

1Madhukar A, Williamson C. A longitudinal study of P2P traffic classification [C]//Proc of the 14th IEEE Int Syrup on Modeling, Analysis, and Simulation. Washington, DC IEEE Computer Society, 2006:179-188
2Moore A W, Papagiannaki K. Toward the accurate identification of network applications [G]//Dovrolis C. LNCS 3431: Proc of the PAM 2005. Heidelberg: Springer, 2005:41-54
3Karagiannis T, Papagiannaki K, Faloutsos M. BLINC: Multilevel traffic classification in the dark [C]//Proc of ACM SIGCOMM. New York: ACM, 2005.. 229-240
4Roughan M, Sen S, Spatscheck O, et al. Class of service mapping for QoS: A statistical signature-hased approach to IP traffic classification [C]//Proc of ACM SIGCOMM Internet Measurement Conf 2004. New York: ACM, 2004: 135-148
5Zuev D. Moore A W. Traffic classification using a statistical approach [G]//Dovrolis C. LNCS 3431: Proc of the PAM. Heidelberg, Germany: Springer, 2005:321-324
6Moore A W, Zuev D. Internet traffic classification using Bayesian analysis techniques [C] //Proc of the 2005 ACM SIGMETRICS Int Conf on Measurement and Modeling of Computer Systems. New York: ACM, 2005: 50-60
7Tan P N, Steinbach M, Kumar V. Introduction to Data Mining [M]. Boston: Addison Wesley, 2006
8Moore A W, Zuev D, Crogan M. Discriminators for use in flow-based classification, RR-05-13 [R]. London: Queen Mary University of London, 2005
9Witten I H, Frank E. Data Mining: Practical Machine Learning Tools and Techniques [M]. 2nd ed. Amsterdam: Elsevier Inc. , 2005
10Chang C C, Lin C J. LIBSVM: A library for support vector machines[EB/OL]. 2001 [2007-08-06]. http://www.csie. ntu. edu. tw/-ejlin/libsvm

共引文献213

1高文才,曹帅.基于MRF-FCM算法的矿井运动目标图像优化[J].工矿自动化,2024,50(S01):69-73. 被引量：1
2邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：54
3代志康,吴秋新,程希明.一种基于ResNet的网络流量识别方法[J].北京信息科技大学学报（自然科学版）,2020,35(1):82-88. 被引量：5
4陈陆颖,丛蓉,杨洁,于华.P2P Streaming Traffic Classification in High-Speed Networks[J].China Communications,2011,8(5):70-78. 被引量：1
5赵树鹏,陈贞翔,彭立志.基于流中前5个包的在线流量分类特征[J].济南大学学报（自然科学版）,2012,26(2):156-160. 被引量：3
6孟姣,王丽宏,熊刚,姚垚.基于机器学习的SSH应用分类研究[J].计算机研究与发展,2012,49(S2):153-159. 被引量：2
7熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望[J].集成技术,2012,1(1):32-42. 被引量：25
8许孟晋,张博锋.基于机器学习的Internet流量分类[J].计算机应用,2010,30(A01):80-82. 被引量：5
9徐鹤,王锁萍,王汝传,赵丹.基于神经网络集成的P2P流量识别研究[J].南京邮电大学学报（自然科学版）,2010,30(3):79-83. 被引量：3
10胡婷,王勇,陶晓玲.网络流量分类方法的比较研究[J].桂林电子科技大学学报,2010,30(3):216-219. 被引量：4

同被引文献50

1杨斌,路游.基于统计学习理论的支持向量机的分类方法[J].计算机技术与发展,2006,16(11):56-58. 被引量：17
2VAPNIK V N.统计学习理论[M].许建华,张学工,译.北京:电子工业出版社,2004.
3Vapnik V N. The Nature of Statistical Learning Theory [M]. Berlin: Springer, 1995.
4B. Scholkopf, A. J. Smola. Leaming with kernels. Cambridge, Massachusetts [M]. London, England: The MIT Press, 2002.
5王敬宇.支持向量机方法及其在企业信用风险评级中的应用[D].长春:吉林大学,2010:4.
6Keerthi S S, Lin C J. Asymptotic behaviors of support vector machine with gaussian kernel [J]. Neural Computation, 2003, 15(7): 1667-1689.
7Hsu C, Lin C J. A comparison of methods for multi-class support vector machines [J]. IEEE Transactions on Neural Networks, 2002, 13(2): 415-425.
8Astofino A, Gorgone E, Gandioso M, et al. Data preprocessing in semi - supervised SVM classification [ J ]. Optimization, 2011,60 ( 1-2 ) : 143-151.
9Hsu C W, Lin C J. Acomparison of methods for multi-class support vector machines [ J ]. IEEE transactions on neural net- works,2002 ( 13 ) : 415-425.
10Chang C C, Lin C J. LIBSVM:A library for support vector ma- chines[ EB/OL]. 2001 [ 2013-03-04 ]. http://www, csie. ntu. edu. tw! - cjlin/papers/libsvm, pdf.

引证文献5

1曾江洪,王庄志,崔晓云.基于SVM的中小企业集合债券融资个体信用风险度量研究[J].中南大学学报（社会科学版）,2013,19(2):8-11. 被引量：6
2裴杨,王勇,陶晓玲,李平红.基于SVM的并行网络流量分类方法[J].计算机工程与设计,2013,34(8):2646-2650. 被引量：7
3李琼,陈利,王维虎.基于SVM的手写体数字快速识别方法研究[J].计算机技术与发展,2014,24(2):205-208. 被引量：19
4杨晨光,马永征.基于Spark的大规模网络流量准实时分类方法[J].科研信息化技术与应用,2016,7(2):25-34. 被引量：5
5郭海蓉.大数据环境下的网络流量非线性预测建模[J].微型电脑应用,2019,35(8):149-151. 被引量：4

二级引证文献41

1方向,陈思佳,贾颖.基于概率测度支持向量机的静态手写数字识别方法[J].微电子学与计算机,2015,32(4):107-110. 被引量：7
2谢赤,李为章.中小企业集合债券发行主体发债比例确定——一个基于多元t-Copula-KMV模型的实证研究[J].湘潭大学学报（哲学社会科学版）,2014,38(2):37-41.
3张鹏,谢晓尧.基于改进的C-支持向量机的手写体数字高识别率方法研究[J].贵州师范大学学报（自然科学版）,2014,32(2):95-98. 被引量：4
4蒋超.基于深度学习的物体实时检测模块设计与在安卓系统上的实现[J].科学技术创新,2019(2):76-78.
5李春林,黄月江,牛长喜.一种面向云计算的网络异常流量分组方法[J].计算机应用研究,2014,31(12):3704-3706. 被引量：9
6王刚锋,田锡天,耿俊浩.支持工艺创新的工艺专利分类方法研究[J].机械制造,2015,53(1):1-4. 被引量：2
7董沛武,刘世国,叶晨,杨玫.集合债券中成员相关性的信用影响研究[J].管理现代化,2015,35(3):1-3.
8刘彤.海量非线性网络流量数据分类模型的仿真分析[J].计算机仿真,2015,32(12):255-258. 被引量：3
9胡雯,赵海廷.嵌入式在线视频监测流量控制方法研究与仿真[J].计算机仿真,2016,33(1):442-445. 被引量：5
10张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(2):375-377. 被引量：18

1刘彤.海量非线性网络流量数据分类模型的仿真分析[J].计算机仿真,2015,32(12):255-258. 被引量：3
2王海龙,杨岳湘.基于信息熵的大规模网络流量异常检测[J].计算机工程,2007,33(18):130-133. 被引量：14
3杨晨光,马永征.基于Spark的大规模网络流量准实时分类方法[J].科研信息化技术与应用,2016,7(2):25-34. 被引量：5
4王海龙,杨岳湘,李强.基于子空间方法的大规模网络流量异常检测[J].计算机工程与应用,2007,43(11):153-156. 被引量：3
5郑春颖.一种改进的SVM算法[J].航空计算技术,2005,35(2):6-8. 被引量：6
6朱剑,李辉.利用链路相关性进行网络流量异常检测[J].计算机应用与软件,2011,28(6):135-137. 被引量：1
7王妃,熊继平,蔡丽桑.单比特压缩感知理论及应用研究[J].微型机与应用,2016,35(5):12-14. 被引量：1
8免费压缩软件7-ZiP[J].电脑爱好者（普及版）,2011(A01):136-136.
9张朝辉,刘雪艳.64位计算促进网络安全防护[J].办公自动化,2007,0(12):21-21.
10张达.高分解力CD是如何将20比特以上的数据压缩成16比特的[J].实用影音技术,2009(9):74-84.

计算机应用研究

2012年第6期

浏览历史

内容加载中请稍等...

基于快速SVM的大规模网络流量分类方法被引量：5

参考文献15

二级参考文献31

共引文献213

同被引文献50

引证文献5

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于快速SVM的大规模网络流量分类方法 被引量：5

参考文献15

二级参考文献31

共引文献213

同被引文献50

引证文献5

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于快速SVM的大规模网络流量分类方法被引量：5