基于Spark框架的聚类算法研究被引量：9

Research on Clustering Algorithm Based on Spark Framework

下载PDF

导出

摘要大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。 Mining big data is current research hotspot, also have a huge commercial value.A new framework of Spark is deployed on the Hadoop platform, in which machine learning algorithms can be almost completely replace the traditional Mahout Map Reduce programming mode. But the characteristics of Spark memory model, efficiency of execution is high. This paper studies the KMeans clustering algorithm in Spark machine learning。The first analyze the idea of the algorithm, and then through the experimental analyze method and its application, and then through results of experimental analyze its application scenarios and lacks.

作者陈虹君 CHEN Hong-jun （ChengDu College of University Of Electronic Science And Technology of China, Chengdu 611731, China）

机构地区电子科技大学成都学院

出处《电脑知识与技术》 2015年第2期56-57,60,共3页 Computer Knowledge and Technology

关键词大数据 HADOOP SPARK 机器学习聚类 KMeans big data Hadoop Spark machine learnin clustering KMeans

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1机器学习库[EB/OL].2013.http://blog.csdn.ne:johnny_lee/article/details/25656343.
2最近的spark文档[EB/OL].2014.http://spark.apache.org/docs/latest/.

共引文献1

1陈虹君.Spark框架的Graphx算法研究[J].电脑知识与技术,2015,0(1):75-77. 被引量：4

同被引文献67

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：80
2蒋盛益,李庆华.无指导的入侵检测方法[J].计算机工程,2005,31(9):31-33. 被引量：4
3李波,陈念年,谢长勇,唐庆丰.网络安全实验室的设计与建设[J].实验室研究与探索,2005,24(11):62-65. 被引量：16
4陈晓梅.入侵检测中的数据预处理问题研究[J].计算机科学,2006,33(1):81-83. 被引量：13
5李培强,李欣然,陈辉华,唐外文.基于模糊聚类的电力负荷特性的分类与综合[J].中国电机工程学报,2005,25(24):73-78. 被引量：134
6李凯,薛一波,王春露,汪东升.千兆网络入侵防御系统高速数据包处理的研究与实现[J].小型微型计算机系统,2006,27(9):1677-1681. 被引量：4
7钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
8中国国家化标准委员会.GB/T20984-2007,信息安全风险评估规范[S].北京:中国国家化标准委员会,2007.
9黄俊,韩玲莉,陈光平.基于无指导离群点检测的网络入侵检测技术[J].小型微型计算机系统,2007,28(11):2007-2009. 被引量：4
10RENUKA D S, YOGESH P. A Hybrid Approach to Counter Application Layer DDoS Attacks[J]. International Journal on Cryptography and Information Security, 2012, 2(2): 45-52.

引证文献9

1吴晓平,周舟,李洪成.Spark框架下基于无指导学习环境的网络流量异常检测研究与实现[J].信息网络安全,2016(6):1-7. 被引量：16
2杨艳梅,柳娜,程国建,强新建,王叙乔.基于Spark平台的岩石图像聚类分析[J].西安石油大学学报（自然科学版）,2016,31(6):114-118. 被引量：10
3李慧芳,白珊,马强,贾鑫.基于Spark的智慧校园数据挖掘研究[J].智能计算机与应用,2016,6(6):106-107. 被引量：11
4盛剑,樊红,龚天任,程幸福.K-Means算法及其在卷烟零售门店库存聚类分析中的应用[J].商业经济,2017(3):128-129. 被引量：5
5周显春,肖衡.Spark框架下聚类模型在网络流量异常检测中的应用[J].网络安全技术与应用,2017(5):62-63. 被引量：1
6毛艳芳,王栋,冯鹏,季润阳,朱喆华,李珺涵,杨佩.基于SparkR的用户用电行为分析[J].电力信息与通信技术,2017,15(5):44-48. 被引量：1
7邓青,杨宁.基于Spark框架的改进并行K-means算法研究[J].智能计算机与应用,2018,8(1):76-78. 被引量：2
8杨丽群.大数据分析实验室建设研究[J].河北旅游职业学院学报,2018,23(2):78-82. 被引量：3
9海沫,张游.Spark平台下聚类算法的性能比较[J].计算机科学,2017,44(S1):414-418. 被引量：9

二级引证文献58

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：15
2方洋,李旗,张瑞霞.基于机器学习的网络异常流量分析系统[J].电脑知识与技术,2020,0(4):24-25. 被引量：3
3曹泰岳,师艳辉,吴海波.固液火箭发动机装药设计优化[J].推进技术,2000,21(1):67-70. 被引量：3
4陈红兵.一种单元分布式变电站综合自动化系统设计方案[J].工程设计与研究（长沙）,2000(1):14-17.
5吴鑫,严岳松,刘晓然.基于改进HMM的程序行为异常检测方法[J].信息网络安全,2016(9):108-112. 被引量：2
6何明亮,陈泽茂,左进.基于多窗口机制的聚类异常检测算法[J].信息网络安全,2016(11):33-39. 被引量：6
7任浩,罗森林,潘丽敏,高君丰.基于图结构的文本表示方法研究[J].信息网络安全,2017(3):46-52. 被引量：5
8齐健,陈小明,游伟青.基于fuzzing测试的网络协议安全评估方法研究[J].信息网络安全,2017(3):59-65. 被引量：4
9戚犇,王梦迪.基于信息增益的贝叶斯态势要素提取[J].信息网络安全,2017(9):54-57. 被引量：5
10王波,王怀彬.基于主动学习的非均衡异常数据分类算法研究[J].信息网络安全,2017(10):42-49. 被引量：1

1汪宜东.基于单点密度的Kmeans算法优化[J].福建电脑,2015,31(1):73-74.
2可多账户共存Windows 8邮件完全攻略[J].计算机与网络,2013,39(7):20-21.
3郑珩.基于云数据的数据挖掘算法研究及实现[J].电脑编程技巧与维护,2015(13):54-55. 被引量：2
4胡睿,陈清华.云计算中大数据的MapReduce处理方法简析[J].信息技术与信息化,2015(10):86-87. 被引量：1
5邓秀娟.浅谈Mahout在个性化推荐系统中的应用[J].电脑知识与技术,2016,0(9):171-172.
6李建辉,史庆武,赵铁环.工业以太网的构建及通信问题研究[J].佳木斯大学学报（自然科学版）,2009,27(6):885-887. 被引量：1
7朱倩,邓绯,陈印.分类算法在推荐系统中的应用[J].福建电脑,2017,33(1):15-16.
8朱倩,钱立.基于Mahout的推荐系统的分析与设计[J].科技通报,2013,29(6):35-36. 被引量：11
9赵军敏,黄焯,张维纬.基于hadoop和mahout的聚类系统的研究与实现[J].福建电脑,2017,33(1):6-7. 被引量：1
10王楠,钟智,顾昆,温海标.基于谱聚类的医学图像分割方法[J].广西师范学院学报（自然科学版）,2015,32(4):63-67.

电脑知识与技术

2015年第2期

浏览历史

内容加载中请稍等...

基于Spark框架的聚类算法研究被引量：9

参考文献2

共引文献1

同被引文献67

引证文献9

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于Spark框架的聚类算法研究 被引量：9

参考文献2

共引文献1

同被引文献67

引证文献9

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于Spark框架的聚类算法研究被引量：9