一种分布式的K-means聚类算法被引量：2

Distributed K-means Clustering Algorithm

下载PDF

导出

摘要提出一种适用于大型数据集的分布式聚类算法。该算法以传统的K-means算法为基础进行合理的改进,使之更适用于分布式环境,并从算法的复杂度分析,将该算法与传统的集中式K-means算法及其他分布式算法进行比较。实验表明,该算法在保持了集中式K-means算法所有必要特性的同时,提高了数据处理速度。 A distributed clustering algorithm suit for large data sets is presented.This algorithm is a modified version of the common K-means algorithm with suitable change for making it executable in distributed environment.The algorithm,the traditional serial K-means algorithm and other existing algorithms are compared on the basis of analysing the complexity of the algorithm.Experimental results show that this distributed algorithm maintains all necessary characteristics of the serial K-means algorithm,as well improves the speed of data processing.

作者梁建武田野

机构地区中南大学信息科学与工程学院．湖南长沙

出处《现代电子技术》 2010年第10期11-14,共4页 Modern Electronics Technique

基金国家自然科学基金资助项目(60773013) 湖南省自然科学基金资助项目(07JJ5078)

关键词 K-MEANS聚类算法分布式环境大数据集复杂度 K-means algorithm distributed environment large database complexity

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1陈健美,朱玉全,倪巍伟,宋余庆,宋顺林,桂长青.一种分布式全局频繁闭项目集快速挖掘更新算法[J].小型微型计算机系统,2008,29(7):1237-1240. 被引量：3
2赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1

二级参考文献21

1姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：70
2王红睿,赵黎明,裴剑.均衡化的改进K均值聚类法[J].吉林大学学报（信息科学版）,2006,24(2):172-176. 被引量：13
3宋英姿,李庆武,王晓玲,倪雪.球坐标系下小波收缩去噪方法的改进[J].河海大学常州分校学报,2007,21(1):1-3. 被引量：14
4Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases[C]. In: Proc. ACM SIGMOD Int. Conf. Management of Date, Washington D C, 1993, 207-216.
5Agrawal R, Srikant R. Fast algorithm for mining association rules[C]. In: Proc. 20th Int. Conf. on VLDB, Santiago, Chile, 1994, 487-499.
6Houtsma M, Swami A. Set-oriented mining for association rules in relational databases[A]. In: Yu P, Chen A, eds. Proc. of the Int. Conf. on Data Engineering[C].Los Alamitos, CA: IEEE Computer Society Press, 1995, 25-33.
7Han J, Fu Y. Discovery of multiple-level association rules from large datahases[C]. In: Proc. 21^th Int. Conf. on VLDB, Zurich, Switzerland, 1995, 420-431.
8Han J, Kamber M. Data mining: concepts and techniques[M]. Beiiing: High Education Press, 2001.
9Bayardo R. Efficiently mining long patterns from databases[A]. In: Haas L M, Tiwary A, eds. Proc. of the ACM SIGMOD Int. Conf. On Management of Data[C], New York: ACM Press, 1998, 85-93.
10Lin Dao-I, Kedem Z M. Pincer-search: a new algorithm for discovering the maximum frequent set[A]. In: Schek H J, Saltor F, Ramos I, et al, eds, Proc. of the 6th European Conf. on Extending Database Technology [C], Heidel-berg: Springer- Veriag, 1998, 105-119.

共引文献2

1徐红艳,陈锋,张森林,冯勇.一种存在全局站点的分布式增量挖掘算法[J].辽宁大学学报（自然科学版）,2013,40(1):41-47.
2吴凡,韩笑,李剑谓.供电企业支付融合智能票据管理系统设计与实现[J].自动化技术与应用,2017,36(2):123-128. 被引量：1

同被引文献13

1郑苗苗,吉根林.DK-Means——分布式聚类算法K-Dmeans的改进[J].计算机研究与发展,2007,44(z2):84-88. 被引量：9
2Inmon W H. Building the data warehouse [ M ]. America : Wiley,2005.
3Gaber M M, Yu P S. A framework for resource- aware knowledge discovery in data streams: A holistic approach with its application [ C ] // Proceedings of the ACM symposium on Applied computing. Dijon, France : ACM Press, 2006 : 649 - 656.
4Jie Yin,Mohamed Medhat Gaber.Clustering distributed time series in sensor networks[C]∥Proceedings of Eighth IEEE International Conference on Data Mining,2008:678-687.
5Phung DN,Gaber MM,Roehm U.Resource-aware online data mining in wireless sensor networks[C]//Proceedings of the IEEE Symposium on Computational Intelligence and Data Mining,2007:139-146.
6Wang Xiaoni,Gao Xuedong.The research of a resource-aware cloud computing architecture based on Web security[C]//Proceedings of 2nd IEEE International Conference on Cloud Computing and Intelligence Systems,2012:572-575.
7张晓龙,曾伟.实时数据流聚类的研究新进展[J].计算机工程与设计,2009,30(9):2177-2181. 被引量：5
8蔡键,王树梅.基于Google的云计算实例分析[J].电脑知识与技术,2009,5(9):7093-7095. 被引量：14
9任家东,周玮玮,何海涛.高维数据流的自适应子空间聚类算法[J].计算机科学与探索,2010,4(9):859-864. 被引量：6
10陈小辉.基于数据挖掘算法的入侵检测方法[J].计算机工程,2010,36(17):72-73. 被引量：14

引证文献2

1王小妮,高学东,倪晓明.基于云计算的分布式数据挖掘平台架构[J].北京信息科技大学学报（自然科学版）,2011,26(5):19-24. 被引量：11
2王小妮.具有资源约束的自适应聚类算法[J].计算机工程与设计,2015,36(1):246-249.

二级引证文献11

1李良杰,牟永敏,张志华.面向嵌入式系统函数动态调用路径拆分与匹配[J].数据通信,2012(4):22-25.
2滕琪,樊小毛,何晨光,李烨,卢东昕.医疗大数据特征挖掘及重大突发疾病早期预警[J].网络新媒体技术,2014,3(1):50-54. 被引量：20
3李会芬.数据挖掘技术在云计算服务模式下的构建与应用研究[J].网络安全技术与应用,2014(5):24-24. 被引量：2
4郑妙师.基于云计算的数据挖掘平台架构及其关键技术研究[J].信息通信,2014,27(8):71-71. 被引量：4
5邢国军,王保勇.基于云计算的海量数据挖掘算法分析研究[J].信息系统工程,2015,0(3):128-128.
6郑珩.基于云数据的数据挖掘算法研究及实现[J].电脑编程技巧与维护,2015(13):54-55. 被引量：2
7韩佳玉,曹义芳.基于云计算的数据挖掘平台架构及其关键技术[J].通讯世界（下半月）,2016(2):268-268. 被引量：4
8程发洲.基于云计算的大数据挖掘系统架构[J].东莞理工学院学报,2017,24(3):39-43. 被引量：3
9陆可,桂伟,江雨燕,杜萍萍.基于Spark的并行FP-Growth算法优化与实现[J].计算机应用与软件,2017,34(9):273-278. 被引量：8
10陈利萍.门户网站分布式数据挖掘云平台架构分析[J].数字技术与应用,2018,36(5):184-185. 被引量：2

1惠诗强.网络时代的未来——网格技术[J].淮北职业技术学院学报,2004,3(3):50-51. 被引量：4
2杨柳,钟诚,陆向艳.基于P2P网络的分布式聚类算法研究分析[J].微电子学与计算机,2009,26(8):83-85. 被引量：2
3刘德喜,邢显黎,孙南海.关联规则的上探研究[J].襄樊学院学报,2006,27(5):54-58.
4李亚鹏.浅析优化处理SQL Server数据库索引[J].科技信息,2009(34).
5沈雯漪.大型数据集数据挖掘算法研究[J].计算机光盘软件与应用,2014,17(16):101-101. 被引量：1
6金微,吕萍,朱翠青,汪克峰.基于关系数据库管理系统的K-means聚类算法[J].江苏理工学院学报,2015,21(4):26-31. 被引量：2
7章萃.并行推理策略的渐近时空复杂度分析及其应用[J].计算机学报,1989,12(5):394-396.
8华丹阳.应用于大数据集的聚类新算法设计[J].阜阳师范学院学报（自然科学版）,2011,28(1):67-71. 被引量：2
9李榴,唐九阳,葛斌,肖卫东,汤大权.k-DmeansWM:一种基于P2P网络的分布式聚类算法[J].计算机科学,2010,37(1):39-41. 被引量：6
10陈建兵.在数据库应用程序中轻松实现信息的智能化处理[J].电脑编程技巧与维护,2006(7):45-48.

现代电子技术

2010年第10期

浏览历史

内容加载中请稍等...

一种分布式的K-means聚类算法被引量：2

参考文献2

二级参考文献21

共引文献2

同被引文献13

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种分布式的K-means聚类算法 被引量：2

参考文献2

二级参考文献21

共引文献2

同被引文献13

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种分布式的K-means聚类算法被引量：2