基于向量内积不等式的分布式k均值聚类算法被引量：15

An Effective Distributed k-Means Clustering Algorithm Based on the Pretreatment of Vectors' Inner-Product

下载PDF

导出

摘要聚类分析是数据挖掘领域的一项重要研究课题.随着数据量的急剧增加,针对大数据集的聚类分析成为一个难点.虽然k均值算法具有易实现、复杂度与数据集大小成线性关系的优点,将其应用于大数据集时仍然存在效率低的问题.分布式聚类是解决这一问题的有效方法.在已有分布式聚类算法kDMeans基础上,结合向量内积不等式关系对算法加以优化,提出分布式聚类算法kDCBIP.理论分析和实验结果表明,算法kDCBIP优于kDMeans,可以有效地解决大数据集聚类问题,算法是有效可行的. Clustering is an important research in data mining. Clustering in large data sets becomes a nut with the accumulating of the data. Despite its simplicity and its linear time, a serial k-Means algorithm＇s time complexity remains expensive when it is applied to a large data set. Distributed clustering is an effective method to solve this problem. In this paper, the knowledge of vectors＇ inner product inequation is adopted to improve efficiency Of the existing parallel k-Means algorithm（k-DMeans）, and an effective distributed k-Means clustering algorithm k-DCBIP is proposed. Theoretical analysis and experimental results testify that k-DCBIP outperforms the algorithm k-DMeans, and it is effective and efficient.

作者倪巍伟陆介平孙志挥

机构地区东南大学计算机科学与工程系

出处《计算机研究与发展》 EI CSCD 北大核心 2005年第9期1493-1497,共5页 Journal of Computer Research and Development

基金国家自然科学基金项目(70371015) 教育部高等学校博士学科点专项科研基金项目(20040286009)~~

关键词分布式聚类数据点的模向量内积向量内积不等式 distributed clustering mode of a data point vectors＇ inner product vectors＇ inner product ineguation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1Han Jiawei, Micheline. Data Mining: Concepts and Techniques.San Francisco: Morgan Kaufmann Publishers, 2000.
2M. Ester, HP. Kriegel, J. Sander, et al. A density based algorithm of discovering clusters in large spatial databases with noise. In: E. Simoudis, Han Jiawei, U. M. Fayyad, eds. Proc.the 2nd Int'l Conf. Knowledge Discovery and Data Mining Portland. Menlo Park, CA: AAAI Press, 1996. 226～231.
3Tian Zhang, Raghu Ramakrishnan, Miron Livny. BIRCH: An efficient data clustering method for very large databases. In: Proc.ACM SIGMOD Int'l Conf. Management of Data. New York:ACM Press, 1996. 73～84.
4S. Guha, R. Rostogi, K. Shim. CURE: An efficient clustering algorithm for large databases. In: L. M. Haas, A. Tiwary, eds.Proc. the ACM SIGMOD Int'l Conf. Management of Data Seattle. New York: ACM Press, 1998. 73～84.
5W. Zhnn, et al. Muntz. STING: A statistical information grid approach to spatial data mining. In: Proc. 23rd VLDB Conf.,San Francisco: Morgan Kaufrnann, 1997. 186～195.
6S. Kantabutra, A. L. Couch. Parallel k-means clustering algorithm on Nows. NECTEC Technical Journal, 1999, 1 ( 1 ) :243～ 247.
7Manasi N. Joshi. Parallel k-means algorithm on distributed memory multiprocessors. http:∥www. cs. umn. edu/～mnjoshi/PKMeans. pdf, 2003.
8C. Pizzuti, D. Talia. P-Autoclass: Scalable parallel clustering for mining large data sets. IEEE Trans. Knowledge and Data Engineering, 2003, 15(6): 629～641.
9O. Egecioglu, H. Ferhatosmanoglu, U. Ogras. Dimensionality reduction and similarity computation by inner-product approximates. IEEE Trans. Knowledge and Data Engineering,2004, 16(6): 714～726.
10Maria Halkidi, Michalis Vazirgiannis. Clustering validity assessment: Finding the optimal partitioning of a data set. IEEE Int'l Conf. Data Mining, California, 2001.

同被引文献113

1刘韬,王耀才,王致杰.一种基于人工免疫系统的聚类算法[J].计算机工程与设计,2004,25(11):2051-2053. 被引量：14
2何振峰,熊范纶.结合限制的分隔模型及K-Means算法[J].软件学报,2005,16(5):799-809. 被引量：23
3吕强,俞金寿.基于混合遗传算法的K-Means最优聚类算法[J].华东理工大学学报（自然科学版）,2005,31(2):219-222. 被引量：8
4LIUTao,WANGYao-cai,WANGZhi-jie,MENGJiang.Distance Concentration-Based Artificial Immune Algorithm[J].Journal of China University of Mining and Technology,2005,15(2):81-85. 被引量：6
5杨剑,李伏欣,王珏.一种改进的局部切空间排列算法[J].软件学报,2005,16(9):1584-1590. 被引量：36
6Quinlan J R. Induction of decision trees [J]. Machine I.earning. Kluwer Academic Publishers, 1986,1 ( 1 ) : 81- 106.
7Quinlan J R. C4.5:Programs for Machine Learning [M]. Morgan Kaufmann Publishers, 1993.
8Mehta M,Agarwal R,Rissanen J. SLIQ:a fast sealable classifier for data mining[C]//Proceedings of the 5th International Conference on Extending Database Technology. Springer Verlag, 1996 : 18- 32.
9Sharer J, Agarwal R, Mehta M. SPRINT: a scalable parallel classifier for data mining[C]// Proceedings of the 22th International Conference on Very Large Data Bases. Morgan Kaufmann Publishers, 1996, 544-555.
10Kumar A, Nagadevara V. Development of hybrid classification methodology for mining skewed data sets-a case study of indian customs data[C]// Proceedings of the IEEE International Conference on Computer Systems and Applications. IEEE Computer Society, 200G : 584-591.

引证文献15

1唐皓,刘希玉.引力流形上的空间聚类[J].科协论坛（下半月）,2009(10):96-98.
2陈晓云,王平,何春霞,冷明伟.基于三角不等式原理的TTSAS聚类加速算法[J].计算机工程,2006,32(17):97-99. 被引量：1
3刘峰,刘希玉,刘弘.流形上的空间密度聚类算法研究[J].中国海洋大学学报（自然科学版）,2007,37(4):681-684. 被引量：1
4吉根林,凌霄汉,杨明.一种基于集成学习的分布式聚类算法[J].东南大学学报（自然科学版）,2007,37(4):585-588. 被引量：2
5刘峰,刘希玉,张建萍.基于拓扑聚类的密度聚类算法研究[J].山东师范大学学报（自然科学版）,2007,22(3):30-33.
6刘希玉,张建萍.一种基于密度聚类的一般观点——拓扑聚类[J].计算机工程与应用,2007,43(26):164-168.
7倪巍伟,陈耿,孙志挥.一种基于数据垂直划分的分布式密度聚类算法[J].计算机研究与发展,2007,44(9):1612-1617. 被引量：8
8刘韬,蔡淑琴,曹丰文,崔志磊.基于距离浓度的K-均值聚类算法[J].华中科技大学学报（自然科学版）,2007,35(10):50-52. 被引量：7
9赵伟,李文辉,张姝.一种改进R-Link的空间数据检索算法[J].吉林大学学报（理学版）,2008,46(3):499-503. 被引量：1
10孙涛,李雄飞,刘丽娟.数据分布不敏感的决策树算法[J].吉林大学学报（工学版）,2009,39(6):1607-1611. 被引量：1

二级引证文献84

1於跃成,刘彩生,生佳根.分布式约束一致高斯混合模型[J].南京理工大学学报,2013,37(6):799-806. 被引量：3
2武森,冯小东,吴庆海.基于稀疏指数排序的高维数据并行聚类算法[J].系统工程理论与实践,2011,31(S2):13-18. 被引量：1
3马礼,李敬喆,葛根焰,杨银刚.一种基于多核环境的海量数据快速读取方法[J].计算机研究与发展,2011,48(S1):63-67. 被引量：2
4原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
5陈维克,闫新庆,李文锋,袁兵.无线传感器网络动态调度分簇算法[J].华中科技大学学报（自然科学版）,2008,36(10):86-90. 被引量：3
6王宗利,刘希玉.一种基于流形的蚁群聚类算法[J].山东大学学报（理学版）,2008,43(11):40-43. 被引量：1
7张坤华,杨烜.应用聚类和分形实现复杂背景下的扩展目标分割[J].光学精密工程,2009,17(7):1665-1671. 被引量：11
8单玉双,邢长征.一种更有效的K-means聚类算法[J].计算机系统应用,2009,18(8):96-99. 被引量：5
9陶冶,曾志勇.Robust的分布式k中心聚类算法的研究与实现[J].计算机工程与应用,2009,45(32):122-125. 被引量：2
10孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15

1赵学良,朱庆生.基于距离的数据流离群点快速检测[J].世界科技研究与发展,2013,35(4):462-464. 被引量：4
2倪巍伟,陈耿,陆介平,孙志挥.基于nested-loop的大数据集快速离群点检测算法[J].东南大学学报（自然科学版）,2006,36(3):463-466. 被引量：1

计算机研究与发展

2005年第9期

浏览历史

内容加载中请稍等...

基于向量内积不等式的分布式k均值聚类算法被引量：15

参考文献10

同被引文献113

引证文献15

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

基于向量内积不等式的分布式k均值聚类算法 被引量：15

参考文献10

同被引文献113

引证文献15

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

基于向量内积不等式的分布式k均值聚类算法被引量：15