复杂分布数据的二阶段聚类算法被引量：32

Two-Phase Clustering Algorithm for Complex Distributed Data

下载PDF

导出

摘要提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少. In this paper,a Two-Phase Clustering（TPC） for the data sets with complex distribution is proposed.TPC contains two phases.First,the data set is partitioned into some sub-clusters with spherical distribution,and each clustering center represents all the members of its corresponding cluster.Then,by utilizing the outstanding clustering performance of the Manifold Evolutionary Clustering（MEC） for acomplex distributed data,the clustering centers obtained in the first phase are clustered.Finally,based on these two clustering results,the final results are obtained.This algorithm is based on an improved K-means,and the MEC.Manifold distance is introduced in evolutionary clustering to make the algorithm competent for the clustering of complex data sets.At the same time,the novel method reduces the computational cost brought by manifold distance.Experimental results on seven artificial data sets and seven UCI data sets with different structure show that the novel algorithm has the ability to identify clusters with simple or complex,convex,or non-convex distribution efficiently,compared with the genetic algorithm-based clustering,the K-means algorithm,and the manifold evolutionary clustering.Furthermore,TPC outperforms MEC obviously in terms of computational time

作者公茂果王爽马萌曹宇焦李成马文萍

机构地区西安电子科技大学智能感知与图像理解教育部重点实验室西安电子科技大学智能信息处理研究所

出处《软件学报》 EI CSCD 北大核心 2011年第11期2760-2772,共13页 Journal of Software

基金国家高技术研究发展计划(863)(2009AA12Z210) 新世纪优秀人才支持计划(NCET-08-0811) 陕西省科技新星支持计划(2010KJXX-03) 中央高校基本科研业务费重点项目(K50510020001)

关键词数据挖掘聚类 K-均值算法进化算法流形 data mining clustering K-means algorithm evolutionary algorithm manifold

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1Jain AK, Murty MN, Flynn PJ. Data clustering: A review. ACM Computing Surveys, 1999,31 (3):264-323. [doi: 10.1145/331499. 331504].
2Hartigan JA, Wong MA. A k-means clustering algorithm. Applied Statistics, 1979,28(1): 100-108. [doi: 10.2307/2346830].
3Maulik U, Bandyopadhyay S. Genetic algorithm-based clustering technique. Pattern Recognition, 2000,33(9):1455-1465. [doi: 10.1016/S0031-3203(99)00137-5].
4Sheng WG, Swift S, Zhang LS, Liu XH. A weighted sum validity function for clustering with a hybrid niching genetic algorithm. IEEE Trans. on System, Man Cybernetics-part B: Cybernetics, 2005,35(6): 1156-1167. [doi: 10.1109/TSMCB.2005.850173].
5Gong MG, Jiao LC, Wang L, Bo LF. Density-Sensitive evolutionary clustering. In: Proc. of the 11th Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD 2007). Springer-Verlag, 2007. 507-514. [doi: 10.1007/978-3-540-71701-052].
6Sarafis IA, Trinder PW, Zalzala AMS. NOCEA: A rule-based evolutionary algorithm for efficient and effective clustering of massive high-dimensional databases. Applied Soft Computation, 2007,7(3):668-710. [doi: 10.1016/j.asoc.2006.01.011].
7Das S, Abraham A, Konar A. Automatic clustering using an improved differential evolution algorithm. IEEE Trans. on System, Man Cybernetics-part A: System, Humans, 2008,38(1):218-237. [doi: 10.1109/TSMCA.2007.909595].
8Bandyopadhyay S, Saha S. A point symmetry-based clustering technique for automatic evolution of clusters. IEEE Trans. on Knowledge and Data Engineering, 2008,20(11): 1441-1457. [doi: 10.1109/TKDE.2008.79].
9Gong MG, Jiao LC, Bo LF, Wang L, Zhang XR. Image texture classification using a manifold distance based evolutionary clustering method. Optical Engineering, 2008,47(7):077201-1-077201-10. [doi: 10.1117/1.2955785].
10Su MC, Chou CH, A modified version of the k-means algorithm with a distance based on cluster symmetry, IEEE Trans. on Pattern Analysis and Machine Intelligence, 2001,23(6):674-680. [doi: 10.1109/34.927466].

同被引文献282

1刘繁明,屈昊.ICP算法的鲁棒性改进[J].仪器仪表学报,2004,25(z1):603-605. 被引量：5
2曾映兰,伍军,郑金华.基于空间距离的多目标差分进化算法[J].计算机应用研究,2009,26(2):451-454. 被引量：5
3肖宇,于剑.Gap statistic与K-means算法[J].计算机研究与发展,2007,44(z2):176-180. 被引量：7
4傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：22
5冯志伟.特思尼耶尔的从属关系语法[J].当代语言学,1983(1):63-65. 被引量：51
6李金昌,徐雪琪.数据挖掘质量问题探讨[J].统计研究,2004,21(7):49-52. 被引量：5
7陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
8崔逊学,周强,方震.基于三圆交集的二值传感器网络目标跟踪快速算法[J].计算机研究与发展,2011,48(S2):21-27. 被引量：1
9王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
10知田.RC、RL和RCL电路中的过渡过程(状态)规律[J].家电检修技术,2004(9):26-27. 被引量：1

引证文献32

1李翔宇,王开军,郭躬德.挑选聚类算法的网格连通图方法[J].计算机系统应用,2012,21(9):103-107.
2董俊,任家东,卢海涛.一种基于复杂网络属性值的K-means聚类算法[J].燕山大学学报,2012,36(4):343-347. 被引量：4
3于海涛,李梓,姚念民.K-means聚类算法优化方法的研究[J].小型微型计算机系统,2012,33(10):2273-2277. 被引量：22
4苏亚然,陈军霞,牛习现.随机种子最近邻居搜索聚类算法研究[J].河北科技大学学报,2012,33(4):338-342. 被引量：1
5于海涛,王慧强,李梓,韩立娟.基于模拟谐振子的优化K-means聚类算法[J].计算机工程与应用,2012,48(30):122-127. 被引量：4
6王留正,何振峰.基于全局性分裂算子的进化K-means算法[J].计算机应用,2012,32(11):3005-3008. 被引量：3
7苏亚然,牛习现.基于近邻传播的快速搜索聚类算法研究[J].华北电力大学学报（自然科学版）,2012,39(5):93-96. 被引量：2
8于海涛,贾美娟,王慧强,邵国强.基于人工鱼群的优化K-means聚类算法[J].计算机科学,2012,39(12):60-64. 被引量：23
9雷霖,熊伟,景宁,肖建夫.一种基于流形距离的中文语块聚类分析方法[J].北京大学学报（自然科学版）,2013,49(1):126-132. 被引量：2
10王洪波,罗贺.基于谱聚类的流形学习算法研究[J].中国科学技术大学学报,2013,43(1):79-86. 被引量：1

二级引证文献135

1杨理践,赵东升,耿浩,黄平.漏磁信号增强算法研究[J].仪器仪表学报,2022,43(2):176-186. 被引量：12
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3张峰,陈兵,赵怿平,张南,李岳.基于层次聚类法的航空维修方案分析[J].飞机设计,2019,0(5):35-38.
4樊劲辉,陆薇,李争.一种改进的SOFM聚类算法研究[J].河北科技大学学报,2012,33(6):514-518. 被引量：7
5于海涛,李梓,王振福,方晶.入侵检测相关技术的研究[J].智能计算机与应用,2013,3(2):62-64. 被引量：2
6赵辉,刘怀亮.面向用户生成内容的短文本聚类算法研究[J].现代图书情报技术,2013(9):88-92. 被引量：6
7南书坡.竞争型神经网络在土壤分类中的应用[J].电脑知识与技术,2013,9(9):5708-5710.
8孙冬璞,郝晓红,郝忠孝.频繁更新移动对象的索引方法[J].计算机工程,2013,39(11):52-56. 被引量：3
9李红波,赵宽,吴渝.基于地图非均匀划分的Android游戏智能体寻径算法[J].计算机科学,2013,40(11):316-318.
10丁盛.基于辅助模型和数据滤波的伪线性回归系统参数估计方法[J].计算机应用,2014,34(1):236-238. 被引量：2

1丘威.大规模分布数据的分阶段非线性聚类方法应用研究[J].电脑知识与技术,2013(12):7767-7769.
2古凌岚,彭利民.基于相对密度和流形上k近邻的聚类算法[J].计算机科学,2016,43(12):213-217. 被引量：2
3张淑芬,董岩岩.基于Hadoop平台的气象数据聚类研究与实现[J].信息系统工程,2016,29(10):123-123.
4黄子超,刘政怡.特征融合与S-D概率矫正的RGB-D显著检测[J].中国图象图形学报,2016,21(10):1392-1401. 被引量：3
5谢人强,陈震.基于项目流行度与用户行为的协同过滤推荐算法[J].北京信息科技大学学报（自然科学版）,2016,31(1):76-79. 被引量：2
6张烃,刘建成,李树旺.一种基于进化聚类的动态TSK模型建模方法[J].计算机测量与控制,2006,14(4):528-529. 被引量：2
7顾洪博,张继怀.改进的k-均值算法在聚类分析中的应用[J].西安科技大学学报,2010,30(4):484-489. 被引量：3
8张烃,聂作先,刘建成.一种T-S型动态模糊推理模型的建模算法研究[J].微电子学与计算机,2006,23(5):214-216. 被引量：1
9蒋加伏,罗晓萍,唐贤瑛.基于混合聚类算法的图像分割[J].计算技术与自动化,2004,23(1):71-73. 被引量：2
10刘润涛,安晓华,高晓爽.一种基于R-树的空间索引结构[J].计算机工程,2009,35(23):32-34. 被引量：10

软件学报

2011年第11期

浏览历史

内容加载中请稍等...

复杂分布数据的二阶段聚类算法被引量：32

参考文献16

同被引文献282

引证文献32

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

复杂分布数据的二阶段聚类算法 被引量：32

参考文献16

同被引文献282

引证文献32

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

复杂分布数据的二阶段聚类算法被引量：32