期刊文献+

基于样本空间分布密度的初始聚类中心优化K-均值算法 被引量:53

K-means clustering algorithm based on optimal initial centers related to pattern distribution of samples in space
在线阅读 下载PDF
导出
摘要 针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。 To overcome the sensible of traditional K-means clustering algorithm to initial centers,and avoid the arbitrary of available improved K-means algorithms for discovering good initial centers,this paper proposed a new algorithm to find the optimal initial centers for K-means clustering algorithm.It defined the density and the neighborhood for each sample according to the natural pattern distribution of exemplars in data space,so that the samples chose as initial seeds not only lie in the higher density area,but also far away from each other.It tested the new algorithm on some well-known datasets from UCI machine learning repository and on some synthetic datasets with different proportion noises using many different measures.The experimental results demonstrate that our new algorithm achieves excellent clustering result in short run time and is insensible to noisy data.It outperforms the traditional K-means clustering algorithm and those available algorithms for improving the initial seeds of K-means clustering algorithm.
出处 《计算机应用研究》 CSCD 北大核心 2012年第3期888-892,共5页 Application Research of Computers
基金 中央高校基本科研业务费专项资金重点资助项目(GK200901006) 陕西省自然科学基础研究计划资助项目(2010JM3004) 中央高校基本科研业务费专项资金资助项目(GK201001003)
关键词 聚类 K-均值聚类 初始中心 邻域 样本分布密度 clustering K-means clustering initial centers neighborhood density of pattern distribution
  • 相关文献

参考文献18

  • 1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量:1108
  • 2HAN J W H,KAMBER M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2000.
  • 3KAUFMAN L, ROUSSEEUW P J. Finding groups in data: an intro- duction to cluster analysis[ M]. New York:Wileys, 1990.
  • 4DHILLON I S, GUAN Yu-qiang, KOGAN J. Refining clusters in high dimensional text data [ C ]//Proc of the 2nd SIAM Workshop on Clus- tering High Dimensional Data. 2002: 59-66.
  • 5KHAN S S, AHMAD A. Cluster center initialization for K-means clustering [ J]. Pattern Recognition Letters,2004, 25 (11):1293- 1302.
  • 6DEELERS S, AUWATANAMONGKOL S. Enhancing K-means algo- rithm with initial cluster centers derived from data partitioning along the data axis with the highest variance [ J]. Proceeding of World Academy of Science, Engineering and Technology, 2007,26 : 323- 328.
  • 7钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量:32
  • 8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量:157
  • 9赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量:75
  • 10汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量:142

二级参考文献76

共引文献1705

同被引文献410

引证文献53

二级引证文献550

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部