基于样本空间分布密度的初始聚类中心优化K-均值算法被引量：53

K-means clustering algorithm based on optimal initial centers related to pattern distribution of samples in space

下载PDF

导出

摘要针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。 To overcome the sensible of traditional K-means clustering algorithm to initial centers,and avoid the arbitrary of available improved K-means algorithms for discovering good initial centers,this paper proposed a new algorithm to find the optimal initial centers for K-means clustering algorithm.It defined the density and the neighborhood for each sample according to the natural pattern distribution of exemplars in data space,so that the samples chose as initial seeds not only lie in the higher density area,but also far away from each other.It tested the new algorithm on some well-known datasets from UCI machine learning repository and on some synthetic datasets with different proportion noises using many different measures.The experimental results demonstrate that our new algorithm achieves excellent clustering result in short run time and is insensible to noisy data.It outperforms the traditional K-means clustering algorithm and those available algorithms for improving the initial seeds of K-means clustering algorithm.

作者谢娟英郭文娟谢维信高新波

机构地区陕西师范大学计算机科学学院西安电子科技大学电子工程学院深圳大学信息工程学院ATR国家重点实验室

出处《计算机应用研究》 CSCD 北大核心 2012年第3期888-892,共5页 Application Research of Computers

基金中央高校基本科研业务费专项资金重点资助项目(GK200901006) 陕西省自然科学基础研究计划资助项目(2010JM3004) 中央高校基本科研业务费专项资金资助项目(GK201001003)

关键词聚类 K-均值聚类初始中心邻域样本分布密度 clustering K-means clustering initial centers neighborhood density of pattern distribution

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献18

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1108
2HAN J W H,KAMBER M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2000.
3KAUFMAN L, ROUSSEEUW P J. Finding groups in data: an intro- duction to cluster analysis[ M]. New York:Wileys, 1990.
4DHILLON I S, GUAN Yu-qiang, KOGAN J. Refining clusters in high dimensional text data [ C ]//Proc of the 2nd SIAM Workshop on Clus- tering High Dimensional Data. 2002: 59-66.
5KHAN S S, AHMAD A. Cluster center initialization for K-means clustering [ J]. Pattern Recognition Letters,2004, 25 (11):1293- 1302.
6DEELERS S, AUWATANAMONGKOL S. Enhancing K-means algo- rithm with initial cluster centers derived from data partitioning along the data axis with the highest variance [ J]. Proceeding of World Academy of Science, Engineering and Technology, 2007,26 : 323- 328.
7钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：157
9赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：76
10汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：145

二级参考文献76

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3李洁,高新波,焦李成.一种基于修正划分模糊度的聚类有效性函数[J].系统工程与电子技术,2005,27(4):723-726. 被引量：8
4张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：62
5李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：117
6李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
7普运伟,金炜东,朱明,胡来招.核模糊C均值算法的聚类有效性研究[J].计算机科学,2007,34(2):207-210. 被引量：28
8钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
9袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：157
10Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large database[C]//Proc of ACM-SIGMOND lnt Conf Managemerit on Data, Seattle, Washington, 1998 . 73-84.

共引文献1706

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：2
2赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：7
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：3
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56. 被引量：1
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：2

同被引文献410

1乔珠峰,田凤占,黄厚宽,陈景年.缺失数据处理方法的比较研究[J].计算机研究与发展,2006,43(z1):171-175. 被引量：13
2张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
3王秀芳,王岩.优化K均值随机初始中点的改进算法[J].化工自动化及仪表,2012,39(10):1302-1304. 被引量：4
4逄玉俊,柳明,李元.k均值聚类分析在过程改进中的应用[J].华中科技大学学报（自然科学版）,2009,37(S1):245-247. 被引量：9
5杨戈,吕剑虹,刘志远.一种新型RBF网络序贯学习算法[J].中国科学（E辑）,2004,34(7):763-775. 被引量：14
6陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
7袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
8杨丽娟,张白桦,叶旭桢.快速傅里叶变换FFT及其应用[J].光电工程,2004,31(B12):1-3. 被引量：104
9倪友平,姜卫东,陈曾平.一种优化RBF神经网络训练算法及其在目标识别中的应用[J].现代电子技术,2005,28(3):18-20. 被引量：9
10姜波,阴丽娟,陈祥光,余向明,张晓钟.等效时间采样在雷达液位仪中的应用[J].仪表技术与传感器,2005(6):50-51. 被引量：6

引证文献53

1谢娟英,郭文娟,谢维信,高新波.基于密度RPCL的K-means算法[J].西北大学学报（自然科学版）,2012,42(4):570-576. 被引量：5
2张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：59
3王永贵,林琳,刘宪国.结合双粒子群和K-means的混合文本聚类算法[J].计算机应用研究,2014,31(2):364-368. 被引量：16
4郝晓丽,张靖.基于改进自适应聚类算法的RBF神经网络分类器设计与实现[J].计算机科学,2014,41(6):260-263. 被引量：21
5谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：91
6邢长征,谷浩.基于平均密度优化初始聚类中心的k-means算法[J].计算机工程与应用,2014,50(20):135-138. 被引量：32
7付卫红,马丽芬,李爱丽.基于改进K-均值聚类的欠定混合矩阵盲估计[J].系统工程与电子技术,2014,36(11):2143-2148. 被引量：10
8何佳知,谢颖华.基于密度的优化初始聚类中心K-means算法研究[J].微型机与应用,2015,34(19):17-19. 被引量：5
9张淑清,黄震坤,冯铭.一种优化的改进k_means算法[J].微电子学与计算机,2015,32(12):36-39. 被引量：2
10刘雨康,张正阳,陈琳琳,陈静.基于KNN算法的改进的一对多SVM多分类器[J].计算机工程与应用,2015,51(24):126-131. 被引量：11

二级引证文献551

1周斌,苏鹏,高鹏.基于改进YOLOv3算法的挖掘机检测方法[J].数字制造科学,2022(2):141-145. 被引量：2
2王晶,李炜,洪心睿,吴宸之.基于改进密度聚类算法的语音信号欠定盲分离[J].信息与控制,2023,52(6):784-796. 被引量：9
3夏文鹤,赵宗旭,李皋,李永杰,李宬晓,陈向东.基于非线性分类网络的气体钻井风险智能识别方法[J].信息与控制,2023,52(4):455-465. 被引量：2
4赵晋泉,孙中昊,杨余华,王永华,胡国胜,陈刚.分布式光伏参与调频辅助服务交易机制研究[J].全球能源互联网,2020(5):477-486. 被引量：13
5段桂芹,邹臣嵩.基于K-medoids算法的学生成绩聚类研究[J].微型电脑应用,2020,0(2):64-66. 被引量：2
6齐锡晶,刘乃畅,陈浩然.开发企业参建模式下保障性租赁住房的综合效益评价研究[J].建筑经济,2022,43(S01):753-758. 被引量：3
7曾勇,张纯姑.基于变异性和聚类分析的高校班级学困群体识别[J].中国多媒体与网络教学学报（电子版）,2020(31):118-120.
8吴兴惠,周玉萍,邢海花.利用随机森林算法对学生成绩评价与预测研究[J].电脑知识与技术,2020,0(4):254-255. 被引量：8
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：2
10刘爱萍.基于数据挖掘技术的高校学生成绩预测模型构建[J].长春工程学院学报（自然科学版）,2020,21(2):98-101. 被引量：6

1陈少仿.颜色的空间分布密度与图像检索[J].现代计算机,2005,11(7):4-8.
2杨韬,邓红莉.面向子空间的否定选择算法[J].计算机应用研究,2016,33(2):435-438.
3田地,王世卿.数据挖掘中基于密度和距离聚类算法设计[J].计算机技术与发展,2006,16(10):49-51. 被引量：5
4翟云,王树鹏,马楠,杨炳儒,张德政.基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J].电子学报,2014,42(7):1311-1319. 被引量：18
5孟海东,马娜娜,宋宇辰,徐贯东.基于密度函数加权的模糊C均值聚类算法研究[J].计算机工程与应用,2012,48(27):123-127. 被引量：12
6王万良,王震宇,郑建炜,郑泽萍.密度诱导型数据描述单类分类机[J].控制与决策,2011,26(11):1665-1669. 被引量：1
7郭金玉,袁堂明,林森,李元.基于判别核窗宽的掌纹识别方法[J].光电子．激光,2015,26(2):336-341. 被引量：3
8王丽萍,刘建平.基于密度的K-Means算法在客户细分中应用的研究[J].工业控制计算机,2016,29(10):79-80. 被引量：5
9谢娟英,郭文娟,谢维信,高新波.基于样本空间分布密度的改进次胜者受罚竞争学习算法[J].计算机应用,2012,32(3):638-642. 被引量：5
10袁从贵,张新政.时序峰值预测的最小二乘支持向量回归模型[J].控制与决策,2012,27(11):1745-1750. 被引量：1

计算机应用研究

2012年第3期

浏览历史

内容加载中请稍等...

基于样本空间分布密度的初始聚类中心优化K-均值算法被引量：53

参考文献18

二级参考文献76

共引文献1706

同被引文献410

引证文献53

二级引证文献551

相关作者

相关机构

相关主题

浏览历史

基于样本空间分布密度的初始聚类中心优化K-均值算法 被引量：53

参考文献18

二级参考文献76

共引文献1706

同被引文献410

引证文献53

二级引证文献551

相关作者

相关机构

相关主题

浏览历史

基于样本空间分布密度的初始聚类中心优化K-均值算法被引量：53