一种融合变异系数的k-mean聚类分析方法被引量：5

K-means clustering algorithm based on coefficient of variation

下载PDF

导出

摘要 K-means聚类算法的性能依赖于距离度量的选择,k-means算法将欧几里德距离作为最常用的距离度量方法。欧氏距离认为所有属性在聚类中作用是相同的,但是这种距离度量方法并不能准确反映样本间的相异性。针对这种不足,提出了融合变异系数的k-means聚类分析方法(CV-k-means),利用变异系数权重向量来减少不相关属性的影响。实验结果表明,该方法的聚类结果优于k-means算法。 The performance of k-means clustering algorithm depends on the selection of distance metrics. The Euclid distance is commonly chosen as the similarity measure in k-means clustering algorithm, which treats all features equally and does not accurately reflect the dissimilarity among samples. K-means clustering algorithm based on Coefficient of Variation（CV-k-means） is proposed in this paper to solve this problem. The CV-k-means clustering algo- rithm uses variation coefficient weight vector to decrease the affects of irrelevant features. The experimental results show that the proposed algorithm can generate better clustering results than k-means algorithm.

作者范阿琳任树华

机构地区大连工业大学信息科学与工程学院

出处《计算机工程与应用》 CSCD 2012年第35期114-117,共4页 Computer Engineering and Applications

关键词 K-MEANS算法相异性度量权变异系数 k-means clustering dissimilarity measure weighting coefficient of variation

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献17

1Han J,Kamber M.Data mining concepts and technique[M].2nd ed.[S.l.]:Morgan Kaufmann Publishers,2006:383-386.
2Xu R.Survey of clustering algorithm[J].IEEE Trans on Neural Netw,2005,16:645-678.
3Chinrungrueng C.Evaluation of heterogeneous architectures for artificial neural networks[D].Berkeley:University of California,1993.
4Lloyd S P.Least squares quantization in PCM[J].IEEE Trans on Information Theory,1982,IT-28:129-137.
5Moody J,Darken C J.Fast learning in networks of locally-tuned processing units[J].Neural Computation,1989,1:281-294.
6Jiang D,Tang C,Zhang A.Cluster analysis for gene ex-pression data:a survey[J].IEEE Trans on Knowledge and Data Eng,2004,16:1370-1386.
7Chen X,Yin W,Tu P,et al.Weighted k-means algorithm based text clustering[C]//Proceedings of International Symposium on Information Engineering and Electronic Commerce,2009:51-55.
8Mitchell T M.Machine learning[M].New York:McGraw-Hill,1997:230-247.
9王熙照,王亚东,湛燕,袁方.学习特征权值对K-均值聚类算法的优化[J].计算机研究与发展,2003,40(6):869-873. 被引量：50
10He X.Coefficient of variation and its application to strength prediction of adhesively bonded joints[C]//Proceedings of Internationsl Conference on Measuring Technology and Mechatronics Automation,2009:602-605.

二级参考文献12

1邱保志,沈钧毅.网格聚类中的边界处理技术[J].模式识别与人工智能,2006,19(2):277-280. 被引量：13
2邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与决策,2006,21(9):1011-1014. 被引量：25
3袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：157
4Han Jiawei, Kamber M. Data Mining : Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001.
5Xia Chenyi, Hsu W, Lee M L, et al. BORDER: Efficient Computation of Boundary Points. IEEE Trans on Knowledge and Data Engineering, 2006, 18(3) : 289 -303.
6Hsu C M, Chen M S. Subspace Clustering of High Dimensional Spatial Data with Noises// Proc of the Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Sydney, Australia, 2004:31 -40.
7Breunig M M, Kriegel H P, Ng R T, et al. LOF: Identifying Density-Based Local Outliers// Proc of the ACM SIGMOD International Conference on Management of Data. Dalles, USA, 2000:93 - 104.
8Karypis G, Ham E H, Kumar V. Chameleon : A Hierarchical Clustering Algorithm Using Dynamic Modeling. IEEE Computer, 1999, 32 (8) : 68 -75.
9Tan Pang-ning,Steinbaeh M,Kumar V.Introduction to data mining[M]. [S.l.] : Addison Wesley, 2005.
10Han Jia-wei,Kamber M.Data mining:Concepts and techniques[M]. [S.l.]:Morgan Kaufmann Publishers,2001.

共引文献161

1李晓波,闫道儒,顾煜炯.数据均值聚类在故障模式识别中的应用[J].中国电力教育,2005(z1):249-251.
2吴东飞,金玉龙,蒋建国.基于TMS320DM6467和TMS320C6472的高清视频处理系统[J].数据采集与处理,2012,27(S2):227-234.
3张海龙,王仁彪,聂俊,刘进忠.海量数据的网格启发信息密度聚类算法[J].吉林大学学报（工学版）,2011,41(S2):254-258. 被引量：2
4汤亚玲,崔志明.基于遗传算法的Web用户聚类模型的研究[J].微电子学与计算机,2004,21(8):65-67. 被引量：4
5闫伟,张浩,陆剑峰,张辉.加权聚类分析在设备运行监控中的应用[J].计算机工程与应用,2004,40(26):31-32. 被引量：3
6LIU Shuai-dong,CHEN Shi-hong.Clustering of Web Learners Based on Rough Set[J].Wuhan University Journal of Natural Sciences,2004,9(5):542-546.
7王太雷.基于相似模式聚类的电子商务网站个性化推荐系统研究[J].计算机工程与应用,2005,41(6):152-157. 被引量：6
8王太雷.个性化推荐系统中相似模式聚类研究[J].计算机工程,2005,31(10):156-158. 被引量：3
9蔡江辉,张华煜.离群数据挖掘方法研究[J].电脑开发与应用,2005,18(12):46-47. 被引量：1
10吕巍,陈洁.基于K-means算法的中国商业银行零售业务顾客行为细分策略[J].系统工程理论方法应用,2005,14(6):502-505. 被引量：1

同被引文献62

1范景丽.普通溶剂油市场行情回顾及展望[J].辽宁化工,2012,41(8):785-788. 被引量：1
2杨海鹏,王志辉,王一.内蒙古民族大学公共体育教学现状及教改措施[J].内蒙古民族大学学报（自然科学版）,2004,19(6):717-718. 被引量：1
3乔春贵,宫万明,禹航,栾金花,单利民,王福军,张凤和.向日葵主要农艺性状的遗传分析[J].吉林农业科学,1994,19(4):8-11. 被引量：3
4王惠文.变量多重相关性对主成分分析的危害[J].北京航空航天大学学报,1996,22(1):65-70. 被引量：17
5李国强.基于能量指标与体重指数(BMI)关系的评价肥胖标准的方法研究[J].北京体育大学学报,2007,30(1):56-58. 被引量：21
6向理军,雷中华,石必显.向日葵菌核病菌的生长发育和侵染循环[J].新疆农业科学,2007,44(B06):181-182. 被引量：1
7袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：157
8赖玉霞,刘建平,杨国兴.基于遗传算法的K均值聚类分析[J].计算机工程,2008,34(20):200-202. 被引量：73
9汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：142
10汪嘉,姜明富,李友国.一种基于改进的K-Means算法的聚类分析方法[J].农业网络信息,2009(10):120-122. 被引量：5

引证文献5

1孙菲,张健沛,董野,任福栋,于涛,郭春平.基于标准偏移量的学生成绩K-means聚类分析算法研究[J].齐齐哈尔大学学报（自然科学版）,2015,31(2):57-64. 被引量：7
2黄燕,薄翠梅,牛超.基于LSSVM的溶剂油分离建模方法研究[J].现代化工,2017,37(2):190-193.
3周本金,陶以政,纪斌,谢永辉.最小化误差平方和k-means初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52. 被引量：42
4王海彬.大学生体质健康状况变化分析——以池州学院2015级在校生为例[J].池州学院学报,2020,34(3):96-100. 被引量：4
5于欢,付国裕,孔梓丞,张美善,杨宇庭,杨丽艳,张忠臣.甘南县向日葵种质资源主要表型性状的分析与评价[J].黑龙江农业科学,2023(8):18-25. 被引量：1

二级引证文献54

1陶丽华.2016—2020年右江民族医学院新生体质测试总体情况及变化趋势分析[J].体育视野,2022(13):94-96.
2阙永伟,肖亚玲.高校大学生体质健康变化与影响因素分析——基于2018—2020年广州航海学院大学生体质健康测试[J].体育视野,2022(2):29-32. 被引量：1
3黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
4孙菲,张健沛,任福栋,姜永增,邓锟.聚类相关性职业能力培养体系构建与实施[J].高师理科学刊,2016,36(8):25-30.
5孙景峰,李秀丽,王彦波,欧阳晓松,时圣永,张欣荣,邹璐璐.基于K-means聚类分析与偏相关分析的高考质量评价体系构建与实施[J].高师理科学刊,2016,36(9):32-37. 被引量：1
6孔杏.聚类分析在学生学习行为分析中的应用[J].西部素质教育,2018,4(18):179-181.
7李春生,刘涛,于澍,张可佳.基于K-means算法的研究生入学成绩分析[J].计算机技术与发展,2019,29(2):162-165. 被引量：7
8李艳娟,牛梦婷,李林辉.基于蜂群k-means算法的遥感图像聚类应用研究[J].计算机工程与应用,2019,55(6):151-159. 被引量：20
9王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：128
10郭鹏,蔡骋.基于聚类和关联算法的学生成绩挖掘与分析[J].计算机工程与应用,2019,55(17):169-179. 被引量：49

1陆林花.一种新的基于遗传算法的动态聚类算法[J].计算机仿真,2009,26(7):122-125. 被引量：5
2郭一鹏,梁吉业,赵兴旺.基于MapReduce的混合数据孤立点检测算法[J].小型微型计算机系统,2014,35(9):1961-1966. 被引量：3
3常茜茜,张月琴.一种基于划分的混合数据聚类算法[J].计算机应用与软件,2014,31(6):154-157. 被引量：5
4陈新泉.一种基于MST的自适应优化相异性度量的半监督聚类方法[J].计算机工程与科学,2011,33(10):154-158. 被引量：1
5李照奎,丁立新,王岩,何进荣,周凌云.基于拉普拉斯方向的差值线性判别分析[J].计算机科学,2014,41(6):161-165. 被引量：2
6梁波,戴芳,赵凤群.边缘跟踪算法的图像线条画生成[J].中国图象图形学报,2011,16(11):2074-2080. 被引量：1
7赵兴旺,梁吉业.一种基于信息熵的混合数据属性加权聚类算法[J].计算机研究与发展,2016,53(5):1018-1028. 被引量：45
8胡晓雪,赵嵩正,吴楠.面向分类属性数据的一种改进相异性度量及其在客户细分中的应用[J].计算机应用研究,2016,33(2):400-403. 被引量：4
9李志华,顾言,陈孟涛,王士同,陈秀宏.异构数据的结构熵聚类算法[J].计算机科学,2011,38(2):171-174. 被引量：5
10陈新泉.推进式优化特征权重的K-中心点聚类方法[J].计算机工程与应用,2011,47(29):175-181. 被引量：2

计算机工程与应用

2012年第35期

浏览历史

内容加载中请稍等...

一种融合变异系数的k-mean聚类分析方法被引量：5

参考文献17

二级参考文献12

共引文献161

同被引文献62

引证文献5

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

一种融合变异系数的k-mean聚类分析方法 被引量：5

参考文献17

二级参考文献12

共引文献161

同被引文献62

引证文献5

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

一种融合变异系数的k-mean聚类分析方法被引量：5