一种面向分类属性数据的聚类融合算法研究被引量：7

Clustering ensemble algorithm for categorical data

下载PDF

导出

摘要为了解决单一聚类算法存在结果不准确和随机性大,且现有算法对分类数据聚类时将其转换成数值型会产生误差等问题,提出了一种面向分类属性数据的聚类融合算法。算法利用原有分类属性值的差异产生聚类成员,然后采用相似度方法进行划分,通过寻求目标函数最小的划分来简化聚类过程。算法在UCI数据集上进行了验证,结果表明算法的效率和精度都优于现有算法,说明算法的设计和更新策略是有效的。 In order to prevent the inaccuracy and randomness of single clustering algorithm,and error of existing clustering algorithm transferring categorical data into numerical data for clustering,this paper proposed the clustering ensemble for catego-rical data.The algorithm produced clustering memberships by values of categorical data,and then used similarity degree to partition dataset,which reduced the process of clustering by minimizing the objective function.Finally,applied the algorithm into UCI dataset.The results show its efficiency and accuracy are better than existing algorithms,the design and refreshing methods are effective.

作者李桃迎陈燕张金松张琳

机构地区大连海事大学交通运输管理学院

出处《计算机应用研究》 CSCD 北大核心 2011年第5期1671-1673,共3页 Application Research of Computers

基金国家自然科学基金资助项目(70801007 70940008) 国家教育部博士点基金资助项目(200801510001) 国家教育部科学技术研究重点资助项目(209030) 国家科技支撑计划资助项目(2009BAG13A03) 中央高校基本科研业务费专项资金资助项目(2009QN085)

关键词聚类融合分类属性数据数据挖掘相似度 clustering ensemble categorical data data mining similarity degree

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1EVERITT B S, LANDAU S, LEESE M. Cluster analysis[M]. 4th ed. London: Arnold, 2001.
2JAIN A K, MURTY M N, FLYNN P J. Data clustering: a review [J]. ACM Computing Surveys, 1999,31 ( 3 ) :264-323.
3FRED A L. Finding consistent clusters in data partitions [ C ]//Proc of the 2nd International Workshop on Multiple Classifier Systems. Cambridge: Springer, 2001 : 309-318.
4STREHL A, GHOSH J. Cluster ensembles: a knowledge reuse frame-work for combining multiple partitions [ J ]. Journal of Machine Learning Research, 2003,3(3):583-617.
5HE Zeng-you, XU Xiao-fei, DENG Sheng-chun. A cluster ensemble method for clustering categorical data [ J ]. Information Fusion,2005, 6(2) :143-151.
6FRED A, JAIN A K. Data clustering using evidence accumulation [ C]//Proc of the 16th International Conference on Pattern Recognition. Washington DC : IEEE Computer Society,2002 : 276-280.
7LI Tao-ying, CHEN Yan. Fuzzy clustering ensemble algorithm for partitioning categorical data[ C ]//Proc of the 2nd International Conference on Business Intelligent and Financial Engineering. Washington DC : IEEE Computer Society,2009 : 170-174.
8杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：197
9FORSYTH R. UCI machine learning repository[ DB/OL]. ( 1990-05- 15 ). http ://archive. ies. uci. edu/ml/datasets/Zoo.

二级参考文献6

1Treshansky A,McGraw R.An overview of clustering algorithms[A].Proceedings of SPIE,The International Society for Optical Engineering[C].2001(4367):41-51.
2Clausi D A.K-means Iterative Fisher (KIF) unsupervised clustering algorithm applied to image texture segmentation[J].Pattern Recognition,2002,35:1959-1972.
3Bezdek J C,Pal N R.Some new indexes of cluster validity[J].IEEE Transactions on Systems,Man,and Cybernetics _ Part B:Cybernetics,1998,28(3):301-315.
4Ramze R M,Lelieveldt B P F,Reiber J H C.A new cluster validity indexes for the fuzzy c-mean[J].Pattern Recognition Letters,1998,19:237-246.
5范九伦,裴继红,谢维信.聚类有效性函数:熵公式[J].模糊系统与数学,1998,12(3):68-74. 被引量：19
6于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围[J].中国科学（E辑）,2002,32(2):274-280. 被引量：131

共引文献196

1段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：2
2刘文一,孙伟,朱良明,赵志博.舰载飞行器打击水面舰艇编队队形识别和目标选择方法[J].兵器装备工程学报,2020,41(2):85-89. 被引量：11
3刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：24
4楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
5韩丽苹,孟海东,李海荣.聚类算法在矿产资源与经济发展关系研究中的应用[J].煤炭技术,2015,34(5):290-292.
6李桃迎,陈燕.一种改进FCM的快速优化算法及其应用[J].大连海事大学学报,2006,32(4):23-27. 被引量：4
7郭海湘,诸克军,李玥,王得运.软计算与硬计算融合的中国石油需求预测[J].中国地质大学学报（社会科学版）,2007,7(6):24-28. 被引量：2
8孙薇,张省.基于半监督支持向量机的供电企业安全性评价[J].电气应用,2008,27(1):57-60. 被引量：1
9刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1
10施培蓓,钱雪忠,汪中.基于均衡化函数的快速K-means算法[J].计算机工程与应用,2008,44(3):189-191. 被引量：1

同被引文献62

1陈孝新.熵权法在股票市场的应用[J].商业研究,2004(16):139-140. 被引量：9
2樊爱军,雷宪章,刘红超,李兴源.研究大规模互联电网区域间振荡的特征值分析方法[J].电网技术,2005,29(17):35-39. 被引量：33
3阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10. 被引量：28
4张旭,沈沉,梅生伟,陈颖.小干扰稳定特征向量和相关因子的分布式算法[J].电力系统自动化,2007,31(14):7-11. 被引量：11
5Han Jiawei,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2008.
6JAIN A K. Data clustering: 50 years beyond K-means[ J]. Pattern Recognition Letters ,2010,31 ( 8 ) :651-666.
7JAIN A K, DUBES R C. Algorithms for clustering data[ M]. New Jersey : Prentice-Hall, 1988.
8STREHL A, GHOSH J. Cluster ensembles:a knowledge reuse frame- work for combining multiple partitions [ J ]. Journal of Machine Learning Research ,2002,3( 1 ) :583-617.
9LI Tao, OGIHARA M, MA Sheng. On combining multiple cluster- ings: an overview and a new perspective[ J]. Applied Intelligence, 2010,33(2) :207-219.
10VEGA-PONS S, RUIZ-SHULCLOPER J. A survey of clustering en- semble algorithms [ J]. International Journal of Pattern Recogni- tion and Artificial Intelligence ,2011,25(3 ) :337-372.

引证文献7

1马海峰,刘宇熹.基于相关随机子空间的分类数据聚类集成[J].计算机应用研究,2013,30(4):1082-1084. 被引量：2
2史东宇,鲁广明,顾丽鸿,陈启超,李刚.基于数据聚类的电力系统在线小干扰稳定机组分群算法[J].华东电力,2013,41(11):2223-2228. 被引量：3
3孙浩军,李惊涛,张磊,张崇锐,肖婷.一种高维分类型数据的子空间聚类算法[J].汕头大学学报（自然科学版）,2014,29(3):51-59.
4孙浩军,闪光辉,高玉龙,袁婷,吴云霞.高维分类型数据加权子空间聚类算法[J].计算机工程与应用,2014,50(23):131-135. 被引量：2
5严丽宇,魏巍,郭鑫垚,崔军彪.一种基于带核随机子空间的聚类集成算法[J].南京大学学报（自然科学版）,2017,53(6):1033-1042. 被引量：1
6江明奇,沈忱林,李寿山.面向问答文本的属性分类方法[J].中文信息学报,2019,33(4):120-126. 被引量：3
7姜智涵,朱军,周晓锋,李帅.基于信息熵的混合属性数据谱聚类算法[J].计算机应用研究,2019,36(8):2256-2260. 被引量：13

二级引证文献23

1孙浩军,李惊涛,张磊,张崇锐,肖婷.一种高维分类型数据的子空间聚类算法[J].汕头大学学报（自然科学版）,2014,29(3):51-59.
2孙浩军,闪光辉,高玉龙,袁婷,吴云霞.高维分类型数据加权子空间聚类算法[J].计算机工程与应用,2014,50(23):131-135. 被引量：2
3徐伟,夏小琴,赵静波,鲍颜红.基于电气距离的低频振荡关联区域和模式类型识别[J].电力系统保护与控制,2018,46(2):24-30. 被引量：17
4邱云飞,狄龙娟.基于簇间距离自适应的软子空间聚类算法[J].计算机工程与应用,2016,52(21):88-93. 被引量：6
5胡迪军,康建东,鲁广明,李伟.电力系统在线安全分析与预警系统实用化研究[J].宁夏电力,2018(6):1-5. 被引量：1
6张晋宝.基于特征值法的黑龙江电网小干扰稳定性分析[J].黑龙江电力,2019,41(6):488-494. 被引量：2
7王红,陈功平.信息熵加权的协同聚类算法的改进与优化[J].宁夏师范学院学报,2020,41(1):59-65. 被引量：1
8陈丽芳,代琪,付其峰.基于粒计算的ELM加权集成算法研究[J].华北理工大学学报（自然科学版）,2020,42(3):126-132. 被引量：2
9谭令,孙梓宽,王庆国.基于中医传承辅助平台的现代中医药治疗慢性乙型肝炎用药规律分析[J].中西医结合肝病杂志,2020,30(6):484-488. 被引量：4
10柯行思,吴梦昭,李博,王云飞,周苏.基于改进熵权法的电力信用数据敏感度监控算法[J].电子设计工程,2020,28(24):66-69. 被引量：4

1刘建,孙鹏,倪宏.面向分类的网页主题特征提取[J].计算机应用研究,2010,27(9):3399-3402. 被引量：2
2邓峰.多跳网络中分类属性数据模糊聚类仿真[J].计算机仿真,2017,34(1):292-295. 被引量：12
3张灿龙,李忠利,陈华彬.一种改进DBSCAN密度聚类算法[J].数字技术与应用,2016,34(11):134-134.
4杨波,陈宁,郁云,安源.面向分类信息网站数据挖掘算法的研究与应用[J].电脑与信息技术,2008,16(6):34-37. 被引量：1
5张瑞,马逸尘,段现报.面向分类去噪问题的模糊支持向量机新算法[J].西安交通大学学报,2007,41(12):1414-1417. 被引量：5
6李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
7殷飞,焦李成.基于面向分类准则的维数约简及其在人脸识别中的应用[J].计算机科学,2014,41(5):283-287.
8顾文强,李志华.基于互信息的分类属性数据特征选择算法[J].计算机工程与应用,2014,50(16):135-139. 被引量：3
9杨明,余旭初,吴翰书,王超,林斌.面向分类的高光谱影像局部线性嵌入算法研究[J].测绘科学,2012,37(4):29-31.
10赵恒,张高煜.近似k-median分类属性数据聚类[J].计算机工程,2007,33(8):66-67.

计算机应用研究

2011年第5期

浏览历史

内容加载中请稍等...

一种面向分类属性数据的聚类融合算法研究被引量：7

参考文献9

二级参考文献6

共引文献196

同被引文献62

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

一种面向分类属性数据的聚类融合算法研究 被引量：7

参考文献9

二级参考文献6

共引文献196

同被引文献62

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

一种面向分类属性数据的聚类融合算法研究被引量：7