摘要
为了解决单一聚类算法存在结果不准确和随机性大,且现有算法对分类数据聚类时将其转换成数值型会产生误差等问题,提出了一种面向分类属性数据的聚类融合算法。算法利用原有分类属性值的差异产生聚类成员,然后采用相似度方法进行划分,通过寻求目标函数最小的划分来简化聚类过程。算法在UCI数据集上进行了验证,结果表明算法的效率和精度都优于现有算法,说明算法的设计和更新策略是有效的。
In order to prevent the inaccuracy and randomness of single clustering algorithm,and error of existing clustering algorithm transferring categorical data into numerical data for clustering,this paper proposed the clustering ensemble for catego-rical data.The algorithm produced clustering memberships by values of categorical data,and then used similarity degree to partition dataset,which reduced the process of clustering by minimizing the objective function.Finally,applied the algorithm into UCI dataset.The results show its efficiency and accuracy are better than existing algorithms,the design and refreshing methods are effective.
出处
《计算机应用研究》
CSCD
北大核心
2011年第5期1671-1673,共3页
Application Research of Computers
基金
国家自然科学基金资助项目(70801007
70940008)
国家教育部博士点基金资助项目(200801510001)
国家教育部科学技术研究重点资助项目(209030)
国家科技支撑计划资助项目(2009BAG13A03)
中央高校基本科研业务费专项资金资助项目(2009QN085)
关键词
聚类融合
分类属性数据
数据挖掘
相似度
clustering ensemble
categorical data
data mining
similarity degree