基于Hash函数取样的线性时间聚类方法LCHS 被引量：2

LCHS: a New Linear Clustering Method Based on Sampling with Hash Function

下载PDF

导出

摘要作为数据挖掘中的经典算法,k-中心点算法存在效率低、对大数据集适应性差等严重不足.该文针对这一不足,提出并实现Hash分层模型LCHS(LinearClusteringBasedHashSampling),主要贡献包括:(1)将m维超立方体按等概率空间进行分桶,使得每层(即Hash桶)的数据个数相近,以较小的计算代价获得分层抽样的效果;(2)新算法保证了样本具有对总体数据的充分的统计代表性;(3)从理论上证明了新算法复杂度为O(N);(4)对比实验表明新算法在数据集的个数接近10000时,效率比传统算法提高2个数量级,数据集的个数接近8000时,聚类质量比CLARA算法提高55%. As the classical method in data mining, the k-median algorithm is with serious deficiency such as low efficiency , bad adaptability for large data set etc. To solve this problem, a new method named LCHS （ Linear Clustering Based Hash Sampling） is proposed in this paper. The main contribution includes：（1） Partitions the buckets by using the space of equal probability in the m-dimension super-cube to make the number of data items in each layer（ namely the bucket of Hash） approximate equal, gets the layering sampling with the small cost; （2） the samples under the new algorithms is with sufficient representative power for total data set; （3） proves that the complexity of the new algorithm is O（N）;（4） By the comparing experiment shows that the performance of LCHS is 2 magnitude higher than traditional with the number of data set near to 10000,and the clustering quantity is increase 55,% with number of data set near to 8000.

作者元昌安唐常杰张天庆陈安龙左劼谢方军

机构地区四川大学计算机学院

出处《小型微型计算机系统》 CSCD 北大核心 2005年第8期1364-1368,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金(60473071)资助国家"九七三"计划项目(2002CB111504)资助高等学校博士学科点专项科研基金SRFDP(20020610007)资助广西自然科学基金(桂科自0339039)资助.

关键词 K-中心点聚类分析线性时间 HASH函数取样 k-median algorithm clustering linear time Hash function sampling

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Jiawei Han0 Micheline Kamber. Data mining: Concepts and techniques[M]. Morgan Kaufmann Publishers, 2001.
2MacQueen J. Some methods for classification and analysis of multivariate observations [C]. Proc. 5th Berkeley Symp. Math Statist, Prob. , 1967,1: 281-297.
3Kaufman L and Rousseeuw P J. Finding groups in data:An introduction to cluster anaysis [M]. New youk: Johnwiley&Sons, 1990.
4Ng R, Han J. Efficient and effective clustering method for spatiall data mining[C]. In Proc. 1994 Int. Conf. Very Large Data Base(VLDB'94) ,144-155, Santiago, Chile,Sept. 1994.
5Murray R Spiegel, Larry J Stephens. Schaum's outline of theory and problems of statistics, Third Edition[M]. McGraw-Hill Companies, Inc. 1999.
6元昌安,唐常杰,谢方军,王锦.复共线性空间数据回归模型挖掘算法及其实现[J].四川大学学报（自然科学版）,2004,41(1):66-70. 被引量：2
7Leslie Kish. Survey sampling[M]. John Wiley & Sons. Inc.1985.
8Jain A K, Dubes R C. Algorithms for clustering data[M].Prentice-Hall, 1988.

二级参考文献6

1杨晓勇,王奎仁,孙幕蓉,汪祥云.安徽沙溪斑岩铜矿床矿体空间分布的趋势面分析及其与控矿构造的关系[J].高校地质学报,1996,2(3):273-283. 被引量：12
2梁天刚,王兮之,戴若兰.多年平均降水资源空间变化模拟方法的研究[J].西北植物学报,2000,20(5):856-862. 被引量：36
3苏奋振,周成虎,邵全琴,杜云艳,Stephen K Brown.东海区鱼类资源变化GIS时空分析[J].高技术通讯,2001,11(5):60-63. 被引量：17
4顾方琦,张春芝,张枝榴,陈礼.1970年以来华东地区地震活动主体区的迁移[J].地震地质,2001,23(3):475-480. 被引量：6
5李文,鲍书明,Mark L.Wilson,王金祥,寇景轩.GIS在肠道线虫感染区域性分布研究中的应用[J].中国寄生虫病防治杂志,2001,14(3):197-199. 被引量：8
6袁红春,熊范纶,杭小树,张友华.一个适用于地理信息系统的数据挖掘工具—GISMiner[J].中国科学技术大学学报,2002,32(2):217-224. 被引量：10

共引文献1

1饶元,元昌安,邓松,杨乐婵,廖剑平.基于C#的主成分分析算法及其与GIS接口[J].计算机应用研究,2006,23(7):38-40. 被引量：2

同被引文献15

1付淇,李正凡.基于CLIQUE的聚类算法研究[J].华东交通大学学报,2006,23(5):79-82. 被引量：12
2蒋盛益,李庆华.一种基于引力的聚类方法[J].计算机应用,2005,25(2):286-288. 被引量：9
3陈梅兰.基于网格和密度聚类算法研究[J].计算机与现代化,2005(2):1-5. 被引量：9
4冯兴杰,黄亚楼.带约束条件的聚类算法研究[J].计算机工程与应用,2005,41(7):12-14. 被引量：12
5元昌安,唐常杰,温远光,胡建军,彭京.基于基因表达式编程的智能模型库系统的实现[J].四川大学学报（工程科学版）,2005,37(3):99-104. 被引量：11
6淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262. 被引量：84
7赵法信,刘俊岭.数据流聚类算法研究[J].通化师范学院学报,2006,27(2):29-32. 被引量：4
8刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
9沙金,张翠肖,贾玉锋,胡迎新.HGHD:一种基于超图的高维空间数据聚类算法[J].微电子学与计算机,2006,23(6):185-187. 被引量：2
10贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：235

引证文献2

1孙军华.一个近似的线性时间聚类算法[J].广西师范学院学报（自然科学版）,2005,22(3):80-84.
2王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1

二级引证文献1

1彭晓琳,黄樟灿,朱洁.基于闭包的聚类判别方法研究[J].计算机工程与应用,2009,45(18):191-193. 被引量：2

1许文杰,刘希玉.基于无监督神经网络聚类算法的研究[J].信息技术与信息化,2006(6):85-88. 被引量：3
2曹丹阳,杨炳儒,李广原,刘英华.一种基于CF树的k-medoids聚类算法[J].计算机应用研究,2011,28(9):3260-3263. 被引量：3
3孙胜,王元珍.基于核的自适应K-Medoid聚类[J].计算机工程与设计,2009,30(3):674-675. 被引量：14
4孙胜.基于核的自适应聚类及其在文本分类中的应用[J].黄石理工学院学报,2008,24(6):12-14. 被引量：1
5孙胜,王元珍.基于核的自适应聚类及其在入侵检测中的应用[J].计算机科学,2008,35(12):190-191. 被引量：1
6李洪升.K-Medoids算法在人脸识别系统中的应用[J].现代计算机,2009,15(4):59-62. 被引量：3
7王承民,张铁岩,佘楚云.K-中心点聚类方法的优化模型与简化梯度算法[J].控制工程,2009,16(S2):141-144.
8陈应显,韩明峰.改进粒子群算法的露天矿路径优化研究[J].微电子学与计算机,2011,28(11):61-64. 被引量：8
9张晓慧,孙连山.基于改进K-中心点的电子地图数据质量检查算法[J].软件导刊,2017,16(2):81-84. 被引量：2
10赖邦传,陈晓红,周辉.一种基于映射簇的聚类分析算法[J].中南大学学报（自然科学版）,2004,35(1):112-116.

小型微型计算机系统

2005年第8期

浏览历史

内容加载中请稍等...