摘要
针对传统的基于密度的聚类算法对海量数据处理时,存在参数输入复杂及时间复杂度高的问题,给出新的密度定义方法,并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法,同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明,所提出的算法具有输入参数简单和聚类效率高的特点,可以应用于海量文本数据的聚类处理。
Because of the high time complexity and complicated parameter setting in traditional density-based clustering algorithm, a new density definition is proposed, which just needs one parameter and can find clusters with different densities. The authors also expand the algorithm to a two-stage dynamic density-based clustering algorithm, which can process large-scale text corpus data. Experiments on synthetic dataset, large-scale dataset from UCI, English text corpus and Chinese text corpus show that TSDDBCA algorithm has the characteristic of easy parameter setting and high clustering efficiency, and can be applied to clustering process to large-scale text data.
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2013年第1期133-139,共7页
Acta Scientiarum Naturalium Universitatis Pekinensis
基金
国家自然科学基金(61070061)
国家社会科学基金(12BYY045)
教育部人文社会科学研究青年基金(11YJCZH086
12YJCZH281)
广东省高层次人才项目(粤教师函[2010]79号)资助
关键词
文本挖掘
聚类
海量数据
动态密度
text mining
clustering
large-scale data
dynamic density