摘要
本文提出了一种云环境下基于二进制编码的并行频繁项集挖掘算法,利用一种特殊的二进制编码的依赖度计量方法对原始数据集合进行编码转换及依赖度聚类,然后将数据集分布部署在云环境中,并采用共享多头表的FP-Growth并行改进算法挖掘频繁项集.实验表明,对于大规模数据集来说,本文算法可以取得良好的性能.
This paper proposes a parallel frequent itemsets mining algorithm based on binary coding under cloud environment.A special binary coding dependency calculating method is adopted to transfer the raw data and cluster based on dependency,then the data is distributed deployed in cloud environment and the parallel improved algorithm of FP-Growth based on shared multi-head table is used to mine frequent item sets.Experiments show that the algorithm performed nicely with large scale of data sets.
出处
《微电子学与计算机》
CSCD
北大核心
2012年第11期62-65,共4页
Microelectronics & Computer
基金
国家自然科学基金(61070047
61070133)
江苏省自然科学基金(BK2010134)
江苏省教育厅自然科学基金(11KJD520011)
关键词
云计算
二进制编码
聚类
并行
频繁项集
cloud computing
binary coding
clustering
parallel
frequent itemsets