通过对Spark并行计算框架以及投影树算法的分析,提出基于Spark的投影树频繁项集挖掘算法(projection tree algorithm based on Spark,PTBS)。为解决重复遍历数据集带来的损耗,改变数据的存储结构;利用广播变量对频繁二项集的产生进行改...通过对Spark并行计算框架以及投影树算法的分析,提出基于Spark的投影树频繁项集挖掘算法(projection tree algorithm based on Spark,PTBS)。为解决重复遍历数据集带来的损耗,改变数据的存储结构;利用广播变量对频繁二项集的产生进行改进,降低运算量,减少集群节点间通信的消耗;将Apriori先验性质添加到候选项集的筛选过程中,减少节点间的通信量。将算法与Spark平台所具备的特殊性能相结合,得到基于Spark的投影树关联规则挖掘算法,实验结果表明,该算法具备良好的可扩展性,适宜于处理大规模数据。展开更多
为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,...为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,使SY-TPP平台数据集的处理尽量在内存中进行。以分级聚类算法为案例分析了SY-TPP平台的编程步骤;测试结果表明:电信运营商的上GB级的用户数据能够半个工作日内完成,32物理节点的SY-TPP平台比同等配置的MapReduce平台的加速比从9.5提升10.25。展开更多
基金the National Natural Science Foundation of China(No.61303094)the Program of Science and Technology Commission of Shanghai Municipality(No.16511102400)the Innovation Program of Shanghai Municipal Education Commission(No.14YZ024)
文摘通过对Spark并行计算框架以及投影树算法的分析,提出基于Spark的投影树频繁项集挖掘算法(projection tree algorithm based on Spark,PTBS)。为解决重复遍历数据集带来的损耗,改变数据的存储结构;利用广播变量对频繁二项集的产生进行改进,降低运算量,减少集群节点间通信的消耗;将Apriori先验性质添加到候选项集的筛选过程中,减少节点间的通信量。将算法与Spark平台所具备的特殊性能相结合,得到基于Spark的投影树关联规则挖掘算法,实验结果表明,该算法具备良好的可扩展性,适宜于处理大规模数据。
文摘为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,使SY-TPP平台数据集的处理尽量在内存中进行。以分级聚类算法为案例分析了SY-TPP平台的编程步骤;测试结果表明:电信运营商的上GB级的用户数据能够半个工作日内完成,32物理节点的SY-TPP平台比同等配置的MapReduce平台的加速比从9.5提升10.25。