Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化...Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化方法被提出,如迁移分区、贪心分区、反馈分区等,但往往存在数据传输量大、额外计算成本高、运行时间长等问题.为更好地缓解键倾斜分布问题带来的影响,本文提出了一种自适应的Spark数据均衡分区方法.该方法引入了奖惩思想对数据分区过程进行适当调控,同时对于数据量较大的键进行分割,使得各个分区的数据量相对均衡.该方法首先对数据采样并预估键权重.其次,按照键权重对样本数据降序排列,确保所有分区都有初始数据.再次,根据奖惩分配策略,自适应地更新各个分区的分配概率,并将待分配的键指向分配概率最高的分区.对于超过分区容量的键的数据,则分割为多个部分且指向不同分区.在所有样本数据分配完成后,获得自适应分区方案.在实际分区时,对于样本中出现的键对应的数据按照自适应分区方案进行分配;对于未出现的键对应的数据,则按照哈希方法进行分区.最后,通过实验验证,基于新方法设计的自适应均衡分区器(Adaptive Data Balanced Partitioner,ADBP)能够有效缓解键倾斜的负面影响.在真实数据集上,ADBP的WordCount程序总运行时间比自带分区器Hash、Range分别平均缩短了1.51%、29.90%,比现有基于学习自动机的自适应哈希分区器(Learning Automata Hash Partitioner,LAHP)、对倾斜的中间数据块进行拆分合并(Splitting and Combination algorithm for skew Intermediate Data block,SCID)算法、粗粒度放置和细粒度放置(Fined-Coarse Grained Intermediate Data Placement,FCGIDP)算法分别平均缩短了8.12%、21.64%、19.62%.展开更多
区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator,HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型...区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator,HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型不确定性的角度分析了传统核密度估计器解决模相近数据概率密度函数估计问题时的缺陷:利用概率密度值对于直方图箱宽参数的收敛性确定观测数据的启发式概率密度值,降低数据概率密度值计算的不确定性;基于启发式概率密度值构建用于确定核密度估计器最优带宽的目标函数,降低最优带宽优化过程中的不确定性。在18个模相近数据集上对新估计器HKDE的可行性、合理性和有效性进行了系统性的验证。实验结果表明,与7种具有代表性的概率密度函数估计器相比,HKDE能够获得更加优异的概率分布近似表现,具有比其他估计器更低的估计误差,能够确定出更接近真实值的概率密度函数估计值。展开更多
面向服务的的架构(SOA)推动着网格技术从科学计算走向商业领域,大部分商业应用需要事务的支持.该文提出了服务网格环境下用于事务管理的网格事务服务,它能够动态地发现执行子事务的网格服务;根据事务类型调用原子事务或聚合事务协调算...面向服务的的架构(SOA)推动着网格技术从科学计算走向商业领域,大部分商业应用需要事务的支持.该文提出了服务网格环境下用于事务管理的网格事务服务,它能够动态地发现执行子事务的网格服务;根据事务类型调用原子事务或聚合事务协调算法以保证这些服务在行动上实现期望的一致性.通过 Petri 网分析技术,将两种协调算法模型化为Petri网并验证了它们的正确性.网格事务服务可以提供较强的事务管理能力并将复杂的处理过程对用户透明,为网格技术的商业化提供了有效的支持.展开更多
针对通过零售交易数据进行客户分群时传统方法未考虑商品的价值问题,提出用RFM(recency frequency monetary)表达交易数据的方法,该方法将客户购买的商品和商品类别组成一棵RFM购买树(recency frequency monetary purchase tree,RFMPT)...针对通过零售交易数据进行客户分群时传统方法未考虑商品的价值问题,提出用RFM(recency frequency monetary)表达交易数据的方法,该方法将客户购买的商品和商品类别组成一棵RFM购买树(recency frequency monetary purchase tree,RFMPT).提出基于RFM购买树的快速聚类算法(based recency frequency monetary purchase tree clustering,BRFMPTC),把购买树构建为Cover Tree(CT)索引结构,利用CT结构快速选择k个密度最大的购买树作为中心,将其他对象划分到距它最近的类中心.实验结果表明,在距离加权下,BRFMPTC算法较传统算法在整体上能产生质量更高的聚类结果,性能得到较大提升.展开更多
文摘Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化方法被提出,如迁移分区、贪心分区、反馈分区等,但往往存在数据传输量大、额外计算成本高、运行时间长等问题.为更好地缓解键倾斜分布问题带来的影响,本文提出了一种自适应的Spark数据均衡分区方法.该方法引入了奖惩思想对数据分区过程进行适当调控,同时对于数据量较大的键进行分割,使得各个分区的数据量相对均衡.该方法首先对数据采样并预估键权重.其次,按照键权重对样本数据降序排列,确保所有分区都有初始数据.再次,根据奖惩分配策略,自适应地更新各个分区的分配概率,并将待分配的键指向分配概率最高的分区.对于超过分区容量的键的数据,则分割为多个部分且指向不同分区.在所有样本数据分配完成后,获得自适应分区方案.在实际分区时,对于样本中出现的键对应的数据按照自适应分区方案进行分配;对于未出现的键对应的数据,则按照哈希方法进行分区.最后,通过实验验证,基于新方法设计的自适应均衡分区器(Adaptive Data Balanced Partitioner,ADBP)能够有效缓解键倾斜的负面影响.在真实数据集上,ADBP的WordCount程序总运行时间比自带分区器Hash、Range分别平均缩短了1.51%、29.90%,比现有基于学习自动机的自适应哈希分区器(Learning Automata Hash Partitioner,LAHP)、对倾斜的中间数据块进行拆分合并(Splitting and Combination algorithm for skew Intermediate Data block,SCID)算法、粗粒度放置和细粒度放置(Fined-Coarse Grained Intermediate Data Placement,FCGIDP)算法分别平均缩短了8.12%、21.64%、19.62%.
文摘区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator,HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型不确定性的角度分析了传统核密度估计器解决模相近数据概率密度函数估计问题时的缺陷:利用概率密度值对于直方图箱宽参数的收敛性确定观测数据的启发式概率密度值,降低数据概率密度值计算的不确定性;基于启发式概率密度值构建用于确定核密度估计器最优带宽的目标函数,降低最优带宽优化过程中的不确定性。在18个模相近数据集上对新估计器HKDE的可行性、合理性和有效性进行了系统性的验证。实验结果表明,与7种具有代表性的概率密度函数估计器相比,HKDE能够获得更加优异的概率分布近似表现,具有比其他估计器更低的估计误差,能够确定出更接近真实值的概率密度函数估计值。
基金国家自然科学基金委项目基金(6047309260433040)+2 种基金国家"九七三"重点基础研究发展规划项目基金(2002CB312002)教育部中国教育科研网格 China Grid项目基金上海市科委科技攻关重大项目基金(03dz15027)资助.
文摘面向服务的的架构(SOA)推动着网格技术从科学计算走向商业领域,大部分商业应用需要事务的支持.该文提出了服务网格环境下用于事务管理的网格事务服务,它能够动态地发现执行子事务的网格服务;根据事务类型调用原子事务或聚合事务协调算法以保证这些服务在行动上实现期望的一致性.通过 Petri 网分析技术,将两种协调算法模型化为Petri网并验证了它们的正确性.网格事务服务可以提供较强的事务管理能力并将复杂的处理过程对用户透明,为网格技术的商业化提供了有效的支持.
文摘针对通过零售交易数据进行客户分群时传统方法未考虑商品的价值问题,提出用RFM(recency frequency monetary)表达交易数据的方法,该方法将客户购买的商品和商品类别组成一棵RFM购买树(recency frequency monetary purchase tree,RFMPT).提出基于RFM购买树的快速聚类算法(based recency frequency monetary purchase tree clustering,BRFMPTC),把购买树构建为Cover Tree(CT)索引结构,利用CT结构快速选择k个密度最大的购买树作为中心,将其他对象划分到距它最近的类中心.实验结果表明,在距离加权下,BRFMPTC算法较传统算法在整体上能产生质量更高的聚类结果,性能得到较大提升.