期刊文献+
共找到2,049篇文章
< 1 2 103 >
每页显示 20 50 100
一种基于MapReduce的C4.5决策树并行化算法 被引量:1
1
作者 潘俊辉 王辉 +1 位作者 张强 王浩畅 《计算机与数字工程》 2025年第2期327-331,共5页
C4.5决策树是一种用于分类规则提取的有效算法,该算法在对中、小规模数据集进行处理时已取得不错的效果,但将其直接应用到大规模数据集上受到多方面的限制,而MapReduce框架对算法进行分布式实现是非常方便的。由此论文将MapReduce与C4.... C4.5决策树是一种用于分类规则提取的有效算法,该算法在对中、小规模数据集进行处理时已取得不错的效果,但将其直接应用到大规模数据集上受到多方面的限制,而MapReduce框架对算法进行分布式实现是非常方便的。由此论文将MapReduce与C4.5决策树相结合,提出了一种基于MapReduce的C4.5决策树并行化算法(MRCTA),该算法通过保留C4.5决策树自身的优点,在决策树的节点的构造中首先利用MapReduce对其分裂属性进行并行计算,然后利用所得的最优分裂属性对数据采用分布式分割完成树子节点的生成,同时为了避免产生过度学习现象在构造中将树深和节点覆盖样本的个数和类别比例作为算法终止的条件。最后通过实验对算法的有效性和效率进行了比较和分析。 展开更多
关键词 决策树 分布式算法 并行计算 mapreduce
在线阅读 下载PDF
基于MapReduce的拷贝数变异测序数据并行处理方案
2
作者 何亨 程凯莉 +1 位作者 张葵 成淑君 《计算机工程》 北大核心 2025年第5期177-187,共11页
拷贝数变异(CNV)作为一种遗传变异,广泛存在于人类基因组的基因分布中。CNV检测效率的提升不仅可以为更多的病患提供更加快速精确的CNV检测结果,大幅降低医疗成本,同时又有利于药物的研发和临床应用。基于读段深度(RD)的方法是目前最为... 拷贝数变异(CNV)作为一种遗传变异,广泛存在于人类基因组的基因分布中。CNV检测效率的提升不仅可以为更多的病患提供更加快速精确的CNV检测结果,大幅降低医疗成本,同时又有利于药物的研发和临床应用。基于读段深度(RD)的方法是目前最为常用的CNV检测方法,对RD相关信息的处理时间较长,在CNV检测中时间占比较高。现有方法无法有效应用于全基因组分析,存在计算效率较低、检测精度下降的问题。基于RD的CNV检测方法,提出一种高效的测序数据并行处理方案EPPCNV。在EPPCNV中,设计2个MapReduce作业串行执行的方法,实现高效全基因组测序数据的并行处理,精准地完成RD相关信息的提取;为充分考虑到GC含量偏差对CNV检测结果的影响,对测序数据的RDs进行校正处理,保证最终检测结果的高灵敏度与高精确度;采用独立于具体CNV检测方法的高适配性数据处理方式,其最终生成的RD相关信息能够与多种主流CNV检测方法直接结合,在不改变原方法对CNV区域判定的基础上,实现方法整体性能的大幅提升。实验结果表明,EPPCNV的综合准确率高,分别与CNV-LOF、HBOS-CNV以及CNVnator 3种方法直接结合,能够显著提升原方法的计算效率,并保证检测结果的高灵敏度与高精确度。对于覆盖深度越高、数据量越大的测序数据,CNV检测方法与EPPCNV结合后计算效率的提升更为显著。 展开更多
关键词 拷贝数变异检测 mapreduce作业 测序数据处理 读段深度 全基因组
在线阅读 下载PDF
基于MapReduce的分类数据增量子空间聚类研究 被引量:1
3
作者 庞宁 《西南民族大学学报(自然科学版)》 2025年第1期71-76,共6页
基于细粒度属性子空间构建方法提出一种适用于分类数据的并行增量聚类算法SUC,该算法采用属性值-簇相似度度量方法,强化重要属性值对于类簇紧凑程度的正向影响力;在增量聚类阶段,更新属性权值,迭代形成增量类簇;采用MapReduce编程框架,... 基于细粒度属性子空间构建方法提出一种适用于分类数据的并行增量聚类算法SUC,该算法采用属性值-簇相似度度量方法,强化重要属性值对于类簇紧凑程度的正向影响力;在增量聚类阶段,更新属性权值,迭代形成增量类簇;采用MapReduce编程框架,实现算法SUC两阶段的并行化.在人工合成数据集、UCI数据集和真实数据集上,实验验证了算法的准确性、有效性和可扩展性. 展开更多
关键词 增量子空间聚类 细粒度属性权重 mapreduce聚类 分类数据
在线阅读 下载PDF
基于MapReduce分布式模型的大数据精准搜索平台研究
4
作者 张莹 《自动化与仪器仪表》 2025年第6期47-51,共5页
在大数据时代背景下,网络舆论信息传播的速度飞速增长,如何高效、精准地搜索关键信息成为当前亟待解决的问题。为了实现网络舆情的实时精准监测,研究设计了基于MapReduce分布式模型的大数据精准搜索平台,该平台结合了分布式计算的高效... 在大数据时代背景下,网络舆论信息传播的速度飞速增长,如何高效、精准地搜索关键信息成为当前亟待解决的问题。为了实现网络舆情的实时精准监测,研究设计了基于MapReduce分布式模型的大数据精准搜索平台,该平台结合了分布式计算的高效性与精准搜索,通过数据分片与并行处理的方式,实现对大规模数据的高效分析与提取。并利用双向LSTM结构结合Softmax函数进行文本数据的情感判别与分类。结果表明,基于MapReduce模型的舆情搜索最长耗时为7561 s,最高加载时间为3202 s。研究平台的情感分析分类精确率、召回率和F1值分别为96.50%、93.89%和93.87%。在实际应用中,研究平台情感追踪的最大误差仅为3.12%。综上,研究的基于MapReduce分布式模型的大数据精准搜索平台,有效实现了大数据网络舆情的精准搜索和实时分析,有助于维护社会稳定。 展开更多
关键词 mapreduce 分布式模型 精准搜索 数据挖掘 网络舆情监测
原文传递
基于Hadoop和MapReduce的大数据处理算法优化研究 被引量:2
5
作者 张楠楠 戎真真 +1 位作者 杜帅兵 刘杨 《软件》 2025年第6期140-142,共3页
当前,信息技术飞速发展,大数据时代悄然来临,数据规模的急剧膨胀给传统数据处理方法带来了巨大的挑战。在大数据处理领域,Hadoop和MapReduce框架凭借其高效的分布式计算能力被广泛应用,但随着数据量的增加,其也暴露出计算性能、数据传... 当前,信息技术飞速发展,大数据时代悄然来临,数据规模的急剧膨胀给传统数据处理方法带来了巨大的挑战。在大数据处理领域,Hadoop和MapReduce框架凭借其高效的分布式计算能力被广泛应用,但随着数据量的增加,其也暴露出计算性能、数据传输及作业调度等方面的局限性。本文探讨了Hadoop和MapReduce框架在大数据处理中的应用及其局限性,并基于近年研究成果,提出了一系列优化措施,包括提高任务并行度、优化数据传输和改进调度策略。研究表明,这些优化手段可以有效提升大数据处理的效率和稳定性,从而推动大数据技术的进一步发展。 展开更多
关键词 大数据 HADOOP mapreduce 算法优化 计算性能 数据传输
在线阅读 下载PDF
迭代式MapReduce研究进展 被引量:2
6
作者 李金忠 汤鹏杰 +1 位作者 夏洁武 谭云兰 《计算机工程与应用》 CSCD 北大核心 2015年第12期123-132,共10页
迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细... 迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细地阐述了这些研究成果,给出了它们各自的基本思想,并分析了它们各自的特点、优势和不足,且对比了它们所采用的一些技术。对迭代式MapReduce未来的发展趋势进行了展望。 展开更多
关键词 mapreduce 迭代计算 迭代式mapreduce 并行编程模型 大数据处理
在线阅读 下载PDF
基于MapReduce的数据倾斜优化方法研究
7
作者 王涛 王晓玲 王希胤 《软件工程与应用》 2025年第2期217-227,共11页
本文针对MapReduce框架在处理大规模数据时常见的数据倾斜问题,提出了一种基于抽样的映射分区优化方法。该方法通过水塘抽样算法对数据进行抽样,获取数据分布信息,并结合整体数据分布估计算法和映射分区算法实现数据的均衡分区。实验结... 本文针对MapReduce框架在处理大规模数据时常见的数据倾斜问题,提出了一种基于抽样的映射分区优化方法。该方法通过水塘抽样算法对数据进行抽样,获取数据分布信息,并结合整体数据分布估计算法和映射分区算法实现数据的均衡分区。实验结果表明,该方法在不同倾斜度下均表现出良好的性能,显著降低了作业执行时间,提高了分区的平衡性,提升了集群资源利用率。This paper proposes a sampling-based mapping partitioning optimization method to address the common data skew problem in the MapReduce framework when processing large-scale data. The method uses reservoir sampling to sample the data, obtain information on data distribution, and then combines the overall data distribution estimation algorithm and the mapping partitioning algorithm to achieve balanced data partitioning. Experimental results show that the proposed method performs well under different degrees of skewness, significantly reducing job execution time, improving partition balance, and enhancing cluster resource utilization. 展开更多
关键词 大数据处理 分布式计算 mapreduce框架 数据倾斜优化
在线阅读 下载PDF
MapReduce并行编程模型研究综述 被引量:190
8
作者 李建江 崔健 +2 位作者 王聃 严林 黄义双 《电子学报》 EI CAS CSCD 北大核心 2011年第11期2635-2642,共8页
MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成... MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成果的特点和不足,重点对MapReduce涉及的关键技术(包括:模型改进、模型针对不同平台的实现、任务调度、负载均衡和容错)的研究现状进行了深入的分析.本文最后还对MapReduce未来的发展趋势进行了展望. 展开更多
关键词 mapreduce 并行编程模型 运行时支持库 海量数据处理
在线阅读 下载PDF
大数据分析——RDBMS与MapReduce的竞争与共生 被引量:387
9
作者 覃雄派 王会举 +1 位作者 杜小勇 王珊 《软件学报》 EI CSCD 北大核心 2012年第1期32-45,共14页
在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40年的发展,在扩展性方面遇... 在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce的优秀思想改造自身,而以MapReduce为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置. 展开更多
关键词 大数据 深度分析 关系数据管理技术 mapreduce
在线阅读 下载PDF
MapReduce大数据处理平台与算法研究进展 被引量:97
10
作者 宋杰 孙宗哲 +2 位作者 毛克明 鲍玉斌 于戈 《软件学报》 EI CSCD 北大核心 2017年第3期514-543,共30页
综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展.首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象其共性;随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据... 综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展.首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象其共性;随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据清洗/变换算法、聚集算法、连接算法、排序算法、偏好查询、最优化算法、图算法、数据挖掘算法,将这些算法按照MapReduce实现方式分类,分析影响算法性能的因素;最后,将大数据处理算法抽象为外存算法,并对外存算法的特征加以梳理,提出了普适的外存算法性能优化方法的研究思路和问题,以供研究人员参考.具体包括优化外存算法的磁盘I/O、优化外存算法的局部性以及设计增量式迭代算法.现有的大数据处理平台和算法研究多集中在基于资源分配和任务调度的平台动态性能优化、特定算法并行化、特定算法性能优化等领域,所提出的外存算法性能优化属于静态优化方法,是现有研究的良好补充,为研究人员提供了广阔的研究空间. 展开更多
关键词 大数据 mapreduce 外存算法 大数据处理 算法性能优化
在线阅读 下载PDF
MapReduce框架下基于R-树的k-近邻连接算法 被引量:60
11
作者 刘义 景宁 +1 位作者 陈荦 熊伟 《软件学报》 EI CSCD 北大核心 2013年第8期1836-1851,共16页
针对大规模空间数据的高性能k-近邻连接查询处理,研究了MapReduce框架下基于R-树索引的k-近邻连接查询处理.首先利用无依赖并行和串行同步计算的形式化定义抽象了MapReduce并行编程模型,基于此并行计算模型抽象,分别提出了R-树索引快速... 针对大规模空间数据的高性能k-近邻连接查询处理,研究了MapReduce框架下基于R-树索引的k-近邻连接查询处理.首先利用无依赖并行和串行同步计算的形式化定义抽象了MapReduce并行编程模型,基于此并行计算模型抽象,分别提出了R-树索引快速构建算法和基于R-树的并行k-近邻连接算法.在索引构建过程中,提出一种采样算法以快速确立空间划分函数,使得索引构建符合无依赖并行和串行同步计算抽象,在MapReduce框架下非常容易进行表达.在k-近邻连接查询过程中,基于构建的分布式R-树索引,引入k-近邻扩展框限定查询范围并进行数据划分,然后利用R-树索引进行k-近邻连接查询,提高了查询效率.从理论上分析了所提出算法的通信和计算代价.实验与分析结果表明,该算法在真实数据集的查询上具有良好的效率和可扩展性能,可以很好地支持大规模空间数据的k-近邻连接查询处理,具有良好的实用价值. 展开更多
关键词 云计算 mapreduce k-近邻连接 空间查询 R-树
在线阅读 下载PDF
k-means聚类算法的MapReduce并行化实现 被引量:80
12
作者 江小平 李成华 +2 位作者 向文 张新访 颜海涛 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第S1期120-124,共5页
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job... 针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性. 展开更多
关键词 云计算 并行计算 mapreduce模型 数据挖掘 K-MEANS聚类算法
原文传递
基于MapReduce的分布式近邻传播聚类算法 被引量:53
13
作者 鲁伟明 杜晨阳 +2 位作者 魏宝刚 沈春辉 叶振超 《计算机研究与发展》 EI CSCD 北大核心 2012年第8期1762-1772,共11页
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处... 随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间. 展开更多
关键词 近邻传播聚类 分布式计算 mapreduce 数据划分 聚类融合
在线阅读 下载PDF
基于消息传递机制的MapReduce图算法研究 被引量:45
14
作者 潘巍 李战怀 +1 位作者 伍赛 陈群 《计算机学报》 EI CSCD 北大核心 2011年第10期1768-1784,共17页
单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapRe... 单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapReduce基于易并行计算的假设,增强了MapReduce既有的编程规范,新的大同步(BSP)计算模型既能保证兼容旧的MapReduce作业可以无改动的运行,同时引入消息传递机制允许变化的状态数据在并行任务的超级步间进行交互.系统提供高度灵活的消息自定义接口,针对不同应用需求设计了轻量级和重量级两种自适应的消息传递机制,更高效地支持有数据交互需求的包含迭代处理的一大类图算法.在真实大规模图数据集上的实验结果表明,相比于原始的MapReduce作业外部链式处理,该文提出的BSP模型下的内部超级步迭代计算模式大幅降低了大图算法的处理时间. 展开更多
关键词 云计算 mapreduce 大同步模型 消息传递 图算法 PAGERANK
在线阅读 下载PDF
MapReduce优化技术综述 被引量:30
15
作者 黄山 王波涛 +2 位作者 王国仁 于戈 李佳佳 《计算机科学与探索》 CSCD 2013年第10期865-885,共21页
作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引... 作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引、连接、迭代计算、科学计算及调度算法方面的优化技术,分析了MapReduce技术研究的挑战性问题,指出了未来研究方向。 展开更多
关键词 mapreduce 列存储 索引 连接 迭代 科学计算 调度算法 优化
在线阅读 下载PDF
利用MapReduce进行批量遥感影像瓦片金字塔构建 被引量:38
16
作者 刘义 陈荦 +1 位作者 景宁 熊伟 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2013年第3期278-282,共5页
在分析面向瓦片金字塔并行构建任务分解的基础上,提出了一种利用MapReduce进行批量遥感影像瓦片金字塔并行构建的方法。实验结果表明,该方法不仅在集群上快速、有效地解决了单机上难以解决的大规模批量遥感影像瓦片金字塔的构建操作,而... 在分析面向瓦片金字塔并行构建任务分解的基础上,提出了一种利用MapReduce进行批量遥感影像瓦片金字塔并行构建的方法。实验结果表明,该方法不仅在集群上快速、有效地解决了单机上难以解决的大规模批量遥感影像瓦片金字塔的构建操作,而且具有良好的可扩展性。同时,该算法可作为大规模遥感影像并行处理的基础框架,非常容易扩展到高效能影像特征提取、遥感影像融合以及影像增量计算等其他海量遥感影像处理任务中。 展开更多
关键词 mapreduce 遥感影像 瓦片金字塔 并行
原文传递
基于增量式分区策略的MapReduce数据均衡方法 被引量:25
17
作者 王卓 陈群 +2 位作者 李战怀 潘巍 尤立 《计算机学报》 EI CSCD 北大核心 2016年第1期19-35,共17页
MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致... MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致在处理密集数据时,Reduce端常会出现数据倾斜的问题.虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免.为解决数据划分的不均衡,该文提出一种将分区向Reducer指派时按照多轮分配的分区策略.该方法首先在Map端产生多于Reducer个数的细粒度分区,同时在Mapper运行过程中实时统计各细粒度分区的数据量;然后由JobTracker根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行Reduce()函数前,将所有细粒度分区分配到Reduce端,以此解决分区后各Reducer接收数据总量均衡的问题.最后在Zipf分布数据集和真实数据集上与现有的分区切分方法Closer进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题. 展开更多
关键词 增量分配 细粒度分区 数据倾斜 均衡分区 mapreduce 大数据
在线阅读 下载PDF
一种能效优化的MapReduce资源比模型 被引量:21
18
作者 宋杰 刘雪冰 +3 位作者 朱志良 李甜甜 赵大哲 于戈 《计算机学报》 EI CSCD 北大核心 2015年第1期59-73,共15页
随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效... 随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个"最佳资源比"使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的"生产者-消费者"模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高. 展开更多
关键词 云计算 能效 资源比 mapreduce
在线阅读 下载PDF
Hadoop MapReduce短作业执行性能优化 被引量:28
19
作者 顾荣 严金双 +2 位作者 杨晓亮 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1270-1280,共11页
Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在... Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%. 展开更多
关键词 mapreduce 并行计算 短作业 性能优化 大数据处理
在线阅读 下载PDF
MapReduce:新型的分布式并行计算编程模型 被引量:113
20
作者 李成华 张新访 +1 位作者 金海 向文 《计算机工程与科学》 CSCD 北大核心 2011年第3期129-135,共7页
MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干... MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干个Reduce任务合并这些中间文件获得最后的输出文件。用户在使用MapReduce模型进行大规模数据处理时,可以将主要精力放在如何编写Map和Reduce函数上,其它并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给MapReduce系统处理,在很大程度上降低了整个编程难度。MapReduce日益成为云计算平台的主流编程模型。Apache Hadoop项目提供开源的MapReduce系统还有待进一步完善。 展开更多
关键词 mapreduce 并行计算编程模型 云计算
在线阅读 下载PDF
上一页 1 2 103 下一页 到第
使用帮助 返回顶部