期刊文献+
共找到144篇文章
< 1 2 8 >
每页显示 20 50 100
Study of Smart Grid Marketing System Architecture Based on Hadoop Platform of Cloud Computing
1
作者 Yu Song Maomao Wu Li Yang 《通讯和计算机(中英文版)》 2012年第7期741-743,共3页
关键词 营销系统 架构 平台 电网 智能 计算 电力营销 共享存储
在线阅读 下载PDF
Hadoop和Spark在实验室中部署与性能评估 被引量:14
2
作者 薛志云 何军 +1 位作者 张丹阳 曹维焯 《实验室研究与探索》 CAS 北大核心 2015年第11期77-81,共5页
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了... 随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。 展开更多
关键词 大数据 分布式计算 hadoop YARN spark
在线阅读 下载PDF
基于Hadoop与Spark的大数据处理平台的构建研究 被引量:11
3
作者 刘萍 《通化师范学院学报》 2018年第6期83-88,共6页
随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spar... 随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spark框架与MapReduce类似,也是一个分布式计算平台.而相比于MapReduce,Spark的速度更快且提供的功能更丰富.Spark只是一个计算平台,本身并没有提供分布式存储和管理,Spark的计算依赖于Hadoop生态系统中的分布式文件系统HDFS,以及集群资源管理器Hadoop Yarn.因此将Spark与Hadoop相结合来构建大数据处理平台,可提高算法运行效率和处理规模.本研究搭建了Hadoop集群和Spark集群,完成了大数据处理平台的构建.最后在搭建好的集群上运行了实现单词词频统计的Word Count程序,验证了大数据处理平台搭建的成功. 展开更多
关键词 spark 大数据处理平台 hadoop
在线阅读 下载PDF
基于Hadoop平台的Spark框架研究 被引量:14
4
作者 陈虹君 《电脑知识与技术(过刊)》 2014年第12X期8407-8408,共2页
Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨... Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨论Spark的任务调度方式,最后讨论了Spark的环境及测试。 展开更多
关键词 大数据 hadoop spark 机器学习 图计算 实时处理
在线阅读 下载PDF
基于Hadoop与Spark的高校校园大数据平台研究 被引量:9
5
作者 刘萍 《软件工程》 2018年第5期15-18,共4页
对校园大数据分析是校园信息化发展的新思路。Hadoop是Apache基金会开发的分布式系统基础架构,它是集分布式计算、存储和管理为一体的生态系统。目前流行的Spark框架是与Hadoop生态系统中的MapReduce类似的一个分布式计算平台,Spark比Ma... 对校园大数据分析是校园信息化发展的新思路。Hadoop是Apache基金会开发的分布式系统基础架构,它是集分布式计算、存储和管理为一体的生态系统。目前流行的Spark框架是与Hadoop生态系统中的MapReduce类似的一个分布式计算平台,Spark比MapReduce的速度更快且提供的功能更丰富。本文以数据采集、数据存储、数据分析、数据展现为主线,结合大数据领域最流行的Hadoop框架与Spark框架提出了高校校园大数据平台架构,详细阐述了架构各层次的具体功能,并对架构中关系数据库数据的采集存储进行了详细介绍,最后设计校园大数据分析原型系统来验证架构的可行性。 展开更多
关键词 大数据 hadoop spark 校园大数据平台
在线阅读 下载PDF
基于Hadoop平台的Spark快数据推荐算法解析——以其在图书推荐系统中的应用为例 被引量:3
6
作者 吴荣 段宏涛 《数字技术与应用》 2020年第6期115-117,共3页
在大数据挖掘方面,基于Hadoop平台的Spark快数据推荐算法具有一定优势.基于这种认识,本文从平台算法组成和算法实现两个角度对该算法进行了解析,并对算法在图书推荐系统中的应用方法展开了探讨.从系统功能仿真分析结果来看,应用Spark快... 在大数据挖掘方面,基于Hadoop平台的Spark快数据推荐算法具有一定优势.基于这种认识,本文从平台算法组成和算法实现两个角度对该算法进行了解析,并对算法在图书推荐系统中的应用方法展开了探讨.从系统功能仿真分析结果来看,应用Spark快数据推荐算法进行图书推荐,能够使图书推荐系统推荐准确度得到提高,并且大幅度缩短图书推荐时间. 展开更多
关键词 hadoop平台 spark快数据推荐算法 图书推荐系统
在线阅读 下载PDF
Spark架构下基于改进深度聚类的用户日负荷分类方法 被引量:1
7
作者 徐寿亮 徐剑 《现代电力》 北大核心 2025年第3期411-420,共10页
负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量... 负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量高维的负荷数据。因此,提出一种Spark分布式计算架构下基于改进深度聚类的日负荷分类方法。首先,利用卷积神经网络自编码器获取用户具有代表性的特征向量,送入K-means的聚类层完成负荷聚类,接着将特征提取模型和聚类模型联合优化,组成深度聚类模型。其次,考虑了处于负荷类别边界的边缘负荷样本对神经网络的不利影响,引入自步学习技术,并设计了一个新的损失函数。最后,将大数据技术与深度聚类算法结合,利用Spark分布式计算平台实现深度聚类算法的并行计算。通过算例验证,所提算法在聚类效果和处理效率上都优于传统算法。 展开更多
关键词 居民负荷 日负荷聚类 深度聚类 spark平台 并行计算
原文传递
云计算中Hadoop技术研究与应用综述 被引量:77
8
作者 夏靖波 韦泽鲲 +1 位作者 付凯 陈珍 《计算机科学》 CSCD 北大核心 2016年第11期6-11,48,共7页
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学... Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。 展开更多
关键词 云计算 大数据 hadoop spark MAPREDUCE
在线阅读 下载PDF
基于Hadoop的海量电信数据云计算平台研究 被引量:29
9
作者 黎宏剑 刘恒 +1 位作者 黄广文 卜立 《电信科学》 北大核心 2012年第8期80-85,共6页
传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对... 传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法 ,建立了基于Hadoop的海量电信数据云计算平台。实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率。 展开更多
关键词 云计算平台 hadoop MAPREDUCE 海量数据 电信运营商
在线阅读 下载PDF
基于Hadoop的监控数据存储与处理方案设计和实现 被引量:11
10
作者 池亚平 杨垠坦 +1 位作者 许萍 杨建喜 《计算机应用与软件》 北大核心 2018年第6期58-63,157,共7页
云计算环境下的监控系统会实时产生大量监控数据,如何在大数据的环境下实现对监控数据的高效存储和处理尤为重要。针对这一问题提出一种基于Hadoop的监控数据存储与处理的方案。该方案采用HBase数据库存储时序监控数据,并用提升字段法... 云计算环境下的监控系统会实时产生大量监控数据,如何在大数据的环境下实现对监控数据的高效存储和处理尤为重要。针对这一问题提出一种基于Hadoop的监控数据存储与处理的方案。该方案采用HBase数据库存储时序监控数据,并用提升字段法的宽表存储模型改进HBase数据库提升监控数据的存储效率;针对流量数据,采用MapReduce进行分布式计算处理提高处理效率。经过实验测试,验证了该方案的科学性和有效性,提高了海量监控数据下监控系统数据处理速度,解决了云计算环境下监控数据的计算瓶颈问题。 展开更多
关键词 hadoop HBASE 监控数据 分布式计算 云平台
在线阅读 下载PDF
基于内存与文件共享机制的Spark I/O性能优化 被引量:8
11
作者 黄廷辉 王玉良 +1 位作者 汪振 崔更申 《计算机工程》 CAS CSCD 北大核心 2017年第3期1-6,共6页
通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。... 通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。在此基础上,给出改进的Spark Shuffle过程,即通过设计一种使每个Mapper只生成一个缓存文件的运行模式,并且每个Mapper共享同一个内存缓冲区,从而提高I/O效率和减少内存开销。仿真结果表明,与Spark默认模式相比,该运行模式宽依赖计算过程的I/O时间缩短42.9%,可有效提高内存利用率和Spark平台运算效率。 展开更多
关键词 分布式计算 spark平台 Shuffle过程 磁盘I/O 任务调度
在线阅读 下载PDF
Hadoop云平台中基于信任的访问控制模型 被引量:17
12
作者 刘莎 谭良 《计算机科学》 CSCD 北大核心 2014年第5期155-163,共9页
Hadoop云计算平台是当下最流行的云平台之一,其现有的访问控制模型采用Kerberos进行身份验证,结合基于ACL的访问授权机制,通过Delegation Token和Block Access Token等令牌,实现了该平台中简单的访问控制。该模型具有明显的缺点,即仅仅... Hadoop云计算平台是当下最流行的云平台之一,其现有的访问控制模型采用Kerberos进行身份验证,结合基于ACL的访问授权机制,通过Delegation Token和Block Access Token等令牌,实现了该平台中简单的访问控制。该模型具有明显的缺点,即仅仅在授权时考虑了用户身份的真实性,没有考虑用户后期行为的可信性,而且权限一经授予就不再监管。提出一种适用于Hadoop云平台的基于信任的访问控制新模型——LT。LT模型基于现有的Hadoop访问控制模型,为每个用户设定信任值,通过用户在集群中的行为记录实时地更新用户信任值,并根据这个信任值动态地控制用户对平台的访问。与Hadoop平台现有的访问控制模型相比,该模型所实现的访问授权不再是一个关口控制,而是一个实时动态的过程,其粒度更细并且具有更高的安全性和灵活度。实验证明,该模型不仅正确有效,而且克服了现行Hadoop平台中访问控制安全性不足的缺点,能够动态、有效地控制用户对集群中资源的访问及使用。 展开更多
关键词 云计算 云平台 hadoop 访问控制 信任值
在线阅读 下载PDF
Spark下遥感大数据特征提取的加速策略 被引量:7
13
作者 黄震 钱育蓉 +1 位作者 范迎迎 杜娇 《计算机工程与设计》 北大核心 2017年第12期3279-3283,共5页
提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Sp... 提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Spark处理遥感大数据的速度较单机模式下的处理遥感大数据提升了约2倍,基于Hadoop分布式文件系统(HDFS)处理模式较Spark-standalone处理模式处理速度提升了约1.2倍,基于Spark下的HDFS存储模式下,栅格切分遥感大数据较非栅格切分处理速度提高了约1.5倍。 展开更多
关键词 spark分布式内存计算框架 hadoop分布式文件系统 遥感大数据 内存计算 栅格切分
在线阅读 下载PDF
基于Spark的并行遗传算法求解多峰函数极值 被引量:3
14
作者 刘鹏 叶帅 +1 位作者 孟磊 王灿 《计算机工程与科学》 CSCD 北大核心 2018年第2期210-217,共8页
遗传算法求解多峰函数极值需进行反复多次的迭代运算,面对大数据样本时会出现运算效率过低的现象,这极大地限制了遗传算法的实际应用。经典Hadoop并行平台可在一定程度上提高遗传算法的运行效率,而新一代Spark并行平台可以更加充分地发... 遗传算法求解多峰函数极值需进行反复多次的迭代运算,面对大数据样本时会出现运算效率过低的现象,这极大地限制了遗传算法的实际应用。经典Hadoop并行平台可在一定程度上提高遗传算法的运行效率,而新一代Spark并行平台可以更加充分地发挥遗传算法的并行潜能。设计并实现了基于Spark的并行遗传算法,在各个子节点上并行执行子种群个体的交叉、变异等操作,达到了高度并行化进化种群以高效求取多峰函数极值的目的。为方便比较,同时设计并实现了单机及Hadoop平台下的相应算法。实验结果表明,处理大数据样本时,相比传统单机和Hadoop平台,基于Spark的并行化遗传算法显著降低了求解多峰函数极值的耗时,大幅提高了算法的效率;同时,由于其并行计算带来的强大随机性,也有效避免了种群单一过早收敛的问题,提高了算法的准确性。 展开更多
关键词 遗传算法 多峰函数 极值 并行计算 spark hadoop
在线阅读 下载PDF
云计算Hadoop平台的异常数据检测算法研究 被引量:3
15
作者 黄富平 梁卓浪 +1 位作者 邢英俊 杨春丽 《计算机测量与控制》 2017年第7期260-263,268,共5页
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效... 近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。 展开更多
关键词 云计算 大数据 异常数据 hadoop平台
在线阅读 下载PDF
基于Spark和梯度提升树模型的短期负荷预测 被引量:41
16
作者 许贤泽 刘静 +1 位作者 施元 谭盛煌 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第5期84-89,共6页
利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoo... 利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoop分布式文件系统(HDFS)分块大小;最后将参数调优后的梯度提升树模型部署到Spark分布式平台上进行训练与预测,并将该模型预测结果与其他预测模型进行精度比较.研究结果表明:通过合理划分HDFS中存储块的大小能有效提高集群对于大数据处理的效率,分布式梯度提升树算法在快速性与准确性上均有比较大的优势,能够满足电力负荷预测的要求. 展开更多
关键词 负荷预测 分布式计算 大数据 梯度提升树 spark平台
原文传递
基于hadoop的时隙优化任务调度策略研究 被引量:2
17
作者 邓志龙 付明月 张琦玮 《西北工业大学学报》 EI CAS CSCD 北大核心 2017年第1期32-37,共6页
针对分布式云计算平台hadoop任务调度中由于网络时延而导致的调度不平衡问题,提出一种基于时隙优化的任务调度算法。充分参考当前网络条件,将其作为任务调度的重要参考依据,利用SDN对网络带宽的管理能力,根据时隙策略分配带宽,结合局部... 针对分布式云计算平台hadoop任务调度中由于网络时延而导致的调度不平衡问题,提出一种基于时隙优化的任务调度算法。充分参考当前网络条件,将其作为任务调度的重要参考依据,利用SDN对网络带宽的管理能力,根据时隙策略分配带宽,结合局部性原理决定将任务分派到本地还是低负载的其他节点,从全局角度保证任务本地化比例较高的前提下以最优的方式高效分派任务,以提高系统整体的任务处理能力。依据算法设计调度器设计并进行实验,实验结果验证了算法的调度质量。 展开更多
关键词 云计算 hadoop平台 SDN架构 任务调度 时隙策略 负载均衡
在线阅读 下载PDF
基于云计算的Web数据挖掘Hadoop仿真平台研究 被引量:11
18
作者 王勃 徐静 《电子设计工程》 2018年第2期22-25,共4页
自2007年以来,随着云计算被广泛的应用到互联网,大量的服务器终端数据如何有效的组织,以便稳定、高效的运行已成为当前亟待解决的问题,基于云计算的web数据挖掘Hadoop仿真平台能够较快速的通过相关的网络结构,解决服务器地域分布较为分... 自2007年以来,随着云计算被广泛的应用到互联网,大量的服务器终端数据如何有效的组织,以便稳定、高效的运行已成为当前亟待解决的问题,基于云计算的web数据挖掘Hadoop仿真平台能够较快速的通过相关的网络结构,解决服务器地域分布较为分散,数据流量大等网络关键难题,最终实现仿真运算,从而提高网络平台的性能,最终达到云计算环境下的高速分布式计算的目标。 展开更多
关键词 云计算 WEB数据挖掘 hadoop仿真平台
在线阅读 下载PDF
利用Hadoop云计算平台进行海量数据聚类分析 被引量:3
19
作者 刘海龙 宿宏毅 《舰船科学技术》 北大核心 2016年第14期148-150,共3页
海洋信息的飞速增长使其数据量越来越多,对数据进行合理的分类,能够有效的挖掘数据与数据之间的关系。本文首先描述传统的K-Mean聚类算法,并指出其影响因素,在此基础上进行改进,提出BRTI-KMeans算法,并将此算法与传统的K-Means算法和Can... 海洋信息的飞速增长使其数据量越来越多,对数据进行合理的分类,能够有效的挖掘数据与数据之间的关系。本文首先描述传统的K-Mean聚类算法,并指出其影响因素,在此基础上进行改进,提出BRTI-KMeans算法,并将此算法与传统的K-Means算法和Canopy-K-Means算法进行比较,以此说明本文算法在进行海量数据聚类分析方面具有优越性。 展开更多
关键词 hadoop云计算平台 聚类分析 聚类中心
在线阅读 下载PDF
基于优化RDD分区的Spark并行K-means大尺度遥感图像分割 被引量:4
20
作者 李玉 崔书琳 赵泉华 《控制与决策》 EI CSCD 北大核心 2024年第5期1612-1619,共8页
大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设... 大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设置,尽管这种RDD设置简单便捷,但对大尺度图像分割任务容易造成“多分区、小数据”现象,极大影响图像分割速度.为此,采用覆盖部分上海市区的WorldView-3遥感图像为测试数据,在K-means算法初始化聚类中心阶段自定义影响RDD分区的参数spark.sql.shuffle.partitions,在迭代计算阶段调用coalesce()算子减少分区数;与串行K-means算法对比验证单机处理大数据的可行性与有效性,与优化前的Spark并行K-means算法对比实现了大尺度遥感图像快速分割.实验结果表明,在K-means算法初始化聚类中心和迭代计算阶段,将RDD分区数设置在CPU核数的1~10倍,总用时由优化前的145 s缩减到97 s,尤其在初始化聚类中心阶段的时间效率上,优化后是优化前的500~1 000倍. 展开更多
关键词 spark平台 单机大数据处理 大尺度遥感图像 RDD优化 图像分割 并行K-means算法
原文传递
上一页 1 2 8 下一页 到第
使用帮助 返回顶部