期刊文献+
共找到110篇文章
< 1 2 6 >
每页显示 20 50 100
Spark架构下基于改进深度聚类的用户日负荷分类方法 被引量:1
1
作者 徐寿亮 徐剑 《现代电力》 北大核心 2025年第3期411-420,共10页
负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量... 负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量高维的负荷数据。因此,提出一种Spark分布式计算架构下基于改进深度聚类的日负荷分类方法。首先,利用卷积神经网络自编码器获取用户具有代表性的特征向量,送入K-means的聚类层完成负荷聚类,接着将特征提取模型和聚类模型联合优化,组成深度聚类模型。其次,考虑了处于负荷类别边界的边缘负荷样本对神经网络的不利影响,引入自步学习技术,并设计了一个新的损失函数。最后,将大数据技术与深度聚类算法结合,利用Spark分布式计算平台实现深度聚类算法的并行计算。通过算例验证,所提算法在聚类效果和处理效率上都优于传统算法。 展开更多
关键词 居民负荷 日负荷聚类 深度聚类 spark平台 并行计算
原文传递
基于Spark的电能计量数据异常辨识方法设计
2
作者 杨劲锋 郑楷洪 +2 位作者 刘玉仙 张伟 曾璐琨 《自动化仪表》 2025年第4期92-96,共5页
为了准确辨识电能计量数据中的异常数据、提高电能计量数据质量,提出一种基于Spark的电能计量数据异常辨识方法。以Spark框架为核心支撑,基于张量核范数约束的低秩张量补全模型补全电能计量数据后,采用最小生成树并行聚类方法进行聚类... 为了准确辨识电能计量数据中的异常数据、提高电能计量数据质量,提出一种基于Spark的电能计量数据异常辨识方法。以Spark框架为核心支撑,基于张量核范数约束的低秩张量补全模型补全电能计量数据后,采用最小生成树并行聚类方法进行聚类。依据Spark并行优势改进K-means算法,形成基于Spark改进的K-means并行算法,以辨识聚类后电能计量数据中的异常数据。采用蝙蝠算法优化辨识方法的关键参数,优化电能计量数据异常辨识结果。测试结果表明,该方法可以全面、完整地实现电能计量数据补全,标准互信息(NMI)和调整兰德指数(ARI)的最大值分别为0.984和0.988,因而聚类效果好。该方法能够有效辨识出不同类型的异常数据,为电力的综合运行管理提供可靠依据。 展开更多
关键词 电能计量 spark框架 异常辨识 数据补全 数据聚类 K-MEANS算法 蝙蝠算法
在线阅读 下载PDF
基于Spark的大数据聚类研究及系统实现 被引量:24
3
作者 王磊 邹恩岑 +2 位作者 曾诚 奚雪峰 陆悠 《数据采集与处理》 CSCD 北大核心 2018年第6期1077-1085,共9页
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不... 传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。 展开更多
关键词 spark 聚类 大数据
在线阅读 下载PDF
一种基于Spark和聚类分析的辨识电力系统不良数据新方法 被引量:67
4
作者 孟建良 刘德超 《电力系统保护与控制》 EI CSCD 北大核心 2016年第3期85-91,共7页
随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框... 随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提供的真实电力负荷数据进行实验,结果表明此方法能有效提高状态估计结果的准确性,与基于Map Reduce框架的方法相比,具有更好的加速比、扩展性,能更好地处理电力系统的海量数据。 展开更多
关键词 spark 聚类 K-MEANS 电力系统 不良数据 负荷曲线分类
在线阅读 下载PDF
异构Spark集群下自适应任务调度策略 被引量:20
5
作者 杨志伟 郑烇 +2 位作者 王嵩 杨坚 周乐乐 《计算机工程》 CAS CSCD 北大核心 2016年第1期31-35,40,共6页
Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资... Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资源利用率,分析监测得到的参数,自适应动态调整节点任务分配权值。实验结果表明,在异构节点情况下,该策略在作业完成时间、节点工作状态及资源利用率方面的性能均优于默认的任务调度策略。 展开更多
关键词 spark平台 异构集群 自适应 任务调度 监测 权值
在线阅读 下载PDF
基于Spark的三支聚类集成方法 被引量:6
6
作者 于洪 陈云 《郑州大学学报(理学版)》 CAS 北大核心 2018年第1期20-26,共7页
针对大规模不确定性数据聚类,提出一种新的基于Spark的三支聚类集成方法.该方法包括3个步骤:首先,将现有的聚类算法进行基于Spark的分布式处理;然后,以第1个聚类成员的聚类结果作为参照划分,对剩余聚类成员中的类簇做标签对齐;最后,利... 针对大规模不确定性数据聚类,提出一种新的基于Spark的三支聚类集成方法.该方法包括3个步骤:首先,将现有的聚类算法进行基于Spark的分布式处理;然后,以第1个聚类成员的聚类结果作为参照划分,对剩余聚类成员中的类簇做标签对齐;最后,利用投票法以及三支决策规则对标签对齐后的聚类成员进行集成,得到最终的三支聚类结果.实验结果显示,本方法能够有效处理大规模不确定性数据,相比传统基于Spark的聚类算法效率更高. 展开更多
关键词 大规模不确定性数据 spark 聚类集成 三支决策
在线阅读 下载PDF
基于聚类和Spark框架的加权Slope One算法 被引量:8
7
作者 李淋淋 倪建成 +2 位作者 于苹苹 姚彬修 曹博 《计算机应用》 CSCD 北大核心 2017年第5期1287-1291,1310,共6页
针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加... 针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加入到传统的项目评分相似性计算中,并引入项目属性相似性生成项目综合相似度;然后,结合Canopy-K-means聚类算法生成最近邻居集;最后,利用Spark计算框架对数据进行分区迭代计算,实现该算法的并行化。实验结果表明,基于Spark框架的改进算法与传统Slope One算法、基于用户相似性的加权Slope One算法相比,评分预测准确性更高,较Hadoop平台下的运行效率平均可提高3.5~5倍,更适合应用于大规模数据集的推荐。 展开更多
关键词 SLOPE One算法 聚类 spark 时间权重 项目属性
在线阅读 下载PDF
基于Spark的大规模文本k-means并行聚类算法 被引量:14
8
作者 刘鹏 滕家雨 +1 位作者 丁恩杰 孟磊 《中文信息学报》 CSCD 北大核心 2017年第4期145-153,共9页
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统... 互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。 展开更多
关键词 K-MEANS 并行化 文本聚类 spark RDD Hadoop MAPREDUCE
在线阅读 下载PDF
基于Spark平台的岩石图像聚类分析 被引量:10
9
作者 杨艳梅 柳娜 +2 位作者 程国建 强新建 王叙乔 《西安石油大学学报(自然科学版)》 CAS 北大核心 2016年第6期114-118,共5页
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,... 提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。 展开更多
关键词 岩石图像 聚类分析 spark平台 K-MEANS
在线阅读 下载PDF
基于Spark框架和ASPSO的并行划分聚类算法 被引量:12
10
作者 毛伊敏 甘德瑾 +1 位作者 廖列法 陈志刚 《通信学报》 EI CSCD 北大核心 2022年第3期148-163,共16页
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法... 针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法。首先,提出了基于皮尔逊相关系数和方差的网格划分策略获取数据离散系数较小的网格单元并进行离群点过滤,解决了数据离散系数较大与抗干扰性差的问题;其次,提出了基于势函数与高斯函数的网格划分策略,获取局部聚类的簇数,解决了局部簇簇数难以确定的问题;再次,提出了ASPSO获取局部簇质心,解决了局部簇质心的随机性问题;最后,提出了基于簇半径与邻居节点的合并策略对相似度大的簇进行并行化合并,提高了局部簇并行化合并的效率。实验结果表明,PDC-SFASPSO算法在大数据环境下进行数据的划分聚类具有较好的性能表现,适用于对大规模的数据集进行并行化聚类。 展开更多
关键词 spark框架 并行划分聚类 网格划分 粒子群优化自适应策略 并行化合并
在线阅读 下载PDF
一种Spark集群下的shuffle优化机制 被引量:3
11
作者 熊安萍 夏玉冲 杨方方 《计算机工程与应用》 CSCD 北大核心 2018年第4期72-76,共5页
Spark是基于内存的分布式数据处理框架,其shuffle过程中大量数据需要通过网络传输,已成为Spark最主要的瓶颈之一。针对shuffle过程中存在的数据分布不均造成不同节点网络I/O负载不均的问题,设计了基于task本地性等级的重启策略,进一步... Spark是基于内存的分布式数据处理框架,其shuffle过程中大量数据需要通过网络传输,已成为Spark最主要的瓶颈之一。针对shuffle过程中存在的数据分布不均造成不同节点网络I/O负载不均的问题,设计了基于task本地性等级的重启策略,进一步提出了均衡的调度策略来平衡各节点的网络I/O负载。最后通过实验验证了优化机制能够减少计算任务的执行时间,提升整个shuffle过程的执行效率。 展开更多
关键词 spark集群 shuffle过程 数据传输 本地性 调度策略
在线阅读 下载PDF
Spark平台下聚类算法的性能比较 被引量:9
12
作者 海沫 张游 《计算机科学》 CSCD 北大核心 2017年第S1期414-418,共5页
通过实验,从运行时间、加速比、可扩展性和规模增长性4个方面比较了Spark平台中3种典型的聚类算法即K-means聚类算法、二分K-means聚类算法和高斯混合聚类算法的性能。实验结果表明:1)随着节点个数的增加,3种算法对百兆以上规模数据集... 通过实验,从运行时间、加速比、可扩展性和规模增长性4个方面比较了Spark平台中3种典型的聚类算法即K-means聚类算法、二分K-means聚类算法和高斯混合聚类算法的性能。实验结果表明:1)随着节点个数的增加,3种算法对百兆以上规模数据集聚类的运行时间明显减少;2)当数据集规模大于500MB时,3种算法的加速比均有明显提高,且随着节点个数的增加,加速比近似于线性增长;3)3种算法的可扩展性随着节点个数的增加而降低,当数据集规模大于500MB时,相对于K-means和高斯混合算法,二分K-means算法的可扩展性最差;4)当数据集规模大于100MB时,高斯混合算法的规模增长性远高于K-means和二分K-means算法。 展开更多
关键词 spark K-MEANS聚类 二分K-means聚类 高斯混合聚类 运行时间 加速比 可扩展性 规模增长性
在线阅读 下载PDF
一种基于Spark的改进协同过滤算法研究 被引量:8
13
作者 许智宏 蒋新宇 +1 位作者 董永峰 赵嘉伟 《计算机应用与软件》 2017年第5期247-254,278,共9页
为提高协同过滤算法在大数据环境下的可扩展性以及在高维稀疏数据下的推荐精度,基于Spark平台实现了一种分层联合聚类协同过滤算法。利用联合聚类对数据集进行稀疏性处理并构建聚类模型,运用层次分析模型并结合评分密集度分析联合聚类... 为提高协同过滤算法在大数据环境下的可扩展性以及在高维稀疏数据下的推荐精度,基于Spark平台实现了一种分层联合聚类协同过滤算法。利用联合聚类对数据集进行稀疏性处理并构建聚类模型,运用层次分析模型并结合评分密集度分析联合聚类模型中用户和项目潜在类别权重,由此进行项目相似度计算并构建项目最近邻居集合,完成在线推荐。通过在GroupLens提供的不同规模MovieLens数据集上实验表明,改进后的算法能够明显提高推荐的准确度,并且在分布式环境下具有良好的推荐效率和可扩展性。 展开更多
关键词 协同过滤 联合聚类 层次分析模型 spark
在线阅读 下载PDF
异构环境下Spark动态资源调度策略研究 被引量:1
14
作者 吴仁彪 刘备 贾云飞 《中国民航大学学报》 CAS 2021年第6期14-19,27,共7页
针对Spark未考虑异构集群节点间的性能差异,导致多作业场景下节点负载不均衡、作业执行效率低的问题,提出一种基于异构集群节点负载的Spark动态资源调度策略。根据节点静态负载和运行时的动态负载信息建立异构集群节点负载评价指标,获... 针对Spark未考虑异构集群节点间的性能差异,导致多作业场景下节点负载不均衡、作业执行效率低的问题,提出一种基于异构集群节点负载的Spark动态资源调度策略。根据节点静态负载和运行时的动态负载信息建立异构集群节点负载评价指标,获取集群运行时节点的实时负载;改进Spark默认资源管理器Standalone在资源分配时的节点排序规则;最终实现基于异构集群节点负载的动态资源调度策略。实验结果表明,与默认调度策略相比,该策略评价指标适用性更好,有效缓解了集群的负载失衡问题,提高了作业执行效率。 展开更多
关键词 spark 异构集群 负载均衡 资源调度 Standalone
在线阅读 下载PDF
资源不均衡Spark环境任务调度优化算法研究 被引量:16
15
作者 胡亚红 盛夏 毛家发 《计算机工程与科学》 CSCD 北大核心 2020年第2期203-209,共7页
由于硬件资源的更新换代,集群中各个节点的计算能力会变得不一致。集群异构的出现导致集群计算资源不均衡。目前Spark大数据平台在任务调度时未考虑集群的异构性以及节点资源的利用情况,影响了系统性能的发挥。构建了集群节点的评价指... 由于硬件资源的更新换代,集群中各个节点的计算能力会变得不一致。集群异构的出现导致集群计算资源不均衡。目前Spark大数据平台在任务调度时未考虑集群的异构性以及节点资源的利用情况,影响了系统性能的发挥。构建了集群节点的评价指标体系,提出利用节点的优先级来表示其计算能力。提出的节点优先级调整算法能够根据任务执行过程中节点的状态动态调整各个节点的优先级。基于节点优先级的Spark动态自适应调度算法(SDASA)则根据实时的节点优先级值完成任务的分配。实验表明,SDASA能够缩短任务在集群中的执行时间,从而提升集群整体计算性能。 展开更多
关键词 异构集群 任务调度 节点优先级 spark
在线阅读 下载PDF
基于Spark框架的高效KNN中文文本分类算法 被引量:19
16
作者 于苹苹 倪建成 +2 位作者 姚彬修 李淋淋 曹博 《计算机应用》 CSCD 北大核心 2016年第12期3292-3297,共6页
针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-... 针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3.92-31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。 展开更多
关键词 K-最近邻 聚类 收缩因子 K-medoids spark 并行化计算
在线阅读 下载PDF
SCoS:基于Spark的并行谱聚类算法设计与实现 被引量:13
17
作者 朱光辉 黄圣彬 +1 位作者 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2018年第4期868-885,共18页
谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的... 谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的计算开销较大,不仅需要计算任意两个样本之间的相似性,而且还需要计算Laplacian矩阵的特征向量.因此,在大规模数据场景下,谱聚类算法存在计算耗时过长甚至无法完成计算的问题.为了解决谱聚类算法在大规模数据场景下的计算性能问题,使得谱聚类算法能够应用在大数据集上,文中基于Apache Spark分布式并行计算框架研究并实现了大规模并行谱聚类算法SCoS,对算法流程中的每个计算步骤进行了并行化.具体的,SCoS主要实现了相似度矩阵构建与稀疏化过程的并行化、Laplacian矩阵构建与正规化过程的并行化、正规化Laplacian矩阵特征向量计算的并行化以及k-means聚类的并行化.为了降低谱聚类算法中大规模样本相似性计算的开销,SCoS采用了基于多轮迭代的并行计算方式实现大规模样本之间的相似性计算.针对大规模谱聚类算法中耗时较长的Laplacian矩阵特征向量求解问题,SCoS基于ScaLAPACK实现了特征向量的并行化求解,同时文中也实现了近似特征向量计算算法,并且对比分析了精确特征向量计算与近似特征向量计算对于谱聚类算法的性能影响.为了进一步提升大规模谱聚类算法的性能,SCoS采取了矩阵稀疏化表示与存储、Laplacian矩阵乘法优化以及k-means聚类中距离计算放缩剪枝等多种优化手段,尽可能地减少计算开销、存储空间开销以及数据传输开销.实验表明,SCoS不仅在聚类效果上要优于传统的聚类算法,而且具有较高的运行效率,特别是在大规模数据集下,仍具有较高的计算性能,并表现出了良好的数据可扩展性和系统可扩展性. 展开更多
关键词 谱聚类 并行化 相似性度量 分布式计算 APACHE spark
在线阅读 下载PDF
基于Spark的大数据处理平台的搭建与研究 被引量:4
18
作者 许礼捷 《电脑知识与技术》 2016年第5X期14-16,共3页
该文阐述了Spark处理技术在大数据框架上的性能提升优势,分析了BDAS生态系统框架中Spark的任务处理流程图。详细说明了Spark集群的搭建过程和运行状态,并通过Spark Shell的交互界面进行交互式编程,实现对文本内容中单词出现次数的统计。
关键词 大数据 spark 集群 YARN 交互式编程
在线阅读 下载PDF
基于Spark框架的图书馆微信服务平台设计研究 被引量:3
19
作者 黄铁娜 戴文静 曹君 《现代电子技术》 2021年第15期99-103,共5页
图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主... 图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主动推送功能、业务办理模式、查询帮助服务、在线咨询和社交平台、智能问答系统五项功能。通过预处理、特征提取以及并行化聚类三个阶段实现基于Spark框架的图书馆微信服务平台工作流程。实验结果表明,基于Spark框架的图书馆微信服务平台能够有效提高运行稳定性,增强数据处理效率。 展开更多
关键词 平台设计 微信服务平台 spark框架 特征提取 并行化聚类 运行稳定性 微时代
在线阅读 下载PDF
基于Spark框架的聚类算法研究 被引量:9
20
作者 陈虹君 《电脑知识与技术》 2015年第2期56-57,60,共3页
大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中... 大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。 展开更多
关键词 大数据 HADOOP spark 机器学习 聚类 KMeans
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部