期刊文献+
共找到137篇文章
< 1 2 7 >
每页显示 20 50 100
Spark架构下基于改进深度聚类的用户日负荷分类方法 被引量:1
1
作者 徐寿亮 徐剑 《现代电力》 北大核心 2025年第3期411-420,共10页
负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量... 负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量高维的负荷数据。因此,提出一种Spark分布式计算架构下基于改进深度聚类的日负荷分类方法。首先,利用卷积神经网络自编码器获取用户具有代表性的特征向量,送入K-means的聚类层完成负荷聚类,接着将特征提取模型和聚类模型联合优化,组成深度聚类模型。其次,考虑了处于负荷类别边界的边缘负荷样本对神经网络的不利影响,引入自步学习技术,并设计了一个新的损失函数。最后,将大数据技术与深度聚类算法结合,利用Spark分布式计算平台实现深度聚类算法的并行计算。通过算例验证,所提算法在聚类效果和处理效率上都优于传统算法。 展开更多
关键词 居民负荷 日负荷聚类 深度聚类 spark平台 并行计算
原文传递
基于优化RDD分区的Spark并行K-means大尺度遥感图像分割 被引量:4
2
作者 李玉 崔书琳 赵泉华 《控制与决策》 EI CSCD 北大核心 2024年第5期1612-1619,共8页
大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设... 大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设置,尽管这种RDD设置简单便捷,但对大尺度图像分割任务容易造成“多分区、小数据”现象,极大影响图像分割速度.为此,采用覆盖部分上海市区的WorldView-3遥感图像为测试数据,在K-means算法初始化聚类中心阶段自定义影响RDD分区的参数spark.sql.shuffle.partitions,在迭代计算阶段调用coalesce()算子减少分区数;与串行K-means算法对比验证单机处理大数据的可行性与有效性,与优化前的Spark并行K-means算法对比实现了大尺度遥感图像快速分割.实验结果表明,在K-means算法初始化聚类中心和迭代计算阶段,将RDD分区数设置在CPU核数的1~10倍,总用时由优化前的145 s缩减到97 s,尤其在初始化聚类中心阶段的时间效率上,优化后是优化前的500~1 000倍. 展开更多
关键词 spark平台 单机大数据处理 大尺度遥感图像 RDD优化 图像分割 并行K-means算法
原文传递
Spark平台下基于互信息计算的高光谱图像波段选择方法 被引量:1
3
作者 李俊丽 马俊宏 《光学技术》 CAS CSCD 北大核心 2024年第2期174-181,共8页
随着遥感成像技术的发展和普及,高光谱图像中大量的波段使得大多数应用研究遇到休斯现象。而且随着高光谱图像数据量的快速增长,现有的传统串行算法计算复杂度较高,难以处理高维海量高光谱图像数据。针对以上问题,提出Spark平台下基于... 随着遥感成像技术的发展和普及,高光谱图像中大量的波段使得大多数应用研究遇到休斯现象。而且随着高光谱图像数据量的快速增长,现有的传统串行算法计算复杂度较高,难以处理高维海量高光谱图像数据。针对以上问题,提出Spark平台下基于互信息计算的波段选择算法。利用熵和互信息理论定义波段相关性和多重相关性;基于Spark RDD编程模型设计数据列变换,将数据集划分为列矩阵,以降低计算负载;在Spark平台下对算法并行化,提高算法执行效率。实验结果表明,提出的算法达到了94.5%±0.5的整体分类精度,且加速性能良好,改善了数据可扩展性。 展开更多
关键词 高光谱图像 波段选择 互信息计算 spark平台 并行计算
原文传递
Spark综合实验平台的使用和实验教学实践
4
作者 魏凌华 徐成振 《科技风》 2024年第6期64-66,共3页
Spark实验课是Spark理论课程的延伸和拓展,为了提高学生学习Spark实验课程的兴趣,文章对Spark综合实验平台的实践教学进行了探索,实践教学的结果表明,采用Spark综合实验平台进行教学,提高了学生的学习兴趣和求知欲,理论课和实验课的成... Spark实验课是Spark理论课程的延伸和拓展,为了提高学生学习Spark实验课程的兴趣,文章对Spark综合实验平台的实践教学进行了探索,实践教学的结果表明,采用Spark综合实验平台进行教学,提高了学生的学习兴趣和求知欲,理论课和实验课的成绩都得到了提高。 展开更多
关键词 spark 实验平台 实验课 实践教学
在线阅读 下载PDF
基于Spark平台的并行化谱聚类算法的在线学习资源推荐 被引量:9
5
作者 刘莹 杨淑萍 张治国 《济南大学学报(自然科学版)》 CAS 北大核心 2024年第4期456-461,共6页
为了提高在线学习资源推荐的准确度,采用谱聚类用于学习资源的归类,将类别相似度高的资源推荐给用户,提出Spark平台的并行化谱聚类算法,提高资源推荐效率;首先提取在线学习资源及用户特征并初始化,建立谱聚类模型,在Spark平台上分别求... 为了提高在线学习资源推荐的准确度,采用谱聚类用于学习资源的归类,将类别相似度高的资源推荐给用户,提出Spark平台的并行化谱聚类算法,提高资源推荐效率;首先提取在线学习资源及用户特征并初始化,建立谱聚类模型,在Spark平台上分别求解无向图的顶点相似度及归一化拉普拉斯系数;然后采用归一化分割划分子集,通过归一化割集优化方式求解类别特征,并对类别特征按行输出特征点;最后采用k均值算法对特征点进行聚类,获得聚类结果。结果表明,采用谱聚类算法并借助于Spark平台的计算优势,所提推荐方法比常用的在线学习资源推荐算法的准确率和覆盖率更高,在海量学习资源的实时推荐方面具有较高适应度。 展开更多
关键词 在线学习 资源推荐 谱聚类 spark平台 图分割
在线阅读 下载PDF
基于Spark与优化分块的大幅面遥感影像SLIC分割方法
6
作者 谢志伟 宋光明 +2 位作者 张丰源 陈旻 彭博 《测绘通报》 CSCD 北大核心 2024年第10期84-90,共7页
针对大幅面遥感影像在分块边界特征不连续和分割效率不高等问题,本文提出了结合Spark平台及最优紧密度评估的简单线性迭代聚类超像素分割算法(SLIC)。首先,使用结合最优紧密度的SLIC超像素分割方法完成图像分块,解决分块边界精度低的问... 针对大幅面遥感影像在分块边界特征不连续和分割效率不高等问题,本文提出了结合Spark平台及最优紧密度评估的简单线性迭代聚类超像素分割算法(SLIC)。首先,使用结合最优紧密度的SLIC超像素分割方法完成图像分块,解决分块边界精度低的问题;然后,利用Spark对分块数据并行SLIC分割算法,提高运算效率;最后,将WorldView-2卫星影像和GF-2号影像作为试验数据,利用比值植被指数结合最大类间方差法改进SLIC算法以提高超像素分割精度。结果表明,改进SLIC方法在运算效率上比原方法提高了约9倍,边缘拟合精度提高了1.5%,欠分割误差提高了8.2%,边缘召回率提高了0.2%。 展开更多
关键词 大幅面遥感影像 spark平台 改进SLIC算法 并行计算 最优参数评估
原文传递
基于Spark大数据平台与改进Adaboost算法的医院预分检系统研究
7
作者 李宗仁 陈辉 +1 位作者 常俊 王能才 《中国医学装备》 2024年第9期102-106,共5页
目的:设计基于Spark大数据平台与改进Adaboost算法的医院预分检系统,用于医院就诊患者诊前分流,加速患者就医流程。方法:基于Spark大数据平台实时采集初次进入医院就诊患者的基础数据,将区块链技术应用于数据采集、存储与传输全过程,通... 目的:设计基于Spark大数据平台与改进Adaboost算法的医院预分检系统,用于医院就诊患者诊前分流,加速患者就医流程。方法:基于Spark大数据平台实时采集初次进入医院就诊患者的基础数据,将区块链技术应用于数据采集、存储与传输全过程,通过改进Adaboost算法对数据进行分析,采用2011—2020年联勤保障部队第九四〇医院10年间门诊患者的就诊数据为数据集,对患者在院内就诊进行快速甄别并引导就诊。分析基于Spark大数据平台与改进Adaboost算法的医院预分检系统应用效果。结果:改进Adaboost算法设置自定义限制权重阈值为0.52时,算法准确率为95.56%,预检分诊准确率较传统Adaboost算法提高4.24%。患者平均候诊时间由采用预分检系统前的0.8 h缩短为0.5 h,患者平均就诊时间由6 min缩短为4.8 min。结论:基于大数据平台与改进Adaboost算法的医院预分检系统能够提前将医院就诊患者进行诊前分流,提高分检效率和分检准确率,缓解医院就诊压力。 展开更多
关键词 预分检 实时采集 spark大数据平台 改进Adaboost算法
暂未订购
异构Spark集群下自适应任务调度策略 被引量:20
8
作者 杨志伟 郑烇 +2 位作者 王嵩 杨坚 周乐乐 《计算机工程》 CAS CSCD 北大核心 2016年第1期31-35,40,共6页
Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资... Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资源利用率,分析监测得到的参数,自适应动态调整节点任务分配权值。实验结果表明,在异构节点情况下,该策略在作业完成时间、节点工作状态及资源利用率方面的性能均优于默认的任务调度策略。 展开更多
关键词 spark平台 异构集群 自适应 任务调度 监测 权值
在线阅读 下载PDF
基于Spark平台和多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测 被引量:34
9
作者 马天男 牛东晓 +1 位作者 黄雅莉 杜振东 《电网技术》 EI CSCD 北大核心 2016年第6期1642-1649,共8页
分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择... 分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择的基础上,建立了基于Spark平台与多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测方法。首先,利用Spark平台分割全部数据得到多个子数据模型,通过并行计算提高数据处理效率,采用特征提取方法得出模型需要的输入向量;其次,将得出的有效数据信息输入到多变量L_2-Boosting回归模型进行训练学习,得到训练后的多变量L_2-Boosting回归模型;最后,利用测试数据测试模型。算例结果验证了所提模型的有效性。 展开更多
关键词 短期负荷预测 多变量L2-Boosting回归模型 分布式能源系统 spark平台
原文传递
基于内存与文件共享机制的Spark I/O性能优化 被引量:8
10
作者 黄廷辉 王玉良 +1 位作者 汪振 崔更申 《计算机工程》 CAS CSCD 北大核心 2017年第3期1-6,共6页
通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。... 通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。在此基础上,给出改进的Spark Shuffle过程,即通过设计一种使每个Mapper只生成一个缓存文件的运行模式,并且每个Mapper共享同一个内存缓冲区,从而提高I/O效率和减少内存开销。仿真结果表明,与Spark默认模式相比,该运行模式宽依赖计算过程的I/O时间缩短42.9%,可有效提高内存利用率和Spark平台运算效率。 展开更多
关键词 分布式计算 spark平台 Shuffle过程 磁盘I/O 任务调度
在线阅读 下载PDF
基于Spark平台的岩石图像聚类分析 被引量:9
11
作者 杨艳梅 柳娜 +2 位作者 程国建 强新建 王叙乔 《西安石油大学学报(自然科学版)》 CAS 北大核心 2016年第6期114-118,共5页
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,... 提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。 展开更多
关键词 岩石图像 聚类分析 spark平台 K-MEANS
在线阅读 下载PDF
Spark平台下的短文本特征扩展与分类研究 被引量:8
12
作者 王雯 赵衎衎 +2 位作者 李翠平 陈红 孙辉 《计算机科学与探索》 CSCD 北大核心 2017年第5期732-741,共10页
短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上... 短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法。该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率。实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%。 展开更多
关键词 短文本分类 特征扩展 关联规则 spark平台
在线阅读 下载PDF
Spark平台中的并行化FP_growth关联规则挖掘方法 被引量:5
13
作者 朱岸青 李帅 唐晓东 《计算机科学》 CSCD 北大核心 2020年第12期139-143,共5页
为了提高关联规则挖掘效率,文中提出了一种适用于Spark平台的并行化FP_growth关联规则挖掘方法。首先,利用Spark平台在分布式系统中的所有节点的内存RDD中完成遍历扫描运算,得到频繁集,以便生成FP_Table并更新FP_Tree。然后,引入时间序... 为了提高关联规则挖掘效率,文中提出了一种适用于Spark平台的并行化FP_growth关联规则挖掘方法。首先,利用Spark平台在分布式系统中的所有节点的内存RDD中完成遍历扫描运算,得到频繁集,以便生成FP_Table并更新FP_Tree。然后,引入时间序列来预测待挖掘的项目集,以便实现分布式系统中的所有节点能够均衡分担挖掘任务,从而充分利用各节点的FP_Tree遍历功能,获取FP_growth关联规则挖掘结果。实验结果显示,相比单机情况,并行化FP_growth关联规则挖掘在效率方面提高了约60%。经过负载均衡处理后的FP_growth关联规则挖掘的效率更高,提高了约14%,这说明各节点遍历任务的分配更均衡,并行化程度更高。 展开更多
关键词 spark平台 FP_GROWTH算法 关联规则挖掘 频繁集 负载均衡
在线阅读 下载PDF
面向Spark的图书借阅数据关联模型的研究 被引量:8
14
作者 高琪娟 刘锴 陈佳 《安徽农业大学学报》 CAS CSCD 2018年第4期768-771,共4页
为了方便读者能在海量的图书资源中快速有效的找到需要的书籍,利用Map Reduce框架分块处理,结合关联分析Apriori算法,将数据挖掘技术应用到图书管理系统中。但需要多次扫描数据库和产生大量候选集,对Hadoop平台处理速度带来了巨大挑战,... 为了方便读者能在海量的图书资源中快速有效的找到需要的书籍,利用Map Reduce框架分块处理,结合关联分析Apriori算法,将数据挖掘技术应用到图书管理系统中。但需要多次扫描数据库和产生大量候选集,对Hadoop平台处理速度带来了巨大挑战,因此,针对传统的Apriori算法,提出基于内存计算、弹性分布式数据集处理的Spark平台为读者推荐书籍,指引读者的借阅行为。 展开更多
关键词 Apriori关联规则 spark平台 图书借阅行为模式 频繁项集
原文传递
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:20
15
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
在线阅读 下载PDF
基于Spark和梯度提升树模型的短期负荷预测 被引量:41
16
作者 许贤泽 刘静 +1 位作者 施元 谭盛煌 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第5期84-89,共6页
利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoo... 利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoop分布式文件系统(HDFS)分块大小;最后将参数调优后的梯度提升树模型部署到Spark分布式平台上进行训练与预测,并将该模型预测结果与其他预测模型进行精度比较.研究结果表明:通过合理划分HDFS中存储块的大小能有效提高集群对于大数据处理的效率,分布式梯度提升树算法在快速性与准确性上均有比较大的优势,能够满足电力负荷预测的要求. 展开更多
关键词 负荷预测 分布式计算 大数据 梯度提升树 spark平台
原文传递
基于Spark的电力调度数据整合模型 被引量:9
17
作者 曲朝阳 陈贺新 +2 位作者 胡可为 刘耀伟 独健鸿 《计算机工程与应用》 CSCD 北大核心 2017年第19期65-70,共6页
随着大数据理念在电力行业的应用,构建电力调度数据仓库是支撑电力调度中心统一数据平台的基础,针对电力调度中心的数据仓库将多源数据整合时面临的重复冗余和不一致问题,提出一种基于Spark的电力调度数据整合模型。设计并行化正向最大... 随着大数据理念在电力行业的应用,构建电力调度数据仓库是支撑电力调度中心统一数据平台的基础,针对电力调度中心的数据仓库将多源数据整合时面临的重复冗余和不一致问题,提出一种基于Spark的电力调度数据整合模型。设计并行化正向最大匹配去冗算法,对多个系统内冗余数据进行过滤操作;给出面向关联度的数据一致性处理方法,依据特征向量的夹角余弦值判断数据间的联系,进而对不一致数据修复。通过对某电力调度中心的数据进行整合实验,验证了该数据整合模型的可行性。 展开更多
关键词 电力调度中心 关联度 特征向量 数据整合 spark平台
在线阅读 下载PDF
基于Spark平台的海量电子对抗数据分析 被引量:3
18
作者 李霄 贺成龙 +1 位作者 张广庆 徐欣 《指挥信息系统与技术》 2015年第2期53-56,共4页
海量电子对抗(简称电抗)数据分析是雷达辐射源识别领域的一个难点问题。采用Spark平台对海量电抗数据进行分析挖掘,分析了海量电抗数据在HBase数据库中的分布式存储,以及Spark平台基本程序框架和数据处理方式,探索了海量电抗数据的分析... 海量电子对抗(简称电抗)数据分析是雷达辐射源识别领域的一个难点问题。采用Spark平台对海量电抗数据进行分析挖掘,分析了海量电抗数据在HBase数据库中的分布式存储,以及Spark平台基本程序框架和数据处理方式,探索了海量电抗数据的分析和挖掘方法。仿真试验表明,Spark平台能够高效处理海量电抗数据,具有良好的稳定性。 展开更多
关键词 电子对抗 海量数据 spark平台 数据分析
在线阅读 下载PDF
基于Spark平台城市出租车乘客出行特征分析 被引量:7
19
作者 段宗涛 陈志明 +1 位作者 陈柘 康军 《计算机系统应用》 2017年第3期37-43,共7页
从海量出租车GPS轨迹数据中挖掘和分析城市出租车乘客的出行特征,可以为城市交通管理者和出租车行业管理者在城市交通规划与管理、城市交通流均衡与车辆调度等方面提供决策依据.基于Spark大数据处理分析平台,选择YARN作为资源管理调度系... 从海量出租车GPS轨迹数据中挖掘和分析城市出租车乘客的出行特征,可以为城市交通管理者和出租车行业管理者在城市交通规划与管理、城市交通流均衡与车辆调度等方面提供决策依据.基于Spark大数据处理分析平台,选择YARN作为资源管理调度系统,采用HDFS分布式存储系统,对出租车GPS轨迹数据进行挖掘.给出了基于Spark平台的出租车乘客出行特征的挖掘方法,包括出租车乘客出行距离分布、出租车使用时间分布及出租车出行需求.实验结果表明,基于Spark平台分析方法能够快速且准确的分析出出租车乘客出行特征. 展开更多
关键词 spark大数据平台 出租车GPS数据 出行特征 大数据 智能交通
在线阅读 下载PDF
基于Spark的医疗服务大数据统计平台的应用 被引量:7
20
作者 范炜玮 王虹 吴飞 《中国医疗设备》 2017年第11期136-139,160,共5页
目的探索大数据处理方法及技术在医疗服务大数据领域中的应用,提高交互式统计计算效率,从而为医疗服务大数据的进一步挖掘和利用提供第一手的实践资料。方法梳理了医疗服务大数据的来源范畴、数据特征及其处理技术的发展,围绕大数据时... 目的探索大数据处理方法及技术在医疗服务大数据领域中的应用,提高交互式统计计算效率,从而为医疗服务大数据的进一步挖掘和利用提供第一手的实践资料。方法梳理了医疗服务大数据的来源范畴、数据特征及其处理技术的发展,围绕大数据时代下的医疗服务数据统计、分析及利用的功能和性能需求,并提出了一套基于Spark的并行计算解决方案。结果完成了医疗服务大数据交互式分析平台的系统架构设计,以Spark计算平台为基础进行了统计系统原型的实现、对比和验证。结论 Spark能够满足医疗服务大数据处理中以交互式查询为代表的统计分析的数据处理需求,同时也能满足以迭代计算为代表的数据挖掘,图形分析等数据处理需求,将在医疗服务大数据处理中得到更广泛和深入的应用。 展开更多
关键词 spark 交互式分析平台 医疗服务 医疗大数据 统计系统原型 数据挖掘
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部