期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于SparkR的分类算法并行化研究 被引量:14
1
作者 刘志强 顾荣 +1 位作者 袁春风 黄宜华 《计算机科学与探索》 CSCD 北大核心 2015年第11期1281-1294,共14页
近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设... 近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于Spark R的并行化分类算法与Hadoop Map Reduce的方案相比,速度上提升了8倍左右。 展开更多
关键词 sparkr 分类算法 并行化 局部迭代 内存计算
在线阅读 下载PDF
社会化信息对股市波动影响分析——基于SparkR平台的实现 被引量:2
2
作者 倪丽萍 马驰宇 刘小军 《计算机应用与软件》 2017年第3期181-188,266,共9页
社会信息化的飞速发展使得社会化信息日益丰富。这些信息会对股市波动产生一定影响,然而这些信息数量巨大且多属于非结构化数据,使得分析社会化信息对市场的影响具有一定的难度。尝试通过分布式计算技术来解决这个问题,并从信息量和信... 社会信息化的飞速发展使得社会化信息日益丰富。这些信息会对股市波动产生一定影响,然而这些信息数量巨大且多属于非结构化数据,使得分析社会化信息对市场的影响具有一定的难度。尝试通过分布式计算技术来解决这个问题,并从信息量和信息情感两个方面考察社会化信息对股市的影响。通过搭建SparkR平台,首先讨论如何利用该平台解决大数据环境下股市社会化信息的特征选择以及情感分类问题,其次对比了信息量和信息情感对市场的影响情况,说明信息情感变化更能准确说明市场的波动变化情况。为进一步验证方案的可行性,定义了不同的情感计量方式并对比了不同方案的优缺点,进而给出分析社会化信息对股市波动影响的综合解决方案,并且通过实验验证了该方案的有效性。 展开更多
关键词 sparkr特征选择分布式计算 文本挖掘 情感分类
在线阅读 下载PDF
基于SparkR的水文传感器数据的异常检测方法 被引量:7
3
作者 刘子豪 李凌 叶枫 《计算机应用》 CSCD 北大核心 2019年第2期436-440,共5页
为了高效地从海量的水文传感器数据中检测出异常值,提出一种基于SparkR的水文时间序列异常检测方法。首先,对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型(ARIMA)在SparkR平台上进行预测;然后,对预测的结果计算置信区间,将... 为了高效地从海量的水文传感器数据中检测出异常值,提出一种基于SparkR的水文时间序列异常检测方法。首先,对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型(ARIMA)在SparkR平台上进行预测;然后,对预测的结果计算置信区间,将在区间范围以外的判定为异常值;最后,基于检测结果,利用K均值算法对原数据进行聚类,同时计算其状态转移概率,对检测出的异常值进行质量评估。以在滁河获取的水文传感器数据为实验数据,分别在运行时间和异常值检测效果这两个方面进行了实验。结果显示:利用SparkR对百万级数据进行计算时,利用双节点计算的时间要长于单节点;但是对千万级数据进行计算时,双节点比单节点计算时间上更少,最多减少了16. 21%,且评估过后的灵敏度由之前的5. 24%提高到了92. 98%。实验结果表明,在SparkR下,根据水文数据的特点并结合预测检验和聚类校验的方法对千万级水文时间序列进行检测时,能有效提高传统方法的计算效率,并且在灵敏度方面相比传统方法也有显著提升。 展开更多
关键词 sparkr 自回归积分滑动平均模型 异常检测 水文时间序列 K均值
在线阅读 下载PDF
基于SparkR的人工水体藻类建模预测 被引量:1
4
作者 秦业海 李修华 +2 位作者 艾矫燕 付旭生 林春焕 《环境与发展》 2019年第4期130-132,共3页
为探究水质分析与大数据技术结合的可行方案,以MySQL+Hive+SparkR为主体框架搭建一整套从数据输入、存储、调度到应用的SparkR水质分析平台。设置室内培养模拟人工湖藻类生长实验组及其重复实验组,监测各项指标数据,通过SparkR平台,在... 为探究水质分析与大数据技术结合的可行方案,以MySQL+Hive+SparkR为主体框架搭建一整套从数据输入、存储、调度到应用的SparkR水质分析平台。设置室内培养模拟人工湖藻类生长实验组及其重复实验组,监测各项指标数据,通过SparkR平台,在本地应用Adaptive-Lasso算法识别出对照组和苦草组藻类生长主要影响因子,并建立回归方程进行验证,在集群分布式部署GBTs藻类预测模型,经重复试验验证预测模型未来3天的相对误差均值分别为15.3%、14.8%。 展开更多
关键词 藻类生长模型 sparkr Adaptive-Lasso GBTs
在线阅读 下载PDF
基于SparkR的用户用电行为分析 被引量:1
5
作者 毛艳芳 王栋 +4 位作者 冯鹏 季润阳 朱喆华 李珺涵 杨佩 《电力信息与通信技术》 2017年第5期44-48,共5页
为了协助供电公司对用电客户的行为进行准确描述,进一步指导发电端合理、有效地调整发电策略,提出了一种基于SparkR的并行化K-means聚类算法对台区用电行为特性和用电负荷特性进行分类和分析的方法。文章通过提取南通市供电公司全量台... 为了协助供电公司对用电客户的行为进行准确描述,进一步指导发电端合理、有效地调整发电策略,提出了一种基于SparkR的并行化K-means聚类算法对台区用电行为特性和用电负荷特性进行分类和分析的方法。文章通过提取南通市供电公司全量台区的用电数据,进行一系列清洗、归一化等处理后,依据台区的用电负荷曲线特性,利用R语言平台和Spark计算引擎实现K-means的并行化处理,对台区进行分类,最终得到4类不同用户及其用电特性,并结合地市的地域特性针对不同类型的负荷曲线进行了验证及分析。对典型用户的信息核验与验证结果表明,文章所提方法聚类分析结果的准确率可达95%以上。 展开更多
关键词 sparkr 并行化 K-MEANS聚类 归一化 用电行为
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部