期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于SparkR的分类算法并行化研究
被引量:
14
1
作者
刘志强
顾荣
+1 位作者
袁春风
黄宜华
《计算机科学与探索》
CSCD
北大核心
2015年第11期1281-1294,共14页
近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设...
近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于Spark R的并行化分类算法与Hadoop Map Reduce的方案相比,速度上提升了8倍左右。
展开更多
关键词
sparkr
分类算法
并行化
局部迭代
内存计算
在线阅读
下载PDF
职称材料
社会化信息对股市波动影响分析——基于SparkR平台的实现
被引量:
2
2
作者
倪丽萍
马驰宇
刘小军
《计算机应用与软件》
2017年第3期181-188,266,共9页
社会信息化的飞速发展使得社会化信息日益丰富。这些信息会对股市波动产生一定影响,然而这些信息数量巨大且多属于非结构化数据,使得分析社会化信息对市场的影响具有一定的难度。尝试通过分布式计算技术来解决这个问题,并从信息量和信...
社会信息化的飞速发展使得社会化信息日益丰富。这些信息会对股市波动产生一定影响,然而这些信息数量巨大且多属于非结构化数据,使得分析社会化信息对市场的影响具有一定的难度。尝试通过分布式计算技术来解决这个问题,并从信息量和信息情感两个方面考察社会化信息对股市的影响。通过搭建SparkR平台,首先讨论如何利用该平台解决大数据环境下股市社会化信息的特征选择以及情感分类问题,其次对比了信息量和信息情感对市场的影响情况,说明信息情感变化更能准确说明市场的波动变化情况。为进一步验证方案的可行性,定义了不同的情感计量方式并对比了不同方案的优缺点,进而给出分析社会化信息对股市波动影响的综合解决方案,并且通过实验验证了该方案的有效性。
展开更多
关键词
sparkr
特征选择分布式计算
文本挖掘
情感分类
在线阅读
下载PDF
职称材料
基于SparkR的水文传感器数据的异常检测方法
被引量:
7
3
作者
刘子豪
李凌
叶枫
《计算机应用》
CSCD
北大核心
2019年第2期436-440,共5页
为了高效地从海量的水文传感器数据中检测出异常值,提出一种基于SparkR的水文时间序列异常检测方法。首先,对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型(ARIMA)在SparkR平台上进行预测;然后,对预测的结果计算置信区间,将...
为了高效地从海量的水文传感器数据中检测出异常值,提出一种基于SparkR的水文时间序列异常检测方法。首先,对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型(ARIMA)在SparkR平台上进行预测;然后,对预测的结果计算置信区间,将在区间范围以外的判定为异常值;最后,基于检测结果,利用K均值算法对原数据进行聚类,同时计算其状态转移概率,对检测出的异常值进行质量评估。以在滁河获取的水文传感器数据为实验数据,分别在运行时间和异常值检测效果这两个方面进行了实验。结果显示:利用SparkR对百万级数据进行计算时,利用双节点计算的时间要长于单节点;但是对千万级数据进行计算时,双节点比单节点计算时间上更少,最多减少了16. 21%,且评估过后的灵敏度由之前的5. 24%提高到了92. 98%。实验结果表明,在SparkR下,根据水文数据的特点并结合预测检验和聚类校验的方法对千万级水文时间序列进行检测时,能有效提高传统方法的计算效率,并且在灵敏度方面相比传统方法也有显著提升。
展开更多
关键词
sparkr
自回归积分滑动平均模型
异常检测
水文时间序列
K均值
在线阅读
下载PDF
职称材料
基于SparkR的人工水体藻类建模预测
被引量:
1
4
作者
秦业海
李修华
+2 位作者
艾矫燕
付旭生
林春焕
《环境与发展》
2019年第4期130-132,共3页
为探究水质分析与大数据技术结合的可行方案,以MySQL+Hive+SparkR为主体框架搭建一整套从数据输入、存储、调度到应用的SparkR水质分析平台。设置室内培养模拟人工湖藻类生长实验组及其重复实验组,监测各项指标数据,通过SparkR平台,在...
为探究水质分析与大数据技术结合的可行方案,以MySQL+Hive+SparkR为主体框架搭建一整套从数据输入、存储、调度到应用的SparkR水质分析平台。设置室内培养模拟人工湖藻类生长实验组及其重复实验组,监测各项指标数据,通过SparkR平台,在本地应用Adaptive-Lasso算法识别出对照组和苦草组藻类生长主要影响因子,并建立回归方程进行验证,在集群分布式部署GBTs藻类预测模型,经重复试验验证预测模型未来3天的相对误差均值分别为15.3%、14.8%。
展开更多
关键词
藻类生长模型
sparkr
Adaptive-Lasso
GBTs
在线阅读
下载PDF
职称材料
基于SparkR的用户用电行为分析
被引量:
1
5
作者
毛艳芳
王栋
+4 位作者
冯鹏
季润阳
朱喆华
李珺涵
杨佩
《电力信息与通信技术》
2017年第5期44-48,共5页
为了协助供电公司对用电客户的行为进行准确描述,进一步指导发电端合理、有效地调整发电策略,提出了一种基于SparkR的并行化K-means聚类算法对台区用电行为特性和用电负荷特性进行分类和分析的方法。文章通过提取南通市供电公司全量台...
为了协助供电公司对用电客户的行为进行准确描述,进一步指导发电端合理、有效地调整发电策略,提出了一种基于SparkR的并行化K-means聚类算法对台区用电行为特性和用电负荷特性进行分类和分析的方法。文章通过提取南通市供电公司全量台区的用电数据,进行一系列清洗、归一化等处理后,依据台区的用电负荷曲线特性,利用R语言平台和Spark计算引擎实现K-means的并行化处理,对台区进行分类,最终得到4类不同用户及其用电特性,并结合地市的地域特性针对不同类型的负荷曲线进行了验证及分析。对典型用户的信息核验与验证结果表明,文章所提方法聚类分析结果的准确率可达95%以上。
展开更多
关键词
sparkr
并行化
K-MEANS聚类
归一化
用电行为
在线阅读
下载PDF
职称材料
题名
基于SparkR的分类算法并行化研究
被引量:
14
1
作者
刘志强
顾荣
袁春风
黄宜华
机构
南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系
江苏省软件新技术与产业化协同创新中心
出处
《计算机科学与探索》
CSCD
北大核心
2015年第11期1281-1294,共14页
基金
江苏省科技支撑计划项目No.BE2014131~~
文摘
近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于Spark R的并行化分类算法与Hadoop Map Reduce的方案相比,速度上提升了8倍左右。
关键词
sparkr
分类算法
并行化
局部迭代
内存计算
Keywords
Spark R
classification algorithm
parallelization
local iteration
in-memory computation
分类号
TP338 [自动化与计算机技术—计算机系统结构]
TP182 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
社会化信息对股市波动影响分析——基于SparkR平台的实现
被引量:
2
2
作者
倪丽萍
马驰宇
刘小军
机构
合肥工业大学管理学院
合肥工业大学过程优化与智能决策教育部重点实验室
出处
《计算机应用与软件》
2017年第3期181-188,266,共9页
基金
国家自然科学基金项目(71301041
71271071)
文摘
社会信息化的飞速发展使得社会化信息日益丰富。这些信息会对股市波动产生一定影响,然而这些信息数量巨大且多属于非结构化数据,使得分析社会化信息对市场的影响具有一定的难度。尝试通过分布式计算技术来解决这个问题,并从信息量和信息情感两个方面考察社会化信息对股市的影响。通过搭建SparkR平台,首先讨论如何利用该平台解决大数据环境下股市社会化信息的特征选择以及情感分类问题,其次对比了信息量和信息情感对市场的影响情况,说明信息情感变化更能准确说明市场的波动变化情况。为进一步验证方案的可行性,定义了不同的情感计量方式并对比了不同方案的优缺点,进而给出分析社会化信息对股市波动影响的综合解决方案,并且通过实验验证了该方案的有效性。
关键词
sparkr
特征选择分布式计算
文本挖掘
情感分类
Keywords
sparkr
Feature selection Distributed analysis Text mining Sentiment classification
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于SparkR的水文传感器数据的异常检测方法
被引量:
7
3
作者
刘子豪
李凌
叶枫
机构
江苏科技大学计算机学院
河海大学计算机与信息学院
出处
《计算机应用》
CSCD
北大核心
2019年第2期436-440,共5页
基金
江苏省博士后科研资助计划项目(1701020C)
江苏省"六大人才高峰"资助项目(XYDXX-078)~~
文摘
为了高效地从海量的水文传感器数据中检测出异常值,提出一种基于SparkR的水文时间序列异常检测方法。首先,对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型(ARIMA)在SparkR平台上进行预测;然后,对预测的结果计算置信区间,将在区间范围以外的判定为异常值;最后,基于检测结果,利用K均值算法对原数据进行聚类,同时计算其状态转移概率,对检测出的异常值进行质量评估。以在滁河获取的水文传感器数据为实验数据,分别在运行时间和异常值检测效果这两个方面进行了实验。结果显示:利用SparkR对百万级数据进行计算时,利用双节点计算的时间要长于单节点;但是对千万级数据进行计算时,双节点比单节点计算时间上更少,最多减少了16. 21%,且评估过后的灵敏度由之前的5. 24%提高到了92. 98%。实验结果表明,在SparkR下,根据水文数据的特点并结合预测检验和聚类校验的方法对千万级水文时间序列进行检测时,能有效提高传统方法的计算效率,并且在灵敏度方面相比传统方法也有显著提升。
关键词
sparkr
自回归积分滑动平均模型
异常检测
水文时间序列
K均值
Keywords
sparkr
AutoRegressive Integrated Moving Average(ARIMA)model
anomaly detection
hydrologic time series
K-Means
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于SparkR的人工水体藻类建模预测
被引量:
1
4
作者
秦业海
李修华
艾矫燕
付旭生
林春焕
机构
广西大学电气工程学院
出处
《环境与发展》
2019年第4期130-132,共3页
文摘
为探究水质分析与大数据技术结合的可行方案,以MySQL+Hive+SparkR为主体框架搭建一整套从数据输入、存储、调度到应用的SparkR水质分析平台。设置室内培养模拟人工湖藻类生长实验组及其重复实验组,监测各项指标数据,通过SparkR平台,在本地应用Adaptive-Lasso算法识别出对照组和苦草组藻类生长主要影响因子,并建立回归方程进行验证,在集群分布式部署GBTs藻类预测模型,经重复试验验证预测模型未来3天的相对误差均值分别为15.3%、14.8%。
关键词
藻类生长模型
sparkr
Adaptive-Lasso
GBTs
Keywords
Algal growth model
sparkr
Adaptive-Lasso
GBTs
分类号
X824 [环境科学与工程—环境工程]
在线阅读
下载PDF
职称材料
题名
基于SparkR的用户用电行为分析
被引量:
1
5
作者
毛艳芳
王栋
冯鹏
季润阳
朱喆华
李珺涵
杨佩
机构
国网南通运营监测(控)中心
全球能源互联网研究院
出处
《电力信息与通信技术》
2017年第5期44-48,共5页
文摘
为了协助供电公司对用电客户的行为进行准确描述,进一步指导发电端合理、有效地调整发电策略,提出了一种基于SparkR的并行化K-means聚类算法对台区用电行为特性和用电负荷特性进行分类和分析的方法。文章通过提取南通市供电公司全量台区的用电数据,进行一系列清洗、归一化等处理后,依据台区的用电负荷曲线特性,利用R语言平台和Spark计算引擎实现K-means的并行化处理,对台区进行分类,最终得到4类不同用户及其用电特性,并结合地市的地域特性针对不同类型的负荷曲线进行了验证及分析。对典型用户的信息核验与验证结果表明,文章所提方法聚类分析结果的准确率可达95%以上。
关键词
sparkr
并行化
K-MEANS聚类
归一化
用电行为
Keywords
sparkr
parallelization
k-means clustering
normalization
electricity consumption behavior
分类号
TM711 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于SparkR的分类算法并行化研究
刘志强
顾荣
袁春风
黄宜华
《计算机科学与探索》
CSCD
北大核心
2015
14
在线阅读
下载PDF
职称材料
2
社会化信息对股市波动影响分析——基于SparkR平台的实现
倪丽萍
马驰宇
刘小军
《计算机应用与软件》
2017
2
在线阅读
下载PDF
职称材料
3
基于SparkR的水文传感器数据的异常检测方法
刘子豪
李凌
叶枫
《计算机应用》
CSCD
北大核心
2019
7
在线阅读
下载PDF
职称材料
4
基于SparkR的人工水体藻类建模预测
秦业海
李修华
艾矫燕
付旭生
林春焕
《环境与发展》
2019
1
在线阅读
下载PDF
职称材料
5
基于SparkR的用户用电行为分析
毛艳芳
王栋
冯鹏
季润阳
朱喆华
李珺涵
杨佩
《电力信息与通信技术》
2017
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部