期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
Big Data Framework for Quantitative Trading System 被引量:1
1
作者 戴书吉 武星 +1 位作者 裴孟齐 杜智康 《Journal of Shanghai Jiaotong university(Science)》 EI 2017年第2期193-197,共5页
Massive trading data are produced in securities market every day. Besides, the amount of relevant social media data is also growing fast. It is a vital problem of making use of these data. Facing on the growing amount... Massive trading data are produced in securities market every day. Besides, the amount of relevant social media data is also growing fast. It is a vital problem of making use of these data. Facing on the growing amount of data, using big data framework is a necessary and reasonable method. Then, a big data framework for quantitative trading system is proposed in this paper. In the framework, Apache Spark is chosen as the distributed computing framework to process trading data, and Apache HBase as the distributed database is used to store data. After introducing the whole framework, we discussed data sources and the structure of quantitative trading layer in detail. © 2017, Shanghai Jiaotong University and Springer-Verlag Berlin Heidelberg. 展开更多
关键词 COMMERCE Distributed computer systems Network function virtualization
原文传递
基于RDD重用度的Spark自适应缓存优化策略
2
作者 潘顺杰 于俊洋 +2 位作者 王龙葛 李涵 翟锐 《计算机工程》 北大核心 2025年第7期190-198,共9页
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素... 基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。 展开更多
关键词 并行计算 spark框架 缓存替换 最近最少使用算法 大数据
在线阅读 下载PDF
基于Spark的并行化高效用项集挖掘算法 被引量:6
3
作者 何登平 何宗浩 李培强 《计算机工程与科学》 CSCD 北大核心 2019年第10期1723-1730,共8页
针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结... 针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结构,利用广播变量优化迭代过程,在避免大量重新计算的同时使用负载均衡思想实现Top-K高效用项集的并行挖掘。实验结果表明,该并行算法能有效地挖掘出大数据集中的高效用项集。 展开更多
关键词 数据挖掘 高效用项集 spark大数据框架 并行化 TOP-K
在线阅读 下载PDF
基于Spark的并行频繁项集挖掘算法 被引量:7
4
作者 毛伊敏 吴斌 +1 位作者 许春冬 张茂省 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1267-1283,共17页
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(... 针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。 展开更多
关键词 大数据 spark框架 并行频繁项集挖掘 频繁模式增长算法 非负矩阵分解
在线阅读 下载PDF
基于Spark框架的FP-Growth大数据频繁项集挖掘算法 被引量:13
5
作者 邵梁 何星舟 尚俊娜 《计算机应用研究》 CSCD 北大核心 2018年第10期2932-2935,共4页
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集... 针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。 展开更多
关键词 大数据 频繁项集挖掘 spark框架 FP-GROWTH算法 垂直布局
在线阅读 下载PDF
基于Spark的投影树频繁项集挖掘算法 被引量:3
6
作者 冯兴杰 潘轩 《计算机工程与设计》 北大核心 2018年第8期2477-2483,共7页
通过对Spark并行计算框架以及投影树算法的分析,提出基于Spark的投影树频繁项集挖掘算法(projection tree algorithm based on Spark,PTBS)。为解决重复遍历数据集带来的损耗,改变数据的存储结构;利用广播变量对频繁二项集的产生进行改... 通过对Spark并行计算框架以及投影树算法的分析,提出基于Spark的投影树频繁项集挖掘算法(projection tree algorithm based on Spark,PTBS)。为解决重复遍历数据集带来的损耗,改变数据的存储结构;利用广播变量对频繁二项集的产生进行改进,降低运算量,减少集群节点间通信的消耗;将Apriori先验性质添加到候选项集的筛选过程中,减少节点间的通信量。将算法与Spark平台所具备的特殊性能相结合,得到基于Spark的投影树关联规则挖掘算法,实验结果表明,该算法具备良好的可扩展性,适宜于处理大规模数据。 展开更多
关键词 数据挖掘 大数据 spark大数据框架 投影树 并行化
在线阅读 下载PDF
一种基于Spark的大规模语义数据分布式推理框架 被引量:2
7
作者 陈恒 《计算机科学》 CSCD 北大核心 2016年第S2期93-96,共4页
随着大规模语义数据的涌现,研究高效的并行化语义推理成为热点问题之一。现有推理框架大多存在可扩展性方面的不足,难以满足大规模语义数据的需求。针对现有推理框架的不足,提出一种基于Spark的大规模语义数据分布式推理框架。该框架主... 随着大规模语义数据的涌现,研究高效的并行化语义推理成为热点问题之一。现有推理框架大多存在可扩展性方面的不足,难以满足大规模语义数据的需求。针对现有推理框架的不足,提出一种基于Spark的大规模语义数据分布式推理框架。该框架主要包括语义建模、规则提取和基于Spark的并行推理机等3个模块。通过过程分析和推理实例验证,提出的分布式并行推理的计算性能(T(n)=O(log_(2)n))远远优于顺序式推理的计算性能(T(n)=O(n))。 展开更多
关键词 spark 并行化语义推理 分布式框架 语义大数据
在线阅读 下载PDF
基于Spark框架的能源互联网电力能源大数据清洗模型 被引量:25
8
作者 曲朝阳 张艺竞 +1 位作者 王永文 赵莹 《电测与仪表》 北大核心 2018年第2期39-44,共6页
对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于... 对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 能源大数据 数据清洗 异常识别 异常修正 spark框架
在线阅读 下载PDF
Spark下遥感大数据特征提取的加速策略 被引量:7
9
作者 黄震 钱育蓉 +1 位作者 范迎迎 杜娇 《计算机工程与设计》 北大核心 2017年第12期3279-3283,共5页
提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Sp... 提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Spark处理遥感大数据的速度较单机模式下的处理遥感大数据提升了约2倍,基于Hadoop分布式文件系统(HDFS)处理模式较Spark-standalone处理模式处理速度提升了约1.2倍,基于Spark下的HDFS存储模式下,栅格切分遥感大数据较非栅格切分处理速度提高了约1.5倍。 展开更多
关键词 spark分布式内存计算框架 HADOOP分布式文件系统 遥感大数据 内存计算 栅格切分
在线阅读 下载PDF
基于Spark框架的智慧物流服务推荐系统研究 被引量:2
10
作者 王义勇 《信息与电脑》 2021年第20期113-115,共3页
近年来,物流产业发展迅速,传统物流已经不能满足人们的需求,开始向智慧物流转变。本文将大数据与物流深度融合,设计了一个基于Spark框架的物流服务系统,旨在为用户推荐适宜的物流配送服务,以解决用户配送服务选择困难等问题。
关键词 大数据 spark框架 智慧物流 推荐系统
在线阅读 下载PDF
BDAP——一个基于Spark的数据挖掘工具平台 被引量:9
11
作者 卜尧 吴斌 +1 位作者 陈玉峰 白德盟 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第4期358-368,共11页
大数据处理系统是大数据领域的一个热点,为此首先研究大数据分析平台的架构与功能,将大数据分析平台分为数据源、数据吸收层、数据存储层、平台层、安全与监控层、设备层和应用层.平台包含多个数据预处理和算法模块,平台架构为大数据分... 大数据处理系统是大数据领域的一个热点,为此首先研究大数据分析平台的架构与功能,将大数据分析平台分为数据源、数据吸收层、数据存储层、平台层、安全与监控层、设备层和应用层.平台包含多个数据预处理和算法模块,平台架构为大数据分析了奠定基础.在功能上,该平台功能全面,可以自由组合各种操作,模块之间耦合度低,便于维护和拓展.在用户体验上,调参、建立流程、监控、数据挖掘过程都是可视的,融合工作流和调度流技术.在性能上,该平台相应算法的性能优于Hive和MLlib.最后,举例说明大数据挖掘平台的应用场景.可以对电网线路故障和气象数据进行预处理,从而对故障进行预测和分类,可以通过视频挖掘组件,对数据分类. 展开更多
关键词 大数据分析平台 HADOOP STORM spark 批处理 数据挖掘
在线阅读 下载PDF
基于Pig__Spark的分布式数据分析处理平台 被引量:1
12
作者 陈晓 于金良 朱志祥 《信息技术》 2017年第7期45-48,55,共5页
传统的数据分析平台Pig的执行引擎是MapReduce,由于MapReduce的局限性,使得数据处理过程中存在高延迟,内存开销大等缺点。为克服这些不足,文中基于当下最流行的内存计算框架Spark,在保留传统数据分析平台Pig语言特性和基础设施的基础上... 传统的数据分析平台Pig的执行引擎是MapReduce,由于MapReduce的局限性,使得数据处理过程中存在高延迟,内存开销大等缺点。为克服这些不足,文中基于当下最流行的内存计算框架Spark,在保留传统数据分析平台Pig语言特性和基础设施的基础上,开发实现了一种全新的数据分析处理平台,并通过具体实验对比两个数据平台的性能。实验结果证明,基于Saprk的数据分析平台在数据处理速度上远远高于传统的数据分析平台Pig。 展开更多
关键词 spark PIG 大数据 内存计算框架 数据分析处理平台
在线阅读 下载PDF
基于Spark框架的大数据局部频繁项集挖掘算法设计 被引量:8
13
作者 王黎 吕殿基 《微型电脑应用》 2021年第4期130-132,136,共4页
目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一种新式大数据局部频繁项集挖掘算法设计。筛选大数据局部频繁项集挖掘算法,结合框架结构分析方式处理挖掘... 目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一种新式大数据局部频繁项集挖掘算法设计。筛选大数据局部频繁项集挖掘算法,结合框架结构分析方式处理挖掘信息,根据筛选的算法分析数据挖掘的深层内容,并不断调节数据挖掘与挖掘空间之间的矛盾,缓解挖掘算法的挖掘压力,结合先前研究,调整挖掘状态,完成大数据局部频繁项集挖掘算法设计。实验结果表明,基于Spark框架的大数据局部频繁项集挖掘算法设计能够更迅速地提高数据挖掘效率,在降低成本投入的情况下具备更高的挖掘效率。 展开更多
关键词 spark框架 大数据局部频繁项集 项集挖掘算法 算法设计
在线阅读 下载PDF
大数据处理平台Spark基础实践研究 被引量:1
14
作者 邱丽娟 《无线互联科技》 2017年第1期44-45,共2页
Spark是主流的大数据并行计算框架。文章将通过几段Scala脚本,演示在Spark环境下通过Map-Reduce框架处理大数据。
关键词 大数据 spark Map.Reduce框架
在线阅读 下载PDF
Spark框架下混合SACS-GS的大数据清洗方法 被引量:4
15
作者 何翼 田华 《西南师范大学学报(自然科学版)》 CAS 北大核心 2020年第7期123-129,共7页
提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-GS方法,并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法,给出两种改进的搜索策... 提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-GS方法,并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法,给出两种改进的搜索策略,通过线性递减概率规则将两种策略结合起来,形成自适应搜索策略,避免种群早熟和提高收敛速度,然后引入自适应发现概率,提高种群的多样性.SACS算法混合GS算法得到SACS-GS方法,该方法通过引力搜索算法的局部搜索能力来确定自适应布谷鸟算法的全局范围,并找到使卵生长和成熟的最佳解决方案,有效地识别大数据中的错误数据.实验结果表明,SACS-GS方法具有较高的大数据异常检测精度,且精度高于其他现有方法,处理时间低于其他方法. 展开更多
关键词 大数据清洗 spark框架 自适应布谷鸟算法 引力搜索算法 异常检测
在线阅读 下载PDF
基于Spark框架的大数据K-prototypes聚类算法 被引量:1
16
作者 龚静 《西南师范大学学报(自然科学版)》 CAS 北大核心 2019年第7期63-68,共6页
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了... 大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率. 展开更多
关键词 大数据 混合数据 K-prototypes spark框架
在线阅读 下载PDF
基于Spark平台的分类算法性能比较分析 被引量:2
17
作者 赵蕾 夏吉安 +1 位作者 吴洋 崔辉 《计算机与数字工程》 2024年第3期688-691,704,共5页
针对目前大数据与机器学习技术的快速发展,使用基于Spark平台的MLlib机器学习库实现前馈神经网络(Feedforward Artificial Neural Network)、支持向量机(Support Vector Machine)与随机森林(Random Forest)三种机器学习算法,并分析与评... 针对目前大数据与机器学习技术的快速发展,使用基于Spark平台的MLlib机器学习库实现前馈神经网络(Feedforward Artificial Neural Network)、支持向量机(Support Vector Machine)与随机森林(Random Forest)三种机器学习算法,并分析与评估三种算法在大数据平台下的运行与分类性能。实验结果表明,随着节点数的增加,三种算法在大数据平台上消耗的时间都逐步变少。当数据集小于100MB时神经网络与支持向量机算法加速比较高,数据集大于1GB时随机森林算法加速比优于其他两种算法。神经网络算法在数据集100MB时可扩展性最小,支持向量机算法在数据集500MB时可扩展性最小。随机森林算法在数据集大于1GB时规模增长性优于其他两种算法。通过对于三种分类算法的时间效率与准确性比较,支持向量机算法消耗的时间最少,但是分类准确性最低。神经网络算法消耗的时间最长,分类准确性低于随机森林算法。随机森林算法的分类准确性最高,但是算法运行时间高于支持向量机算法。集成分类算法在大数据平台上表现出较好的时间性能与分类准确性。 展开更多
关键词 大数据 Hadoop框架 spark框架 机器学习 性能评估
在线阅读 下载PDF
Spark on Yarn模式的电信大数据处理平台 被引量:6
18
作者 杨玉 张远夏 《福建电脑》 2019年第3期34-38,共5页
为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,... 为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,使SY-TPP平台数据集的处理尽量在内存中进行。以分级聚类算法为案例分析了SY-TPP平台的编程步骤;测试结果表明:电信运营商的上GB级的用户数据能够半个工作日内完成,32物理节点的SY-TPP平台比同等配置的MapReduce平台的加速比从9.5提升10.25。 展开更多
关键词 云计算 电信大数据 映射-规约 Yarn规范 spark内存计算
在线阅读 下载PDF
大数据下的分布式精确模糊KNN分类算法 被引量:4
19
作者 邹劲松 李芳 《计算机应用研究》 CSCD 北大核心 2019年第12期3701-3704,共4页
针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法,创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属... 针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法,创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属度,将训练集转换为添加类隶属度的模糊训练集;然后使用KNN算法对先前计算的类成员测试集计算得到k个最近邻;最后通过距离权重进行分类。针对百万级大数据集样本的实验,以及与其他算法的对比实验表明,所提算法是可行的和有效的。 展开更多
关键词 大数据 分布式spark框架 类隶属度 模糊KNN算法
在线阅读 下载PDF
走进大数据 被引量:2
20
作者 王晨熙 《指挥信息系统与技术》 2015年第2期66-69,共4页
大数据已经走进生活,影响着人们行为方式。因此,需认识大数据,研究大数据,应用大数据。针对当前热点,通过文献检索并结合实际工作梳理了大数据的发展演变过程,讨论了大数据的内涵、特点和技术架构,分析了大数据的作用及影响。
关键词 大数据 Hadoop框架 spark平台
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部