期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于Apache Spark的配电网大数据预处理技术研究 被引量:15
1
作者 徐宁 王艳芹 +1 位作者 董祯 王勇 《华北电力大学学报(自然科学版)》 CAS 北大核心 2021年第2期40-46,54,共8页
随着配电网采集的数据规模日益增大,如何高效地预处理配电网数据成为目前配电网数据分析面临的重要问题之一。考虑到配电网大数据的复杂性,提出了基于Apache Spark的大规模数据并行预处理的方法。首先,为了更有效地处理配电网大数据,以S... 随着配电网采集的数据规模日益增大,如何高效地预处理配电网数据成为目前配电网数据分析面临的重要问题之一。考虑到配电网大数据的复杂性,提出了基于Apache Spark的大规模数据并行预处理的方法。首先,为了更有效地处理配电网大数据,以Spark为计算引擎搭建了大数据并行计算平台;接着,分析了目前配电网大数据面临的一些普遍性问题,提出了针对这些问题的数据治理方案;然后,结合Spark计算引擎,介绍了配电网大数据预处理的具体流程;最后通过实验验证了数据预处理对配电网数据预测的精确度提升,以及分布式计算平台在数据预处理方面的速度优势。 展开更多
关键词 配电网大数据 数据预处理 并行计算 apache spark
在线阅读 下载PDF
基于Apache Spark的大数据电能质量干扰源分析 被引量:1
2
作者 胡长武 李鹏 侯凯 《自动化与仪器仪表》 2024年第9期365-369,共5页
电能质量监测规模的日益扩大导致电能质量数据的海量增加,现有的配电网电能质量监测系统难以实现大数据电能质量的有效分析。在此背景下,研究利用Apache Spark构建电能质量大数据计算框架,并以此设计了针对电能质量干扰源分析的大数据... 电能质量监测规模的日益扩大导致电能质量数据的海量增加,现有的配电网电能质量监测系统难以实现大数据电能质量的有效分析。在此背景下,研究利用Apache Spark构建电能质量大数据计算框架,并以此设计了针对电能质量干扰源分析的大数据电能质量干扰源分析系统。系统验证分析显示,配电网电压变化主要是因为短时间的越限电压事件影响。不同方法对比显示,研究提出的系统精确率、召回率和F1值分别增加了0.37%、2.28%、1.32%。结果表明,研究提出的电能质量干扰源分析系统具有良好的分析能力,且0~4点的越上限电压事件和越下限电压事件是导致配电网电压变化的主要因素,电网公司应加强对该时段越限电压事件的关注并制定合理的防治与维护措施。 展开更多
关键词 大数据 apache spark 电能电量 电压变化 干扰源分析 配电网
原文传递
Applying Apache Spark on Streaming Big Data for Health Status Prediction
3
作者 Ahmed Ismail Ebada Ibrahim Elhenawy +3 位作者 Chang-Won Jeong Yunyoung Nam Hazem Elbakry Samir Abdelrazek 《Computers, Materials & Continua》 SCIE EI 2022年第2期3511-3527,共17页
Big data applications in healthcare have provided a variety of solutions to reduce costs,errors,and waste.This work aims to develop a real-time system based on big medical data processing in the cloud for the predicti... Big data applications in healthcare have provided a variety of solutions to reduce costs,errors,and waste.This work aims to develop a real-time system based on big medical data processing in the cloud for the prediction of health issues.In the proposed scalable system,medical parameters are sent to Apache Spark to extract attributes from data and apply the proposed machine learning algorithm.In this way,healthcare risks can be predicted and sent as alerts and recommendations to users and healthcare providers.The proposed work also aims to provide an effective recommendation system by using streaming medical data,historical data on a user’s profile,and a knowledge database to make themost appropriate real-time recommendations and alerts based on the sensor’s measurements.This proposed scalable system works by tweeting the health status attributes of users.Their cloud profile receives the streaming healthcare data in real time by extracting the health attributes via a machine learning prediction algorithm to predict the users’health status.Subsequently,their status can be sent on demand to healthcare providers.Therefore,machine learning algorithms can be applied to stream health care data from wearables and provide users with insights into their health status.These algorithms can help healthcare providers and individuals focus on health risks and health status changes and consequently improve the quality of life. 展开更多
关键词 Big data streaming processing healthcare data machine learning IoT data processing apache spark
在线阅读 下载PDF
Deep LearningModel for Big Data Classification in Apache Spark Environment
4
作者 T.M.Nithya R.Umanesan +2 位作者 T.Kalavathidevi C.Selvarathi A.Kavitha 《Intelligent Automation & Soft Computing》 SCIE 2023年第9期2537-2547,共11页
Big data analytics is a popular research topic due to its applicability in various real time applications.The recent advent of machine learning and deep learning models can be applied to analyze big data with better p... Big data analytics is a popular research topic due to its applicability in various real time applications.The recent advent of machine learning and deep learning models can be applied to analyze big data with better performance.Since big data involves numerous features and necessitates high computational time,feature selection methodologies using metaheuristic optimization algorithms can be adopted to choose optimum set of features and thereby improves the overall classification performance.This study proposes a new sigmoid butterfly optimization method with an optimum gated recurrent unit(SBOA-OGRU)model for big data classification in Apache Spark.The SBOA-OGRU technique involves the design of SBOA based feature selection technique to choose an optimum subset of features.In addition,OGRU based classification model is employed to classify the big data into appropriate classes.Besides,the hyperparameter tuning of the GRU model takes place using Adam optimizer.Furthermore,the Apache Spark platform is applied for processing big data in an effective way.In order to ensure the betterment of the SBOA-OGRU technique,a wide range of experiments were performed and the experimental results highlighted the supremacy of the SBOA-OGRU technique. 展开更多
关键词 Big data apache spark classification feature selection gated recurrent unit adam optimizer
在线阅读 下载PDF
A performance enhanced distributed computing framework for clustering by local direction centrality upon Apache Spark
5
作者 Zhipeng Gui Zichen Huang +6 位作者 Huan Chen Dehua Peng Yuhang Liu Guangyao Fang Qianxi Lan Anqi Zhao Huayi Wu 《Big Earth Data》 2025年第4期797-827,共31页
Clustering by local direction centrality(CDC)is a newly proposed versatile algorithm adept at identifying clusters with heteroge-neous density and weak connectivity.Its advantages in accuracy and robustness have been ... Clustering by local direction centrality(CDC)is a newly proposed versatile algorithm adept at identifying clusters with heteroge-neous density and weak connectivity.Its advantages in accuracy and robustness have been widely validated in computer science,bioscience,and geoscience.However,it has a quadratic time com-plexity due to costly K-nearest neighbor search and internal con-nection operations,which hinder its ability to handle large-scale datasets.To improve its computational efficiency and scalability,we proposed a performance enhanced distributed framework of CDc,named D-CDC,by workflow-level algorithm optimization and dis-tributed computational acceleration.Specifically,KDTree spatial indexing is leveraged to reduce the KNN search complexity to logarithmic time,and KNN constraints and disjoint sets are intro-duced to decrease the computational cost of internal connection.Besides,to minimize cross-partition communication,we designed an Improved QuadTree(ImprovedQT)spatial partitioning method by considering cluster completeness and shape regularity.We then implemented D-CDC on the Apache Spark framework using Resilient Distributed Dataset(RDD)customization techniques.Experiments on six synthetic datasets demonstrate that D-CDC preserves the clustering accuracy of the original cDC in general and achieves up to 60o-fold speedup by reducing the runtime from 142,590 s to 236 s on million-scale datasets.A real-world case study on over 2 million enterprise registration POl data in Chinese main-land further validates that D-CDC can identify fine-grained and weakly connected aggregation patterns of large-scale geospatial data in an effi cient manner. 展开更多
关键词 CLUSTERING K-nearest neighbor search apache spark spatial partitioning
原文传递
基于Q学习的Spark自动调节内存管理器
6
作者 张军 顾皓元 《计算机工程与设计》 北大核心 2025年第5期1487-1493,共7页
为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态... 为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态调整。内存分配算法结合Q学习自动调优算法的决策和空闲内存,响应块管理器和任务内存请求,确保内存高效分配与利用。实验结果表明,新的内存管理器在Spark任务执行效率上获得了较明显的性能提升。 展开更多
关键词 apache spark 静态内存管理器 统一内存管理器 JVM垃圾内存回收 Q学习 内存分配动态调整 任务执行效率
在线阅读 下载PDF
A hierarchical indexing strategy for optimizing Apache Spark with HDFS to efficiently query big geospatial raster data 被引量:6
7
作者 Fei Hu Chaowei Yang +5 位作者 Yongyao Jiang Yun Li Weiwei Song Daniel Q.Duffy John L.Schnase Tsengdar Lee 《International Journal of Digital Earth》 SCIE 2020年第3期410-428,共19页
Earth observations and model simulations are generating big multidimensional array-based raster data.However,it is difficult to efficiently query these big raster data due to the inconsistency among the geospatial ras... Earth observations and model simulations are generating big multidimensional array-based raster data.However,it is difficult to efficiently query these big raster data due to the inconsistency among the geospatial raster data model,distributed physical data storage model,and the data pipeline in distributed computing frameworks.To efficiently process big geospatial data,this paper proposes a three-layer hierarchical indexing strategy to optimize Apache Spark with Hadoop Distributed File System(HDFS)from the following aspects:(1)improve I/O efficiency by adopting the chunking data structure;(2)keep the workload balance and high data locality by building the global index(k-d tree);(3)enable Spark and HDFS to natively support geospatial raster data formats(e.g.,HDF4,NetCDF4,GeoTiff)by building the local index(hash table);(4)index the in-memory data to further improve geospatial data queries;(5)develop a data repartition strategy to tune the query parallelism while keeping high data locality.The above strategies are implemented by developing the customized RDDs,and evaluated by comparing the performance with that of Spark SQL and SciSpark.The proposed indexing strategy can be applied to other distributed frameworks or cloud-based computing systems to natively support big geospatial data query with high efficiency. 展开更多
关键词 Big data hierarchical indexing MULTI-DIMENSIONAL apache spark HDFS distributed computing GIS
原文传递
Efficient Feature Extraction Using Apache Spark for Network Behavior Anomaly Detection 被引量:2
8
作者 Xiaoming Ye Xingshu Chen +4 位作者 Dunhu Liu Wenxian Wang Li Yang Gang Liang Guolin Shao 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2018年第5期561-573,共13页
Extracting and analyzing network traffic feature is fundamental in the design and implementation of network behavior anomaly detection methods. The traditional network traffic feature method focuses on the statistical... Extracting and analyzing network traffic feature is fundamental in the design and implementation of network behavior anomaly detection methods. The traditional network traffic feature method focuses on the statistical features of traffic volume. However, this approach is not sufficient to reflect the communication pattern features. A different approach is required to detect anomalous behaviors that do not exhibit traffic volume changes, such as low-intensity anomalous behaviors caused by Denial of Service/Distributed Denial of Service (DoS/DDoS) attacks, Internet worms and scanning, and BotNets. We propose an efficient traffic feature extraction architecture based on our proposed approach, which combines the benefit of traffic volume features and network communication pattern features. This method can detect low-intensity anomalous network behaviors and conventional traffic volume anomalies. We implemented our approach on Spark Streaming and validated our feature set using labelled real-world dataset collected from the Sichuan University campus network. Our results demonstrate that the traffic feature extraction approach is efficient in detecting both traffic variations and communication structure changes. Based on our evaluation of the MIT-DRAPA dataset, the same detection approach utilizes traffic volume features with detection precision of 82.3% and communication pattern features with detection precision of 89.9%. Our proposed feature set improves precision by 94%. 展开更多
关键词 feature extraction graph theory network behavior anomaly detection apache spark
原文传递
基于Docker和VSCode的Spark教学统一开发环境设计与实现
9
作者 李昆林 张佳进 +2 位作者 郎云雯 严伟榆 李承儒 《互联网周刊》 2025年第23期56-58,共3页
针对大数据教学中学生计算机环境差异导致的配置困难问题,本文提出了基于VSCode Dev Container和Docker容器化技术的统一开发环境解决方案。该方案采用三层架构设计,通过标准化配置文件和容器镜像,实现学生在个人计算机上快速部署一致的... 针对大数据教学中学生计算机环境差异导致的配置困难问题,本文提出了基于VSCode Dev Container和Docker容器化技术的统一开发环境解决方案。该方案采用三层架构设计,通过标准化配置文件和容器镜像,实现学生在个人计算机上快速部署一致的Apache Spark开发环境。实践表明,该方案将环境准备时间从90~180分钟缩短至15分钟,有效消除了跨平台差异,保证了实验结果的可复现性,显著提升了大数据课程的教学效率。 展开更多
关键词 大数据教学 apache spark Docker容器 统一开发环境 容器化部署
在线阅读 下载PDF
基于Spark的车联网分布式组合深度学习入侵检测方法 被引量:10
10
作者 俞建业 戚湧 王宝茁 《计算机科学》 CSCD 北大核心 2021年第S01期518-523,共6页
随着5G等技术在车联网领域中被广泛应用,入侵检测作为车联网信息安全重要的检测工具发挥着越来越重要的作用。由于车联网结构变化快,数据流量大,入侵形式复杂多样,传统检测方法无法确保其准确性和实时性要求,不能直接被应用到车联网。... 随着5G等技术在车联网领域中被广泛应用,入侵检测作为车联网信息安全重要的检测工具发挥着越来越重要的作用。由于车联网结构变化快,数据流量大,入侵形式复杂多样,传统检测方法无法确保其准确性和实时性要求,不能直接被应用到车联网。针对这些问题,提出了一种基于Apache Spark框架的车联网分布式组合深度学习入侵检测方法,通过构建Spark集群,将深度学习卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(LSTM)组合,进行车联网入侵特征提取和数据检测,从大规模车联网数据流量中发现异常行为。实验结果证明,与其他现有模型相比,该模型算法在时间上最快达到20.1s,准确率最高可达99.7%,具有较好的检测效果。 展开更多
关键词 入侵检测 车联网 CNN LSTM apache spark
在线阅读 下载PDF
Spark作业性能建模及参数优化 被引量:3
11
作者 崔晓龙 张敏 +1 位作者 刘祥 郭茜 《实验技术与管理》 CAS 北大核心 2021年第3期146-152,共7页
Apache Spark分布式大数据计算框架应用广泛,但是其配置参数繁多导致使用难度较大,且不合理的配置将严重影响作业执行性能,研究Spark参数对性能的影响并进一步对参数进行自动优化具有重要意义。该文分析了Spark作业中影响系统行为的关... Apache Spark分布式大数据计算框架应用广泛,但是其配置参数繁多导致使用难度较大,且不合理的配置将严重影响作业执行性能,研究Spark参数对性能的影响并进一步对参数进行自动优化具有重要意义。该文分析了Spark作业中影响系统行为的关键参数,建立了性能模型,并进一步探索了Spark参数自动优化的方法和策略。通过提取作业执行过程中对性能有影响的参数,对主流的19种回归模型进行了对比测试,获得通用性和拟合效果都比较好的6种回归模型,并针对不同类型的Spark任务在特定集群上建立性能模型,最后依据建立的性能模型在参数空间中利用改进的多起点爬山搜索算法寻找最优的参数组合。实验证明经参数优化后Spark作业性能有较大提升。 展开更多
关键词 apache spark 性能建模 机器学习 参数调优 搜索算法
在线阅读 下载PDF
基于Spark的分布式健康大数据分析系统设计与实现 被引量:1
12
作者 吴磊 欧阳赫明 《软件导刊》 2020年第7期99-102,共4页
随着各类医疗健康信息数量的增长,如何利用医疗健康大数据辅助临床诊疗和科研,已经成为各医疗科研机构普遍关注的问题。针对该问题,设计并实现了一种基于Spark的分布式健康大数据分析系统。系统采用大数据分析技术并基于随机森林模型,... 随着各类医疗健康信息数量的增长,如何利用医疗健康大数据辅助临床诊疗和科研,已经成为各医疗科研机构普遍关注的问题。针对该问题,设计并实现了一种基于Spark的分布式健康大数据分析系统。系统采用大数据分析技术并基于随机森林模型,应用多个弱分类器将多个决策树获得的结果进行集成,基于该模型实现了睡眠质量预测,同时还研究了权重较高的影响因子。最终实验预测准确率达96.84%。实验结果对于睡眠质量分析具有一定参考意义,且系统能够较好地满足健康大数据的分析处理需求。 展开更多
关键词 大数据 大数据分析 apache spark 智能健康 机器学习 随机森林
在线阅读 下载PDF
分布式计算在石油勘探数据处理中的应用与性能优势验证
13
作者 马德志 王炜 +3 位作者 孙雷鸣 焦叙明 张明强 邹俊杰 《天津科技》 2025年第12期22-24,共3页
随着全球油气资源勘探技术的不断进步,数据密集型地震勘探正面临处理效率与计算能力的双重挑战,传统集中式计算架构难以满足当前TB(Terabyte)级乃至PB(Petabyte)级地震数据的高效处理需求。为解决这一问题,提出并实施基于Apache Spark... 随着全球油气资源勘探技术的不断进步,数据密集型地震勘探正面临处理效率与计算能力的双重挑战,传统集中式计算架构难以满足当前TB(Terabyte)级乃至PB(Petabyte)级地震数据的高效处理需求。为解决这一问题,提出并实施基于Apache Spark的分布式计算平台在石油勘探中的应用方案,充分利用其内存计算、弹性调度与分布式数据管理能力,对海量地震数据进行高效的读写、排序与预处理操作。通过与传统商用软件在I/O性能、数据并行分选排序等方面进行对比,验证了Apache Spark架构在石油勘探应用中的性能优势和可行性。 展开更多
关键词 大数据 油气勘探 apache spark 分布式计算 数据处理
在线阅读 下载PDF
基于大数据的医疗信息系统平台构建与应用 被引量:1
14
作者 韦衡纳 郑晓琦 《互联网周刊》 2025年第1期48-50,共3页
本文简要阐述了大数据技术在医疗信息系统平台建设中的重要作用,描述了利用分层数据处理架构,利用Hadoop、 Apache Spark等技术,实现医疗数据的高效处理和分析。本文所构建的医疗信息系统平台基于微服务架构设计,确保各模块的独立运行... 本文简要阐述了大数据技术在医疗信息系统平台建设中的重要作用,描述了利用分层数据处理架构,利用Hadoop、 Apache Spark等技术,实现医疗数据的高效处理和分析。本文所构建的医疗信息系统平台基于微服务架构设计,确保各模块的独立运行和顺畅通信。以电子病历数据平台控制系统为例,该系统能够实时监控患者生命体征,自动发出预警并迅速响应,显著提升了医疗服务的质量和患者的安全性。此外,本文还对系统的应用效果进行了评估,展示其在心脏病患者监测和高血压患者管理等方面的显著成效。这些成果为医疗信息化和智能化发展提供了强有力的支持,推动了医疗行业的进步。 展开更多
关键词 大数据 医疗信息系统 电子病历 HADOOP apache spark
在线阅读 下载PDF
大数据环境下的文旅多维数据分析系统设计与开发 被引量:3
15
作者 陈永海 《电子测试》 2021年第4期62-64,共3页
针对现有大型多维数据分析和可视化工具分析单一场景、生命周期不完善的问题,利用Apache Spark、Apache Kylin等分布式处理技术,设计并实现了一个基于场景的文化旅游大数据分析系统,提供了数据预处理、混合多场景等全生命周期分析功能,... 针对现有大型多维数据分析和可视化工具分析单一场景、生命周期不完善的问题,利用Apache Spark、Apache Kylin等分布式处理技术,设计并实现了一个基于场景的文化旅游大数据分析系统,提供了数据预处理、混合多场景等全生命周期分析功能,并且可视化功能可以使数据在各种计算平台之间自由流通,打破单一数据计算平台的功能限制,整合面向不同文本旅的场景分析功能及其性能优势,可以为不同的文化和旅游业务场景提供高效的查询服务,并通过不同的分布式处理技术达到优化大数据查询和分析性能的效果。 展开更多
关键词 大数据 多维分析 apache spark apache Kylin
在线阅读 下载PDF
大数据环境下的分布式机器学习框架比较研究
16
作者 马威 李振亚 《计算机应用文摘》 2024年第12期108-110,共3页
在大数据环境下,处理庞大的数据集与实现复杂的机器学习算法愈发关键。为解决这一挑战,分布式机器学习框架应运而生。通过分布式计算资源的协同工作,可以提高机器学习模型的训练效率和性能。
关键词 大数据环境 机器学习 apache spark MLlib TensorFlow PyTorch
在线阅读 下载PDF
基于Hilbert空间分区和Geohash索引的并行Ripley's K函数 被引量:4
17
作者 亢扬箫 桂志鹏 +2 位作者 丁劲宸 吴京航 吴华意 《地球信息科学学报》 CSCD 北大核心 2022年第1期74-86,共13页
作为二阶点模式分析方法,Ripley’s K函数(简称K函数)以距离为自变量探测不同尺度下点事件的分布模式及演变规律,在生态学、经济学、地理学等诸多领域得到广泛应用。然而,随着点规模的增加,估计与模拟阶段点对距离遍历计算时间开销激增... 作为二阶点模式分析方法,Ripley’s K函数(简称K函数)以距离为自变量探测不同尺度下点事件的分布模式及演变规律,在生态学、经济学、地理学等诸多领域得到广泛应用。然而,随着点规模的增加,估计与模拟阶段点对距离遍历计算时间开销激增,严重制约了K函数的应用,算法流程优化与并行加速成为应对海量点数据下K函数性能瓶颈及可计算性问题的关键技术手段。针对默认数据分区未考虑点事件空间邻近性导致跨节点通讯成本高昂且K函数距离阈值较大时索引优化失效的现象,本文提出一种基于空间填充曲线的K函数优化加速方法。该方法采用Hilbert曲线构建空间分区,在顾及数据空间邻近性的前提下减少分区间数据倾斜和通讯开销;在分区基础上,利用Geohash编码改进各分区内本地空间索引策略加速点对距离计算。本文以湖北省工商企业注册数据为例,通过对比实验分析了默认分区无索引、KDB分区组合R树索引、本文Hilbert分区组合Geohash索引算法在不同数据规模、距离阈值、集群规模下的计算耗时。结果表明,300 000点数据规模下本文方法的时间开销约为默认分区无索引方法的1/4,9台节点下加速比超过3.6倍。因此,该方法能有效提升分布式环境下K函数计算性能并具有良好的可伸缩性,可为其他点模式分析方法的优化提供参考。 展开更多
关键词 Ripley’s K函数 分布式计算 apache spark 高性能地理计算 HILBERT曲线 Geohash编码 点模式分析 空间填充曲线
原文传递
基于特征转移概率的网络日志聚类分析算法 被引量:7
18
作者 齐文 朱曦源 宋杰 《小型微型计算机系统》 CSCD 北大核心 2023年第3期514-520,共7页
随着信息化建设,互联网行业的发展,各种信息设备在运行和通信中,会产生大量的网络日志数据.网络日志的内容是非结构化的格式,获取相关信息具有一定难度,并且这种数据正在迅速增长为庞大的体量,所以从中获得所需的信息并对相关信息进行处... 随着信息化建设,互联网行业的发展,各种信息设备在运行和通信中,会产生大量的网络日志数据.网络日志的内容是非结构化的格式,获取相关信息具有一定难度,并且这种数据正在迅速增长为庞大的体量,所以从中获得所需的信息并对相关信息进行处理,是一个非常具有挑战性的任务.数据挖掘的技术是非常传统的技术,实施往往耗费太多时间,并产生过多的数据,大数据环境下,传统的串行的网络日志聚类方法存在性能的局限性,不再适合处理网络日志这样的海量数据,目前比较常用的对于网络日志的并行处理方法在计算时间、并行效率、准确率等方面存在一定改进空间.因而,本文提出了一种基于特征转移概率改进的网络日志聚类处理技术,并在Apache Spark平台上实现了用于提取频繁的庞大的网络日志的模式.实验结果表明,所提出的方法能够在大数据环境下对完整的网络日志提取所需信息并实现高效的分析,相对于目前常见的聚类分析算法,本文提出的基于特征转移概率的处理方式将执行时间降低到了75.97%. 展开更多
关键词 日志分析 大数据 apache spark 聚类算法 并行处理
在线阅读 下载PDF
一种面向大数据分析的快速并行决策树算法 被引量:21
19
作者 陆旭 陈毅红 +1 位作者 熊章瑞 廖彬宇 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期244-251,共8页
为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间... 为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升. 展开更多
关键词 决策树 apache spark 数据并行 大数据 连续属性
在线阅读 下载PDF
基于动态分布式聚类算法的大数据查询处理方法 被引量:15
20
作者 唐运乐 韦杏琼 《西南师范大学学报(自然科学版)》 CAS 2021年第5期134-139,共6页
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组... 针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式聚类;最后通过K近邻查询方式获得高精度和高效率查询结果.实验结果表明,本文提出的方法具有可扩展性,可为空间查询处理提供高质量的结果,比其他查询方法更具优势. 展开更多
关键词 大数据 动态分布式聚类 查询处理 apache spark
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部