期刊文献+
共找到5,722篇文章
< 1 2 250 >
每页显示 20 50 100
基于Spark的电影推荐系统设计与实现
1
作者 高双喜 曹淑服 孙永明 《河北省科学院学报》 2025年第2期1-5,共5页
本研究针对互联网上影视作品数量的指数级增长,提出一种基于Spark分布式框架的电影推荐系统,以解决日益严重的电影信息过载问题。系统利用Spark平台作为计算框架,通过ALS协同过滤算法构建一个电影推荐模型,并使用MovieLens数据集进行了... 本研究针对互联网上影视作品数量的指数级增长,提出一种基于Spark分布式框架的电影推荐系统,以解决日益严重的电影信息过载问题。系统利用Spark平台作为计算框架,通过ALS协同过滤算法构建一个电影推荐模型,并使用MovieLens数据集进行了训练。实验结果表明,该系统可根据用户历史数据和实时动作快速准确预测用户个人喜好,同时也解决了传统推荐系统的数据稀疏性和冷启动问题。 展开更多
关键词 推荐算法 spark 协同过滤 ALS
在线阅读 下载PDF
基于Q学习的Spark自动调节内存管理器
2
作者 张军 顾皓元 《计算机工程与设计》 北大核心 2025年第5期1487-1493,共7页
为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态... 为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态调整。内存分配算法结合Q学习自动调优算法的决策和空闲内存,响应块管理器和任务内存请求,确保内存高效分配与利用。实验结果表明,新的内存管理器在Spark任务执行效率上获得了较明显的性能提升。 展开更多
关键词 Apache spark 静态内存管理器 统一内存管理器 JVM垃圾内存回收 Q学习 内存分配动态调整 任务执行效率
在线阅读 下载PDF
基于Spark的实时入侵检测系统实现
3
作者 李华 张巧林 魏光杏 《无线互联科技》 2025年第12期58-61,共4页
文章设计的实时入侵检测系统是由日志聚合、日志分发、日志处理与入侵检测、高速缓存数据库、Web控制器和可视化视图6个组件构成。该系统利用Spark技术对Web访问日志进行聚合,结合大数据技术对聚合的访问日志进行处理和分析,完成对Web... 文章设计的实时入侵检测系统是由日志聚合、日志分发、日志处理与入侵检测、高速缓存数据库、Web控制器和可视化视图6个组件构成。该系统利用Spark技术对Web访问日志进行聚合,结合大数据技术对聚合的访问日志进行处理和分析,完成对Web攻击的判断。经过对该系统测试,检测正确率达到95%以上,这为网络管理者下一步决策提供较好的参考。 展开更多
关键词 网络安全 spark 入侵检测
在线阅读 下载PDF
基于PySpark的大数据平台构建与优化研究 被引量:1
4
作者 宋昱成 周文勤 刘佳木 《电脑知识与技术》 2025年第10期76-79,共4页
针对大规模数据集分析中的性能挑战,本文基于Spark平台构建了PySpark应用层,并提出了一套性能优化策略。该策略包括数据分区优化(采用RangePartitioning)、缓存替换和持久化(基于LRU-K算法和多级缓存机制)以及并行度调整(参考最优本地... 针对大规模数据集分析中的性能挑战,本文基于Spark平台构建了PySpark应用层,并提出了一套性能优化策略。该策略包括数据分区优化(采用RangePartitioning)、缓存替换和持久化(基于LRU-K算法和多级缓存机制)以及并行度调整(参考最优本地性感知任务调度算法)。通过在模拟环境下的实验,验证了这些优化策略能够有效提升PySpark平台处理大规模数据集的性能,降低数据倾斜的影响,提高缓存命中率,并优化资源利用率。 展开更多
关键词 spark Pyspark 大数据平台 性能优化 数据分区 缓存管理 并行度
在线阅读 下载PDF
一种基于Spark的分布式FFT计算实现方法
5
作者 姚琳 高天昊 《计算机与网络》 2025年第3期207-211,共5页
快速傅里叶变换(Fast Fourier Transform,FFT)是数字信号处理的基础算法,在雷达信号处理、通信信号处理、数字图像处理等信号处理的各个领域应用广泛。随着传感器能力的提升,信号采样文件体量日益增大,单机处理难以满足工程实际需求。... 快速傅里叶变换(Fast Fourier Transform,FFT)是数字信号处理的基础算法,在雷达信号处理、通信信号处理、数字图像处理等信号处理的各个领域应用广泛。随着传感器能力的提升,信号采样文件体量日益增大,单机处理难以满足工程实际需求。针对这一问题,设计实现了基于快速通用可扩展的分布式引擎(Spark)的分布式FFT计算方法,对该方法的实现步骤进行了详细阐述,并对实验结果同单机运行结果进行了对比分析。实验结果表明了本文算法的有效性,可为其他信号处理算法的分布式计算实现提供借鉴。 展开更多
关键词 信号处理 spark 快速傅里叶变换 分布式计算
在线阅读 下载PDF
基于Spark技术生态的电商用户行为分析系统构建——以电商产教协同项目为例
6
作者 于洁 孔瑞平 张凤丽 《数字技术与应用》 2025年第9期159-161,共3页
在数字经济时代,电商企业需要掌握Spark技术的复合型人才。本文基于某电商“用户行为分析与智能推荐系统”的教学实践体系,采用Spark Streaming实时采集数据,利用Spark MLlib构建混合推荐模型,依托Docker容器技术实现轻量化部署。实践表... 在数字经济时代,电商企业需要掌握Spark技术的复合型人才。本文基于某电商“用户行为分析与智能推荐系统”的教学实践体系,采用Spark Streaming实时采集数据,利用Spark MLlib构建混合推荐模型,依托Docker容器技术实现轻量化部署。实践表明,通过实施该项目。 展开更多
关键词 spark技术 电商用户行为分析 spark Streaming
在线阅读 下载PDF
基于RDD重用度的Spark自适应缓存优化策略
7
作者 潘顺杰 于俊洋 +2 位作者 王龙葛 李涵 翟锐 《计算机工程》 北大核心 2025年第7期190-198,共9页
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素... 基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。 展开更多
关键词 并行计算 spark框架 缓存替换 最近最少使用算法 大数据
在线阅读 下载PDF
Spark架构下基于改进深度聚类的用户日负荷分类方法 被引量:1
8
作者 徐寿亮 徐剑 《现代电力》 北大核心 2025年第3期411-420,共10页
负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量... 负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量高维的负荷数据。因此,提出一种Spark分布式计算架构下基于改进深度聚类的日负荷分类方法。首先,利用卷积神经网络自编码器获取用户具有代表性的特征向量,送入K-means的聚类层完成负荷聚类,接着将特征提取模型和聚类模型联合优化,组成深度聚类模型。其次,考虑了处于负荷类别边界的边缘负荷样本对神经网络的不利影响,引入自步学习技术,并设计了一个新的损失函数。最后,将大数据技术与深度聚类算法结合,利用Spark分布式计算平台实现深度聚类算法的并行计算。通过算例验证,所提算法在聚类效果和处理效率上都优于传统算法。 展开更多
关键词 居民负荷 日负荷聚类 深度聚类 spark平台 并行计算
原文传递
并发式Spark消息分发器
9
作者 何玉林 林泽杰 +2 位作者 徐毓阳 成英超 黄哲学 《深圳大学学报(理工版)》 北大核心 2025年第3期317-325,I0012,I0013,共11页
在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的... 在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的并发式Spark消息分发器.与迭代式Spark消息分发器不同,并发式消息分发器更加关注且更适合调度开销较大的细粒度任务作业,通过解析包含执行器重要信息的元数据,获取任务列表及各个任务对应的执行器标识,创建线程池并为每个任务启动异步计算,从而实现并发式任务分发,在保证系统稳定和任务顺利执行的前提下,最大程度地减少任务分发的时间开销.在虚拟机构建的仿真集群环境上,通过与迭代式消息分发器进行对比,证实了并发式消息分发器的良好效果.实验结果表明,在内存保持不变的前提下,并发式Spark消息分发器可减少约9%的任务执行时间,同时能提高约5%的中央处理器的利用率.并发式Spark消息分发器有效解决了迭代式消息分发机制针对细粒度任务分发的时间开销过大和计算资源浪费的问题. 展开更多
关键词 并行处理 大数据计算 spark通信机制 消息分发 细粒度任务 线程池调度
在线阅读 下载PDF
Spark SQL在日志数据文件分析中的应用
10
作者 贺奇 庞晶源 +2 位作者 张羽 付琦 陈兆新 《电脑编程技巧与维护》 2025年第9期116-118,136,共4页
公司和组织在每日对系统进行运营与维护的过程中都会产生大量的日志数据文件。为了能够保持业务的高效运行,这些公司或组织往往需要分析日志文件来知道设施是否已经达到了运行潜力的最大值。简述了日志数据的收集与处理方法,讨论了Spark... 公司和组织在每日对系统进行运营与维护的过程中都会产生大量的日志数据文件。为了能够保持业务的高效运行,这些公司或组织往往需要分析日志文件来知道设施是否已经达到了运行潜力的最大值。简述了日志数据的收集与处理方法,讨论了Spark SQL在日志分析中的优势,使用Python和Spark SQL对日志数据进行探索和可视化,并进行案例说明,为运维人员准确掌握系统运行状况提供参考。 展开更多
关键词 spark技术 日志数据 PYTHON语言
在线阅读 下载PDF
基于Spark大数据的智能推荐系统设计与实现 被引量:3
11
作者 杨运强 《信息记录材料》 2025年第2期150-152,共3页
针对大数据环境下推荐系统面临的效率与准确性挑战,本研究提出了基于Spark大数据技术的智能推荐系统设计方案。采用三层架构(数据层、计算层、应用层)组织系统,并结合协同过滤、基于内容的推荐及深度学习技术实现推荐算法。实验结果显示... 针对大数据环境下推荐系统面临的效率与准确性挑战,本研究提出了基于Spark大数据技术的智能推荐系统设计方案。采用三层架构(数据层、计算层、应用层)组织系统,并结合协同过滤、基于内容的推荐及深度学习技术实现推荐算法。实验结果显示,所设计的系统在准确率、召回率等方面表现优异,尤其DeepFM算法在高阶非线性特征交互学习上具有明显优势,本研究为解决大数据环境下的推荐问题提供了可行的技术路径。 展开更多
关键词 spark大数据 智能推荐 协同过滤
在线阅读 下载PDF
快速确定Spark应用配置参数值域的方法
12
作者 李瑞 李乐乐 喻之斌 《集成技术》 2025年第4期87-105,共19页
随着大数据处理框架Apache Spark的流行,如何安全稳定地使用Spark框架和降低开销成为业界广泛关注的课题,而配置参数对Spark的性能影响非常显著。参数配置不当通常会导致程序性能显著下降,甚至可能引发大数据系统崩溃,从而给用户带来巨... 随着大数据处理框架Apache Spark的流行,如何安全稳定地使用Spark框架和降低开销成为业界广泛关注的课题,而配置参数对Spark的性能影响非常显著。参数配置不当通常会导致程序性能显著下降,甚至可能引发大数据系统崩溃,从而给用户带来巨大经济损失。解决问题的关键在于确定Spark配置参数的值域。在不同的工作负载、集群资源和输入数据下,Spark的值域通常不同。此外,配置参数间还存在复杂的依赖关系。例如,内存相关的配置参数的值域依赖集群可分配的内存资源,而内存配置又会影响Shuffle性能,从而间接影响与Shuffle相关的配置参数值域。因此确定Spark配置参数的值域极具挑战性。为应对挑战,本研究提出一种在不同应用场景下快速确定Spark配置参数值域的方法,旨在提升Spark应用的安全性和稳定性,并间接减少时间和成本开销。利用数学建模的思想,本文从两方面改进了传统软件领域的值域确定方法:在值域搜索的速度方面,本文利用动态探测方法,通过扩大和缩小搜索区间确定初始范围,然后利用收敛速度较快的斐波那契搜索细化边界;在值域搜索的条件方面,本文方法仅需将搜索的起点设为Spark配置参数的默认值,即可适应各种场景。基于上述两方面改进,本文设计了复合搜索,一种搜索Spark配置参数值域的实用方法。与传统的值域确定方法相比,复合搜索无须提供配置参数的经验值即可在不同的工作负载和集群资源下快速确定配置参数的值域,速度和鲁棒性均有效提升。为验证复合搜索方法的效果,本文在一个由4个x86节点组成的集群上利用103个TPC-DS Spark查询进行了评估。实验结果表明,与软件系统中确定配置参数值域的传统方法相比,复合搜索在程序和参数维度上的值域搜索加速比分别达到5.5倍和4.9倍。此外,复合搜索找到的参数值域使得程序的平均成功率从46.5%提至81.7%。在现有的实验驱动调优和机器学习调优方法的基础上,应用复合搜索平均能减少30%的时间开销。 展开更多
关键词 spark 配置参数 值域 复合搜索 依赖关系
在线阅读 下载PDF
基于Spark的影视推荐系统的设计与实现 被引量:1
13
作者 张志刚 游凤芹 +1 位作者 谢叶康 李健 《现代信息科技》 2025年第1期82-87,共6页
在当今信息爆炸的时代,用户在选择影视作品时面临海量的选择。针对当前影视推荐系统在推荐精度、管理效率和扩展性上的不足,文章提出了一种基于Spark框架的解决方案。文章采用Spring Boot和Vue框架进行前后端分离开发,利用Scala编写的Sp... 在当今信息爆炸的时代,用户在选择影视作品时面临海量的选择。针对当前影视推荐系统在推荐精度、管理效率和扩展性上的不足,文章提出了一种基于Spark框架的解决方案。文章采用Spring Boot和Vue框架进行前后端分离开发,利用Scala编写的Spark应用程序结合内容推荐算法,对用户行为数据进行处理和分析。实验结果表明,该系统在大规模数据处理方面表现优异,显著提升了推荐准确率和用户满意度,且具备良好的可扩展性,整体提升了系统的运行效率和用户体验。 展开更多
关键词 spark Spring Boot Vue Scala 基于内容的影视推荐
在线阅读 下载PDF
一种新的以服务质量为导向的Spark作业调度器
14
作者 何玉林 莫沛恒 +1 位作者 Philippe Fournier-Viger 黄哲学 《大数据》 2025年第4期154-177,共24页
Spark大数据计算框架被广泛用于处理和分析爆发式增长的大数据。云端能够提供按需和按量付费的计算资源来满足用户的请求。当前,许多组织将大数据计算集群部署在云端上开展大数据计算任务,其需要高效地处理Spark作业调度问题以满足各种... Spark大数据计算框架被广泛用于处理和分析爆发式增长的大数据。云端能够提供按需和按量付费的计算资源来满足用户的请求。当前,许多组织将大数据计算集群部署在云端上开展大数据计算任务,其需要高效地处理Spark作业调度问题以满足各种用户对QoS的要求,如降低使用资源的花费和缩短作业的响应时间。而现有研究大多未能统一考虑多用户要求,忽略了Spark集群环境和工作负载的特性,导致资源浪费和用户对QoS的要求得不到满足等。为此,通过对部署在云端的Spark集群作业调度问题进行建模,设计了一种新的基于DRL技术的Spark作业调度器来满足多个QoS要求。搭建了DRL集群仿真环境,用于对作业调度器的核心DRL Agent进行训练。在调度环境中实现了基于绝对深度Q值网络、基于近端策略优化与广义优势估计联合的训练方法,使DRL Agent可以自适应地学习不同类型作业,以及动态、突发的集群环境特征,实现对Spark作业的合理调度,以降低集群总使用成本、缩短作业的平均响应时间。在基准套件上对DRL Agent测试的结果表明,与其他现有的Spark作业调度解决方案相比,本文设计的DRL Agent作业调度器在集群总使用成本、作业平均响应时间以及QoS达成率上具有显著的优越性,证明了其有效性。 展开更多
关键词 大数据计算 服务质量 spark作业调度器 云环境 深度强化学习
在线阅读 下载PDF
基于Spark的智慧电厂大数据实时分析系统设计 被引量:1
15
作者 徐泽锋 《电气技术与经济》 2025年第5期112-114,共3页
本文设计了一套基于Spark的智慧电厂大数据实时分析系统,旨在满足智慧电厂对海量数据的实时处理需求。通过Spark Streaming实现数据流的实时处理,并结合分布式机器学习算法和Spark SQL技术,对电厂设备数据进行多维度分析。仿真实验证明... 本文设计了一套基于Spark的智慧电厂大数据实时分析系统,旨在满足智慧电厂对海量数据的实时处理需求。通过Spark Streaming实现数据流的实时处理,并结合分布式机器学习算法和Spark SQL技术,对电厂设备数据进行多维度分析。仿真实验证明,该系统在吞吐量、延迟及分析准确性方面均表现优异。 展开更多
关键词 智慧电厂 spark 大数据 实时分析
在线阅读 下载PDF
Spark大数据智能分析平台设计研究 被引量:1
16
作者 赵艳花 《信息记录材料》 2025年第1期76-78,84,共4页
针对大数据分析活动易受到数据维度的影响,进而出现运行时间长、数据分析误差高等问题,提出Spark(计算引擎)大数据智能分析平台。通过局部约束的方式消减大数据维度,然后借助Spark技术实现网络层的架构设计,使用数据分析编排器构建系统... 针对大数据分析活动易受到数据维度的影响,进而出现运行时间长、数据分析误差高等问题,提出Spark(计算引擎)大数据智能分析平台。通过局部约束的方式消减大数据维度,然后借助Spark技术实现网络层的架构设计,使用数据分析编排器构建系统服务器,设计实验用于验证所提平台的实际效果。实验结果表明:该平台的运行效率在98%~99%,数据分析的误差均值能够控制在0.5%~0.8%,且加速度参数不小于9,证明所提平台具有实用性与科学性,可为相关人员或单位提供参考。 展开更多
关键词 spark(计算引擎) 大数据 智能分析平台
在线阅读 下载PDF
基于Spark框架的RDD数据块增益感知缓存替换策略
17
作者 贺莎 唐小勇 《计算机科学与探索》 北大核心 2025年第9期2548-2558,共11页
缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率... 缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率低等。基于此,提出一种面向Spark大数据处理框架的弹性分布式数据集(RDD)数据块增益感知缓存替换策略。该策略建立了综合考虑数据块分区大小、引用计数、计算成本和资源成本影响因子的缓存价值评估模型,用于准确评估数据块的缓存价值。提出缓存增益问题模型,以形式化描述缓存管理的优化问题。提出RDD数据块增益感知缓存替换算法(CRCA),以确保内存中的RDD数据块带来的缓存增益最大化。为验证CRCA算法的有效性,基于Spark构建了一个真实的大数据集群实验平台,并采用HiBench基准测试工具中的多样化负载进行实验评估。结果表明,提出的缓存替换算法在任务执行时间和CPU利用率方面优于现有的最近最少使用算法(LRU)和最小分区权重算法(LPW)。 展开更多
关键词 RDD数据块 缓存增益 缓存替换 spark框架
在线阅读 下载PDF
基于Spark并行混合萤火虫算法的震后应急物资调度
18
作者 孙鉴 杨晓焕 +3 位作者 雷婷 武涛 吴隹伟 马宝全 《燕山大学学报》 北大核心 2025年第5期448-460,共13页
针对震后应急物资调度路径优化求解精度较低、易陷入局部最优和运行效率慢等问题,考虑受灾点灾情严重程度及其救援优先级,以物资运输车辆行驶距离和紧急度成本之和最小为目标,建立震后应急物资调度模型,提出了一种基于Spark的并行混合... 针对震后应急物资调度路径优化求解精度较低、易陷入局部最优和运行效率慢等问题,考虑受灾点灾情严重程度及其救援优先级,以物资运输车辆行驶距离和紧急度成本之和最小为目标,建立震后应急物资调度模型,提出了一种基于Spark的并行混合萤火虫算法。首先,通过扫描法获得较优初始化个体,引入顺序交叉思想以提高算法收敛精度,并设计局部更新策略避免了算法陷入局部最优;其次,结合自适应大领域搜索和2-opt优化萤火虫群的路径方案,增强最优解的局部开发能力,以提高算法性能;最后,随着受灾点数增加,运算耗时显著增加,引入集群并行处理机制,以加快算法运行效率。选取CVRPLIB部分数据集进行仿真实验,将该算法与自适应贪婪蚁群算法、改进混合萤火虫算法、自适应动态搜索蚁群算法、混合萤火虫算法、遗传算法和自适应大领域搜索在求解质量以及与改进混合萤火虫算法、混合萤火虫算法、遗传算法和自适应大领域搜索在收敛性方面进行对比。实验结果表明,基于Spark的并行混合萤火虫算法求解质量得到了很大提升,并且相较于其他算法能够快速收敛。随着计算规模的增大,该算法求解时间明显优于其他对比算法。 展开更多
关键词 应急物资调度 受灾点紧急程度 spark 混合萤火虫算法 自适应大领域搜索
在线阅读 下载PDF
基于Spark的数据中心能耗监测与可视化分析
19
作者 黄秀 《软件》 2025年第8期102-104,共3页
针对数据中心能耗管理效率低的问题,本文提出了基于Spark与ECharts的能耗监测与可视化分析方法。通过构建Spark分布式计算框架实现能耗数据高效清洗与分析,结合ECharts动态展示数据中心实时能效指标。实验表明,该系统可监测PUE、CPU功... 针对数据中心能耗管理效率低的问题,本文提出了基于Spark与ECharts的能耗监测与可视化分析方法。通过构建Spark分布式计算框架实现能耗数据高效清洗与分析,结合ECharts动态展示数据中心实时能效指标。实验表明,该系统可监测PUE、CPU功耗等七类关键指标,目标数据中心平均PUE为1.85,较国家标准高46.0%。本文提出了负载均衡优化建议,可为节能管理提供数据支撑。 展开更多
关键词 数据中心 能耗监测 spark ECharts 可视化
在线阅读 下载PDF
基于Spark的电能计量数据异常辨识方法设计
20
作者 杨劲锋 郑楷洪 +2 位作者 刘玉仙 张伟 曾璐琨 《自动化仪表》 2025年第4期92-96,共5页
为了准确辨识电能计量数据中的异常数据、提高电能计量数据质量,提出一种基于Spark的电能计量数据异常辨识方法。以Spark框架为核心支撑,基于张量核范数约束的低秩张量补全模型补全电能计量数据后,采用最小生成树并行聚类方法进行聚类... 为了准确辨识电能计量数据中的异常数据、提高电能计量数据质量,提出一种基于Spark的电能计量数据异常辨识方法。以Spark框架为核心支撑,基于张量核范数约束的低秩张量补全模型补全电能计量数据后,采用最小生成树并行聚类方法进行聚类。依据Spark并行优势改进K-means算法,形成基于Spark改进的K-means并行算法,以辨识聚类后电能计量数据中的异常数据。采用蝙蝠算法优化辨识方法的关键参数,优化电能计量数据异常辨识结果。测试结果表明,该方法可以全面、完整地实现电能计量数据补全,标准互信息(NMI)和调整兰德指数(ARI)的最大值分别为0.984和0.988,因而聚类效果好。该方法能够有效辨识出不同类型的异常数据,为电力的综合运行管理提供可靠依据。 展开更多
关键词 电能计量 spark框架 异常辨识 数据补全 数据聚类 K-MEANS算法 蝙蝠算法
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部