期刊文献+
共找到5,757篇文章
< 1 2 250 >
每页显示 20 50 100
Advancements in titanium nanocomposites:Microstructure and fretting wear resistance via spark plasma sintering
1
作者 Basant Lal Abhijit Dey 《International Journal of Minerals,Metallurgy and Materials》 2026年第1期265-281,共17页
This study investigated enhancing the wear resistance of Ti6Al4V alloys for medical applications by incorporating Ti C nanoreinforcements using advanced spark plasma sintering(SPS). The addition of up to 2.5wt% Ti C s... This study investigated enhancing the wear resistance of Ti6Al4V alloys for medical applications by incorporating Ti C nanoreinforcements using advanced spark plasma sintering(SPS). The addition of up to 2.5wt% Ti C significantly improved the mechanical properties, including a notable 18.2% increase in hardness(HV 332). Fretting wear tests against 316L stainless steel(SS316L) balls demonstrated a 20wt%–22wt% reduction in wear volume in the Ti6Al4V/Ti C composites compared with the monolithic alloy. Microstructural analysis revealed that Ti C reinforcement controlled the grain orientation and reduced the β-phase content, which contributed to enhanced mechanical properties. The monolithic alloy exhibited a Widmanstätten lamellar microstructure, while increasing the Ti C content modified the wear mechanisms from ploughing and adhesion(0–0.5wt%) to pitting and abrasion(1wt%–2.5wt%). At higher reinforcement levels, the formation of a robust oxide layer through tribo-oxide treatment effectively reduced the wear volume by minimizing the abrasive effects and plastic deformation. This study highlights the potential of SPS-mediated Ti C reinforcement as a transformative approach for improving the performance of Ti6Al4V alloys, paving the way for advanced medical applications. 展开更多
关键词 Ti6Al4V alloy TiC particle MICROSTRUCTURE wear mechanism spark plasma sintering
在线阅读 下载PDF
基于Spark的电影推荐系统设计与实现
2
作者 高双喜 曹淑服 孙永明 《河北省科学院学报》 2025年第2期1-5,共5页
本研究针对互联网上影视作品数量的指数级增长,提出一种基于Spark分布式框架的电影推荐系统,以解决日益严重的电影信息过载问题。系统利用Spark平台作为计算框架,通过ALS协同过滤算法构建一个电影推荐模型,并使用MovieLens数据集进行了... 本研究针对互联网上影视作品数量的指数级增长,提出一种基于Spark分布式框架的电影推荐系统,以解决日益严重的电影信息过载问题。系统利用Spark平台作为计算框架,通过ALS协同过滤算法构建一个电影推荐模型,并使用MovieLens数据集进行了训练。实验结果表明,该系统可根据用户历史数据和实时动作快速准确预测用户个人喜好,同时也解决了传统推荐系统的数据稀疏性和冷启动问题。 展开更多
关键词 推荐算法 spark 协同过滤 ALS
在线阅读 下载PDF
基于Q学习的Spark自动调节内存管理器
3
作者 张军 顾皓元 《计算机工程与设计》 北大核心 2025年第5期1487-1493,共7页
为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态... 为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态调整。内存分配算法结合Q学习自动调优算法的决策和空闲内存,响应块管理器和任务内存请求,确保内存高效分配与利用。实验结果表明,新的内存管理器在Spark任务执行效率上获得了较明显的性能提升。 展开更多
关键词 Apache spark 静态内存管理器 统一内存管理器 JVM垃圾内存回收 Q学习 内存分配动态调整 任务执行效率
在线阅读 下载PDF
基于Spark的实时入侵检测系统实现
4
作者 李华 张巧林 魏光杏 《无线互联科技》 2025年第12期58-61,共4页
文章设计的实时入侵检测系统是由日志聚合、日志分发、日志处理与入侵检测、高速缓存数据库、Web控制器和可视化视图6个组件构成。该系统利用Spark技术对Web访问日志进行聚合,结合大数据技术对聚合的访问日志进行处理和分析,完成对Web... 文章设计的实时入侵检测系统是由日志聚合、日志分发、日志处理与入侵检测、高速缓存数据库、Web控制器和可视化视图6个组件构成。该系统利用Spark技术对Web访问日志进行聚合,结合大数据技术对聚合的访问日志进行处理和分析,完成对Web攻击的判断。经过对该系统测试,检测正确率达到95%以上,这为网络管理者下一步决策提供较好的参考。 展开更多
关键词 网络安全 spark 入侵检测
在线阅读 下载PDF
基于PySpark的大数据平台构建与优化研究 被引量:1
5
作者 宋昱成 周文勤 刘佳木 《电脑知识与技术》 2025年第10期76-79,共4页
针对大规模数据集分析中的性能挑战,本文基于Spark平台构建了PySpark应用层,并提出了一套性能优化策略。该策略包括数据分区优化(采用RangePartitioning)、缓存替换和持久化(基于LRU-K算法和多级缓存机制)以及并行度调整(参考最优本地... 针对大规模数据集分析中的性能挑战,本文基于Spark平台构建了PySpark应用层,并提出了一套性能优化策略。该策略包括数据分区优化(采用RangePartitioning)、缓存替换和持久化(基于LRU-K算法和多级缓存机制)以及并行度调整(参考最优本地性感知任务调度算法)。通过在模拟环境下的实验,验证了这些优化策略能够有效提升PySpark平台处理大规模数据集的性能,降低数据倾斜的影响,提高缓存命中率,并优化资源利用率。 展开更多
关键词 spark Pyspark 大数据平台 性能优化 数据分区 缓存管理 并行度
在线阅读 下载PDF
一种基于Spark的分布式FFT计算实现方法
6
作者 姚琳 高天昊 《计算机与网络》 2025年第3期207-211,共5页
快速傅里叶变换(Fast Fourier Transform,FFT)是数字信号处理的基础算法,在雷达信号处理、通信信号处理、数字图像处理等信号处理的各个领域应用广泛。随着传感器能力的提升,信号采样文件体量日益增大,单机处理难以满足工程实际需求。... 快速傅里叶变换(Fast Fourier Transform,FFT)是数字信号处理的基础算法,在雷达信号处理、通信信号处理、数字图像处理等信号处理的各个领域应用广泛。随着传感器能力的提升,信号采样文件体量日益增大,单机处理难以满足工程实际需求。针对这一问题,设计实现了基于快速通用可扩展的分布式引擎(Spark)的分布式FFT计算方法,对该方法的实现步骤进行了详细阐述,并对实验结果同单机运行结果进行了对比分析。实验结果表明了本文算法的有效性,可为其他信号处理算法的分布式计算实现提供借鉴。 展开更多
关键词 信号处理 spark 快速傅里叶变换 分布式计算
在线阅读 下载PDF
基于改进Spark MLlib的校园学生课程行为预测研究
7
作者 余战秋 《延边大学学报(自然科学版)》 2025年第4期91-97,共7页
针对智慧校园数据挖掘中存在的高维稀疏数据处理效率低、时空关联分析不足等问题,设计了一个基于改进Spark MLlib的数据挖掘系统.系统由感知层、网络层、数据层和应用层构成.研究了改进的TDDBSCAN聚类算法、STAM时空异常度量算法和D-Apr... 针对智慧校园数据挖掘中存在的高维稀疏数据处理效率低、时空关联分析不足等问题,设计了一个基于改进Spark MLlib的数据挖掘系统.系统由感知层、网络层、数据层和应用层构成.研究了改进的TDDBSCAN聚类算法、STAM时空异常度量算法和D-Apriori关联规则挖掘算法在学生群体行为分析中的应用效果,结果显示:相比传统DBSCAN算法,改进的TD-DBSCAN在处理100万条行为序列数据时,聚类处理时间从286.5s降至184.3s,内存占用降低至12.1GB,准确率提升了6.3个百分点;相比基准方法,STAM的异常检测时间从165.2s降至95.7s;相比传统Apriori算法,D-Apriori的规则挖掘准确率提升了14.1个百分点,处理时间缩短至198.4s.系统在教室、图书馆和食堂3个场景对学生行为数据进行挖掘分析表明,该分布式数据挖掘框架能有效提高校园场景资源的预测与智能管理能力,验证了系统框架的可行性和有效性.研究结果可为智慧校园的精细化运用提供良好技术参考. 展开更多
关键词 spark MLlib 智慧校园 学生课程行为序列 数据挖掘 预测模型
在线阅读 下载PDF
基于Spark技术生态的电商用户行为分析系统构建——以电商产教协同项目为例
8
作者 于洁 孔瑞平 张凤丽 《数字技术与应用》 2025年第9期159-161,共3页
在数字经济时代,电商企业需要掌握Spark技术的复合型人才。本文基于某电商“用户行为分析与智能推荐系统”的教学实践体系,采用Spark Streaming实时采集数据,利用Spark MLlib构建混合推荐模型,依托Docker容器技术实现轻量化部署。实践表... 在数字经济时代,电商企业需要掌握Spark技术的复合型人才。本文基于某电商“用户行为分析与智能推荐系统”的教学实践体系,采用Spark Streaming实时采集数据,利用Spark MLlib构建混合推荐模型,依托Docker容器技术实现轻量化部署。实践表明,通过实施该项目。 展开更多
关键词 spark技术 电商用户行为分析 spark Streaming
在线阅读 下载PDF
基于RDD重用度的Spark自适应缓存优化策略
9
作者 潘顺杰 于俊洋 +2 位作者 王龙葛 李涵 翟锐 《计算机工程》 北大核心 2025年第7期190-198,共9页
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素... 基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。 展开更多
关键词 并行计算 spark框架 缓存替换 最近最少使用算法 大数据
在线阅读 下载PDF
自适应的Spark数据均衡分区方法
10
作者 何玉林 吴东彤 黄哲学 《电子学报》 北大核心 2025年第8期2764-2778,共15页
Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化... Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化方法被提出,如迁移分区、贪心分区、反馈分区等,但往往存在数据传输量大、额外计算成本高、运行时间长等问题.为更好地缓解键倾斜分布问题带来的影响,本文提出了一种自适应的Spark数据均衡分区方法.该方法引入了奖惩思想对数据分区过程进行适当调控,同时对于数据量较大的键进行分割,使得各个分区的数据量相对均衡.该方法首先对数据采样并预估键权重.其次,按照键权重对样本数据降序排列,确保所有分区都有初始数据.再次,根据奖惩分配策略,自适应地更新各个分区的分配概率,并将待分配的键指向分配概率最高的分区.对于超过分区容量的键的数据,则分割为多个部分且指向不同分区.在所有样本数据分配完成后,获得自适应分区方案.在实际分区时,对于样本中出现的键对应的数据按照自适应分区方案进行分配;对于未出现的键对应的数据,则按照哈希方法进行分区.最后,通过实验验证,基于新方法设计的自适应均衡分区器(Adaptive Data Balanced Partitioner,ADBP)能够有效缓解键倾斜的负面影响.在真实数据集上,ADBP的WordCount程序总运行时间比自带分区器Hash、Range分别平均缩短了1.51%、29.90%,比现有基于学习自动机的自适应哈希分区器(Learning Automata Hash Partitioner,LAHP)、对倾斜的中间数据块进行拆分合并(Splitting and Combination algorithm for skew Intermediate Data block,SCID)算法、粗粒度放置和细粒度放置(Fined-Coarse Grained Intermediate Data Placement,FCGIDP)算法分别平均缩短了8.12%、21.64%、19.62%. 展开更多
关键词 数据倾斜 均衡分区 自适应分区 奖惩分配 spark
在线阅读 下载PDF
Spark架构下基于改进深度聚类的用户日负荷分类方法 被引量:1
11
作者 徐寿亮 徐剑 《现代电力》 北大核心 2025年第3期411-420,共10页
负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量... 负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量高维的负荷数据。因此,提出一种Spark分布式计算架构下基于改进深度聚类的日负荷分类方法。首先,利用卷积神经网络自编码器获取用户具有代表性的特征向量,送入K-means的聚类层完成负荷聚类,接着将特征提取模型和聚类模型联合优化,组成深度聚类模型。其次,考虑了处于负荷类别边界的边缘负荷样本对神经网络的不利影响,引入自步学习技术,并设计了一个新的损失函数。最后,将大数据技术与深度聚类算法结合,利用Spark分布式计算平台实现深度聚类算法的并行计算。通过算例验证,所提算法在聚类效果和处理效率上都优于传统算法。 展开更多
关键词 居民负荷 日负荷聚类 深度聚类 spark平台 并行计算
原文传递
并发式Spark消息分发器
12
作者 何玉林 林泽杰 +2 位作者 徐毓阳 成英超 黄哲学 《深圳大学学报(理工版)》 北大核心 2025年第3期317-325,I0012,I0013,共11页
在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的... 在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的并发式Spark消息分发器.与迭代式Spark消息分发器不同,并发式消息分发器更加关注且更适合调度开销较大的细粒度任务作业,通过解析包含执行器重要信息的元数据,获取任务列表及各个任务对应的执行器标识,创建线程池并为每个任务启动异步计算,从而实现并发式任务分发,在保证系统稳定和任务顺利执行的前提下,最大程度地减少任务分发的时间开销.在虚拟机构建的仿真集群环境上,通过与迭代式消息分发器进行对比,证实了并发式消息分发器的良好效果.实验结果表明,在内存保持不变的前提下,并发式Spark消息分发器可减少约9%的任务执行时间,同时能提高约5%的中央处理器的利用率.并发式Spark消息分发器有效解决了迭代式消息分发机制针对细粒度任务分发的时间开销过大和计算资源浪费的问题. 展开更多
关键词 并行处理 大数据计算 spark通信机制 消息分发 细粒度任务 线程池调度
在线阅读 下载PDF
Spark SQL在日志数据文件分析中的应用
13
作者 贺奇 庞晶源 +2 位作者 张羽 付琦 陈兆新 《电脑编程技巧与维护》 2025年第9期116-118,136,共4页
公司和组织在每日对系统进行运营与维护的过程中都会产生大量的日志数据文件。为了能够保持业务的高效运行,这些公司或组织往往需要分析日志文件来知道设施是否已经达到了运行潜力的最大值。简述了日志数据的收集与处理方法,讨论了Spark... 公司和组织在每日对系统进行运营与维护的过程中都会产生大量的日志数据文件。为了能够保持业务的高效运行,这些公司或组织往往需要分析日志文件来知道设施是否已经达到了运行潜力的最大值。简述了日志数据的收集与处理方法,讨论了Spark SQL在日志分析中的优势,使用Python和Spark SQL对日志数据进行探索和可视化,并进行案例说明,为运维人员准确掌握系统运行状况提供参考。 展开更多
关键词 spark技术 日志数据 PYTHON语言
在线阅读 下载PDF
基于Spark并行架构的多源异构学习行为数据融合模型研究
14
作者 王崇科 任刚 魏勇 《河南工学院学报》 2025年第5期14-18,共5页
当前教育信息化进程中的学习行为数据呈现出明显的多源异构性和大规模性,对数据融合计算提出较大挑战。该文首先设计了一个具有三层结构的学习行为标准数据集,包括元数据层、行为数据层和上下文数据层,为异构数据语义整合提供统一框架;... 当前教育信息化进程中的学习行为数据呈现出明显的多源异构性和大规模性,对数据融合计算提出较大挑战。该文首先设计了一个具有三层结构的学习行为标准数据集,包括元数据层、行为数据层和上下文数据层,为异构数据语义整合提供统一框架;然后基于此数据集,构建了一个基于Spark并行架构的多源异构学习行为数据融合模型Spark-DataFusion。实验结果表明,该模型具有良好的数据规模扩展性和计算节点扩展性,能够有效提升大规模学习行为数据处理效率,对促进教育大数据深度挖掘具有积极意义。 展开更多
关键词 spark 学习行为数据 数据融合 并行计算
在线阅读 下载PDF
基于Spark大数据的智能推荐系统设计与实现 被引量:3
15
作者 杨运强 《信息记录材料》 2025年第2期150-152,共3页
针对大数据环境下推荐系统面临的效率与准确性挑战,本研究提出了基于Spark大数据技术的智能推荐系统设计方案。采用三层架构(数据层、计算层、应用层)组织系统,并结合协同过滤、基于内容的推荐及深度学习技术实现推荐算法。实验结果显示... 针对大数据环境下推荐系统面临的效率与准确性挑战,本研究提出了基于Spark大数据技术的智能推荐系统设计方案。采用三层架构(数据层、计算层、应用层)组织系统,并结合协同过滤、基于内容的推荐及深度学习技术实现推荐算法。实验结果显示,所设计的系统在准确率、召回率等方面表现优异,尤其DeepFM算法在高阶非线性特征交互学习上具有明显优势,本研究为解决大数据环境下的推荐问题提供了可行的技术路径。 展开更多
关键词 spark大数据 智能推荐 协同过滤
在线阅读 下载PDF
快速确定Spark应用配置参数值域的方法
16
作者 李瑞 李乐乐 喻之斌 《集成技术》 2025年第4期87-105,共19页
随着大数据处理框架Apache Spark的流行,如何安全稳定地使用Spark框架和降低开销成为业界广泛关注的课题,而配置参数对Spark的性能影响非常显著。参数配置不当通常会导致程序性能显著下降,甚至可能引发大数据系统崩溃,从而给用户带来巨... 随着大数据处理框架Apache Spark的流行,如何安全稳定地使用Spark框架和降低开销成为业界广泛关注的课题,而配置参数对Spark的性能影响非常显著。参数配置不当通常会导致程序性能显著下降,甚至可能引发大数据系统崩溃,从而给用户带来巨大经济损失。解决问题的关键在于确定Spark配置参数的值域。在不同的工作负载、集群资源和输入数据下,Spark的值域通常不同。此外,配置参数间还存在复杂的依赖关系。例如,内存相关的配置参数的值域依赖集群可分配的内存资源,而内存配置又会影响Shuffle性能,从而间接影响与Shuffle相关的配置参数值域。因此确定Spark配置参数的值域极具挑战性。为应对挑战,本研究提出一种在不同应用场景下快速确定Spark配置参数值域的方法,旨在提升Spark应用的安全性和稳定性,并间接减少时间和成本开销。利用数学建模的思想,本文从两方面改进了传统软件领域的值域确定方法:在值域搜索的速度方面,本文利用动态探测方法,通过扩大和缩小搜索区间确定初始范围,然后利用收敛速度较快的斐波那契搜索细化边界;在值域搜索的条件方面,本文方法仅需将搜索的起点设为Spark配置参数的默认值,即可适应各种场景。基于上述两方面改进,本文设计了复合搜索,一种搜索Spark配置参数值域的实用方法。与传统的值域确定方法相比,复合搜索无须提供配置参数的经验值即可在不同的工作负载和集群资源下快速确定配置参数的值域,速度和鲁棒性均有效提升。为验证复合搜索方法的效果,本文在一个由4个x86节点组成的集群上利用103个TPC-DS Spark查询进行了评估。实验结果表明,与软件系统中确定配置参数值域的传统方法相比,复合搜索在程序和参数维度上的值域搜索加速比分别达到5.5倍和4.9倍。此外,复合搜索找到的参数值域使得程序的平均成功率从46.5%提至81.7%。在现有的实验驱动调优和机器学习调优方法的基础上,应用复合搜索平均能减少30%的时间开销。 展开更多
关键词 spark 配置参数 值域 复合搜索 依赖关系
在线阅读 下载PDF
基于Spark的影视推荐系统的设计与实现 被引量:1
17
作者 张志刚 游凤芹 +1 位作者 谢叶康 李健 《现代信息科技》 2025年第1期82-87,共6页
在当今信息爆炸的时代,用户在选择影视作品时面临海量的选择。针对当前影视推荐系统在推荐精度、管理效率和扩展性上的不足,文章提出了一种基于Spark框架的解决方案。文章采用Spring Boot和Vue框架进行前后端分离开发,利用Scala编写的Sp... 在当今信息爆炸的时代,用户在选择影视作品时面临海量的选择。针对当前影视推荐系统在推荐精度、管理效率和扩展性上的不足,文章提出了一种基于Spark框架的解决方案。文章采用Spring Boot和Vue框架进行前后端分离开发,利用Scala编写的Spark应用程序结合内容推荐算法,对用户行为数据进行处理和分析。实验结果表明,该系统在大规模数据处理方面表现优异,显著提升了推荐准确率和用户满意度,且具备良好的可扩展性,整体提升了系统的运行效率和用户体验。 展开更多
关键词 spark Spring Boot Vue Scala 基于内容的影视推荐
在线阅读 下载PDF
基于Spark的Web文本挖掘系统的研究与实现
18
作者 林昊 喻金平 《信息与电脑》 2025年第22期144-147,共4页
文章基于Spark大数据处理框架,设计并实现了一个Web文本挖掘系统。该系统通过异步爬虫技术从学术期刊获取文本数据,利用Spark框架的分布式计算能力与结巴分词工具,结合词云等可视化技术,最终通过Web界面对文本挖掘结果进行展示。实验结... 文章基于Spark大数据处理框架,设计并实现了一个Web文本挖掘系统。该系统通过异步爬虫技术从学术期刊获取文本数据,利用Spark框架的分布式计算能力与结巴分词工具,结合词云等可视化技术,最终通过Web界面对文本挖掘结果进行展示。实验结果表明,该设计能够高效处理大规模文本数据,与传统方法相比,具有更高的处理效率。 展开更多
关键词 文本挖掘 spark 分布式计算 数据可视化 WEB系统
在线阅读 下载PDF
基于Spark GraphX的交通动态图谱分析与优化 被引量:1
19
作者 胡晶 《电脑与信息技术》 2025年第2期69-73,85,共6页
随着城市交通系统的日益复杂,传统的路径规划方法已经难以满足现实需求。基于此,借助大数据处理和图计算技术,构建了基于Spark GraphX的实时交通动态图谱,并通过图算法进行深入分析与优化,以城市中的交叉路口和道路为节点和边,以实时交... 随着城市交通系统的日益复杂,传统的路径规划方法已经难以满足现实需求。基于此,借助大数据处理和图计算技术,构建了基于Spark GraphX的实时交通动态图谱,并通过图算法进行深入分析与优化,以城市中的交叉路口和道路为节点和边,以实时交通数据动态更新图谱,实时反映城市交通状况的变化。利用并行计算框架的实时性特点,应用Spark GraphX的最短路径计算和PageRank算法,提出了对交通网络中的重要性节点和路径优化的算法改进,为交通流的优化提供了可能。通过可视化工具展示图谱的动态变化,以更清晰地了解交通系统的运行状况。 展开更多
关键词 spark GraphX 交通动态图谱 最短路径 PAGERANK
在线阅读 下载PDF
一种新的以服务质量为导向的Spark作业调度器
20
作者 何玉林 莫沛恒 +1 位作者 Philippe Fournier-Viger 黄哲学 《大数据》 2025年第4期154-177,共24页
Spark大数据计算框架被广泛用于处理和分析爆发式增长的大数据。云端能够提供按需和按量付费的计算资源来满足用户的请求。当前,许多组织将大数据计算集群部署在云端上开展大数据计算任务,其需要高效地处理Spark作业调度问题以满足各种... Spark大数据计算框架被广泛用于处理和分析爆发式增长的大数据。云端能够提供按需和按量付费的计算资源来满足用户的请求。当前,许多组织将大数据计算集群部署在云端上开展大数据计算任务,其需要高效地处理Spark作业调度问题以满足各种用户对QoS的要求,如降低使用资源的花费和缩短作业的响应时间。而现有研究大多未能统一考虑多用户要求,忽略了Spark集群环境和工作负载的特性,导致资源浪费和用户对QoS的要求得不到满足等。为此,通过对部署在云端的Spark集群作业调度问题进行建模,设计了一种新的基于DRL技术的Spark作业调度器来满足多个QoS要求。搭建了DRL集群仿真环境,用于对作业调度器的核心DRL Agent进行训练。在调度环境中实现了基于绝对深度Q值网络、基于近端策略优化与广义优势估计联合的训练方法,使DRL Agent可以自适应地学习不同类型作业,以及动态、突发的集群环境特征,实现对Spark作业的合理调度,以降低集群总使用成本、缩短作业的平均响应时间。在基准套件上对DRL Agent测试的结果表明,与其他现有的Spark作业调度解决方案相比,本文设计的DRL Agent作业调度器在集群总使用成本、作业平均响应时间以及QoS达成率上具有显著的优越性,证明了其有效性。 展开更多
关键词 大数据计算 服务质量 spark作业调度器 云环境 深度强化学习
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部