期刊文献+
共找到2,061篇文章
< 1 2 104 >
每页显示 20 50 100
Bioactive Ca-P coatings on WE43 alloy via soft sparking PEO:Structure,electrochemical performance and cytotoxicity studies
1
作者 Barbara Rynkus Maciej Sowa +5 位作者 Ada Orłowska Aneta Samotus Marcin Godzierz Karolina Wilk Janusz Szewczenko Wojciech Simka 《Journal of Magnesium and Alloys》 2025年第7期3398-3417,共20页
Plasma electrolytic oxidation is a well-known technique for surface modification of biomedical magnesium alloys,with good corrosion protection and the ability to produce biocompatible and bioactive coatings.In this st... Plasma electrolytic oxidation is a well-known technique for surface modification of biomedical magnesium alloys,with good corrosion protection and the ability to produce biocompatible and bioactive coatings.In this study,calcium-phosphate coatings were produced on WE43 magnesium alloy for use,as orthopedic implants.Coating formation was prepared using different oxidation parameters with various duty ratios(DR)of 15,25 and 50%and current ratios(R)-2 or 1.6.Application of R with excess cathodic current(R>1)in processes with DR≥25%allowed attaining the soft-sparking regime(SSR)that resulted in thicker oxide coatings with higher degree of crystallinity compared to the films obtained without SSR.The results of the corrosion tests contributed to a noticeable improvement in the corrosion resistance of the magnesium alloy.Optimization of the oxidation parameters allowed the selection of the variants with the most favorable degradation behavior over the tested immersion period,indicating a successful modification of the magnesium alloy surface to obtain an implant biomaterial capable of providing controlled degradation.Furthermore,biological evaluation of the produced coatings showed that the proposed surface modifications significantly reduced the cytotoxic effects observed in direct contact with the material while still maintaining the cell proliferation-promoting effects of the material eluents. 展开更多
关键词 Magnesium alloy Plasma electrolytic oxidation(PEO) Calcium phosphate(CA-P) Soft sparking Electrochemical studies CYTOTOXICITY
在线阅读 下载PDF
“Sparking”and“Igniting”Key Publications of 2020 Nobel Prize Laureates 被引量:1
2
作者 Fangjie Xil Ronald Rousseau Xiaojun Hu 《Journal of Data and Information Science》 CSCD 2021年第2期28-40,共13页
Purpose:This article aims to determine the percentage of"Sparking"articles among the work of this year’s Nobel Prize winners in medicine,physics,and chemistry.Design/methodology/approach:We focus on under-c... Purpose:This article aims to determine the percentage of"Sparking"articles among the work of this year’s Nobel Prize winners in medicine,physics,and chemistry.Design/methodology/approach:We focus on under-cited influential research among the key publications as mentioned by the Nobel Prize Committee for the 2020 Noble Prize laureates.Specifically,we extracted data from the Web of Science,and calculated the Sparking Indices using the formulas as proposed by Hu and Rousseau in 2016 and 2017.In addition,we identified another type of igniting articles based on the notion in 2017.Findings:In the fields of medicine and physics,the proportions of articles with sparking characteristics share 78.571%and 68.75%respectively,yet,in chemistry 90%articles characterized by"igniting".Moreover,the two types of articles share more than 93%in the work of the Nobel Prize included in this study.Research limitations:Our research did not cover the impact of topic,socio-political,and author’s reputation on the Sparking Indices.Practical implications:Our study shows that the Sparking Indices truly reflect influence of the best research work,so it can be used to detect under-cited influential articles,as well as identifying fundamental work.Originality/value:Our findings suggest that the Sparking Indices have good applicability for research evaluation. 展开更多
关键词 sparking Indices sparking fundamental research Igniting fundamental research Nobel Prize laureates Under-cited influential research
在线阅读 下载PDF
Numerical simulation of key factors influencing sparking during edge induction heating
3
作者 WU Cunyou JIN Xiaoli ZHOU Yueming 《Baosteel Technical Research》 CAS 2018年第4期41-48,共8页
To address the phenomenon of sparking during the edge induction heating process in hot strip mills,this paper uses numerical simulation to systematically investigate the key factors influencing sparking and their effe... To address the phenomenon of sparking during the edge induction heating process in hot strip mills,this paper uses numerical simulation to systematically investigate the key factors influencing sparking and their effects.The distribution of induced current density in the steel plate above roller conveyor table during the heating process is calculated and compared under different conditions,including the relative positions of the steel plate and induction coil,the width of the steel plate,and changes in load. The results show that when a narrow steel plate is heated or the steel plate shifts to the side of the induction coil,sparking between the steel plate and roller conveyor is more likely to occur. 展开更多
关键词 induction heating steel plate sparking
在线阅读 下载PDF
基于Spark的电影推荐系统设计
4
作者 杨健 马赞博 《牡丹江师范学院学报(自然科学版)》 2026年第1期29-36,共8页
设计一款基于Spark平台的电影推荐系统.采用协同过滤与基于内容推荐相结合的混合推荐策略,解决传统单一推荐方法的固有局限性;利用Spark分布式框架的内存计算能力,处理大规模用户行为数据.实验结果表明,基于Spark的电影推荐系统在推荐... 设计一款基于Spark平台的电影推荐系统.采用协同过滤与基于内容推荐相结合的混合推荐策略,解决传统单一推荐方法的固有局限性;利用Spark分布式框架的内存计算能力,处理大规模用户行为数据.实验结果表明,基于Spark的电影推荐系统在推荐准确性和处理效率上均有显著提升. 展开更多
关键词 SPARK 电影推荐系统 协同过滤 混合推荐 分布式计算
在线阅读 下载PDF
Bright Sparks of Single-Atom and Nano-Islands in Catalysis:Breaking Activity-Stability Trade-Off
5
作者 Xinyu Liu Suhua Chen +5 位作者 Shenglian Luo Bo Li Jiajie Wang Gaoxia Zhang Yuqi Zhu Jianping Zou 《Nano-Micro Letters》 2026年第5期181-216,共36页
Single-atom catalysts(SACs)are among the most cutting-edge catalysts in the multiphase catalysis track due to their unique geometrical and electronic properties,the highest atom utilization efficiency,and uniform acti... Single-atom catalysts(SACs)are among the most cutting-edge catalysts in the multiphase catalysis track due to their unique geometrical and electronic properties,the highest atom utilization efficiency,and uniform active sites.SACs have been facing an unresolved problem in practical applications:the opposing contradiction of activity-stability.The successful development of single-atom nano-islands(SANIs)cleverly combines the ultra-high atom utilization efficiency of SACs with the confinement effect and structural stability of nano-island structures,realizing the“moving but not aggregation”of SACs,which fundamentally solves this inherent contradiction.Although research on the precise loading of single atoms on nano-islands continues to advance,existing reviews have not yet established a closed-loop cognitive framework encompassing“models-synthesis-high stability mechanisms-high activity essence-applications.”This work fills this critical gap by systematically integrating the basic conceptual models and cutting-edge synthesis strategies of SANIs,focusing on revealing the underlying mechanisms by which SANIs overcome the stability bottleneck of SACs,elucidating the role of nano-islands and their synergistic mechanisms to clarify the high activity essence,and establishing the structure-activity relationship between atomic confinement effects and macroscopic performance,ultimately achieving breakthrough validation across catalytic systems.This review aims to open new perspectives,drive a paradigm shift in understanding the multi-dimensional advantages of SANIs,and thereby spur breakthrough progress in this frontier field. 展开更多
关键词 Single-atom catalysts Nano-islands Bright sparks Mechanisms Interactions
在线阅读 下载PDF
基于Hadoop的新闻数据分析与可视化
6
作者 闫常娜 陶冶 《信息记录材料》 2026年第4期111-113,172,共4页
随着大数据的应用越来越广泛,新闻数据分析亟须能够处理多源异构的信息系统。为解决中小新闻机构因缺少数据全流程处理手段造成的低效采集与大量重复计算的问题,本文首先建立了以Hadoop生态为基础的新闻数据全生命周期管理系统,采用集... 随着大数据的应用越来越广泛,新闻数据分析亟须能够处理多源异构的信息系统。为解决中小新闻机构因缺少数据全流程处理手段造成的低效采集与大量重复计算的问题,本文首先建立了以Hadoop生态为基础的新闻数据全生命周期管理系统,采用集中式爬虫与分布式处理相融合的方式,利用Python、分布式文件系统(HDFS)以及HBase完成数据采集与分布式存储;其次,提出规则驱动和统计模型相结合的轻量化分析方法,依托Spark与动态词库实现热点追踪、主题分类以及地域关联分析;最后,运用Data Ease构建可视化平台,给出适用于区域舆情监测的具有时效性、可解释性的即用型解决方案。测试结果表明:该系统可实现单日接近1.3万条新闻数据的高效采集,军事关键词提取准确率达92.7%,可视化数据延迟8 s完成渲染更新。 展开更多
关键词 HADOOP 新闻数据分析 数据可视化 HBASE SPARK
在线阅读 下载PDF
Advancements in titanium nanocomposites:Microstructure and fretting wear resistance via spark plasma sintering
7
作者 Basant Lal Abhijit Dey 《International Journal of Minerals,Metallurgy and Materials》 2026年第1期265-281,共17页
This study investigated enhancing the wear resistance of Ti6Al4V alloys for medical applications by incorporating Ti C nanoreinforcements using advanced spark plasma sintering(SPS). The addition of up to 2.5wt% Ti C s... This study investigated enhancing the wear resistance of Ti6Al4V alloys for medical applications by incorporating Ti C nanoreinforcements using advanced spark plasma sintering(SPS). The addition of up to 2.5wt% Ti C significantly improved the mechanical properties, including a notable 18.2% increase in hardness(HV 332). Fretting wear tests against 316L stainless steel(SS316L) balls demonstrated a 20wt%–22wt% reduction in wear volume in the Ti6Al4V/Ti C composites compared with the monolithic alloy. Microstructural analysis revealed that Ti C reinforcement controlled the grain orientation and reduced the β-phase content, which contributed to enhanced mechanical properties. The monolithic alloy exhibited a Widmanstätten lamellar microstructure, while increasing the Ti C content modified the wear mechanisms from ploughing and adhesion(0–0.5wt%) to pitting and abrasion(1wt%–2.5wt%). At higher reinforcement levels, the formation of a robust oxide layer through tribo-oxide treatment effectively reduced the wear volume by minimizing the abrasive effects and plastic deformation. This study highlights the potential of SPS-mediated Ti C reinforcement as a transformative approach for improving the performance of Ti6Al4V alloys, paving the way for advanced medical applications. 展开更多
关键词 Ti6Al4V alloy TiC particle MICROSTRUCTURE wear mechanism spark plasma sintering
在线阅读 下载PDF
人工智能在高职“Spark技术”课程教学改革中的应用
8
作者 庄义钿 《无线互联科技》 2026年第2期108-113,共6页
当前,高职“Spark技术”课程教学存在学生前置知识不扎实、能力分化、考核方式缺乏针对性、项目案例孤立等问题,导致学生的技能与企业的需求脱节。文章结合项目驱动与成果导向教育(Outcome Based Education,OBE)理念,将生成式人工智能(A... 当前,高职“Spark技术”课程教学存在学生前置知识不扎实、能力分化、考核方式缺乏针对性、项目案例孤立等问题,导致学生的技能与企业的需求脱节。文章结合项目驱动与成果导向教育(Outcome Based Education,OBE)理念,将生成式人工智能(Artificial Intelligence Generated Content,AIGC)融入课程教学,引入领域专用大语言模型SQLCoder-7B-2构建智能查询流程。教学案例借助Selenium技术获取租房信息,渗透“数据采集—数据清洗—数据分析”的大数据思维,详细阐述“课前—课中—课后”三阶段教学路径。该模式能有效降低Spark SQL编程学习难度,助力学生专注数据分析思维与AI工具应用能力培养,为大数据专业培育人工智能素养复合型人才提供可行教学范式。 展开更多
关键词 “Spark技术” 教学案例改革 项目驱动式 人工智能 大语言模型
在线阅读 下载PDF
基于Spark的电影推荐系统设计与实现 被引量:1
9
作者 高双喜 曹淑服 孙永明 《河北省科学院学报》 2025年第2期1-5,共5页
本研究针对互联网上影视作品数量的指数级增长,提出一种基于Spark分布式框架的电影推荐系统,以解决日益严重的电影信息过载问题。系统利用Spark平台作为计算框架,通过ALS协同过滤算法构建一个电影推荐模型,并使用MovieLens数据集进行了... 本研究针对互联网上影视作品数量的指数级增长,提出一种基于Spark分布式框架的电影推荐系统,以解决日益严重的电影信息过载问题。系统利用Spark平台作为计算框架,通过ALS协同过滤算法构建一个电影推荐模型,并使用MovieLens数据集进行了训练。实验结果表明,该系统可根据用户历史数据和实时动作快速准确预测用户个人喜好,同时也解决了传统推荐系统的数据稀疏性和冷启动问题。 展开更多
关键词 推荐算法 SPARK 协同过滤 ALS
在线阅读 下载PDF
基于ASCABC的并行DCNN优化算法
10
作者 胡健 周奇航 毛伊敏 《计算机工程与设计》 北大核心 2025年第4期983-989,共7页
针对大数据环境下并行DCNN存在冗余计算过多、收敛速度慢、参数寻优能力差以及中间数据倾斜等问题提出一种基于Spark和ASCABC的DCNN-SASCABC算法。提出基于冯诺依曼熵的FMC-VNE策略来对特征图进行压缩,降低冗余计算;提出基于自适应人工... 针对大数据环境下并行DCNN存在冗余计算过多、收敛速度慢、参数寻优能力差以及中间数据倾斜等问题提出一种基于Spark和ASCABC的DCNN-SASCABC算法。提出基于冯诺依曼熵的FMC-VNE策略来对特征图进行压缩,降低冗余计算;提出基于自适应人工蜂群算法的MPT-ASCABC策略进行参数初始化,提高DCNN收敛速度与参数寻优能力;提出中间数据分配策略BA-ID重分配中间数据,解决Spark中间数据倾斜的问题。实验结果表明,所提算法提高了大数据环境下模型训练效率。 展开更多
关键词 SPARK 大数据 并行DCNN 冗余数据 自适应人工蜂群算法 参数初始化 数据倾斜
在线阅读 下载PDF
基于Q学习的Spark自动调节内存管理器
11
作者 张军 顾皓元 《计算机工程与设计》 北大核心 2025年第5期1487-1493,共7页
为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态... 为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态调整。内存分配算法结合Q学习自动调优算法的决策和空闲内存,响应块管理器和任务内存请求,确保内存高效分配与利用。实验结果表明,新的内存管理器在Spark任务执行效率上获得了较明显的性能提升。 展开更多
关键词 Apache Spark 静态内存管理器 统一内存管理器 JVM垃圾内存回收 Q学习 内存分配动态调整 任务执行效率
在线阅读 下载PDF
基于Spark的实时入侵检测系统实现
12
作者 李华 张巧林 魏光杏 《无线互联科技》 2025年第12期58-61,共4页
文章设计的实时入侵检测系统是由日志聚合、日志分发、日志处理与入侵检测、高速缓存数据库、Web控制器和可视化视图6个组件构成。该系统利用Spark技术对Web访问日志进行聚合,结合大数据技术对聚合的访问日志进行处理和分析,完成对Web... 文章设计的实时入侵检测系统是由日志聚合、日志分发、日志处理与入侵检测、高速缓存数据库、Web控制器和可视化视图6个组件构成。该系统利用Spark技术对Web访问日志进行聚合,结合大数据技术对聚合的访问日志进行处理和分析,完成对Web攻击的判断。经过对该系统测试,检测正确率达到95%以上,这为网络管理者下一步决策提供较好的参考。 展开更多
关键词 网络安全 SPARK 入侵检测
在线阅读 下载PDF
基于改进Spark MLlib的校园学生课程行为预测研究
13
作者 余战秋 《延边大学学报(自然科学版)》 2025年第4期91-97,共7页
针对智慧校园数据挖掘中存在的高维稀疏数据处理效率低、时空关联分析不足等问题,设计了一个基于改进Spark MLlib的数据挖掘系统.系统由感知层、网络层、数据层和应用层构成.研究了改进的TDDBSCAN聚类算法、STAM时空异常度量算法和D-Apr... 针对智慧校园数据挖掘中存在的高维稀疏数据处理效率低、时空关联分析不足等问题,设计了一个基于改进Spark MLlib的数据挖掘系统.系统由感知层、网络层、数据层和应用层构成.研究了改进的TDDBSCAN聚类算法、STAM时空异常度量算法和D-Apriori关联规则挖掘算法在学生群体行为分析中的应用效果,结果显示:相比传统DBSCAN算法,改进的TD-DBSCAN在处理100万条行为序列数据时,聚类处理时间从286.5s降至184.3s,内存占用降低至12.1GB,准确率提升了6.3个百分点;相比基准方法,STAM的异常检测时间从165.2s降至95.7s;相比传统Apriori算法,D-Apriori的规则挖掘准确率提升了14.1个百分点,处理时间缩短至198.4s.系统在教室、图书馆和食堂3个场景对学生行为数据进行挖掘分析表明,该分布式数据挖掘框架能有效提高校园场景资源的预测与智能管理能力,验证了系统框架的可行性和有效性.研究结果可为智慧校园的精细化运用提供良好技术参考. 展开更多
关键词 Spark MLlib 智慧校园 学生课程行为序列 数据挖掘 预测模型
在线阅读 下载PDF
基于SPARK方法的高职网络设备配置课程企业化团队教学改革实践
14
作者 毛万胜 朱栎 《安徽冶金科技职业学院学报》 2025年第4期80-82,共3页
高职“网络设备配置与管理”课程作为计算机网络技术专业的核心实践课程,在培养学生网络设备操作、网络架构搭建及故障排除能力方面具有重要作用。当前该课程教学存在学生基础薄弱、学习兴趣不足、教学内容与职业需求脱节、评价体系单... 高职“网络设备配置与管理”课程作为计算机网络技术专业的核心实践课程,在培养学生网络设备操作、网络架构搭建及故障排除能力方面具有重要作用。当前该课程教学存在学生基础薄弱、学习兴趣不足、教学内容与职业需求脱节、评价体系单一等问题,导致人才培养质量难以满足行业需求。本文提出基于SPARK方法的企业化团队教学改革方案,通过模拟企业运作(Simulated)、项目实践驱动(Practice)、多元评价激励(Active)、职业角色体验(Role-playing)、知识能力内化(Knowledge)五维联动,构建“学岗深度衔接”的教学体系。实践表明,改革后学生课程满意度提升至94.3%,1+X证书通过率达89%,就业相关度从20%升至48%,显著提升了学生的实践能力与职业竞争力,为高职实践性课程教学改革提供了可借鉴的实践路径。 展开更多
关键词 SPARK方法 企业化团队 网络设备配置 实践教学 高职教育
在线阅读 下载PDF
一种基于Spark的分布式FFT计算实现方法
15
作者 姚琳 高天昊 《计算机与网络》 2025年第3期207-211,共5页
快速傅里叶变换(Fast Fourier Transform,FFT)是数字信号处理的基础算法,在雷达信号处理、通信信号处理、数字图像处理等信号处理的各个领域应用广泛。随着传感器能力的提升,信号采样文件体量日益增大,单机处理难以满足工程实际需求。... 快速傅里叶变换(Fast Fourier Transform,FFT)是数字信号处理的基础算法,在雷达信号处理、通信信号处理、数字图像处理等信号处理的各个领域应用广泛。随着传感器能力的提升,信号采样文件体量日益增大,单机处理难以满足工程实际需求。针对这一问题,设计实现了基于快速通用可扩展的分布式引擎(Spark)的分布式FFT计算方法,对该方法的实现步骤进行了详细阐述,并对实验结果同单机运行结果进行了对比分析。实验结果表明了本文算法的有效性,可为其他信号处理算法的分布式计算实现提供借鉴。 展开更多
关键词 信号处理 SPARK 快速傅里叶变换 分布式计算
在线阅读 下载PDF
基于RDD重用度的Spark自适应缓存优化策略
16
作者 潘顺杰 于俊洋 +2 位作者 王龙葛 李涵 翟锐 《计算机工程》 北大核心 2025年第7期190-198,共9页
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素... 基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。 展开更多
关键词 并行计算 Spark框架 缓存替换 最近最少使用算法 大数据
在线阅读 下载PDF
基于云计算技术的舰船通信网络异常入侵检测研究 被引量:4
17
作者 于隆 尹娜 《舰船科学技术》 北大核心 2025年第4期173-177,共5页
舰船行进中通信节点动态变化,网络拓扑结构多变,易受各种入侵,其中部分隐态入侵因隐蔽性强常被误判,导致入侵检测准确度下降。因此,提出基于云计算技术的舰船通信网络异常入侵检测方法。选取Spark平台,借助Apache Spark框架的Map Reduc... 舰船行进中通信节点动态变化,网络拓扑结构多变,易受各种入侵,其中部分隐态入侵因隐蔽性强常被误判,导致入侵检测准确度下降。因此,提出基于云计算技术的舰船通信网络异常入侵检测方法。选取Spark平台,借助Apache Spark框架的Map Reduce处理方式,通过主节点对从节点进行异常入侵检测任务的调度、分发。从节点并行运行长短时记忆网络,利用遗忘门与输入门处理信息,更新记忆单元,输出异常入侵检测结果。主节点利用非线性最小二乘法构建全局异常入侵检测模型,综合从节点检测结果,最终输出舰船通信网络异常入侵检测结果。实验结果表明,该方法能够有效检测模糊攻击、泛攻击等多种舰船通信网络异常入侵行为,且网络吞吐量高于3 Mb/s,具有实际应用性。 展开更多
关键词 云计算技术 舰船通信网络 异常入侵检测 Spark平台
在线阅读 下载PDF
自适应的Spark数据均衡分区方法
18
作者 何玉林 吴东彤 黄哲学 《电子学报》 北大核心 2025年第8期2764-2778,共15页
Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化... Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化方法被提出,如迁移分区、贪心分区、反馈分区等,但往往存在数据传输量大、额外计算成本高、运行时间长等问题.为更好地缓解键倾斜分布问题带来的影响,本文提出了一种自适应的Spark数据均衡分区方法.该方法引入了奖惩思想对数据分区过程进行适当调控,同时对于数据量较大的键进行分割,使得各个分区的数据量相对均衡.该方法首先对数据采样并预估键权重.其次,按照键权重对样本数据降序排列,确保所有分区都有初始数据.再次,根据奖惩分配策略,自适应地更新各个分区的分配概率,并将待分配的键指向分配概率最高的分区.对于超过分区容量的键的数据,则分割为多个部分且指向不同分区.在所有样本数据分配完成后,获得自适应分区方案.在实际分区时,对于样本中出现的键对应的数据按照自适应分区方案进行分配;对于未出现的键对应的数据,则按照哈希方法进行分区.最后,通过实验验证,基于新方法设计的自适应均衡分区器(Adaptive Data Balanced Partitioner,ADBP)能够有效缓解键倾斜的负面影响.在真实数据集上,ADBP的WordCount程序总运行时间比自带分区器Hash、Range分别平均缩短了1.51%、29.90%,比现有基于学习自动机的自适应哈希分区器(Learning Automata Hash Partitioner,LAHP)、对倾斜的中间数据块进行拆分合并(Splitting and Combination algorithm for skew Intermediate Data block,SCID)算法、粗粒度放置和细粒度放置(Fined-Coarse Grained Intermediate Data Placement,FCGIDP)算法分别平均缩短了8.12%、21.64%、19.62%. 展开更多
关键词 数据倾斜 均衡分区 自适应分区 奖惩分配 SPARK
在线阅读 下载PDF
基于模糊自然邻的并行属性约简方法
19
作者 鞠恒荣 杨光 +4 位作者 王建涛 吕娅 李佳蓉 单婷婷 丁卫平 《南京理工大学学报》 北大核心 2025年第3期325-338,共14页
针对常见的分布式并行属性约简的方法在处理各种规模的数据集时的稳定性问题,该文提出了一种基于模糊自然邻的并行属性约简方法。该算法利用分布式计算框架,在主节点处获取数据,依据各类决策占比完成数据的划分操作,随后将处理后的数据... 针对常见的分布式并行属性约简的方法在处理各种规模的数据集时的稳定性问题,该文提出了一种基于模糊自然邻的并行属性约简方法。该算法利用分布式计算框架,在主节点处获取数据,依据各类决策占比完成数据的划分操作,随后将处理后的数据分发至相应的子节点。其次,利用双向邻居概念,结合模糊相似关系,构造自适应的模糊自然邻。然后,将模糊自然邻作为粒度,按照最大模糊差异性和最小冗余度的原则选择属性。最后,在主节点将各子节点的约简聚合,对统计后的结果进行统计排序筛选,生成最终的约简子集。实验结果表明,该文提出的算法显著提高了计算效率,同时保留了数据的关键属性,保持了约简后的分类精度。 展开更多
关键词 自然邻 属性约简 模糊关系 模糊熵 Spark分布式
在线阅读 下载PDF
Spark SQL在日志数据文件分析中的应用
20
作者 贺奇 庞晶源 +2 位作者 张羽 付琦 陈兆新 《电脑编程技巧与维护》 2025年第9期116-118,136,共4页
公司和组织在每日对系统进行运营与维护的过程中都会产生大量的日志数据文件。为了能够保持业务的高效运行,这些公司或组织往往需要分析日志文件来知道设施是否已经达到了运行潜力的最大值。简述了日志数据的收集与处理方法,讨论了Spark... 公司和组织在每日对系统进行运营与维护的过程中都会产生大量的日志数据文件。为了能够保持业务的高效运行,这些公司或组织往往需要分析日志文件来知道设施是否已经达到了运行潜力的最大值。简述了日志数据的收集与处理方法,讨论了Spark SQL在日志分析中的优势,使用Python和Spark SQL对日志数据进行探索和可视化,并进行案例说明,为运维人员准确掌握系统运行状况提供参考。 展开更多
关键词 Spark技术 日志数据 PYTHON语言
在线阅读 下载PDF
上一页 1 2 104 下一页 到第
使用帮助 返回顶部