期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于PySpark的大数据平台构建与优化研究 被引量:1
1
作者 宋昱成 周文勤 刘佳木 《电脑知识与技术》 2025年第10期76-79,共4页
针对大规模数据集分析中的性能挑战,本文基于Spark平台构建了PySpark应用层,并提出了一套性能优化策略。该策略包括数据分区优化(采用RangePartitioning)、缓存替换和持久化(基于LRU-K算法和多级缓存机制)以及并行度调整(参考最优本地... 针对大规模数据集分析中的性能挑战,本文基于Spark平台构建了PySpark应用层,并提出了一套性能优化策略。该策略包括数据分区优化(采用RangePartitioning)、缓存替换和持久化(基于LRU-K算法和多级缓存机制)以及并行度调整(参考最优本地性感知任务调度算法)。通过在模拟环境下的实验,验证了这些优化策略能够有效提升PySpark平台处理大规模数据集的性能,降低数据倾斜的影响,提高缓存命中率,并优化资源利用率。 展开更多
关键词 SPARK pyspark 大数据平台 性能优化 数据分区 缓存管理 并行度
在线阅读 下载PDF
基于Pyspark平台的协同过滤推荐算法应用与实现 被引量:2
2
作者 许文英 向强 《西南民族大学学报(自然科学版)》 CAS 2018年第2期202-207,共6页
为解决传统的基于矩阵分解协同过滤推荐算法,在大量数据的情况下,单节点计算速度慢以及特征矩阵稀疏问题,充分对大数据时代下的Pyspark大数据处理平台原理及架构进行研究,并对ALS协同过滤算法原理研究与其在Pyspark平台上的实现推荐系... 为解决传统的基于矩阵分解协同过滤推荐算法,在大量数据的情况下,单节点计算速度慢以及特征矩阵稀疏问题,充分对大数据时代下的Pyspark大数据处理平台原理及架构进行研究,并对ALS协同过滤算法原理研究与其在Pyspark平台上的实现推荐系统应用.实验结果表明,基于Pyspark平台的ALS算法,通过调节正则化参数为0.01、增加并行化分块计算的块数、减少隐含语义因子的个数,能使推荐算法的RMSE最小,并能更快速精准有效推荐给用户他们感兴趣的商品. 展开更多
关键词 pyspark 协同过滤 ALS 正则化参数
在线阅读 下载PDF
基于PySpark和Pandas融合的大数据时序分析方法 被引量:2
3
作者 黄必栋 《电子技术与软件工程》 2022年第1期201-204,共4页
本文介绍了一种基于PySpark和Pandas融合的大数据时序分析方法和应用,文中从PySpark的设计和原理出发,梳理并分析了PySpark的使用方法与性能影响,介绍了PySpark融合Python数据科学生态的最新发展。通过PySpark结合Pandas进行时序分析的... 本文介绍了一种基于PySpark和Pandas融合的大数据时序分析方法和应用,文中从PySpark的设计和原理出发,梳理并分析了PySpark的使用方法与性能影响,介绍了PySpark融合Python数据科学生态的最新发展。通过PySpark结合Pandas进行时序分析的介绍,说明了如何高效地利用Python数据科学生态进行大数据分析的方法和思路。 展开更多
关键词 pyspark SPARK 大数据分析 PANDAS 时序分析
在线阅读 下载PDF
基于FineBI的招聘信息数据分析与可视化研究 被引量:5
4
作者 王姣姣 顾珅 +1 位作者 赵淼 周怡杰 《计算机时代》 2023年第12期15-18,23,共5页
针对求职者面对招聘网站上繁杂的招聘信息而无法高效获取有参考价值信息并准确找到合适工作的情况,本文首先基于Python爬虫技术对BOSS直聘网站上互联网行业相关岗位招聘信息进行爬取,然后将获取到的招聘信息数据采用PySpark技术进行数... 针对求职者面对招聘网站上繁杂的招聘信息而无法高效获取有参考价值信息并准确找到合适工作的情况,本文首先基于Python爬虫技术对BOSS直聘网站上互联网行业相关岗位招聘信息进行爬取,然后将获取到的招聘信息数据采用PySpark技术进行数据清洗,最后利用FineBI工具对岗位数据进行可视化分析,得到岗位要求与学历、地区、薪资等存在的关系,也进行了招聘岗位和福利待遇的词云图分析。该研究结果能够直观的呈现互联网行业当前招聘现状,可为求职者提供有效参考。 展开更多
关键词 招聘信息 PYTHON pyspark FineBI 可视化分析
在线阅读 下载PDF
基于校园网网络数据分析系统的设计与实现 被引量:1
5
作者 刘海 韩冬霞 +3 位作者 程顺鑫 闫佳斌 刘家驹 刘院士 《电脑编程技巧与维护》 2024年第7期100-102,共3页
校园网面临日益增长的网络需求和使用时间相对集中的双重压力,因此科学高效的校园网网络使用数据分析对智慧校园生态体系建设具有十分重要的现实意义。针对安阳师范学院的校园网网络使用数据,展示了构建一个基于智慧校园生态体系的数据... 校园网面临日益增长的网络需求和使用时间相对集中的双重压力,因此科学高效的校园网网络使用数据分析对智慧校园生态体系建设具有十分重要的现实意义。针对安阳师范学院的校园网网络使用数据,展示了构建一个基于智慧校园生态体系的数据分析系统的全过程。该系统采用现有网络使用数据,通过Pandas库实现数据的预处理,在此基础上应用PySpark进行数据分析工作,并通过SSM框架直观展现分析结果。该系统的建立至关重要,它有助于学校合理分配网络资源和提升校园网络的整体使用效能。 展开更多
关键词 校园网网络使用数据 Pandas库 pyspark技术 SSM框架
在线阅读 下载PDF
基于智慧校园生态体系的历年普通本科录取分数数据分析系统的设计与实现
6
作者 刘海 石悦 +2 位作者 薛奕飞 张鹏阳 王立新 《电脑知识与技术》 2024年第12期74-76,共3页
高考之后,考生和家长在挑选理想院校和专业时,面对纷繁复杂的数据往往束手无策,因此开发一套能够简化数据的数据分析系统十分必要。文章阐述了根据安阳师范学院历年普通本科录取数据开发一套基于智慧校园生态体系的数据分析系统的过程,... 高考之后,考生和家长在挑选理想院校和专业时,面对纷繁复杂的数据往往束手无策,因此开发一套能够简化数据的数据分析系统十分必要。文章阐述了根据安阳师范学院历年普通本科录取数据开发一套基于智慧校园生态体系的数据分析系统的过程,该系统利用Python爬虫技术进行数据采集,使用Pandas库中的方法进行数据预处理,利用PySpark进行数据分析,利用PyEcharts进行数据可视化。该系统利用PyEcharts将数据进行图表化呈现,可以帮助高考考生们快速直观地了解院校历年录取数据,为高考考生在选择院校和专业时提供参考。 展开更多
关键词 高考录取分数分析 Hadoop伪分布式集群 pyspark PyEcharts
在线阅读 下载PDF
Big Data & DDoS ATTACKS: A Discussion of Ensemble Algorithms to Detect Cyber Attacks
7
作者 Anja Housden-Brooks 《Journal of Computer and Communications》 2024年第12期246-265,共20页
The use of machine learning algorithms to identify characteristics in Distributed Denial of Service (DDoS) attacks has emerged as a powerful approach in cybersecurity. DDoS attacks, which aim to overwhelm a network or... The use of machine learning algorithms to identify characteristics in Distributed Denial of Service (DDoS) attacks has emerged as a powerful approach in cybersecurity. DDoS attacks, which aim to overwhelm a network or service with a flood of malicious traffic, pose significant threats to online systems. Traditional methods of detection and mitigation often struggle to keep pace with the evolving nature of these attacks. Machine learning, with its ability to analyze vast amounts of data and recognize patterns, offers a robust solution to this challenge. The aim of the paper is to demonstrate the application of ensemble ML algorithms, namely the K-Means and the KNN, for a dual clustering mechanism when used with PySpark to collect 99% accurate data. The algorithms, when used together, identify distinctive features of DDoS attacks that prove a very accurate reflection of reality, so they are a good combination for this aim. Impressively, having preprocessed the data, both algorithms with the PySpark foundation enabled the achievement of 99% accuracy when tuned on the features of a DDoS big dataset. The semi-supervised dataset tabulates traffic anomalies in terms of packet size distribution in correlation to Flow Duration. By training the K-Means Clustering and then applying the KNN to the dataset, the algorithms learn to evaluate the character of activity to a greater degree by displaying density with ease. The study evaluates the effectiveness of the K-Means Clustering with the KNN as ensemble algorithms that adapt very well in detecting complex patterns. Ultimately, cross-reaching environmental results indicate that ML-based approaches significantly improve detection rates compared to traditional methods. Furthermore, ensemble learning methods, which combine two plus multiple models to improve prediction accuracy, show greatness in handling the complexity and variability of big data sets especially when implemented by PySpark. The findings suggest that the enhancement of accuracy derives from newer software that’s designed to reflect reality. However, challenges remain in the deployment of these systems, including the need for large, high-quality datasets and the potential for adversarial attacks that attempt to deceive the ML models. Future research should continue to improve the robustness and efficiency of combining algorithms, as well as integrate them with existing security frameworks to provide comprehensive protection against DDoS attacks and other areas. The dataset was originally created by the University of New Brunswick to analyze DDoS data. The dataset itself was based on logs of the university’s servers, which found various DoS attacks throughout the publicly available period to totally generate 80 attributes with a 6.40GB size. In this dataset, the label and binary column become a very important portion of the final classification. In the last column, this means the normal traffic would be differentiated by the attack traffic. Further analysis is then ripe for investigation. Finally, malicious traffic alert software, as an example, should be trained on packet influx to Flow Duration dependence, which creates a mathematical scope for averages to enact. In achieving such high accuracy, the project acts as an illustration (referenced in the form of excerpts from my Google Colab account) of many attempts to tune. Cybersecurity advocates for more work on the character of brute-force attack traffic and normal traffic features overall since most of our investments as humans are digitally based in work, recreational, and social environments. 展开更多
关键词 K-Means Clustering The KNN Algorithm pyspark Ensemble Learning Methods DDoS Attacks Veracity Malicious Traffic Alert Systems
在线阅读 下载PDF
基于PaddleOCR和Spark分布式处理技术的图片身份证号码检测系统
8
作者 张艺轩 张勇 《网络安全技术与应用》 2025年第12期42-44,共3页
为了避免师生敏感信息泄露,需要对学校网站、公众号等平台发布的海量图片进行身份证号码识别。为了准确、高效地执行这一任务,本文开发了基于PaddleOCR和Spark分布式处理技术识别身份证号码的系统。先从理论上阐述了使用PaddleOCR现有... 为了避免师生敏感信息泄露,需要对学校网站、公众号等平台发布的海量图片进行身份证号码识别。为了准确、高效地执行这一任务,本文开发了基于PaddleOCR和Spark分布式处理技术识别身份证号码的系统。先从理论上阐述了使用PaddleOCR现有模型和算法进行身份证识别的可行性,然后通过实验验证了其识别的准确率,最后运用Spark集群的分布式处理模式大幅度提升PaddleOCR的执行效率,从而达到了准确、高效、易用的任务要求。 展开更多
关键词 身份证信息识别 深度学习 PaddleOCR pyspark 分布式处理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部