期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于Spark GraphX的交通动态图谱分析与优化 被引量:1
1
作者 胡晶 《电脑与信息技术》 2025年第2期69-73,85,共6页
随着城市交通系统的日益复杂,传统的路径规划方法已经难以满足现实需求。基于此,借助大数据处理和图计算技术,构建了基于Spark GraphX的实时交通动态图谱,并通过图算法进行深入分析与优化,以城市中的交叉路口和道路为节点和边,以实时交... 随着城市交通系统的日益复杂,传统的路径规划方法已经难以满足现实需求。基于此,借助大数据处理和图计算技术,构建了基于Spark GraphX的实时交通动态图谱,并通过图算法进行深入分析与优化,以城市中的交叉路口和道路为节点和边,以实时交通数据动态更新图谱,实时反映城市交通状况的变化。利用并行计算框架的实时性特点,应用Spark GraphX的最短路径计算和PageRank算法,提出了对交通网络中的重要性节点和路径优化的算法改进,为交通流的优化提供了可能。通过可视化工具展示图谱的动态变化,以更清晰地了解交通系统的运行状况。 展开更多
关键词 spark graphx 交通动态图谱 最短路径 PAGERANK
在线阅读 下载PDF
一种Spark GraphX框架下的关键词抽取方法 被引量:3
2
作者 程传鹏 《小型微型计算机系统》 CSCD 北大核心 2019年第2期328-331,共4页
TextRank算法根据文本词语的位置关系构造图,应用图排序的算法计算出词语的权重,在计算过程中需要进行大量的迭代运算,在数据规模较大的时候,计算时间尤为可观.针对此问题,提出了一种基于Spark GraphX的关键词抽取方法,利用Spark GarpX... TextRank算法根据文本词语的位置关系构造图,应用图排序的算法计算出词语的权重,在计算过程中需要进行大量的迭代运算,在数据规模较大的时候,计算时间尤为可观.针对此问题,提出了一种基于Spark GraphX的关键词抽取方法,利用Spark GarpX所提供的分布式计算的图框架,将文本图数据分布式存储在不同的节点上,高效地实现了文本关键词的抽取.实验表明,本文中提出的基于Spark GraphX的关键词抽取方法,不仅计算时间短,抽取的关键词与人工标注的结果非常接近,具有一定的合理性. 展开更多
关键词 spark graphx 关键词提取 图排序 词语权重
在线阅读 下载PDF
基于Spark GraphX的异构网络社区检测 被引量:1
3
作者 包文瑞 《信息技术》 2019年第8期62-65,共4页
大多数社区检测任务仅适用于小型数据集,未能考虑大数据的快速并行处理。文中提出并改进了一种基于Spark GraphX的异构网络社区检测方法,解决了大型网络数据的并行性问题。其次,改进和优化了用于异构网络中社区检测的RankClus算法,将改... 大多数社区检测任务仅适用于小型数据集,未能考虑大数据的快速并行处理。文中提出并改进了一种基于Spark GraphX的异构网络社区检测方法,解决了大型网络数据的并行性问题。其次,改进和优化了用于异构网络中社区检测的RankClus算法,将改进后的基于Spark GraphX的算法进行并行优化。最后给出了并行算法的实验结果,比较了不同的实验结果,证明了该方法的有效性和适用性。 展开更多
关键词 异构网络 spark graphx RankClus算法 社区检测 并行计算
在线阅读 下载PDF
KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法 被引量:11
4
作者 高旭 桂志鹏 +3 位作者 隆玺 栗法 吴华意 秦昆 《地理与地理信息科学》 CSCD 北大核心 2017年第6期1-7,共7页
DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实... DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实际应用的效率需求。为此,该文提出一种性能改进的分布式并行聚类算法——KDSG-DBSCAN。该算法利用K-D Tree邻域查询减少点间距离计算次数,利用图连通算法优化局部类簇合并过程,并基于Apache Spark MapReduce平台实现了计算过程的并行化。通过4组对比实验,分析了KDSGDBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率、KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性以及不同计算节点数量和CPU核数下KDSG-DBSCAN的扩展性。结果表明,KDSG-DBSCAN算法具有良好的可扩展性和加速比。 展开更多
关键词 DBSCAN K-D TREE MAPREDUCE spark graphx 空间大数据聚类
在线阅读 下载PDF
基于Spark GraphX和社交网络大数据的用户影响力分析 被引量:10
5
作者 文馨 陈能成 肖长江 《计算机应用研究》 CSCD 北大核心 2018年第3期830-834,共5页
利用社交网络大数据进行用户影响力分析,有助于识别网络环境中影响力强的用户实现其社会和商业价值。传统方法无法高效处理海量社交网络数据,定量准确地分析用户影响力,为解决该问题,提出一种基于PageRank算法的改进的用户影响力评价模... 利用社交网络大数据进行用户影响力分析,有助于识别网络环境中影响力强的用户实现其社会和商业价值。传统方法无法高效处理海量社交网络数据,定量准确地分析用户影响力,为解决该问题,提出一种基于PageRank算法的改进的用户影响力评价模型。综合考虑了用户连接程度和活跃程度,并以支持大规模并行图计算的Spark Graph X为工具,快速高效地实现了微博用户影响力的定量分析与评价。实验结果表明,所提方法效率更高,得到的用户影响力结果更接近真实情况。 展开更多
关键词 数据挖掘 社交网络大数据 spark graphx 用户影响力分析
在线阅读 下载PDF
基于SPARK GraphX的YELP社区发现研究
6
作者 袁丽娜 王红勤 潘正军 《电子技术与软件工程》 2021年第10期209-211,共3页
本文重点研究了复杂网络中的社区发现问题,并采用Spark GraphX对YELP数据集进行社区发现实现及可视化。YELP社交网络属于复杂网络中的无标度网络结构,其特征是网络中的大部分节点只和很少节点连接,其社区结构的发现对于后续研究其社交... 本文重点研究了复杂网络中的社区发现问题,并采用Spark GraphX对YELP数据集进行社区发现实现及可视化。YELP社交网络属于复杂网络中的无标度网络结构,其特征是网络中的大部分节点只和很少节点连接,其社区结构的发现对于后续研究其社交网络中信息传播具有一定的实际意义。 展开更多
关键词 复杂网络 社区发现 spark graphx 网络结构
在线阅读 下载PDF
Spark GraphX上的SPARQL查询处理算法
7
作者 邱慧 邹兆年 《计算机科学与探索》 CSCD 北大核心 2018年第9期1361-1371,共11页
资源描述框架(resource description framework,RDF)由于其表示的灵活性和天然的图数据模型而变得越来越流行。与此同时,RDF数据的数据量也在以惊人的速度增长。由于数据量的增长,在单机上存储和查询RDF数据变得越来越不方便,从而激发... 资源描述框架(resource description framework,RDF)由于其表示的灵活性和天然的图数据模型而变得越来越流行。与此同时,RDF数据的数据量也在以惊人的速度增长。由于数据量的增长,在单机上存储和查询RDF数据变得越来越不方便,从而激发了分布式存储查询的需求。学术界在分布式存储查询系统,例如Hadoop、Spark上已经做了大量的工作。基于Hadoop的分布式存储查询方式的主要缺点是中间结果需要被写回磁盘,从而产生大量的I/O操作。提出了一种新的在Spark Graph X上进行SPARQL查询评估的方法SQX,将RDF数据视为一个带标签的属性图,提出了一种新的查询计划生成方案并且通过图并行的方式实现SPARQL查询评估。SQX采用了一种"查询树匹配"+"结果过滤"的方法。针对每一个SPARQL查询,产生相应的查询树和约束条件。在每一轮的超级步中,查询树中的多条边可以被并行处理,对迭代执行完毕后的结果进行过滤,满足约束条件的将作为最终的结果。实验结果表明,算法能够有效处理SPARQL查询并且具有良好的可扩展性。 展开更多
关键词 属性图 SPARQL查询 spark graphx 查询树
在线阅读 下载PDF
Optimization of fault tolerance for iterative graph algorithm in spark GraphX based on high performance computing cluster
8
作者 Mengsi He Zhongming Fu Wenlong Tian 《CCF Transactions on High Performance Computing》 2025年第5期465-477,共13页
GraphX is a graph computing library based on Spark systems,where fault tolerance is a necessary guarantee for the high availability.However,the existing fault tolerance methods are mostly implemented in a pessimistic ... GraphX is a graph computing library based on Spark systems,where fault tolerance is a necessary guarantee for the high availability.However,the existing fault tolerance methods are mostly implemented in a pessimistic way and are aimed at general computing tasks.Considering the characteristics of iterative computation,this paper presents a combination method of the optimistic fault tolerance and checkpoint for recovering the data under different failure conditions.Firstly,for single node failure,we propose the optimistic fault tolerance mechanism based on compensation function.It does not add fault tolerance measures in advance and will not incur additional costs when there are no failures.Secondly,for multiple node failures,we propose the automatic checkpoint management strategy based on RDD importance.It comprehensively considers the factors of lineage length of RDD,dependency relationship,and computation time of RDD,which can set the RDD as the checkpoint properly.Finally,we implement our proposals in GraphX of Spark−3.5.1,and evaluate the performance by using representative iterative graph algorithms on the high performance computing cluster.The results verify the correctness of iteration results of the mechanism,and illustrate that when recovering the RDD partition,the job execution time can be reduced by the mechanism and strategy substantially. 展开更多
关键词 Fault tolerance Iterative graph algorithm spark graphx High performance computing
在线阅读 下载PDF
Spark框架的Graphx算法研究 被引量:4
9
作者 陈虹君 《电脑知识与技术》 2015年第1期75-77,共3页
随着搜索引擎对网页的排名的需要,以及社交网络的兴起,海量关系所产生的大数据需要得到处理。图计算在数据关系的分析上发挥着其巨大的潜能。Spark框架是Hadoop大数据平台上整合能力强,处理速度快的内存模型框架,它的图处理Graphx也得... 随着搜索引擎对网页的排名的需要,以及社交网络的兴起,海量关系所产生的大数据需要得到处理。图计算在数据关系的分析上发挥着其巨大的潜能。Spark框架是Hadoop大数据平台上整合能力强,处理速度快的内存模型框架,它的图处理Graphx也得到快速发展。该文先介绍Spark框架与Graphx的关系与发展。接着分析了Graphx中的三个典型的算法。最后总结了Graphx的场景应用。 展开更多
关键词 大数据 HADOOP spark 图计算 graphx PAGE RANK
在线阅读 下载PDF
Spark的图计算框架:GraphX 被引量:5
10
作者 孙海 《现代计算机》 2017年第6期120-122,127,共4页
Spark是UC Berkeley AMP Lab所开源的类Hadoop MapReduce的通用并行框架,是专为大规模数据处理而设计的快速通用的计算引擎,在如今的大数据环境下,Spark所发挥的作用正越来越大。介绍Spark的图计算框架GraphX。
关键词 spark 并行 大数据 graphx
在线阅读 下载PDF
基于Spark/GraphX图聚类算法的入室盗窃串并案研究
11
作者 鲍世方 《计算机应用与软件》 2017年第9期108-113,共6页
随着我国城镇化进程的不断加速,广泛的人口流动使社会治安环境日趋复杂,犯罪分子系列性作案居高不下,给人民的生命财产安全构成极大的威胁。针对刑事犯罪活动中日益突出的系列入室盗窃案件,提出采用图聚类算法来进行串并案分析。首先利... 随着我国城镇化进程的不断加速,广泛的人口流动使社会治安环境日趋复杂,犯罪分子系列性作案居高不下,给人民的生命财产安全构成极大的威胁。针对刑事犯罪活动中日益突出的系列入室盗窃案件,提出采用图聚类算法来进行串并案分析。首先利用Spark/Graph X分布式图计算框架,通过提取入室盗窃案的案件特征,计算两两案件之间的相似度,构建案件相似度矩阵;然后依据图论理论,采用图聚类算法实现串并案分析模型。实战工作表明该模型可为侦破案件提供有效的串并线索,极大地减少人工作业,提高了侦查工作的效率。 展开更多
关键词 spark graphx 图聚类算法 入室盗窃 串并案
在线阅读 下载PDF
基于Spark的大规模社交网络社区发现原型系统 被引量:9
12
作者 叶小榕 邵晴 《科技导报》 CAS CSCD 北大核心 2018年第23期93-101,共9页
为有效发掘大规模社交网络上的用户信息,提高对用户之间关系的深入了解,设计开发了基于Spark的大规模社交网络社区发现原型系统。系统利用ActiveMQ实现对大量用户数据的抓取,使用基于Spark的MLlib提供的朴素贝叶斯算法对用户数据进行清... 为有效发掘大规模社交网络上的用户信息,提高对用户之间关系的深入了解,设计开发了基于Spark的大规模社交网络社区发现原型系统。系统利用ActiveMQ实现对大量用户数据的抓取,使用基于Spark的MLlib提供的朴素贝叶斯算法对用户数据进行清洗,利用Spark的GraphX提供的PageRank算法和MLlib提供的Z-Score算法计算用户排名,最终应用并优化LPA算法,将特征相近、联系较密切的用户快速地划分到同一社区中,为进一步分析利用社区用户数据打下了基础。 展开更多
关键词 spark graphx MLlib 社区发现
原文传递
一种有效的基于GraphX的分布式结构化图聚类算法 被引量:3
13
作者 时生乐 赵宇海 +2 位作者 李源 印莹 王国仁 《计算机科学与探索》 CSCD 北大核心 2018年第10期1571-1582,共12页
结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需... 结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需要大量的磁盘I/O开销,极大增加了算法的运行时间。针对以上问题,主要工作和贡献点如下:(1)提出两个削减规则,第一个削减规则用来减少邻接顶点之间相似性计算次数,第二个削减规则通过非精确计算邻接顶点间的相似性来减少计算时间。(2)提出一种基于Spark中GraphX的结构化图聚类算法GXDSGC,该算法在运行期间不需要大量的磁盘I/O开销。(3)通过在大量真实数据集和合成数据集上的实验,证实提出的GXDSGC算法的有效性。GXDSGC算法比基于Hadoop中MapReduce框架的算法快30多倍,能够显著提高结构化图聚类在大图数据分析中的效率。 展开更多
关键词 spark graphx 分布式计算 图聚类 社区结构
在线阅读 下载PDF
基于GraphX的社交网络用户推荐算法研究 被引量:1
14
作者 杨文杰 周志刚 +1 位作者 雷欢 杨慧莉 《自动化与信息工程》 2018年第1期27-31,共5页
针对PageRank等传统算法在分析大规模分布式集群数据过程中存在耗时长、推荐不精准等问题,提出一种基于GraphX的社交网络用户推荐算法,以期提升用户体验。综合搜索引擎中的相互超链接计算技术,采用PageRank算法和GraphX组件中的Triangle... 针对PageRank等传统算法在分析大规模分布式集群数据过程中存在耗时长、推荐不精准等问题,提出一种基于GraphX的社交网络用户推荐算法,以期提升用户体验。综合搜索引擎中的相互超链接计算技术,采用PageRank算法和GraphX组件中的Triangle Counting算法等建立评估模型,并利用该模型用户间的活跃度和网络关联度等关键参数来获取用户好友推荐表。通过Sougou数据对模型进行验证,并与单一的PageRank算法模型进行对比分析,结果表明:算法评估模型运行速度和推荐率有显著提升,推荐用户好友更接近真实情况。 展开更多
关键词 社交网络 分布式集群 spark平台 graphx组件 PAGERANK算法
在线阅读 下载PDF
GraphX图模型智能软件死码发现机制
15
作者 刘文静 王洪彬 《福建电脑》 2020年第6期87-89,共3页
本文在对GraphX图处理技术进行系统研究的基础上,提出了一种软件死码发现机制。运行软件源代码,生成函数调用关系,利用本文机制发现在程序操作过程中永远不可能被执行到的代码,即软件死码。利用CodeViz对100个左右的源代码文件进行筛选... 本文在对GraphX图处理技术进行系统研究的基础上,提出了一种软件死码发现机制。运行软件源代码,生成函数调用关系,利用本文机制发现在程序操作过程中永远不可能被执行到的代码,即软件死码。利用CodeViz对100个左右的源代码文件进行筛选需要1个多小时的运算时间。而使用本文机制有效提高了死码的发现效率,可以将运算效率提升数倍。 展开更多
关键词 graphx 软件死码 函数调用关系
在线阅读 下载PDF
一种解决专用道设置问题的分布式蚁群算法实现
16
作者 曹明 《科学技术创新》 2021年第4期66-69,共4页
本文介绍了LRP(专用道设置问题)的研究背景,阐述了LRP的数学模型,为求解一个基于2010年广州亚运会的运动员驻地到比赛场馆的专用道设置问题的算例,设计了一个基于Spark计算框架的分布式蚁群算法。通过实验分析,得到了算例的两个次优解,... 本文介绍了LRP(专用道设置问题)的研究背景,阐述了LRP的数学模型,为求解一个基于2010年广州亚运会的运动员驻地到比赛场馆的专用道设置问题的算例,设计了一个基于Spark计算框架的分布式蚁群算法。通过实验分析,得到了算例的两个次优解,能够满足赛会要求的行程时间限制,同时不影响城市交通。实验进一步分析了在大规模问题下,随着网络顶点的增加,顶点个数和运算时间存在多项式关系。 展开更多
关键词 专用道设置 启发式算法 蚁群算法 spark spark graphx
在线阅读 下载PDF
关联影响力传播最大化方法 被引量:6
17
作者 张云飞 李劲 +2 位作者 岳昆 罗之皓 刘惟一 《计算机科学与探索》 CSCD 北大核心 2018年第12期1891-1902,共12页
社会网络中影响力传播最大化是社会网络分析领域所关注的重要问题。针对多个影响力同时进行传播,且影响力间存在传播促进的情况,提出关联影响力传播最大化问题。首先,对经典线性阈值模型进行扩展,提出关联影响力线性阈值模型对关联影响... 社会网络中影响力传播最大化是社会网络分析领域所关注的重要问题。针对多个影响力同时进行传播,且影响力间存在传播促进的情况,提出关联影响力传播最大化问题。首先,对经典线性阈值模型进行扩展,提出关联影响力线性阈值模型对关联影响力传播过程进行建模;其次,定义了关联影响力传播最大化问题,证明了该问题是NP-hard的,以及问题目标函数满足子模性;再次,针对该问题提出基于结点激活贡献估计的求解算法;然后,利用结点激活贡献估计存在相互独立性,进一步提出了并行化求解算法,并在Spark GraphX并行图计算框架上实现了该算法;最后,在真实的社会网络数据集上,通过实验测试验证了所提出方法的有效性。 展开更多
关键词 社会网络分析 影响力传播最大化 关联影响力传播最大化 线性阈值模型 spark graphx
在线阅读 下载PDF
基于Pregel模型的分布式图着色算法 被引量:2
18
作者 甘瀛 王鑫 +1 位作者 冯志勇 杨雅君 《计算机科学与探索》 CSCD 北大核心 2018年第6期886-897,共12页
图着色问题一直是计算机科学和数学领域最著名和经典的研究问题之一。由于目前图数据规模的不断增加,单机图着色算法性能受到限制。现有的分布式图着色算法大多基于共享内存的消息传递模型,而无共享Pregel计算模型的提出与发展提高了大... 图着色问题一直是计算机科学和数学领域最著名和经典的研究问题之一。由于目前图数据规模的不断增加,单机图着色算法性能受到限制。现有的分布式图着色算法大多基于共享内存的消息传递模型,而无共享Pregel计算模型的提出与发展提高了大规模图数据的处理能力,其已成为现今大数据处理的主流框架之一,但尚缺少将现有的分布式图着色算法适配到Pregel模型进行算法研究与实验比较的工作。为了提高图着色算法的性能,受经典图着色算法MIS(maximal-independent-set)启发,设计了一种基于Pregel模型的分布式图着色算法MIS-Pregel。结合着色时间和所需颜色数等方面提出了两种不同的优化策略,第一种优化策略基于JP算法,第二种优化策略基于LDF算法。在实现了主流图数据处理模型Pregel的Spark Graph X框架下开发了上述MIS-Pregel算法和两种改进算法JP-Pregel和LDF-Pregel。在合成数据集和真实数据集上进行了实验,大量实验结果表明所提分布式图着色算法能够高效地完成图着色任务,且JP-Pregel算法和LDF-Pregel算法的着色时间比MIS-Pregel算法分别平均缩短了26.4%和30.9%。 展开更多
关键词 分布式图着色 Pregel模型 spark graphx
在线阅读 下载PDF
基于社交关系和用户偏好的多样性图推荐方法 被引量:7
19
作者 石进平 李劲 和凤珍 《计算机科学》 CSCD 北大核心 2018年第B06期423-427,共5页
以协同过滤为代表的传统推荐算法能够为用户提供准确率较高的推荐列表,但忽略了推荐系统中另外一个重要的衡量标准:多样性。随着社交网络的日益发展,大量冗余和重复的信息充斥其间,信息过载使得快速、有效地发现用户的兴趣爱好变得更加... 以协同过滤为代表的传统推荐算法能够为用户提供准确率较高的推荐列表,但忽略了推荐系统中另外一个重要的衡量标准:多样性。随着社交网络的日益发展,大量冗余和重复的信息充斥其间,信息过载使得快速、有效地发现用户的兴趣爱好变得更加困难。针对某个用户推荐最能满足其兴趣爱好的物品,需要具备显著的相关度且能覆盖用户广泛的兴趣爱好。因此,基于社交关系和用户偏好提出一种面向多样性和相关度的图排序框架。首先,引入社交关系图模型,综合考虑用户及物品之间的关系,以更好地建模它们的相关度;然后,利用线性模型融合多样性和相关性两个重要指标;最后,利用Spark GraphX并行图计算框架实现该算法,并在真实的数据集上通过实验验证所提方法的有效性和扩展性。 展开更多
关键词 多样性 相关性 社交网络 个性化推荐系统 spark graphx
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部