期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
改进YOLOv8的道路裂缝检测 被引量:1
1
作者 斯烺 刘文忠 余和沅 《宁夏师范大学学报》 2025年第1期55-62,80,共9页
针对现有道路裂缝检测算法存在因抗干扰性差导致漏检误检的问题,提出一种改进YOLOv8的道路裂缝检测算法YOLOv8-CRD.YOLOv8-CRD通过改进的自注意力机制COT模块和RFB模块,增强特征融合能力,扩大感受野,从而提高道路裂纹特征的提取精度和... 针对现有道路裂缝检测算法存在因抗干扰性差导致漏检误检的问题,提出一种改进YOLOv8的道路裂缝检测算法YOLOv8-CRD.YOLOv8-CRD通过改进的自注意力机制COT模块和RFB模块,增强特征融合能力,扩大感受野,从而提高道路裂纹特征的提取精度和干扰信息的区分能力.基于标准RDD2022数据集的实验评估表明,相较于其他先进算法,YOLOv8-CRD算法在mAP50上达到59.4%,同时检测速度达到161FPS,展现出明显的识别精度优势. 展开更多
关键词 道路裂缝检测 注意力机制 YOLOv8 RDD2022
在线阅读 下载PDF
HIV合并胸椎椎管内Rosai-Dorfman病1例报道
2
作者 米尔扎提·艾沙 马良 +2 位作者 地里下提·阿不力孜 唐伟 古甫丁 《中国脊柱脊髓杂志》 北大核心 2025年第11期1229-1232,共4页
Rosai-Dorfman病(Rosai-Dorfman disease,RDD)是一种病因未明的窦细胞组织增生伴巨大细胞淋巴结病。RDD是一种罕见疾病,多见于儿童和青年,男性略多于女性。典型表现为双侧颈部淋巴结肿大,但约40%的病例可累及结外器官,其中中枢神经系统... Rosai-Dorfman病(Rosai-Dorfman disease,RDD)是一种病因未明的窦细胞组织增生伴巨大细胞淋巴结病。RDD是一种罕见疾病,多见于儿童和青年,男性略多于女性。典型表现为双侧颈部淋巴结肿大,但约40%的病例可累及结外器官,其中中枢神经系统受累较为少见。而HIV感染者合并椎管内RDD更是极为罕见,目前国内尚未见相关报道,其病理机制尚未完全阐明,一般认为与免疫调节异常相关,特征性表现为组织细胞(S-100蛋白、CD68阳性)的增生和细胞伸入运动emperipolesis现象(胞质内可见完整淋巴细胞)。 展开更多
关键词 ROSAI-DORFMAN病 RDD HIV 淋巴结病
原文传递
基于Spark框架的RDD数据块增益感知缓存替换策略
3
作者 贺莎 唐小勇 《计算机科学与探索》 北大核心 2025年第9期2548-2558,共11页
缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率... 缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率低等。基于此,提出一种面向Spark大数据处理框架的弹性分布式数据集(RDD)数据块增益感知缓存替换策略。该策略建立了综合考虑数据块分区大小、引用计数、计算成本和资源成本影响因子的缓存价值评估模型,用于准确评估数据块的缓存价值。提出缓存增益问题模型,以形式化描述缓存管理的优化问题。提出RDD数据块增益感知缓存替换算法(CRCA),以确保内存中的RDD数据块带来的缓存增益最大化。为验证CRCA算法的有效性,基于Spark构建了一个真实的大数据集群实验平台,并采用HiBench基准测试工具中的多样化负载进行实验评估。结果表明,提出的缓存替换算法在任务执行时间和CPU利用率方面优于现有的最近最少使用算法(LRU)和最小分区权重算法(LPW)。 展开更多
关键词 RDD数据块 缓存增益 缓存替换 Spark框架
在线阅读 下载PDF
血清胆汁酸与胃癌之间的因果关系基于断点回归设计的证据
4
作者 王燕 李嵩博 韩者艺 《细胞与分子免疫学杂志》 北大核心 2025年第6期531-535,共5页
目的本研究旨在使用断点回归设计(RDD)探索血清总胆汁酸(TBA)和胃癌(GC)之间的因果关系。方法1244例GC患者和1333例健康对照者被纳入研究,收集两组患者的一般情况、胆囊病史、肿瘤标志物和血清TBA。采用logistic回归构建风险预测模型,获... 目的本研究旨在使用断点回归设计(RDD)探索血清总胆汁酸(TBA)和胃癌(GC)之间的因果关系。方法1244例GC患者和1333例健康对照者被纳入研究,收集两组患者的一般情况、胆囊病史、肿瘤标志物和血清TBA。采用logistic回归构建风险预测模型,获得GC的风险。以血清TBA为分组变量,个体患GC的风险为结果变量进行RDD。结果GC风险预测模型中的预测因素是年龄、性别、身体质量指数(BMI)、血清TBA、癌胚抗原(CEA)、甲胎蛋白(AFP)、糖类抗原199(CA199)和CA125。血清TBA是GC的独立危险因素(OR=1.054,95%CI:1.030~1.079)。RDD结果显示,当血清TBA=8μmol/L时,患GC的概率急剧增加23.7%。有效性和稳健性检验后,断点仍具有统计学意义。结论血清TBA和GC之间存在正因果关系,当血清TBA=8μmol/L时,个体患GC的风险急剧增加。 展开更多
关键词 血清总胆汁酸 胃癌(GC) 断点回归设计(RDD)
原文传递
高效数据管理系统在大数据分析中的应用
5
作者 胡春洋 印士波 +1 位作者 刘瑞康 逯佳俊 《中国自动识别技术》 2025年第2期40-44,共5页
在大数据时代,高效的数据管理系统已成为大数据分析与应用的基础支撑。从简单的网页设计到庞大的系统构建,优化数据管理系统成为提高大数据处理效能的重要手段。本文基于大数据分析中数据管理系统的重要价值,重点介绍了Bloom Filter、Da... 在大数据时代,高效的数据管理系统已成为大数据分析与应用的基础支撑。从简单的网页设计到庞大的系统构建,优化数据管理系统成为提高大数据处理效能的重要手段。本文基于大数据分析中数据管理系统的重要价值,重点介绍了Bloom Filter、DataFrame、RDD、TDengine几种数据管理系统的工作原理和场景应用,并基于不同数据管理系统的优劣势分析,提出针对性的算法优化策略,以提升数据管理系统在大数据分析中的应用质量。 展开更多
关键词 大数据分析 高效数据管理系统 Bloom Filter DataFrame RDD TDengine
在线阅读 下载PDF
图书馆与社区合作开展阅读推广的协同机制构建研究
6
作者 隋汝欣 《中文科技期刊数据库(文摘版)图书情报》 2025年第6期037-043,共7页
本文聚焦图书馆与社区合作开展阅读推广的协同机制,运用RDD断点回归方法,对2018-2023年的季度数据进行深入分析。研究发现,文献整理效率提升对读者体验有显著正向影响,数字化技术在其中发挥重要调节作用。通过机制分析,明确了文献整理... 本文聚焦图书馆与社区合作开展阅读推广的协同机制,运用RDD断点回归方法,对2018-2023年的季度数据进行深入分析。研究发现,文献整理效率提升对读者体验有显著正向影响,数字化技术在其中发挥重要调节作用。通过机制分析,明确了文献整理效率提升路径及数字化技术的具体调节方式。基于研究结论,提出采编流程优化策略和读者服务改进方案,旨在为图书馆与社区合作的阅读推广实践提供科学有效的指导,促进全民阅读的深入开展。 展开更多
关键词 图书馆 社区合作 阅读推广 协同机制 RDD断点回归
在线阅读 下载PDF
基于Spark的大规模文本k-means并行聚类算法 被引量:14
7
作者 刘鹏 滕家雨 +1 位作者 丁恩杰 孟磊 《中文信息学报》 CSCD 北大核心 2017年第4期145-153,共9页
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统... 互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。 展开更多
关键词 K-MEANS 并行化 文本聚类 SPARK RDD Hadoop MAPREDUCE
在线阅读 下载PDF
Spark内存管理及缓存策略研究 被引量:13
8
作者 孟红涛 余松平 +1 位作者 刘芳 肖侬 《计算机科学》 CSCD 北大核心 2017年第6期31-35,74,共6页
Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试... Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试并分析了Shuffle Memory和Storage Memory的使用特点。RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区。接着,提出了一种新的RDD分布式权值缓存策略,通过RDD分区的存储时间、大小、使用次数等来分析RDD分区的权值,并根据RDD的分布式特征对需要淘汰的RDD分区进行选择。最后,测试和分析了多种缓存策略的性能。 展开更多
关键词 大数据 Spark内存管理 RDD缓存 缓存策略
在线阅读 下载PDF
基于Spark的极限学习机算法并行化研究 被引量:6
9
作者 刘鹏 王学奎 +2 位作者 黄宜华 孟磊 丁恩杰 《计算机科学》 CSCD 北大核心 2017年第12期33-37,共5页
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进... 极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。 展开更多
关键词 限学习机 并行化 SPARK RDD Hadoop MAPREDUCE
在线阅读 下载PDF
云环境下的大规模线性有限元并行实现 被引量:1
10
作者 林海铭 刘小虎 《计算力学学报》 CAS CSCD 北大核心 2017年第2期197-205,共9页
针对Hadoop MapReduce框架实现迭代算法效率不高的问题,提出了基于Spark RDDs(Resilient Distributed Datasets)的大规模线性有限元并行算法,探索在云平台上有效地实现迭代算法。在Hadoop+Spark实验室集群上,通过空间桁架进行算例验证,... 针对Hadoop MapReduce框架实现迭代算法效率不高的问题,提出了基于Spark RDDs(Resilient Distributed Datasets)的大规模线性有限元并行算法,探索在云平台上有效地实现迭代算法。在Hadoop+Spark实验室集群上,通过空间桁架进行算例验证,并与基于Hadoop MapReduce的线性有限元并行算法进行性能比较。结果表明,在本文搭建的集群上,基于RDDs的并行算法能求解15000000个自由度的空间桁架问题,远大于Hadoop平台上的3000000个自由度;对于小模型,Spark可获得200倍以上的加速比,对于大模型,获得7~8倍加速比。 展开更多
关键词 云计算 SPARK rdds 线性有限元 空间桁架 并行计算
在线阅读 下载PDF
断点回归设计方法应用的研究综述 被引量:50
11
作者 谢谦 薛仙玲 付明卫 《经济与管理评论》 CSSCI 北大核心 2019年第2期69-79,共11页
近年来,国内经济学界颇为关注断点回归设计(RDD)方法,运用RDD的文章日益增多。首先概述Lee和Lemieux (2010)提出的运用RDD的规范,然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文,归纳出运用RDD的三个新动作:新的最优... 近年来,国内经济学界颇为关注断点回归设计(RDD)方法,运用RDD的文章日益增多。首先概述Lee和Lemieux (2010)提出的运用RDD的规范,然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文,归纳出运用RDD的三个新动作:新的最优带宽确定方法、甜甜圈RDD和参数估计中最高只能使用二次多项式。以国外的RDD用法为参照,我们发现,国内熟悉Lee和Lemieux (2010)提出的规范,也在吸收国外文献中出现的新动作,但运用RDD时存在如下几个突出问题:不做适用性检验、不重视描述统计图和不交代清楚非参数估计的关键细节。建议国内运用RDD时需要增加如下动作:非参数估计应该同时尝试CV、IK和CCT三种带宽确定方法;在配置变量存在堆积现象或被操纵的可能时,使用甜甜圈RDD;尝试到四次多项式。 展开更多
关键词 断点回归设计 参数估计 非参数估计 最优带宽 甜甜圈RDD
在线阅读 下载PDF
东北地区区域开发程度演化及其资源环境影响 被引量:16
12
作者 刘艳军 王颖 《经济地理》 CSSCI 北大核心 2012年第5期37-42,共6页
良好的资源环境条件是东北地区区域开发的重要基础,在资源环境支撑下东北地区开发不断演进,通过构建并计算东北地区区域开发程度指数(RDD指数),结果表明:1995—2010年东北地区区域开发程度不断提高,特别是2003年以来,随着"振兴东北... 良好的资源环境条件是东北地区区域开发的重要基础,在资源环境支撑下东北地区开发不断演进,通过构建并计算东北地区区域开发程度指数(RDD指数),结果表明:1995—2010年东北地区区域开发程度不断提高,特别是2003年以来,随着"振兴东北"战略以及一系列投资政策和区域发展政策的实施,促进了区域开发程度的加快提升。在区域开发程度不断提高的同时,其对区域资源环境系统也产生了较大的影响,主要表现在对水土资源的消耗与占用、对能源环境的消耗与胁迫以及对环境污染的影响与促动等方面,而采取有效措施优化协调区域开发与资源环境建设的关系是实现东北地区可持续发展的关键。 展开更多
关键词 区域开发程度 RDD指数 资源环境影响 东北地区
原文传递
可燃物必需洒水密度测试系统的研制及应用 被引量:2
13
作者 于东兴 李毅 +3 位作者 刘欣 王健强 田立伟 韩光 《中国安全科学学报》 CAS CSCD 北大核心 2017年第2期36-40,共5页
为确定扑救典型场所火灾所需要的洒水密度,完善自动喷水灭火系统、优化设计及灭火效能评价的方法,搭建可燃物必需洒水密度(RDD)测试系统。系统采用整体化可拆卸结构,由布水系统、机架和控制系统组成。利用RDD测试系统,以非发泡塑料制品... 为确定扑救典型场所火灾所需要的洒水密度,完善自动喷水灭火系统、优化设计及灭火效能评价的方法,搭建可燃物必需洒水密度(RDD)测试系统。系统采用整体化可拆卸结构,由布水系统、机架和控制系统组成。利用RDD测试系统,以非发泡塑料制品生产车间为研究对象,选取中危险II级工业建筑火灾试验模型最小单元,开展RDD试验研究,观察洒水密度对火灾热释放速率(HRR)的影响。结果表明,在规定的试验条件下,中危险II级工业建筑火灾试验模型的RDD值约为10.0 mm/min。 展开更多
关键词 必需洒水密度(RDD) 可燃物 火灾试验模型 自动喷水灭火系统 实体火
原文传递
基于优化RDD分区的Spark并行K-means大尺度遥感图像分割 被引量:5
14
作者 李玉 崔书琳 赵泉华 《控制与决策》 EI CSCD 北大核心 2024年第5期1612-1619,共8页
大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设... 大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设置,尽管这种RDD设置简单便捷,但对大尺度图像分割任务容易造成“多分区、小数据”现象,极大影响图像分割速度.为此,采用覆盖部分上海市区的WorldView-3遥感图像为测试数据,在K-means算法初始化聚类中心阶段自定义影响RDD分区的参数spark.sql.shuffle.partitions,在迭代计算阶段调用coalesce()算子减少分区数;与串行K-means算法对比验证单机处理大数据的可行性与有效性,与优化前的Spark并行K-means算法对比实现了大尺度遥感图像快速分割.实验结果表明,在K-means算法初始化聚类中心和迭代计算阶段,将RDD分区数设置在CPU核数的1~10倍,总用时由优化前的145 s缩减到97 s,尤其在初始化聚类中心阶段的时间效率上,优化后是优化前的500~1 000倍. 展开更多
关键词 Spark平台 单机大数据处理 大尺度遥感图像 RDD优化 图像分割 并行K-means算法
原文传递
Spark计算引擎的数据对象缓存优化研究 被引量:3
15
作者 陈康 王彬 冯琳 《中兴通讯技术》 2016年第2期23-27,共5页
研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有... 研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有的近期最少使用(LRU)算法。通过改进缓存方法,提高了任务在资源有限情况下的运行效率,以及在不同集群环境下任务效率的稳定性。 展开更多
关键词 并行计算 缓存 SPARK RDD
在线阅读 下载PDF
并行计算框架Spark的自动检查点策略 被引量:1
16
作者 英昌甜 于炯 +2 位作者 卞琛 鲁亮 钱育蓉 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期231-235,共5页
针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DA... 针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DAG结构,获取RDD的血统长度和操作复杂度等属性,计算RDD权重;然后,CAS算法选择权重大的RDD作为检查点进行异步备份,来实现数据的快速恢复.结果表明:在使用CAS算法时,不同数据集执行时间和检查点容量大小都有所增加,其中Wiki-Talk由于其计算量较大,增幅明显;使用CAS算法设置检查点后,在单点失效恢复的情况下,数据集的恢复时间较短.因此,自动检查点策略在略微增加执行时间开销的基础上,能够有效地降低作业的恢复开销. 展开更多
关键词 自动检查点 RDD权重 SPARK 恢复时间
在线阅读 下载PDF
我国P2P网贷平台成交量的政策效应研究——基于平台类型与地区的差异 被引量:5
17
作者 王雄 邹铃 《金融理论与实践》 北大核心 2019年第9期49-59,共11页
基于99个P2P网络借贷平台的日度面板数据,采用RDD方法和中介效应模型分析2018年4月开展的整改验收工作对P2P平台成交量的作用机理,并考虑因平台类型与地区不同对该政策作用所产生的差异。结果表明,P2P平台成交量受多个因素影响,整改验... 基于99个P2P网络借贷平台的日度面板数据,采用RDD方法和中介效应模型分析2018年4月开展的整改验收工作对P2P平台成交量的作用机理,并考虑因平台类型与地区不同对该政策作用所产生的差异。结果表明,P2P平台成交量受多个因素影响,整改验收政策的实施并未直接作用于平台成交量,而是通过影响已有投资者的信心,促使投资者选择短期借贷标的或者离场,最终减少平台成交量,平台类型与地区的不同使得政策及其他影响因素对平台成交量的作用效果均存在一定差异。基于此,分别针对平台、投资者及监管方提出了相应的建议。 展开更多
关键词 P2P平台成交量 平台类型 地区差异 政策冲击 RDD分析
在线阅读 下载PDF
基于自定义RDD的海量遥感图像并行镶嵌方法 被引量:4
18
作者 景维鹏 霍帅起 《地球信息科学学报》 CSCD 北大核心 2017年第10期1346-1354,共9页
图像镶嵌是遥感图像处理中的重要内容,在跨区域遥感图像分析中发挥重要作用。为了解决传统遥感图像并行算法中存在的计算节点利用率低、频繁数据I/O等问题,本文根据Spark分布式内存计算框架,充分利用Spark利于迭代数据处理的优势,提出... 图像镶嵌是遥感图像处理中的重要内容,在跨区域遥感图像分析中发挥重要作用。为了解决传统遥感图像并行算法中存在的计算节点利用率低、频繁数据I/O等问题,本文根据Spark分布式内存计算框架,充分利用Spark利于迭代数据处理的优势,提出了一种基于Spark自定义RDD(弹性分布式数据集)的并行镶嵌方法。该方法首先在集群的多个节点上通过相位相关法执行图像重叠区域估计操作,从而提高了图像重叠区域估计的多节点并行计算;然后,通过重写Spark中RDD的compute和get Partitions方法,自定义针对遥感图像处理的RDD,并将图像镶嵌中的重叠区域估计、图像配准和图像融合3个关键步骤作为自定义RDD的Transformation类型的操作算子;最后,通过隐式转换创建自定义RDD,并调用自定义RDD的操作算子实现图像镶嵌的并行处理。实验结果表明,与传统基于MPI的并行镶嵌算法相比,该方法在保证图像镶嵌效果的基础上,能够有效提高大数据量的图像镶嵌效率。 展开更多
关键词 遥感图像 并行镶嵌 SPARK 相位相关法 自定义RDD
原文传递
Spark框架下地震属性处理方法研究 被引量:4
19
作者 朱丽萍 王建东 +1 位作者 李洪奇 赵艳红 《计算机与数字工程》 2018年第8期1620-1626,共7页
为解决单机环境下地震属性计算处理效率低下问题,提出基于分布式并行框架Spark的地震属性迭代处理方法,构建满足并行计算需求的地震属性文件结构,然后将存储于HDFS上的地震属性数据以分布式弹性数据集(RDD)的形式读入内存,使用Spark将... 为解决单机环境下地震属性计算处理效率低下问题,提出基于分布式并行框架Spark的地震属性迭代处理方法,构建满足并行计算需求的地震属性文件结构,然后将存储于HDFS上的地震属性数据以分布式弹性数据集(RDD)的形式读入内存,使用Spark将涉及多次迭代的地震属性计算过程转化为数据转移DAG图并分步执行,整个计算过程在内存中完成多次迭代后再将结果持久化到磁盘,相比于Hadoop Map Reduce和传统的单机处理过程避免了每次迭代时中间结果的磁盘IO,极大地提高了处理效率。将此方法应用于曲率属性的二维高斯迭代滤波处理过程,有效提升了地震属性处理效率。实验表明随着数据量和迭代次数增加,同样的处理过程在Spark下比Hadoop Map Reduce下的计算效率能够提升10倍左右。 展开更多
关键词 地震属性分析 SPARK RDD MAPREDUCE 迭代计算
在线阅读 下载PDF
K-means聚类算法在Spark平台上的应用 被引量:4
20
作者 程国建 赵倩倩 《软件导刊》 2016年第2期146-148,共3页
随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平... 随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K-means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。 展开更多
关键词 聚类算法 HADOOP SPARK RDD K-MEANS算法
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部