期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
CPU和DRAM加速任务划分方法:大数据处理中Hash Joins的加速实例 被引量:3
1
作者 吴林阳 罗蓉 +1 位作者 郭雪婷 郭崎 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期289-304,共16页
硬件加速器能够有效地提高当前计算机系统的能效.然而,传统的硬件加速器(如GPU,FPGA和定制的加速器)和内存是相互分离的,加速器和内存之间的数据移动难以避免,这使得如何降低加速器和内存之间数据移动的开销成为极具挑战性的问题.随着... 硬件加速器能够有效地提高当前计算机系统的能效.然而,传统的硬件加速器(如GPU,FPGA和定制的加速器)和内存是相互分离的,加速器和内存之间的数据移动难以避免,这使得如何降低加速器和内存之间数据移动的开销成为极具挑战性的问题.随着靠近数据的处理技术(near-dataprocessing)和3D堆叠DRAM的出现,我们能够将硬件加速器集成到3D堆叠DRAM中,使得数据移动的开销大大降低.然而,由于3D堆叠DRAM对面积、功耗和散热具有严格的限制,所以不可能将一个功能复杂的硬件加速器完整地集成到DRAM中.因此,在设计内存端的硬件加速器时,应该考虑将加速任务在CPU和加速器之间合理地进行划分.以加速大数据系统中的一个关键操作hash joins为例子,阐述了CPU和内存端加速任务划分的设计思想.以减少数据移动为出发点,设计了一个包含内存端定制加速器和处理器端SIMD加速单元的混合加速系统,并对应用进行分析,将加速任务划分到不同的加速器.其中,内存端的加速器用于加速数据移动受限的执行阶段,而处理器端SIMD加速单元则用于加速数据移动开销较低成本的执行阶段.实验结果表明:与英特尔的Haswell处理器和Xeon Phi相比,设计的混合加速系统的能效分别提升了47.52倍和19.81倍.此外,提出的以数据移动为驱动的方法很容易扩展于指导其他应用的加速设计. 展开更多
关键词 3D堆叠内存 加速器 大数据 hash joins RADIX joins算法的优化版本 hash分区加速器
在线阅读 下载PDF
基于共享Cache多核处理器的Hash连接优化 被引量:4
2
作者 邓亚丹 景宁 熊伟 《软件学报》 EI CSCD 北大核心 2010年第6期1220-1232,共13页
针对目前主流的多核处理器,研究了基于共享缓存多核处理器环境下的数据库Hash连接优化.首先提出基于Radix-Join算法的Hash连接多线程执行框架,通过实例分析了影响多线程Radix-Join算法性能的因素.在此基础上,优化了Hash连接多线程执行... 针对目前主流的多核处理器,研究了基于共享缓存多核处理器环境下的数据库Hash连接优化.首先提出基于Radix-Join算法的Hash连接多线程执行框架,通过实例分析了影响多线程Radix-Join算法性能的因素.在此基础上,优化了Hash连接多线程执行框架中的各种线程及其访问共享Cache的性能,优化了聚集连接时Hash连接算法的内存访问,并分析了多线程聚集划分的加速比.基于开源数据库INGRES和EaseDB,实现了所提出的连接多线程执行框架,在实验中测试了多线程Hash连接框架的性能.实验结果表明,该算法可以有效解决Hash连接执行时共享Cache在多线程条件下的访问冲突和处理器负载均衡问题,极大地提高了Hash连接性能. 展开更多
关键词 hash连接 Radix-join 多核处理器 共享CACHE 多线程性能分析
在线阅读 下载PDF
基于列存储的MapReduce分布式Hash连接算法 被引量:8
3
作者 张滨 乐嘉锦 《计算机科学》 CSCD 北大核心 2018年第B06期471-475,505,共6页
大数据具有规模大、深度大、宽度大、处理时间短、硬件系统普通化、软件系统开源化的特点。传统关系型数据库在对大数据进行操作时存在系统性能严重下降、计算效率提升有限以及可扩展性差等问题,因此引入MapReduce并行计算模型,提出一... 大数据具有规模大、深度大、宽度大、处理时间短、硬件系统普通化、软件系统开源化的特点。传统关系型数据库在对大数据进行操作时存在系统性能严重下降、计算效率提升有限以及可扩展性差等问题,因此引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce分布式Hash连接算法。首先,设计面向大数据的分布式计算模型,在设计的分片聚集并行连接的基础上,利用Hash连接以及动态探测方法优化了数据并行连接处理效率;然后,针对该算法开发了基于Hadoop的原型系统。通过实验证明,在大数据分析处理中,所提算法在执行时间和负载能力上都有很好的性能表现,也能提供良好的可扩展性。 展开更多
关键词 大数据 列存储 hash连接 MAPREDUCE 并行计算
在线阅读 下载PDF
并行数据库中JOIN运算的并行算法 被引量:2
4
作者 黄明和 钟萃相 《计算机工程与科学》 CSCD 2006年第2期90-92,共3页
JOIN运算的并行算法一直是并行数据库领域中研究的热点问题,先后出现了一系列并行JOIN算法或改进算法,但它们都存在着通信效率较低、负载调度频繁等问题。本文针对这些问题,在分析比较前人工作的基础上对SABJ+算法与ABJ+算法加以改进,... JOIN运算的并行算法一直是并行数据库领域中研究的热点问题,先后出现了一系列并行JOIN算法或改进算法,但它们都存在着通信效率较低、负载调度频繁等问题。本文针对这些问题,在分析比较前人工作的基础上对SABJ+算法与ABJ+算法加以改进,得到了效率更高的并行JOIN算法ABJ++。 展开更多
关键词 串行join算法 并行join算法 并行hash join算法 分桶
在线阅读 下载PDF
一种避免数据偏斜的动态Hash连接方法 被引量:1
5
作者 洪晓光 王新军 董继润 《软件学报》 EI CSCD 北大核心 1997年第8期610-614,共5页
本文提出了一种新的动态Hash连接方法──DHJ(dynamichash join),以解决并行数据库连接操作中的数据偏斜现象.为避免目前某些算法提出的预处理中隐含的高额费用,该方法在划分阶段通过增添附加桶的方法来平衡输出,然后依据计算确... 本文提出了一种新的动态Hash连接方法──DHJ(dynamichash join),以解决并行数据库连接操作中的数据偏斜现象.为避免目前某些算法提出的预处理中隐含的高额费用,该方法在划分阶段通过增添附加桶的方法来平衡输出,然后依据计算确认哪些附加桶被映射到处理器上并确定处理器分配,在最后阶段完成连接.本文最后给出了该算法的性能分析. 展开更多
关键词 数据偏斜 动态hash连接法 并行数据库
在线阅读 下载PDF
阵列众核结构上的一种多层分区Hash连接算法
6
作者 石嵩 宁永波 +1 位作者 李宏亮 郑方 《计算机科学》 CSCD 北大核心 2016年第3期18-22,共5页
连接是数据查询处理中最耗时、使用最频繁的操作之一,对提高连接操作的速率具有重要意义。阵列众核处理器是一类重要的众核处理器,具有强大的并行能力,可用来加速并行计算。基于阵列众核处理器的结构,设计和优化了一种高效的多层分区Has... 连接是数据查询处理中最耗时、使用最频繁的操作之一,对提高连接操作的速率具有重要意义。阵列众核处理器是一类重要的众核处理器,具有强大的并行能力,可用来加速并行计算。基于阵列众核处理器的结构,设计和优化了一种高效的多层分区Hash连接算法。该算法通过多层划分的策略大大降低了主存访问次数,通过分区重排方法有效消除了数据倾斜的影响,获得了很高的性能。在异构融合阵列众核处理器DFMC(Deeply-Fused Many Core)原型系统上的实验结果表明,DFMC上多层分区Hash连接算法的性能是CPU-GPU耦合结构上最快的连接算法的8.0倍,表明利用阵列众核处理器加速数据查询应用具有优势。 展开更多
关键词 阵列众核 hash连接 数据倾斜 并行算法
在线阅读 下载PDF
基于DSVM的并行Hash连接算法及其性能评价
7
作者 王国仁 于戈 +1 位作者 叶峰 郑怀远 《计算机学报》 EI CSCD 北大核心 1999年第10期1032-1041,共10页
提出了一个基于分布式共享虚拟存储器技术(DSVM)的并行Hash 连接算法,然后设计了一个并行连接算法的测试评价基准,并评价和分析了该算法在均匀数据分布情况下3 种不同负载的性能比较和Zipf倾斜数据分布情况下两种调度... 提出了一个基于分布式共享虚拟存储器技术(DSVM)的并行Hash 连接算法,然后设计了一个并行连接算法的测试评价基准,并评价和分析了该算法在均匀数据分布情况下3 种不同负载的性能比较和Zipf倾斜数据分布情况下两种调度策略的算法性能. 展开更多
关键词 hash连接算法 DSVM 并行算法 数据库系统
在线阅读 下载PDF
并行JOIN算法的优化子集合调整方法
8
作者 孙文隽 李建中 李金宝 《黑龙江大学自然科学学报》 CAS 1997年第3期39-46,54,共9页
子集合调整是克服数据偏斜影响的并行HASH-JOIN算法的关键组成部分,现有的克服数据偏斜影响的HASH-JOIN算法都没有很好地解决这个问题。作者深入地研究了子集合调整问题,提出了四种子集合调整算法。理论分析和实验... 子集合调整是克服数据偏斜影响的并行HASH-JOIN算法的关键组成部分,现有的克服数据偏斜影响的HASH-JOIN算法都没有很好地解决这个问题。作者深入地研究了子集合调整问题,提出了四种子集合调整算法。理论分析和实验结果都证明,这四种算法都能够很好地解决子集合调整问题,特别是启发式优化算法OP-ADJUST在多数情况下都能给出优化解。 展开更多
关键词 数据库 子集合调整 join操作 并行join算法
在线阅读 下载PDF
基于丛生树的多流水线并行Hash连接的处理机分配算法
9
作者 昌月楼 《国防科技大学学报》 EI CAS CSCD 1998年第5期106-108,共3页
本文介绍了并行数据库中实现多流水线Hash连接的处理机分配算法。
关键词 并行数据库 hash连接 流水线 丛生树 处理机
在线阅读 下载PDF
HashMap优化及其在列存储数据库查询中的应用 被引量:9
10
作者 母红芬 李征 +1 位作者 霍卫平 金正皓 《计算机科学与探索》 CSCD 北大核心 2016年第9期1250-1261,共12页
HashMap在基本字典操作中具有常数级别的平均算法时间复杂度,广泛应用于大数据的检索。Block_HashMap(BHMap)基于C++HashMap,其优化包括三方面:哈希函数选取,冲突解决和关键字匹配。优化核心在于冲突解决时,以链地址法为基础,提出了一... HashMap在基本字典操作中具有常数级别的平均算法时间复杂度,广泛应用于大数据的检索。Block_HashMap(BHMap)基于C++HashMap,其优化包括三方面:哈希函数选取,冲突解决和关键字匹配。优化核心在于冲突解决时,以链地址法为基础,提出了一种高效利用高速缓存的存储结构Block_List来存储冲突的数据,并且预先缓存哈希值,节省匹配时间。实验证明,在桶数目充足的情况下,BHMap会多消耗少部分内存,但在桶数目有限,数据重复率比较低的情况下,时间性能上相对C++标准模板库中的Map提升10倍以上,比unordered_map快3.5倍以上,且消耗的内存与unordered_map相差不大。在列存储数据库分组和连接查询中,关键字的分桶、解决冲突和匹配操作也都涉及到基于哈希的技术,最终把BHMap应用到列存储数据库的关键查询中。 展开更多
关键词 哈希图 分组 连接 缓存感知 缓存不敏感 列存储数据库 BHMap
在线阅读 下载PDF
抗数据偏斜的高效并行join运算算法研究
11
作者 卢姝颖 朱平 《电脑知识与技术》 2008年第11期938-939,946,共3页
通过分析ABJ+算法和Hybrid hash join算法,并对两个算法进行了结合和改进,提出了一种能克服各种数据偏斜的并行二元连接运算算法,可在不同的数据偏斜情况下启动不同的模块,克服数据偏斜造成的负载不平衡现象。
关键词 并行连接 数据偏斜 并行数据库 ABJ+算法 HYBRID hashjoin算法
在线阅读 下载PDF
基于向量引用Platform-Oblivious内存连接优化技术 被引量:2
12
作者 张延松 张宇 王珊 《软件学报》 EI CSCD 北大核心 2018年第3期883-895,共13页
以MapD为代表的图分析数据库系统通过GPU、Phi等新型众核处理器来支持高性能分析处理,在面向复杂数据模式时,连接操作仍然是重要的性能瓶颈.近年来,异构处理器逐渐成为高性能计算的主流平台,内存连接性能的研究从多核CPU平台扩展到新兴... 以MapD为代表的图分析数据库系统通过GPU、Phi等新型众核处理器来支持高性能分析处理,在面向复杂数据模式时,连接操作仍然是重要的性能瓶颈.近年来,异构处理器逐渐成为高性能计算的主流平台,内存连接性能的研究从多核CPU平台扩展到新兴的众核处理器,但众多的研究成果并未系统地揭示连接算法性能、连接数据集大小、硬件架构之间的内在联系,难以为未来异构处理器平台的数据库提供连接平台优化选择策略.以面向多核CPU、Xeon Phi、GPU处理器平台的内存连接优化技术为目标,通过优化内存哈希表设计,实现以向量映射替代哈希映射操作,消除哈希代价对内存连接算法的影响,从而更加准确地测量内存连接算法在多核CPU的cache大小、Xeon Phi的cache大小、Xeon Phi的并发多线程、GPU的SIMT(单指令多线程)机制等硬件相关因素影响下的性能特征.实验结果表明,缓存与并发多线程机制是提高内存连接算法性能的重要影响因素.缓存机制对于满足cache大小的连接操作具有性能优势,而GPU的并发多线程机制则在较大表的连接操作中具有较高的性能,Xeon Phi则在满足其L2 cache大小的连接操作中具有最高性能.实验结果揭示了内存连接操作性能与异构处理器硬件特性的联系,为未来异构处理器平台内存数据库查询优化器提供了优化策略. 展开更多
关键词 内存连接操作 哈希连接 向量映射 异构处理器平台
在线阅读 下载PDF
一种利用固态盘特性的散列连接改进算法 被引量:2
13
作者 杨良怀 潘一帆 范玉雷 《小型微型计算机系统》 CSCD 北大核心 2016年第3期448-453,共6页
随着新一代存储设备固态盘的发展,如何发挥新存储设施的性能成为近年来的一个研究热点.将固态盘作为"黑盒",通过观察固态盘I/O外部特性,即考察访问粒度与访问队列深度与固态盘性能之间的关系,得出算法设计应遵循的原则,并应... 随着新一代存储设备固态盘的发展,如何发挥新存储设施的性能成为近年来的一个研究热点.将固态盘作为"黑盒",通过观察固态盘I/O外部特性,即考察访问粒度与访问队列深度与固态盘性能之间的关系,得出算法设计应遵循的原则,并应用到数据库散列连接算法的设计中.提出了并行化Grace散列连接设计方法,以及根据访问粒度、队列深度计算各阶段缓冲区大小的优化分配方法.一系列实验结果表明本文提出的并行散列连接方法能够充分发挥固态盘性能,优化的缓存分配方案可保证固态盘性能充分发挥而不浪费内存资源. 展开更多
关键词 并行散列连接 固态盘内部并行性 缓冲区分配 查询处理
在线阅读 下载PDF
利用快速无偏分层图抽样算法的MapReduce负载平衡方法 被引量:2
14
作者 杜鹃 张卓 曹建春 《计算机应用与软件》 北大核心 2021年第11期288-294,313,共8页
提出一种基于快速无偏分层图抽样的MapReduce负载平衡方法。将聚类算法融合到MapReduce连接操作中,提出MapReduce并行聚类连接算法的实现方法;根据聚类结果动态调整抽样率的无偏分层图抽样算法,从而实现连接操作目标数据的准确、平衡抽... 提出一种基于快速无偏分层图抽样的MapReduce负载平衡方法。将聚类算法融合到MapReduce连接操作中,提出MapReduce并行聚类连接算法的实现方法;根据聚类结果动态调整抽样率的无偏分层图抽样算法,从而实现连接操作目标数据的准确、平衡抽样。通过合成数据集和真实数据集下的数据处理实验,与Hash连接算法及基于NS抽样的聚类算法进行对比,验证了所提出的算法方案在不同数据倾斜程度下都具有良好的负载平衡性能,其运行效率也没有因为新采样算法的采用而受到影响。 展开更多
关键词 大数据 数据倾斜 负载平衡 无偏分层图抽样 MapReduce平台 hash连接算法 NS抽样聚类
在线阅读 下载PDF
组合盘GRACE散列连接算法 被引量:1
15
作者 杨良怀 刘明超 +1 位作者 潘一帆 吕超帅 《小型微型计算机系统》 CSCD 北大核心 2014年第3期549-554,共6页
在传统数据库系统中,I/O开销一直是连接算法性能瓶颈.固态盘具有随机读写性能高和低延迟的特性,使得利用固态盘改善连接算法I/O性能成为可能.提出基于硬盘和固态盘混合存储系统下的组合盘GRACE散列连接算法(CGHJ).CGHJ对传统GRACE散列... 在传统数据库系统中,I/O开销一直是连接算法性能瓶颈.固态盘具有随机读写性能高和低延迟的特性,使得利用固态盘改善连接算法I/O性能成为可能.提出基于硬盘和固态盘混合存储系统下的组合盘GRACE散列连接算法(CGHJ).CGHJ对传统GRACE散列连接算法分区阶段作如下改进:将固态盘作为内存和硬盘之间的缓存,位于内存的各个散列桶先写到位于固态盘的临时文件缓存;临时文件缓存满后,利用迁移缓存将固态盘中的内容转移到位于硬盘的各个分区文件.新的分区方式增大了分区过程中随机写到每个分区文件的块,减少硬盘分区过程中产生的随机I/O.实验结果显示在缓存容量较小或表的数据规模较大情况下,CGHJ能取得很好消除硬盘随机I/O的效果. 展开更多
关键词 固态盘缓存 随机I O GRACE散列连接算法 混合存储系统
在线阅读 下载PDF
外包数据库中的哈希连接一致性算法 被引量:1
16
作者 马莎 杨波 李康顺 《计算机科学》 CSCD 北大核心 2012年第2期198-202,221,共6页
外包数据库中的连接查询比范围查询更困难,因为客户端需要验证连接结果的一致性,而传统的对单个表的签名不能有效地支持对连接查询结果的直接验证。提出了使用哈希连接保证数据一致性的2种算法,它们分别通过在服务器端和客户端计算哈希... 外包数据库中的连接查询比范围查询更困难,因为客户端需要验证连接结果的一致性,而传统的对单个表的签名不能有效地支持对连接查询结果的直接验证。提出了使用哈希连接保证数据一致性的2种算法,它们分别通过在服务器端和客户端计算哈希函数来实现连接查询。给出了这2种算法的详细描述,证明了它们满足一致性要求,而且分析了算法在通信量、服务器端和客户端执行的代价。最后在实验中通过设置不同的参数对它们在服务器端和客户端的运行时间进行了比较,总结了它们在实际应用中的优缺点。 展开更多
关键词 数据库安全 外包数据库 哈希连接 数据一致性
在线阅读 下载PDF
基于DSVM和消息传递的并行哈希连接算法的性能分析 被引量:1
17
作者 方强 王国仁 +1 位作者 叶峰 于戈 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第6期583-586,共4页
基于分布式共享虚拟存储器(DSVM) 的软件设计方法是运行在网络工作站(NOW) 上的支持并行计算与分布处理的新途径,它与传统的消息传递的编程方法不同·描述了在面向对象的分布式数据库系统ShusseUo 上,用D... 基于分布式共享虚拟存储器(DSVM) 的软件设计方法是运行在网络工作站(NOW) 上的支持并行计算与分布处理的新途径,它与传统的消息传递的编程方法不同·描述了在面向对象的分布式数据库系统ShusseUo 上,用DSVM 和消息传递两种方式分别实现并行哈希连接操作的3种算法;设计了测试数据库和3 种不同的负载;并分析了DSVM 和消息传递这两种设计方法的性能·大量的测试结果表明,基于DSVM 的算法的性能比传统的消息传递的算法稍差,但DSVM 具有易编程等优点,因此在并行处理上仍是一项很有研究和开发价值的技术· 展开更多
关键词 哈希连接算法 并行连接算法 DSVM 消息传递
在线阅读 下载PDF
基于压缩直方图的劣质数据库上相似连接结果大小估计 被引量:2
18
作者 张岩 杨忠胜 +2 位作者 王宏志 高宏 李建中 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2113-2120,共8页
现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出... 现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出查询结果.鉴于该模型的特点,传统的估计查询代价的优化方法很难再适用,需要新的代价估计技术.本文提出了一种新的估计连接结果大小的方法.使用加权的最小哈希函数获得某一属性的最小哈希签名,这使得属性具有相同维数,便于利用直方图进行快速估计;然后建立其直方图,最后使用改进的离散余弦变换压缩直方图信息,使用压缩信息直接进行代价估计,这使得即使对于高维数据也能保证低错误率和低存储代价.此外,此方法可以很好的支持动态数据更新,消除周期性重建直方图的时间开销. 展开更多
关键词 劣质数据 连接估计 最小哈希签名 压缩直方图
在线阅读 下载PDF
Top-k相似连接算法性能优化 被引量:4
19
作者 王洪亚 杨利宏 刘晓强 《软件学报》 EI CSCD 北大核心 2016年第12期3051-3066,共16页
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用.现有相似连接算法有两种类型:基于相似度阈值的相似连接和Top-k相似连接.Top-k连接算法非常适合于相似度阈值未知的应用场景,目前最为有效的Top-k相似连接算法是X... 相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用.现有相似连接算法有两种类型:基于相似度阈值的相似连接和Top-k相似连接.Top-k连接算法非常适合于相似度阈值未知的应用场景,目前最为有效的Top-k相似连接算法是Xiao等人提出的Topk-join.为了解决Topk-join中存在的性能问题,提出了一种Top-k相似连接算法Opt-join,该算法将Token批处理技术集成在现有的事件驱动框架中,以降低前缀事件的处理代价;通过置换哈希查找与过滤操作的执行位置来降低哈希查找代价,并理论证明了该置换的正确性.实验结果表明:与Topk-join算法相比,Opt-join取得了1.28倍~3.09倍的性能提升.实验数据还显示:随着数据长度的增加或k值的增长,Opt-join的性能优势有不断增加的趋势. 展开更多
关键词 Top-k相似连接 事件驱动框架 Token批处理 哈希查找优化
在线阅读 下载PDF
抗偏斜的并行二元连接算法研究
20
作者 张鹏宇 睢海燕 李庆华 《华中理工大学学报》 CSCD 北大核心 1999年第4期34-36,共3页
在分析了数据偏斜特点的基础上,提出了一种抗静态和动态数据偏斜的HybridSkew算法以及代价分析模型.应用本模型对HybridSkew算法进行分析,结果表明,本算法在网络传输率和磁盘传输率较低的系统和半连接选择率较... 在分析了数据偏斜特点的基础上,提出了一种抗静态和动态数据偏斜的HybridSkew算法以及代价分析模型.应用本模型对HybridSkew算法进行分析,结果表明,本算法在网络传输率和磁盘传输率较低的系统和半连接选择率较小、有偏斜的情况下。 展开更多
关键词 并行查询 并行二元连接 数据偏斜 数据库
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部