期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于Impala的大数据查询分析计算性能研究 被引量:12
1
作者 郭超 刘波 林伟伟 《计算机应用研究》 CSCD 北大核心 2015年第5期1330-1334,共5页
分析了Cloudera公司推出的Impala实时查询引擎原理与架构,并深入比较Impala与传统MapReduce的性能与特点,针对Impala进行复杂大数据处理方面的不足,提出了MapReduce与Impala结合的大数据处理方法,通过使用MapReduce对Impala的输入数据... 分析了Cloudera公司推出的Impala实时查询引擎原理与架构,并深入比较Impala与传统MapReduce的性能与特点,针对Impala进行复杂大数据处理方面的不足,提出了MapReduce与Impala结合的大数据处理方法,通过使用MapReduce对Impala的输入数据进行预处理,利用MapReduce在复杂作业处理方面的长处弥补了Impala在这方面的不足。最后对电信手机上网日志进行大数据查询和分析计算实验,实验结果表明,在大数据查询性能方面,基于MapReduce与Impala结合的大数据处理速度比传统MapReduce快了一倍。特别地,在迭代查询实验中,基于MapReduce与Impala结合的处理方法超过传统MapReduce方法八倍以上。基于MapReduce与Impala结合的处理方法在单次查询中的效率仍然高于传统MapReduce;而在迭代查询中,MapReduce与Impala结合的处理方法远远地超过了MapReduce。因此,MapReduce与Impala结合的处理方法能够发挥Impala和Hadoop各自的优点,让处理效率远超传统MapReduce,对于复杂的大数据处理的能力高于Impala。 展开更多
关键词 大数据 HADOOP MAPREDUCE impala 计算性能 查询分析
在线阅读 下载PDF
基于改进DPhyp算法的Impala查询优化 被引量:3
2
作者 周强 陈岭 +3 位作者 马骄阳 赵宇亮 吴勇 王敬昌 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期114-120,共7页
针对目前基于动态规划查询超图(dynamic programming hypergraphs,DPhyp)优化SQL查询算法产生指数运行时间、传统代价模型难以直接适用于Impala大数据实时查询系统等问题,提出基于改进DPhyp算法的Impala查询优化方法.首先,构建满足左线... 针对目前基于动态规划查询超图(dynamic programming hypergraphs,DPhyp)优化SQL查询算法产生指数运行时间、传统代价模型难以直接适用于Impala大数据实时查询系统等问题,提出基于改进DPhyp算法的Impala查询优化方法.首先,构建满足左线性树的搜索策略,缩小整个执行计划的搜索空间;接着,综合考虑数据移动代价及Hash join算法运行等关键因素,结合提出的代价模型,生成最佳的join顺序;最后,在生成的join顺序基础上构建执行计划,执行后返回最终查询结果.大量实验结果表明,改进的DPhyp算法与DPhyp生成的join顺序一致,且前者算法运行效率比后者要快近一倍.另外,改进的DPhyp算法结合提出的代价模型,比原始的Impala查询响应时间平均减少67%~80%. 展开更多
关键词 查询超图 代价模型 impala大数据实时查询 左线性树 执行计划
在线阅读 下载PDF
基于浓密树和改进McCHyp算法的Impala查询优化 被引量:1
3
作者 马骄阳 陈岭 +3 位作者 赵宇亮 杨谊 吴勇 王敬昌 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期39-47,共9页
针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的MinCutConservative Hypergraph(McCHyp)算法的Impala查询优化方法.首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减... 针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的MinCutConservative Hypergraph(McCHyp)算法的Impala查询优化方法.首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减少查询优化的时间;最后,提出一种适用于Impala的代价模型,并将改进的McCHyp算法集成到Impala中,根据用户的SQL语句生成较优的查询计划.在Impala系统上实现了本文提出的查询优化方法并在TPC-H数据集上进行了实验,结果表明改进的McCHyp算法与McCHyp算法对连接超图的优化结果一致,且前者的运行时间减少了43.82%~62.55%.同时,使用改进的McCHyp算法及新的代价模型对查询语句优化后,查询响应时间较原始的Impala系统减少了79.60%. 展开更多
关键词 查询优化 impala 代价模型 浓密树 查询计划
在线阅读 下载PDF
基于Hive和Impala的物流运力供应链数据仓库研究 被引量:3
4
作者 任春华 廖雪花 +2 位作者 唐思娩 严余松 孙尉筌 《物流技术》 2016年第1期124-126,共3页
针对物流行业中传统数据库在海量数据存储和交互性查询方面的不足,提出了基于Hive和Impala物流运力供应链数据仓库的构建方法,可以实现快速查询。最后搭建阿里云上的PC集群,对海量供应链数据进行查询分析测试,表明该数据仓库能满足海量... 针对物流行业中传统数据库在海量数据存储和交互性查询方面的不足,提出了基于Hive和Impala物流运力供应链数据仓库的构建方法,可以实现快速查询。最后搭建阿里云上的PC集群,对海量供应链数据进行查询分析测试,表明该数据仓库能满足海量物流运力供应链数据存储以及查询方面的需求。 展开更多
关键词 Hive impala 物流运力供应链 海量数据 数据仓库
在线阅读 下载PDF
配电网监测大数据的Impala快速查询技术 被引量:10
5
作者 屈志坚 陈鼎龙 巩奇 《电力科学与技术学报》 CAS 北大核心 2018年第2期148-156,共9页
针对目前配电网监测大数据SQL交互查询速度慢的问题,对配电网监测数据类型进行归类整理,利用Impala分布式处理工具重点研究一种监测大数据的MPP快速查询技术。通过协调节点将查询计划解析为执行计划树,将计划树的片段分配至多个从节点... 针对目前配电网监测大数据SQL交互查询速度慢的问题,对配电网监测数据类型进行归类整理,利用Impala分布式处理工具重点研究一种监测大数据的MPP快速查询技术。通过协调节点将查询计划解析为执行计划树,将计划树的片段分配至多个从节点并行执行,各从节点将中间结果按执行计划树流式传递回协调节点,再通过多机集群的全内存并行执行加速查询。选用四机监控系统集群为例进行加载测试和查询性能测试,结果表明:相较关系数据库,MPP大数据快速查询技术大幅提高了数据加载速度。对北京某动车段配电监测的千万级数据记录,关系数据库和Hive数据仓库至少都需94s以上,而MPP快速查询仅需约320ms,查询性能提升近3个数量级,大幅提高了监测大数据的查询处理速度。 展开更多
关键词 配电网大数据 分布式存储 impala MPP 快速查询
在线阅读 下载PDF
Impala整体架构及操作 被引量:1
6
作者 徐东辉 《电信网技术》 2015年第8期15-21,共7页
Impala是基于MPP的SQL查询系统,可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。本文对Impala的特性、系统及内部架构等进行了分析和研究,并重点对Impala的操作应用进行了详细介绍。
关键词 impala 整体架构 操作 编程
在线阅读 下载PDF
Impala快速查询技术在配电网设备运行状态检测中的应用 被引量:5
7
作者 王硕 谢远森 +2 位作者 张群安 李逸涛 陈远军 《自动化技术与应用》 2022年第8期122-125,共4页
针对配电网设备运行状态检测中数据查询速度较慢的问题,提出应用Impala快速查询技术对配电网设备运行状态进行检测。分析配电网自动化系统结构,对配电网设备运行数据进行分布式存储,待储存文件数量到达一定阈值后,剔除多余数据。利用Imp... 针对配电网设备运行状态检测中数据查询速度较慢的问题,提出应用Impala快速查询技术对配电网设备运行状态进行检测。分析配电网自动化系统结构,对配电网设备运行数据进行分布式存储,待储存文件数量到达一定阈值后,剔除多余数据。利用Impala大规模并行处理机构建查询组件,协调调度工作站。监视运行的所有节点集群状态与元数据,将数据变化发送到其他查询引擎处,保证各节点元数据信息的一致性,实现配电网设备运行状态的快速检测。实验结果表明采用所提方法对配电网设备运行状态进行检测的速度较快,检测效率与精度较高。 展开更多
关键词 impala快速查询技术 配电网设备 运行状态 分布式存储
在线阅读 下载PDF
基于MTR与Impala结合的数据查询优化研究 被引量:1
8
作者 袁文翠 舒昝 赵建民 《微型电脑应用》 2016年第6期29-31,共3页
以大数据的查询技术为中心,研究了当前一些主流的查询方法以及在此基础上的优化改进。MapReduce是一种编程模型,将存储在HDFS中的文件分块再整合以达到加速实现数据查询的目的,在此方法的基础上优化得出Map-Trim-Reduce编程模型,然后与I... 以大数据的查询技术为中心,研究了当前一些主流的查询方法以及在此基础上的优化改进。MapReduce是一种编程模型,将存储在HDFS中的文件分块再整合以达到加速实现数据查询的目的,在此方法的基础上优化得出Map-Trim-Reduce编程模型,然后与Impala查询引擎相结合,利用M印-Trim-Reduce处理复杂数据的长处弥补Impala的短处,提前处理Impala的预处理数据,达到提高大数据查询效率的目的。 展开更多
关键词 大数据 Map-Trim-Reduce mpala
在线阅读 下载PDF
基于Kudu+Impala的交通大数据存储和分析平台 被引量:3
9
作者 宁群仪 周超 《电脑编程技巧与维护》 2018年第11期91-92,111,共3页
随着城市化进程的不断加快,城市汽车保有量逐年增加,在面对日益复杂和庞大的交通信息数据,使用传统的关系型数据库已经越来越力不从心,一些性能瓶颈逐渐显露出来,比如跨分区读取数据,大数据量的分析计算等。提出了一种基于Kudu+Impala... 随着城市化进程的不断加快,城市汽车保有量逐年增加,在面对日益复杂和庞大的交通信息数据,使用传统的关系型数据库已经越来越力不从心,一些性能瓶颈逐渐显露出来,比如跨分区读取数据,大数据量的分析计算等。提出了一种基于Kudu+Impala的分布式存储和计算分析解决方案,Kudu作为底层存储,Impala负责解析和执行SQL,能够同时支持OLTP和OLAP,并且都拥有良好的性能,为交通大数据的存储和分析计算提供了高效、可靠的平台。 展开更多
关键词 大数据 交通 存储 Kudu impala
在线阅读 下载PDF
雪佛兰Impala 50周年纪念版
10
《车时代》 2008年第2期177-177,共1页
2008年,雪佛兰为了庆祝其主要产品之一的Impala车型诞生50周年,特别推出了一款50周年纪念版的Impala,以此献给长期以来一直拥护并关注该品牌的车迷们。
关键词 汽车 产品介绍 驾驶性能 雪佛兰impala
在线阅读 下载PDF
铁路配电网监测大数据的Impala快速查询技术
11
作者 屈志坚 陈鼎龙 巩奇 《电气化铁道》 2017年第S01期87-90,共4页
针对目前铁路配电网监测大数据SQL交互查询速度慢的问题,对配电网监测数据类型进行归类整理,利用Impala分布式处理工具研究了一种监测大数据的分布式快速查询技术,通过多机集群的全内存并行执行加速查询;搭建四机集群的远动监控模拟测... 针对目前铁路配电网监测大数据SQL交互查询速度慢的问题,对配电网监测数据类型进行归类整理,利用Impala分布式处理工具研究了一种监测大数据的分布式快速查询技术,通过多机集群的全内存并行执行加速查询;搭建四机集群的远动监控模拟测试系统进行测试,结果表明Impala大数据快速查询技术可大幅提高监测大数据的查询处理速度. 展开更多
关键词 铁路配电网 大数据 分布式存储 impala 快速查询
在线阅读 下载PDF
多层次算力网络下的资源管控优化技术 被引量:1
12
作者 周宗杰 赵哲 +2 位作者 宋西斐 黄航 冯杰 《移动通信》 2025年第3期86-91,138,共7页
算力网络通过整合分布式计算资源,提升计算效率、降低能耗并支持多样化需求,受到了广泛关注。阐述了算力网络的发展现状及其面临的技术挑战,提出了一种端-边-云协同算力网络架构,实现了分布式算力资源的高效管理。为优化多层次资源分配... 算力网络通过整合分布式计算资源,提升计算效率、降低能耗并支持多样化需求,受到了广泛关注。阐述了算力网络的发展现状及其面临的技术挑战,提出了一种端-边-云协同算力网络架构,实现了分布式算力资源的高效管理。为优化多层次资源分配,提出基于IMPALA的资源调度算法。实验结果表明提出的算法和基线算法相比能够更有效地优化网络资源,降低网络延迟。上述研究对未来算力网络资源的高效管理具有一定的指导意义。 展开更多
关键词 算力网络 impala算法 资源调度
在线阅读 下载PDF
基于Hadoop的SQL查询引擎性能研究 被引量:8
13
作者 吴黎兵 邱鑫 +2 位作者 叶璐瑶 王晓栋 聂雷 《华中师范大学学报(自然科学版)》 CAS 北大核心 2016年第2期174-182,共9页
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各... Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构. 展开更多
关键词 大数据 SQL-on-Hadoop 数据仓库 SPARK SQL impala Hive
在线阅读 下载PDF
主流大数据处理开源架构的分析及对比评测 被引量:4
14
作者 方艾 徐雄 +2 位作者 梁冰 张玉忠 杨翊平 《电信科学》 北大核心 2015年第7期152-157,共6页
结合电信增值业务领域中对大数据处理的实际需求,对现有主流的分布式大数据处理架构(Hive、Impala、Spark)的核心进行分析与实测,比较它们在大数据处理过程中的优劣及适用的场景,从而为大数据分析所面临的架构适用性选型提供参考。
关键词 大数据 Hive MAPREDUCE impala SPARK
在线阅读 下载PDF
大数据技术在江苏烟草数据中心的应用 被引量:4
15
作者 郭文卓 王子豪 《电子制作》 2017年第12期57-58,共2页
以大数据技术的发展为背景,结合江苏烟草数据中心建设的实际情况,分析了江苏烟草数据中心以Hadoop及Impala等大数据技术为核心,辅以Kettle和JSP等数据处理及展现技术共同构建基于大数据技术的自定义数据查询平台的架构设计和实现方案。... 以大数据技术的发展为背景,结合江苏烟草数据中心建设的实际情况,分析了江苏烟草数据中心以Hadoop及Impala等大数据技术为核心,辅以Kettle和JSP等数据处理及展现技术共同构建基于大数据技术的自定义数据查询平台的架构设计和实现方案。展现了大数据技术带来的远超传统技术平台的灵活性以及对于大数据量查询的快速响应能力。 展开更多
关键词 烟草 数据中心 大数据 HADOOP impala
在线阅读 下载PDF
大数据查询技术应用策略探讨
16
作者 谭志远 《移动通信》 2018年第7期7-11,共5页
为了探讨在确保用户感知的前提下,各种查询方式或技术如何选择及适合什么样的应用场景,通过分析大数据几种查询技术的优缺点,结合实验室性能测试结果,得出了几种查询技术适用场景的建议,并指出应用过程中需要注意的问题。
关键词 大数据查询 impala MYSQL
在线阅读 下载PDF
基于天地图的朔黄铁路通信运维数据分析系统设计与实现 被引量:3
17
作者 胡跃华 《石家庄铁道大学学报(自然科学版)》 2019年第1期98-103,120,共7页
朔黄铁路公司为保障本公司LTE-R网络的顺利运行,需要按计划对LTE网络进行维护,并对维护过程中收集的数据进行分析,以排查网络中可能出现的问题。目前,数据分析大多通过人工的方式来进行,效率低下且很难获取故障发生位置的地理及基站分... 朔黄铁路公司为保障本公司LTE-R网络的顺利运行,需要按计划对LTE网络进行维护,并对维护过程中收集的数据进行分析,以排查网络中可能出现的问题。目前,数据分析大多通过人工的方式来进行,效率低下且很难获取故障发生位置的地理及基站分布情况。同时,由于数据总量巨大,传统的数据存储及处理方法很难满足数据的存储及分析需求。针对这种情况,研究并实现了一个基于天地图的通讯运维大数据分析系统。实际应用表明,该系统能够直观、形象地展示出铁路沿线通信网络的整体情况,并能对常见的通信故障进行排查,大大提升了朔黄铁路公司通信运维的效率,具有较高的实用价值。 展开更多
关键词 天地图 Cloudera impala LTE-R 大数据 通信故障
在线阅读 下载PDF
贵州省气象大数据平台架构设计 被引量:8
18
作者 郭茜 王彪 +1 位作者 汪华 金石声 《成都信息工程大学学报》 2018年第5期531-535,共5页
气象大数据建设是气象信息化和气象现代化的重要内容之一。近年来,随着气象数据量暴涨,现有的气象设备与信息技术手段已很难满足气象业务需求。贵州省气象局内存在各个业务系统林立,部门内数据分散、气象数据收集缺乏全面性和系统性,&qu... 气象大数据建设是气象信息化和气象现代化的重要内容之一。近年来,随着气象数据量暴涨,现有的气象设备与信息技术手段已很难满足气象业务需求。贵州省气象局内存在各个业务系统林立,部门内数据分散、气象数据收集缺乏全面性和系统性,"信息孤岛"的现象严重,数据整合受到不同系统和软件开发平台的限制,服务器利用率低下,CPU、内存、磁盘空间等资源得不到有效利用,数据存储存在单点故障等问题。针对以上问题,贵州省气象信息中心提出气象大数据平台整体架构的设计,帮助提高气象预报预测的准确率,使数据存储管理和服务实现集约高效和数据共享。对气象大数据平台建设中气象数据采集、数据存储和数据处理进行了概括,介绍了气象信息系统的现状,从完善顶层设计入手,对集群数据库方案选择进行对比,设计出合理、高效的气象大数据平台,实现气象大数据行业内部与外部的融合与共享。 展开更多
关键词 气象大数据平台 impala数据库集群 GreenPlum数据库集群
在线阅读 下载PDF
大数据应用部署研究 被引量:2
19
作者 张亮 杨春丽 马媛媛 《电信网技术》 2016年第5期30-36,共7页
分析在海量数据情况下,Hadoop各组件及其生态圈(如Impala、Spark)技术特点及应用场景;结合大数据平台通用架构,提出在数据采集、储算、应用等方面的功能架构及技术架构。
关键词 大数据 SPARK impala HADOOP
在线阅读 下载PDF
基于Kudu的实时业务应用场景解决方案 被引量:3
20
作者 蒋春平 黄煜骁 周晓君 《电信科学》 2020年第S01期268-275,共8页
针对目前Hadoop大数据平台对实时业务应用场景支撑存在的短板,引入Kudu存储引擎作为现有分布式文件系统的补充,同时结合Kafka和Impala等组件,有效支撑数据实时入库、数据增量更新和复杂SQL查询的各类业务应用场景,并根据场景选择通过Kud... 针对目前Hadoop大数据平台对实时业务应用场景支撑存在的短板,引入Kudu存储引擎作为现有分布式文件系统的补充,同时结合Kafka和Impala等组件,有效支撑数据实时入库、数据增量更新和复杂SQL查询的各类业务应用场景,并根据场景选择通过Kudu-API或Impala-JDBC连接的方式向前台应用提供快速的OLTP和OLAP交互能力。首先对实时业务应用支撑难点进行了分析,然后介绍了业界相关解决方案和基于Kudu的解决方案。 展开更多
关键词 Kudu 大数据 流式数据 增量更新 impala 前台交互
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部