期刊文献+
共找到78篇文章
< 1 2 4 >
每页显示 20 50 100
基于HIVE数据仓库的新入网用户卖卡行为识别方法
1
作者 陈乔 《数字通信世界》 2025年第11期102-104,共3页
部分新入网的用户采用隐蔽的方式实施卖卡活动,增加了识别和打击这类行为的难度。为了有效识别新入网用户的异常行为,本文开展基于HIV E数据仓库的新入网用户卖卡行为识别方法研究。首先,根据Hive数据仓库架构,逐级进行用户行为数据处... 部分新入网的用户采用隐蔽的方式实施卖卡活动,增加了识别和打击这类行为的难度。为了有效识别新入网用户的异常行为,本文开展基于HIV E数据仓库的新入网用户卖卡行为识别方法研究。首先,根据Hive数据仓库架构,逐级进行用户行为数据处理。然后,利用处理过的用户行为数据,进行新入网用户特征行为画像。最后,从用户特征行为画像中提取多项与卖卡行为高度相关的行为规则,设计基于行为规则判别模型的用户卖卡行为识别方法。实验结果表明,此方法不仅可以实现对新入网用户异常行为数据类别的精准划分,还能准确识别新入网用户卖卡行为风险。 展开更多
关键词 hive数据仓库 行为规则判别模型 特征行为画像 识别方法 卖卡行为
在线阅读 下载PDF
基于Hive的电力设备状态信息数据仓库 被引量:41
2
作者 王德文 肖凯 肖磊 《电力系统保护与控制》 EI CSCD 北大核心 2013年第9期125-130,共6页
随着智能变电站的建设及其状态监测系统的发展,电力设备状态信息数据规模逐渐增大。针对现有电力数据仓库在海量状态数据存储查询和分析处理方面的不足,提出基于Hive的电力设备状态信息数据仓库及其多维数据快速查询与分析方法。通过对... 随着智能变电站的建设及其状态监测系统的发展,电力设备状态信息数据规模逐渐增大。针对现有电力数据仓库在海量状态数据存储查询和分析处理方面的不足,提出基于Hive的电力设备状态信息数据仓库及其多维数据快速查询与分析方法。通过对状态监测系统与生产管理系统(PMS)的分析,将电力设备静态信息与状态监测信息存储到Hive数据仓库中。设计了基于Hive的电力设备状态信息数据仓库的系统架构和海量状态数据存储结构,采用Hadoop分布式文件系统(HDFS)对数据进行分布式存储管理,Map Reduce作为海量数据查询分析的计算模式,HiveQL查询语言作为数据仓库的控制工具,并给出了数据仓库的工作过程。建立一个基于Hive的电力设备状态信息数据仓库实验平台,分别利用5个节点和10个节点的Hadoop集群进行测试,结果表明上述方法具有较好的扩展性,能满足大规模多维电力设备状态数据存储查询的需要。 展开更多
关键词 智能变电站 电力设备状态信息 数据仓库 hive HDFS
在线阅读 下载PDF
基于Hive的高可用双引擎数据仓库 被引量:10
3
作者 李翀 张彤彤 +1 位作者 杜伟静 刘学敏 《计算机系统应用》 2019年第9期65-71,共7页
打破信息孤岛,整合异构数据,汇聚共享交换,深度分析挖掘,提供行业领域辅助决策和态势分析具有深远的理论和应用价值.本文以中国科学院教育科研态势感知服务的实际需求为牵引,设计并实现了一套基于Hive的Hadoop/Spark双计算引擎大数据仓... 打破信息孤岛,整合异构数据,汇聚共享交换,深度分析挖掘,提供行业领域辅助决策和态势分析具有深远的理论和应用价值.本文以中国科学院教育科研态势感知服务的实际需求为牵引,设计并实现了一套基于Hive的Hadoop/Spark双计算引擎大数据仓库,支持多种方式OLAP分析,进行了可用性、负载均衡、资源管理的优化设计,为后续进行全院数据汇聚挖掘、知识图谱构建、学科态势分析提供了平台支撑.实验表明,系统灵活高效,高可用可扩展,资源调度科学,负载均衡效果明显. 展开更多
关键词 数据仓库 hive 高可用 OLAP HADOOP
在线阅读 下载PDF
基于Hadoop/Hive的乳制品溯源数据计算及性能优化 被引量:4
4
作者 朱淑鑫 李悦 +3 位作者 袁培森 徐焕良 王康 谢忠红 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第4期99-108,共10页
为了提升传统乳制品溯源系统应对大规模企业生产数据的性能,本文分析了乳制品相关企业供应链业务流程、关键溯源单元和溯源信息,结合Hadoop/Hive大数据技术和分布式数据库技术,设计并构建了基于Hadoop/Hive的乳制品溯源框架.搭建模拟大... 为了提升传统乳制品溯源系统应对大规模企业生产数据的性能,本文分析了乳制品相关企业供应链业务流程、关键溯源单元和溯源信息,结合Hadoop/Hive大数据技术和分布式数据库技术,设计并构建了基于Hadoop/Hive的乳制品溯源框架.搭建模拟大数据环境并使用实际生产数据对系统性能进行测试,实验结果表明,引入Hadoop/Hive技术后,系统的平均数据存储速度、平均数据访问速度、平均数据交互速度分别提升了87.43%、27.10%、58.16%.改进后的乳制品溯源系统存储和处理大规模数据的能力明显优于传统的乳制品溯源系统. 展开更多
关键词 Hadoop/hive 乳制品溯源 数据计算 性能优化
在线阅读 下载PDF
基于HBase和Hive的航班延误平台的存储方法 被引量:6
5
作者 吴仁彪 刘超 屈景怡 《计算机应用》 CSCD 北大核心 2018年第5期1339-1345,共7页
针对我国目前航班延误平台的移植难、可扩展性差,无法适应民航高速发展所带来的大数据量存储的现状,设计了面向大数据的跨平台、高适用性与高扩展性的航班延误平台。该平台以大数据工具Leaf Let为可视化载体,在地图界面实时显示航班轨... 针对我国目前航班延误平台的移植难、可扩展性差,无法适应民航高速发展所带来的大数据量存储的现状,设计了面向大数据的跨平台、高适用性与高扩展性的航班延误平台。该平台以大数据工具Leaf Let为可视化载体,在地图界面实时显示航班轨迹并将轨迹数据加载至HBase数据库中,并且利用信息摘要算法(MD5)重新设计与优化航班数据表的行键,以解决其递增的飞行时间特性产生的"热点"问题;针对HBase过滤器多级查询的缺陷,提出了基于Solr Cloud的关联查询算法,利用Solr Cloud实现对行键与索引字段的分层存储,从而实现HBase二级快速索引;最后在HBase的历史航班数据与飞行计划数据基础上,构建基于Hive的海量航班信息数据仓库。实验结果显示,航班延误大数据平台的可扩展性与搭建的航班信息数据仓库可以满足民航对数据集中统一存储的需求,而多条件查询的响应速度与无二级索引的集群相比提高了上百倍,并且这种优势随着航班数据量的增长愈发明显。 展开更多
关键词 大数据平台 航班延误 HBASE hive SolrCloud LEAFLET
在线阅读 下载PDF
基于Hive数据仓库的物流大数据平台的研究与设计 被引量:9
6
作者 张锐 《电子设计工程》 2017年第9期31-35,共5页
针对物流企业数据仓库扩展性不好、运行自动化程度不高、处理大规模数据效果较差等问题。本文通过对Hive技术的物流数据仓库进行分析,提出物流数据仓库的具体实现方案,该数据仓库结合云平台虚拟化技术,部署了Hadoop和Hive环境,搭建了基... 针对物流企业数据仓库扩展性不好、运行自动化程度不高、处理大规模数据效果较差等问题。本文通过对Hive技术的物流数据仓库进行分析,提出物流数据仓库的具体实现方案,该数据仓库结合云平台虚拟化技术,部署了Hadoop和Hive环境,搭建了基于虚拟化技术的大数据处理平台。同时从数据ETL和数据查询分析处理两方面对数据仓库的可扩展性Hive数据存储分析、Hive数据前置处理等进行研究设计。通过Hive数据仓库运行效果进行分析,表明该系统能够很好地支持企业管理层决策。 展开更多
关键词 智慧物流大数据平台 hive数据仓库 ETL 查询分析
在线阅读 下载PDF
基于Hive的智慧城市数据处理技术研究与实现 被引量:9
7
作者 艾丽蓉 刘云峰 《计算机技术与发展》 2018年第2期9-13,共5页
对智慧城市系统中产生的大量数据进行有效的采集、合理的存储、高效精准的分析,进而对决策的做出提供合理的支持是在智慧城市建设过程中必须要解决的问题。对此,在充分理解智慧园区数据分析系统功能需求、性能需求的基础上,结合当前比... 对智慧城市系统中产生的大量数据进行有效的采集、合理的存储、高效精准的分析,进而对决策的做出提供合理的支持是在智慧城市建设过程中必须要解决的问题。对此,在充分理解智慧园区数据分析系统功能需求、性能需求的基础上,结合当前比较主流的数据分析方面的技术,提出了Kettle+Hive+Tableau的智慧园区数据分析解决方案。该系统具有较高的可用性、稳定性、效率以及非常高的扩展性、可移植性,不仅适合于对智慧园区的数据分析,还普遍适用于对智能化信息系统数据进行分析,具有较高的普适性、通用性。该系统通过ETL工具、数据可视化工具的应用,尽量减少在数据分析系统开发过程中代码的编写,能够适用于绝大部分有数据分析需求并且数据量较大的信息化系统。 展开更多
关键词 智慧城市 hive 数据采集 数据可视化分析
在线阅读 下载PDF
QAR数据仓库在Hive中的构建 被引量:7
8
作者 冯兴杰 吴稀钰 +2 位作者 赵杰 贺阳 房戍 《计算机工程与应用》 CSCD 北大核心 2017年第11期90-94,共5页
分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有... 分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有数据仓库的不足,提出基于Hive的QAR数据仓库。通过对Hive特点及QAR数据结构分析,设计了基于Hive的QAR数据仓库的总体架构和存储结构。通过将现有数据仓库中的数据移植到基于Hive的QAR数据仓库,实现了对已有数据仓库的兼容。实验结果表明基于Hive的QAR数据仓库在面对QAR数据剧增的情况下,处理所需时间依然保持着线性增长。 展开更多
关键词 hive 快速存取记录器(QAR) 数据仓库 数据处理 HADOOP
在线阅读 下载PDF
基于移动通信数据的流动人口统计中的Hive优化 被引量:3
9
作者 周天绮 《软件工程师》 2015年第7期57-59,56,共4页
针对电信大数据在流动人口统计中的处理需求,采用Intel?Hadoop发行版,设计Hive数据仓库并进行优化,重点对性能影响较大的join连接和数据倾斜问题进行了优化。实验表明,对于TB级数据,简单统计如count、sum等可在10分钟以内完成,聚合统计... 针对电信大数据在流动人口统计中的处理需求,采用Intel?Hadoop发行版,设计Hive数据仓库并进行优化,重点对性能影响较大的join连接和数据倾斜问题进行了优化。实验表明,对于TB级数据,简单统计如count、sum等可在10分钟以内完成,聚合统计如join、group by等可在30分钟左右完成,能有效支撑大数据环境下的流动人口统计和监测。 展开更多
关键词 hive 优化 JOIN 数据倾斜
在线阅读 下载PDF
基于Zeppelin+Hive的数据分析与可视化 被引量:1
10
作者 张玉叶 孙延坤 《现代计算机》 2023年第14期70-73,共4页
随着大数据时代的到来及大数据产业的迅速发展,快速有效地对海量数据进行分析处理及可视化,成为大数据产业从业人员的必备技能。通过对一组房屋销售数据的分析处理,介绍了如何利用Zeppelin和Hive来快速对海量数据进行分析及可视化,并给... 随着大数据时代的到来及大数据产业的迅速发展,快速有效地对海量数据进行分析处理及可视化,成为大数据产业从业人员的必备技能。通过对一组房屋销售数据的分析处理,介绍了如何利用Zeppelin和Hive来快速对海量数据进行分析及可视化,并给出了具体实现方法和代码。 展开更多
关键词 Zeppelin hive 数据分析 数据可视化
在线阅读 下载PDF
基于Hive架构的物流供应链运力异构数据整合研究
11
作者 廖雪花 任春华 唐思娩 《物流技术》 2017年第3期168-171,共4页
设计了一种基于Hive架构的异构数据整合框架,该框架以多个应用系统数据库为主要研究对象,选取某物流企业供应链过程中的车辆调度系统和运力调度系统的车源数据作为实验对象,通过分析、整合异构数据,搭建异构数据整合框架,进行异构数据... 设计了一种基于Hive架构的异构数据整合框架,该框架以多个应用系统数据库为主要研究对象,选取某物流企业供应链过程中的车辆调度系统和运力调度系统的车源数据作为实验对象,通过分析、整合异构数据,搭建异构数据整合框架,进行异构数据整合研究。结果表明:该架构实现了异构数据资源共享,同时有助于实现物流行业的信息资源整合,而且可以为企业提供更加稳定可靠的决策支持。 展开更多
关键词 hive 物流供应链 异构数据 ETL
在线阅读 下载PDF
面向Hive的基于安全域的数据隔离保护框架 被引量:5
12
作者 常天天 陈兴蜀 +1 位作者 罗永刚 兰晓 《山东大学学报(理学版)》 CAS CSCD 北大核心 2019年第3期1-9,共9页
针对Hive数据库中的数据共享所带来的敏感信息泄漏问题,以数据分级为前提,利用基于标签的访问控制技术,提出了一种基于安全域的数据隔离保护框架(SD-DIPF)。首先,通过设计层次安全标签树划分标签级别,用来对系统中的主客体进行标识;结... 针对Hive数据库中的数据共享所带来的敏感信息泄漏问题,以数据分级为前提,利用基于标签的访问控制技术,提出了一种基于安全域的数据隔离保护框架(SD-DIPF)。首先,通过设计层次安全标签树划分标签级别,用来对系统中的主客体进行标识;结合分级标签阐明安全域(SD)的设计思想,对安全域及其子域进行定义以及安全性的形式化证明;最后,利用安全域对平台数据进行逻辑划分保证不同敏感级别数据的有效隔离;针对该框架对Hive数据库的适用性进行说明,并结合现有的认证机制给出了其在Hive数据库中的实现。通过实验分析验证该框架可以保障敏感数据不被非法访问,证明了本框架的可行性和安全性。 展开更多
关键词 hive 数据分级 安全域 访问控制
原文传递
一种基于Hive日志分析的大数据存储优化方法 被引量:22
13
作者 王正也 李书芳 《软件》 2014年第11期94-100,共7页
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化... 从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。 展开更多
关键词 大数据 hive 存储优化 列式存储
在线阅读 下载PDF
基于Hive的水利普查数据仓库 被引量:9
14
作者 陈龙 万定生 顾昕辰 《计算机与现代化》 2014年第5期127-130,共4页
针对水利普查数据海量、多维的特点,研究近年来在"大数据"概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设... 针对水利普查数据海量、多维的特点,研究近年来在"大数据"概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设计特点,通过分桶、消减维度表和冗余事实表的方法来改进传统的多维分析模型,最后搭建集群系统对水利普查数据集进行查询与分析测试。测试结果表明该数据仓库可以满足海量多维水利普查数据的存储与查询要求。 展开更多
关键词 数据仓库 水利普查 模型优化 大规模数据处理
在线阅读 下载PDF
大数据环境下Hive访问控制技术研究 被引量:4
15
作者 陈娇 朱焱 丁国富 《软件导刊》 2018年第12期187-190,196,共5页
为增强Hive数据仓库平台的数据安全性,从大数据安全下的访问控制问题着手,利用HPL/SQL工具设计实现批量授权方案,增强其授权操作的便捷性。根据Hive的安全体系结构,探索其在访问控制方面的漏洞,深入源码改进其实现机制。通过改进Hive用... 为增强Hive数据仓库平台的数据安全性,从大数据安全下的访问控制问题着手,利用HPL/SQL工具设计实现批量授权方案,增强其授权操作的便捷性。根据Hive的安全体系结构,探索其在访问控制方面的漏洞,深入源码改进其实现机制。通过改进Hive用户识别机制,使Hive能从客户端与命令行端正确识别当前用户,增强了安全性,为下一步授权工作打下了基础。批量授权方案能正确、快速、自动地为大批量用户授权,操作便利。 展开更多
关键词 大数据环境 访问控制 hive数据仓库 hive数据安全
在线阅读 下载PDF
基于Hive的计算结果特征提取与重用策略 被引量:4
16
作者 谢恒 王梅 +1 位作者 乐嘉锦 孙莉 《计算机研究与发展》 EI CSCD 北大核心 2015年第9期2014-2024,共11页
现有MapReduce工作流中作业之间需将计算结果物化到HDFS(Hadoop distributed file system),大量磁盘I/O导致其效率较低.基于现有代表性工作Hive,提取并保存MapReduce工作流产生计算结果的数据特征,提出一种计算结果匹配和重用策略.首先... 现有MapReduce工作流中作业之间需将计算结果物化到HDFS(Hadoop distributed file system),大量磁盘I/O导致其效率较低.基于现有代表性工作Hive,提取并保存MapReduce工作流产生计算结果的数据特征,提出一种计算结果匹配和重用策略.首先,根据查询条件定义连接图与连接体等结构,用于可复用计算结果的匹配.基于该结构,根据HiveQL(Hive query language)解析出的抽象语法树,提出生成查询语句连接体算法,并遍历候选连接体列表,给出最佳重用方案生成方法,包括单连接体重用和多连接体重用策略.进一步,为了增加计算结果的重用概率,提出多键选择、推迟算数运算和语义理解3种方法.最后,使用数据仓库基准测试数据集TPC-H和SSB进行实验,验证了所提出的重用计算结果以提高数据处理速度的有效性. 展开更多
关键词 MAPREDUCE hive 计算结果重用 连接体 数据管理
在线阅读 下载PDF
一种基于HIVE和分布式集群的大量数据高效处理方法研究 被引量:33
17
作者 侯晓芳 王欢 李瑛 《中国电子科学研究院学报》 北大核心 2018年第3期315-320,共6页
为了对海量电子日志数据进行有效处理,提出一种基于HIVE和分布式集群的综合解决方案。首先,从需求分析出发,阐述了分布式集群搭建、虚拟机的Flume配置和HIVE数据处理;然后,进行数据采集和清洗、业务逻辑处理及优化、数据合并与查询。实... 为了对海量电子日志数据进行有效处理,提出一种基于HIVE和分布式集群的综合解决方案。首先,从需求分析出发,阐述了分布式集群搭建、虚拟机的Flume配置和HIVE数据处理;然后,进行数据采集和清洗、业务逻辑处理及优化、数据合并与查询。实验以统计分析网站访问排名为例,对具体的表结构和实施过程进行描述,并验证其可行性。结果表明:与其他框架相比,所提大数据综合处理方法在数据采集和日志处理方面更效率,且省去了处理业务逻辑的大量Java代码,可用性更佳。 展开更多
关键词 分布式集群 虚拟机 日志数据 hive HADOOP 大数据
在线阅读 下载PDF
SEHive:基于类型增强的Hive强制访问控制模型与实现 被引量:1
18
作者 汤定一 韩伟力 《计算机应用与软件》 北大核心 2022年第7期281-286,294,共7页
在借鉴SELinux模型的基础上,提出面向Hive的基于类型增强的强制访问控制模型TE-MAC。该模型将主体与域关联,客体与类型关联,根据域与类型之间的访问规则控制访问,最大限度地减小用户可访问资源的范围,实现最小特权原则。同时引入组层次... 在借鉴SELinux模型的基础上,提出面向Hive的基于类型增强的强制访问控制模型TE-MAC。该模型将主体与域关联,客体与类型关联,根据域与类型之间的访问规则控制访问,最大限度地减小用户可访问资源的范围,实现最小特权原则。同时引入组层次关系,便于结构化的权限管理。基于原型系统SEHive的实现,显示其对Hive中敏感数据强制访问控制的可行性。 展开更多
关键词 大数据 HADOOP hive 类型增强 强制访问控制
在线阅读 下载PDF
基于Hive的高寒草地海量数据高效分析系统设计研究 被引量:1
19
作者 李亮丹 晔沙 +4 位作者 谢夏 胡月明 谢健文 周悟 游小敏 《农业资源与环境学报》 CAS CSCD 北大核心 2021年第6期1152-1163,共12页
解决高寒草地的退化问题需要对高寒草地退化现状进行综合评价,而这需要相关数据作为支撑,本研究设计并实现了一个基于Hive的高寒草地海量数据高效分析系统,能对高寒草地的海量数据进行可靠、高效地存储分析。首先,平台设计基于Hadoop、H... 解决高寒草地的退化问题需要对高寒草地退化现状进行综合评价,而这需要相关数据作为支撑,本研究设计并实现了一个基于Hive的高寒草地海量数据高效分析系统,能对高寒草地的海量数据进行可靠、高效地存储分析。首先,平台设计基于Hadoop、Hive、Sqoop环境,通过节点和集群配置等步骤搭建完成;然后,通过期望最大化(EM)算法进行数据填充、数据导入、数据分区存储等步骤,完成数据抽取、转换、加载(ETL)及数据存储;最后,系统通过混合函数编码实现模糊查询功能,实验测试表明系统达到了预定的效果。随着文件大小的增加和总体数据规模的增大,系统整体存储和读取时间一直处于增长的状态,但平均运行时间(平均处理1 MB数据所使用的时间)处于降低的趋势,说明随着数据量的增加,系统并行处理海量数据的能力得到体现。使用2014年青海省称多县高寒草地样方监测数据和部分虚拟数据(总数据量约为3958万条,7.56 GB),对Hive集群以及关系型数据库SQL Server的数据查询效率进行对比。结果显示,当查询数据量为3958万条时,Hive集群数据查询的时间为SQL Server查询时间的67.8%。说明在数据量较大时,系统数据查询的效率比SQL Server更高。通过HiveQL对高寒草地生态数据进行分析处理,并开展相应的对照实验,对比发现,Hive数据分析技术与对照实验的处理结果相同。综上,将分布式数据仓库技术应用于高寒草地海量数据的存储与分析,较传统的数据存储与分析技术相比有明显的进步。本系统对海量数据处理效率高、可开发性强,可以很好地满足海量高寒草地数据的存储和分析要求。 展开更多
关键词 高寒草地 海量数据 存储与分析 hive
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部