期刊文献+
共找到4,075篇文章
< 1 2 204 >
每页显示 20 50 100
利用Hadoop/HBase的药物基因组数据云存储实践研究 被引量:1
1
作者 范云满 洪娜 +1 位作者 钱庆 方安 《现代图书情报技术》 CSSCI 2015年第5期73-79,共7页
【目的】探索在导入、保存、检索、批量导出生物医学大数据方面的新思路和新方法,积累第一手经验。【方法】分析生物医学大数据的特点,从理论方面和数据查询对比实验两个方面,对比分析以Oracle为代表的传统关系数据库和以HBase为代表的N... 【目的】探索在导入、保存、检索、批量导出生物医学大数据方面的新思路和新方法,积累第一手经验。【方法】分析生物医学大数据的特点,从理论方面和数据查询对比实验两个方面,对比分析以Oracle为代表的传统关系数据库和以HBase为代表的No SQL数据库在解决大数据问题时各自采用的技术以及各自的优势与不足。以一个药物基因组数据存储系统为例,进行云存储实践和初步的对比实验。【结果】HBase在处理大量数据的实际应用中,比Oracle更具优势。【局限】没有对药物基因组学数据进行深入挖掘分析,同时需要对Hadoop/HBase做深入的技术优化。【结论】HBase在本文实验的应用场景中能够满足生物医学大数据存储的要求。 展开更多
关键词 生物医学 大数据 关系数据库 NOSQL hadoop hbase
原文传递
基于多目标优化的大规模Hadoop集群虚拟机放置
2
作者 文佳 吴舒霞 +2 位作者 于正欣 苗旺 陈哲毅 《计算机科学》 北大核心 2026年第2期387-395,共9页
虚拟化技术已成为云计算快速发展的核心支撑。Hadoop作为一种广泛应用于云环境中的分布式框架,其集群性能通常受限于低下的资源管理效率。随着数据量与集群规模的不断增大,如何高效优化虚拟机放置进而降低Hadoop集群能耗、提升资源利用... 虚拟化技术已成为云计算快速发展的核心支撑。Hadoop作为一种广泛应用于云环境中的分布式框架,其集群性能通常受限于低下的资源管理效率。随着数据量与集群规模的不断增大,如何高效优化虚拟机放置进而降低Hadoop集群能耗、提升资源利用率和缩短文件访问延迟已成为一个极具挑战的难题。对此,提出了新型的面向大规模Hadoop集群虚拟机放置的可变长度双染色体多目标优化(Multi-objective Optimization with Variable Length Double chromosome, MO-VLD)方法。首先,通过结合可变长度染色体与非支配排序遗传算法(Non-dominated Sorting Genetic Algorithm-Ⅲ,NSGA-Ⅲ),设计了双染色体结构。接着,引入两阶段交叉与变异操作以增强解空间探索的多样性。基于谷歌集群真实运行数据集的大量实验表明,MO-VLD方法能够有效应对动态的资源需求并提升Hadoop集群的资源管理效率。相比于基准方法,MO-VLD方法在能耗、资源利用率和文件访问延迟方面均展现出更加优越的性能。 展开更多
关键词 云计算 hadoop 虚拟机放置 多目标优化 遗传算法
在线阅读 下载PDF
基于Hadoop的新闻数据分析与可视化
3
作者 闫常娜 陶冶 《信息记录材料》 2026年第4期111-113,172,共4页
随着大数据的应用越来越广泛,新闻数据分析亟须能够处理多源异构的信息系统。为解决中小新闻机构因缺少数据全流程处理手段造成的低效采集与大量重复计算的问题,本文首先建立了以Hadoop生态为基础的新闻数据全生命周期管理系统,采用集... 随着大数据的应用越来越广泛,新闻数据分析亟须能够处理多源异构的信息系统。为解决中小新闻机构因缺少数据全流程处理手段造成的低效采集与大量重复计算的问题,本文首先建立了以Hadoop生态为基础的新闻数据全生命周期管理系统,采用集中式爬虫与分布式处理相融合的方式,利用Python、分布式文件系统(HDFS)以及HBase完成数据采集与分布式存储;其次,提出规则驱动和统计模型相结合的轻量化分析方法,依托Spark与动态词库实现热点追踪、主题分类以及地域关联分析;最后,运用Data Ease构建可视化平台,给出适用于区域舆情监测的具有时效性、可解释性的即用型解决方案。测试结果表明:该系统可实现单日接近1.3万条新闻数据的高效采集,军事关键词提取准确率达92.7%,可视化数据延迟8 s完成渲染更新。 展开更多
关键词 hadoop 新闻数据分析 数据可视化 hbase SPARK
在线阅读 下载PDF
基于校园计算机构建Hadoop集群的存储性能优化研究
4
作者 蔡吉云 《信息记录材料》 2026年第4期43-45,共3页
针对校园计算机资源利用率低与大数据存储需求矛盾的问题,本研究提出了基于异构校园计算机构建Hadoop集群的存储性能优化方案。通过分析存储性能评估指标,设计了数据压缩与分片优化技术、Hadoop分布式文件系统(HDFS)参数调优策略以及数... 针对校园计算机资源利用率低与大数据存储需求矛盾的问题,本研究提出了基于异构校园计算机构建Hadoop集群的存储性能优化方案。通过分析存储性能评估指标,设计了数据压缩与分片优化技术、Hadoop分布式文件系统(HDFS)参数调优策略以及数据本地性优化方法,在校园计算机集群环境中进行实验。结果表明,优化后的系统数据读取性能提升了41.8%,写入性能提升了50.9%,存储空间利用率提高了38.5%,有效突破了校园异构硬件环境下的存储性能瓶颈,为校园大数据平台建设提供了经济高效的解决方案。 展开更多
关键词 hadoop集群 存储性能优化 校园计算机 数据压缩
在线阅读 下载PDF
基于Hadoop的大数据存储管理平台设计
5
作者 张曦月 《微型计算机》 2026年第6期79-81,共3页
为解决海量数据存储管理中存在的高效性、扩展性、安全性等问题,该研究以Hadoop分布式架构为核心,对大数据存储管理平台设计展开研究。明确硬件部署适配与软件环境配置的基础保障方案,硬件采用差异化节点配置与机架式部署并预留扩展空间... 为解决海量数据存储管理中存在的高效性、扩展性、安全性等问题,该研究以Hadoop分布式架构为核心,对大数据存储管理平台设计展开研究。明确硬件部署适配与软件环境配置的基础保障方案,硬件采用差异化节点配置与机架式部署并预留扩展空间,软件聚焦系统适配与组件参数优化;构建分布式分层架构,规划节点角色与配置;结合数据类型选择存储模式,通过压缩、参数调控等方式提升存储效率;增强在资源调度、负载均衡及监控运维方面的运营管理能力;从数据与平台层面构建多维安全防护体系。研究形成了完整的平台设计方案,以期为大数据存储管理平台的规划与实现提供参考。 展开更多
关键词 hadoop 大数据存储管理 分布式架构 存储优化 安全防护
在线阅读 下载PDF
基于Hadoop和HBase的分布式索引模型的研究 被引量:5
6
作者 施磊磊 施化吉 +1 位作者 束长波 宋玉平 《信息技术》 2015年第6期109-111,114,共4页
随着互联网上信息量飞速增长,海量数据的索引出现了难题,现行的索引方案已经难以提供高效、可靠的服务,为此,设计并实现了一种针对海量数据进行索引的平台模型。该平台模型首先利用Solr分布式索引器生成索引文件,然后利用Hadoop分布式集... 随着互联网上信息量飞速增长,海量数据的索引出现了难题,现行的索引方案已经难以提供高效、可靠的服务,为此,设计并实现了一种针对海量数据进行索引的平台模型。该平台模型首先利用Solr分布式索引器生成索引文件,然后利用Hadoop分布式集群,以HDFS分布式文件系统、Map Reduce分布式并行计算模型、Zookeeper同步协同系统以及Hbase分布式数据库技术来处理、协调管理索引和存储海量数据,最后通过实验测试,该平台模型可以克服现行的海量数据索引时存在的效率低的问题,同时具有良好的扩展性和可靠性。 展开更多
关键词 hadoop集群 SOLR hbase
在线阅读 下载PDF
基于Hadoop和HBase的Nutch网页排序算法研究 被引量:1
7
作者 施磊磊 施化吉 +1 位作者 宋玉平 束长波 《软件导刊》 2014年第10期53-55,共3页
针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检... 针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。 展开更多
关键词 hadoop集群 MAPREDUCE NUTCH hbase
在线阅读 下载PDF
Hadoop架构下原生Hbase、Hive、Lealone、Phoenix等各操作组件的比较 被引量:1
8
作者 马晓亮 田丰 《广东通信技术》 2017年第3期71-74,共4页
通过对比性研究测试,获得在Hadoop架构下,基于HBASE的各操作组件Hive,Lealone,Phoenix等在处理百万级设备接入、数亿条数据时的功能、性能参数以及稳定性情况,从而让中小企业使用者在物联网时代,针对不同应用场景和需要处理的数据量,以... 通过对比性研究测试,获得在Hadoop架构下,基于HBASE的各操作组件Hive,Lealone,Phoenix等在处理百万级设备接入、数亿条数据时的功能、性能参数以及稳定性情况,从而让中小企业使用者在物联网时代,针对不同应用场景和需要处理的数据量,以及所关心的性能指标来选择相应的技术。 展开更多
关键词 大数据 hadoop hbase Hive Lealone PHOENIX RMCS
在线阅读 下载PDF
Hadoop云计算框架中的分布式数据库HBase研究 被引量:1
9
作者 王静蕾 《商丘职业技术学院学报》 2014年第2期18-20,共3页
云计算一直是产业界、学术界关注的焦点问题,目前它已从"概念期"逐渐走向"实践期".文章选择云计算平台—Hadoop作为研究基础,通过对其结构特点的概述,从4个核心模块之一HDFS为切入点,引入分布式数据库Hbase.最后,... 云计算一直是产业界、学术界关注的焦点问题,目前它已从"概念期"逐渐走向"实践期".文章选择云计算平台—Hadoop作为研究基础,通过对其结构特点的概述,从4个核心模块之一HDFS为切入点,引入分布式数据库Hbase.最后,重点论述了HBase的数据模型和实现思想,为进一步探索互联网大数据处理奠定了理论基础. 展开更多
关键词 HDFS hbase
在线阅读 下载PDF
基于Hadoop的造纸产业大数据平台研究与实现 被引量:2
10
作者 郭静 宋东峰 《造纸科学与技术》 2025年第3期84-87,共4页
在制浆造纸产业的飞速发展与智能化转型升级进程中,大数据正发挥着越来越重要的作用。针对当前我国造纸产业存在的数据规模越来越大、设备个体间关联性越来越强、造纸企业设备体系结构越来越多样等特点,借助Hadoop搭建了一种针对造纸产... 在制浆造纸产业的飞速发展与智能化转型升级进程中,大数据正发挥着越来越重要的作用。针对当前我国造纸产业存在的数据规模越来越大、设备个体间关联性越来越强、造纸企业设备体系结构越来越多样等特点,借助Hadoop搭建了一种针对造纸产业的大数据平台。该平台包括源数据层、数据集成加工层、分布式数据存储、大数据分析层等,可以针对海量数据、多元性数据及复杂结构数据进行共享、联系和可视化分析,为造纸企业提供更好的智能化支持。 展开更多
关键词 人工智能 hadoop技术 大数据技术 造纸产业
原文传递
基于Hadoop和HBase的高职学生德育管理系统的设计研究
11
作者 伍德雁 《轻工科技》 2021年第4期105-106,136,共3页
针对当前高职院校德育管理大数据量的应用特点,设计一种多角色参与的大学生德育管理系统。讨论系统选择Hadoop平台和HBase数据库的依据。探讨系统建设目标,描述系统的体系结构、设计系统的功能模块并提出系统的权限分级特点。结合HBase... 针对当前高职院校德育管理大数据量的应用特点,设计一种多角色参与的大学生德育管理系统。讨论系统选择Hadoop平台和HBase数据库的依据。探讨系统建设目标,描述系统的体系结构、设计系统的功能模块并提出系统的权限分级特点。结合HBase表的存储特点讨论系统中两个关键大表的行键设计要点并给出避免热点问题的方法。本项目可以为其它大数据量的高校信息管理系统提供有意义的参考。 展开更多
关键词 hadoop hbase 德育管理
原文传递
基于Hadoop离线分析技术的高校学生画像平台设计 被引量:1
12
作者 张春燕 谢鸿稳 《软件》 2025年第5期8-11,37,共5页
本研究旨在设计基于Hadoop离线分析技术的高校学生画像平台,以解决当前高校教育信息化建设中存在的问题。本次研究在了解平台功能需求的基础上,采用Hadoop生态技术以及数据挖掘方法构建学生画像,分析学生的学习与行为特征。研究结果表明... 本研究旨在设计基于Hadoop离线分析技术的高校学生画像平台,以解决当前高校教育信息化建设中存在的问题。本次研究在了解平台功能需求的基础上,采用Hadoop生态技术以及数据挖掘方法构建学生画像,分析学生的学习与行为特征。研究结果表明,基于Hadoop的学生画像平台能够有效整合学校内部的异构数据资源,通过数据分析提供精准的决策支持,帮助高校实现个性化教育与管理,为高校教育管理提供全新的视角,推动教育智能化发展。 展开更多
关键词 hadoop ETL流程 K-MEANS聚类算法
在线阅读 下载PDF
基于Hadoop平台的Apriori算法改进
13
作者 叶煜 文燕 李敏 《电脑与信息技术》 2025年第2期20-22,共3页
传统的Apriori算法在处理海量数据时,需要多次扫描数据库,且每次迭代过程中会产生大量的候选项集,导致计算复杂度高、内存消耗大。针对此,提出了一种基于Hadoop平台的Apriori改进算法。该算法提前排除了不可能成为频繁项集的项,从而显... 传统的Apriori算法在处理海量数据时,需要多次扫描数据库,且每次迭代过程中会产生大量的候选项集,导致计算复杂度高、内存消耗大。针对此,提出了一种基于Hadoop平台的Apriori改进算法。该算法提前排除了不可能成为频繁项集的项,从而显著减少了候选项集的数量,优化了数据预处理过程,并通过引入更严格的剪枝策略,优化了候选项集的生成和剪枝过程,从而降低了计算复杂度,提升了算法的运行效率和挖掘效果。实验验证了该方案的有效性,为实际应用中的数据挖掘任务提供了一个更为高效的解决方案。 展开更多
关键词 hadoop APRIORI 数据挖掘 关联规则
在线阅读 下载PDF
基于hadoop和hbase的分布式索引集群研究 被引量:4
14
作者 万轶 向广利 《信息技术与信息化》 2015年第1期102-103,共2页
随着互联网的发展,搜索引擎要处理的数据量越来越大,为提高信息检索效率,避免传统索引的创建和维护效率不高的情况,设计了一种基于Hadoop分布式索引集群和Hbase分布式查询数据库的解决方案。利用Hadoop的分布式计算和存储框架,采用分布... 随着互联网的发展,搜索引擎要处理的数据量越来越大,为提高信息检索效率,避免传统索引的创建和维护效率不高的情况,设计了一种基于Hadoop分布式索引集群和Hbase分布式查询数据库的解决方案。利用Hadoop的分布式计算和存储框架,采用分布式倒排索引算法,分词并建立索引表,最后存储到Hbase中。通过实验证明了基于Hadoop的分布式索引集群在数据处理方面的优势。 展开更多
关键词 分布式索引 hadoop 倒排索引 分词 hbase
在线阅读 下载PDF
基于Hadoop平台的就业信息自动推荐研究
15
作者 龚向哲 周晨阳 《长江信息通信》 2025年第4期125-127,共3页
现有推荐方法耗时长且MAE值高,导致推荐质量不佳。为此,研究了基于Hadoop平台的就业信息自动推荐方法。利用TFI算法提取并扩展重点词,通过K-means聚类和关联分析处理重点词集合。在Hadoop平台上,利用MapReduce技术计算评分相似度,并向... 现有推荐方法耗时长且MAE值高,导致推荐质量不佳。为此,研究了基于Hadoop平台的就业信息自动推荐方法。利用TFI算法提取并扩展重点词,通过K-means聚类和关联分析处理重点词集合。在Hadoop平台上,利用MapReduce技术计算评分相似度,并向目标用户推荐评分最高者。实验表明,在Hadoop集群中,该方法运行稳定且耗时短,加速比高,MAE值降至0.3,显著提高了推荐的准确度。 展开更多
关键词 hadoop平台 就业信息 推荐 分类 兴趣
在线阅读 下载PDF
基于Hadoop的市级气象数据存储研究
16
作者 程艳芳 栾彩霞 《山西电子技术》 2025年第1期113-115,共3页
大数据技术为市级气象部门的数据存储提供了新的解决方案,大数据技术的应用能够有效地解决气象部门面临的数据快速增长,数据查询统计效率下降等问题,基于此介绍了市级气象部门应用Hadoop技术存储自动气象观测站数据、雷达数据等各类气... 大数据技术为市级气象部门的数据存储提供了新的解决方案,大数据技术的应用能够有效地解决气象部门面临的数据快速增长,数据查询统计效率下降等问题,基于此介绍了市级气象部门应用Hadoop技术存储自动气象观测站数据、雷达数据等各类气象数据的方法,通过这种方法,提高了市级气象部门的数据存储能力和查询统计效率,为市级气象部门提供了可扩展的、廉价的数据存储方式。 展开更多
关键词 大数据 hadoop 气象数据
在线阅读 下载PDF
基于Hadoop生态的网络用户行为分析系统设计与实现
17
作者 刘文学 孙立强 吴永琢 《电脑知识与技术》 2025年第35期59-61,共3页
大数据时代,网络用户行为数据的价值日益突出,但其海量、异构的特性对传统分析技术构成严峻挑战。为实现对用户行为的深度洞察,文章设计并实现了一个基于Hadoop生态的分布式用户行为分析系统。文章以HDFS为底层存储,以MapReduce为并行... 大数据时代,网络用户行为数据的价值日益突出,但其海量、异构的特性对传统分析技术构成严峻挑战。为实现对用户行为的深度洞察,文章设计并实现了一个基于Hadoop生态的分布式用户行为分析系统。文章以HDFS为底层存储,以MapReduce为并行计算框架,以HBase为NoSQL数据库,构建了从数据采集、预处理、存储到深度分析的完整技术链路。在分析层面,系统聚焦于关键词频率分析、用户访问路径挖掘、兴趣主题聚类等关键维度。文章的核心贡献在于提供了一套完整的、模块化的系统架构方案,并详细阐述了其在处理海量日志数据、揭示深层用户行为模式方面的实现细节与技术优势。 展开更多
关键词 大数据 网络用户 行为分析 hadoop HDFS MAPREDUCE
在线阅读 下载PDF
Hadoop大数据技术课程教学探索
18
作者 李丽丽 陈久玲 +2 位作者 滕艳平 王艳春 刘相娟 《西部素质教育》 2025年第1期152-155,190,共5页
文章首先阐述了Hadoop大数据技术课程知识体系及教学现状,然后提出了Hadoop大数据技术课程教学改革策略,最后对Hadoop大数据技术课程教学改革效果进行了分析,其中改革策略部分包括提高教学水平,优化教学资源;线上线下结合,优化教学模式... 文章首先阐述了Hadoop大数据技术课程知识体系及教学现状,然后提出了Hadoop大数据技术课程教学改革策略,最后对Hadoop大数据技术课程教学改革效果进行了分析,其中改革策略部分包括提高教学水平,优化教学资源;线上线下结合,优化教学模式;优化实践教学;等等。 展开更多
关键词 hadoop大数据技术课程教学 线上线下 实践教学
在线阅读 下载PDF
Hadoop云计算基础架构的搭建和hbase和hive的整合应用 被引量:14
19
作者 谭洁清 毛锡军 《贵州科学》 2013年第5期32-35,共4页
本论文介绍一种常见的云计算分布式hadoop架构及其子项目分布式的hbase数据库和hive数据仓库,真实搭建一个hadoop云计算实验平台,并整合hbase和hive,通过创建数据表并验证实现了两数据库之间的访问,为以后的大规模的数据的存储,计算和... 本论文介绍一种常见的云计算分布式hadoop架构及其子项目分布式的hbase数据库和hive数据仓库,真实搭建一个hadoop云计算实验平台,并整合hbase和hive,通过创建数据表并验证实现了两数据库之间的访问,为以后的大规模的数据的存储,计算和应用创造基础。 展开更多
关键词 hadoop 云计算 hbase hive
在线阅读 下载PDF
基于关联分析数据挖掘的Hadoop脏数据动态清理
20
作者 马江 张文艳 《计算机仿真》 2025年第10期469-473,共5页
Hadoop系统中的内存持久化场景增加了元数据开销,使得数据集中易于混入离群点,在降低缓存命中率的同时无法均衡调整数据管理粒度,导致脏数据清理效果不佳,为此,基于关联分析数据挖掘,对Hadoop脏数据动态清理方法展开研究。通过Apriori... Hadoop系统中的内存持久化场景增加了元数据开销,使得数据集中易于混入离群点,在降低缓存命中率的同时无法均衡调整数据管理粒度,导致脏数据清理效果不佳,为此,基于关联分析数据挖掘,对Hadoop脏数据动态清理方法展开研究。通过Apriori关联规则算法提取脏数据特征量,对脏数据频繁项集进行分析;引入支持度自适应更新策略,采用局部离群点检测算法剔除K-means聚类离群点,基于改进K-means聚类对脏数据进行挖掘;使用CFSFDP对数据进行初步聚类,识别并去除重复的数据和异常值,再使用SOM神经网络对数据进行映射,依据长短期记忆网络预测并替换脏数据时刻值,实现动态时间序列下的脏数据清理。通过实验证明,所提方法获取的Hadoop脏数据类型贴近度更加接近1,脏数据清理后的RMSE低于0.5,MAPE低于40%,说明所提方法获取的Hadoop脏数据动态清理的准确性更高,清理效果更优。 展开更多
关键词 关联分析 数据挖掘 脏数据 动态清理
在线阅读 下载PDF
上一页 1 2 204 下一页 到第
使用帮助 返回顶部