-
题名基于MapFile的HDFS小文件存储效率问题
被引量:16
- 1
-
-
作者
洪旭升
林世平
-
机构
福州大学数学与计算机科学学院
-
出处
《计算机系统应用》
2012年第11期179-182,共4页
-
文摘
针对HDFS最初是为流式访问大文件而开发的,而对于大量小文件的存储效率不高问题,采用MapFile设计一个HDFS中存储小文件的方案.该方案的主要思想是在上传HDFS时增加一个文件类型判断模块,建立一个小文件队列,将小文件序列化存入一个MapFile容器,合并成大文件,并建立相应的索引文件,有效降低文件数目和提高访问效率.通过和现有的Hadoop Archives(HAR files)文件归档解决小文件问题的方案对比,实验结果表明,基于MapFile的存储小文件方案可以更为有效的提高小文件存储性能和减少HDFS文件系统的节点内存消耗.
-
关键词
HDFS
小文件
mapfile
SequenceFile
云存储
-
Keywords
HDFS
small file
mapfile
sequence file
cloud storage
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-
-
题名基于MapFile的HDFS小文件存取优化
被引量:1
- 2
-
-
作者
段隆振
洪新利
邱桃荣
-
机构
南昌大学信息工程学院
-
出处
《南昌大学学报(工科版)》
CAS
2017年第2期175-178,共4页
-
基金
国家自然科学基金资助项目(61070139
81460769)
+2 种基金
江西省教育厅科学计划资助项目(GJJ14134
GJJ14143)
广东省科技计划资助项目(2013B010406008)
-
文摘
分布式文件系统(HDFS)存取大文件有很好的性能,但存取海量小文件时效率很差。鉴于此,提出一种小文件存取优化策略。存储小文件时,客户端将它们按类型和访问权限分类合并成MapFile,合并后的大文件交给HDFS处理。读取小文件时,引入由Nexist文件缓冲区域、一级缓存和二级缓存组成的缓存模块。实验表明,该策略能有效降低存取海量小文件时主节点中内存的消耗,同时减少了小文件的存取时间,极大提高存取的性能。
-
关键词
分布式文件系统
海量小文件
mapfile
缓存
存取优化
-
Keywords
mapfile
hadoop distlibuted file system
massive small files
mapfile
cache
access optimization
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于影像块组织的遥感数据分布式存储方法
被引量:9
- 3
-
-
作者
池子文
张丰
杜震洪
刘仁义
-
机构
浙江大学浙江省资源与环境信息系统重点实验室
浙江大学地理信息科学研究所
-
出处
《浙江大学学报(理学版)》
CAS
CSCD
2014年第1期95-99,112,共6页
-
基金
国家自然科学基金资助项目(41001227
41101356
+4 种基金
41101371)
海洋公益性行业科研专项经费资助(20090512-8)
浙江省科技攻关计划项目(2010C33146)
中央高校基本科研业务费专项(2011QNA3008
2013QNA3023)
-
文摘
云存储是解决动态增长的海量遥感数据产品存储管理难题的有效手段.针对云存储在遥感数据存储领域中存在的问题,提出了一种基于影像块组织的遥感数据分布式Key-Value存储模型,解决了分布式文件系统存储大规模影像块效率低下的问题,使遥感数据云存储具备了空间区域访问特性;结合开源分布式文件系统HDFS,实现了影像数据的分布式高效存储与空间区域检索.实验与分析表明,系统在多用户并发连接情况下可以维持较高的吞吐率,同时具备良好的可伸缩性和稳定性.
-
关键词
遥感数据产品
分布式文件系统
HDFS
mapfile
Ke
卜value
-
Keywords
remote sensing data product
distributed file system
HDFS
mapfile
Key-Value
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-
-
题名基于EHDFS的海量小文件存储与检索方法
被引量:5
- 4
-
-
作者
李文武
张建锋
王景林
-
机构
西北农林科技大学信息工程学院
-
出处
《计算机工程与设计》
北大核心
2022年第2期376-383,共8页
-
基金
陕西省重点项目研发计划基金项目(2019 NY-164)。
-
文摘
为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案。存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销。检索阶段,改进MapFile映射关系结构、索引存储位置与组成元素以建立新的文件索引模型,避免跨跃式文件搜索,实现小文件的集中检索。实验结果表明,对比多种大数据存储模型,在不同数据量的分组压力测试下,该方案有效提高了HDFS的存取效率。
-
关键词
海量小文件
EHDFS架构
最优化合并存储模型
mapfile映射关系结构
文件索引模型
-
Keywords
massive small files
EHDFS architecture
optimization merge storage model
mapfile mapping structure
file index model
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-