-
题名基于MapFile的HDFS小文件存储效率问题
被引量:16
- 1
-
-
作者
洪旭升
林世平
-
机构
福州大学数学与计算机科学学院
-
出处
《计算机系统应用》
2012年第11期179-182,共4页
-
文摘
针对HDFS最初是为流式访问大文件而开发的,而对于大量小文件的存储效率不高问题,采用MapFile设计一个HDFS中存储小文件的方案.该方案的主要思想是在上传HDFS时增加一个文件类型判断模块,建立一个小文件队列,将小文件序列化存入一个MapFile容器,合并成大文件,并建立相应的索引文件,有效降低文件数目和提高访问效率.通过和现有的Hadoop Archives(HAR files)文件归档解决小文件问题的方案对比,实验结果表明,基于MapFile的存储小文件方案可以更为有效的提高小文件存储性能和减少HDFS文件系统的节点内存消耗.
-
关键词
HDFS
小文件
MapFile
sequencefile
云存储
-
Keywords
HDFS
small file
MapFile
sequence file
cloud storage
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-
-
题名基于Hadoop的水利元数据语义搜索方法
被引量:2
- 2
-
-
作者
冯钧
李宗祥
唐志贤
姜康
-
机构
河海大学计算机与信息学院
-
出处
《计算机与现代化》
2015年第12期1-6,共6页
-
基金
国家自然科学基金资助项目(61370091
61170200)
-
文摘
为了解决水利领域中元数据搜索引擎缺乏语义理解,并且在集中式环境下索引水利元数据效率低下的问题,本文提出一种基于Hadoop的水利元数据语义搜索方法。首先结合本体与查询扩展技术的语义搜索方法,设计水利领域的本体推理规则、语义相似度计算方法、扩展词选择方法和语义相关度排序方法,从而有效地提高搜索结果的查全率与查准率;其次,针对XML形式的水利元数据建立索引的效率低下问题,引入Hadoop平台中的MapReduce并行处理模型,并行化处理解析提取元数据信息与索引建立工作,并修改SequenceFile的文件结构,以应对水利元数据的小文件问题,解决集中式环境下对水利元数据建立索引的性能瓶颈;最后利用Hadoop强大的并行计算能力,设计分布式环境下的语义扩展查询方法,从而提高水利元数据的查询效率。
-
关键词
领域本体
相似性计算
语义搜索
HADOOP
sequencefile
-
Keywords
domain ontology
calculation of similarity
semantic query
Hadoop
sequencefile
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于HDFS的海量指纹数据云存储优化研究
被引量:2
- 3
-
-
作者
张宇翔
赵建民
朱信忠
徐慧英
-
机构
浙江师范大学数理与信息工程学院
-
出处
《浙江师范大学学报(自然科学版)》
CAS
2015年第2期179-184,共6页
-
基金
国家自然科学基金资助项目(6127268)
-
文摘
HDFS设计之初只考虑到如何更好地处理大文件,并没有针对海量小文件进行优化,因此,当使用HDFS管理海量指纹数据小文件时会出现Name Node内存负载过重、上传及查询性能过低等问题.采用Sequence File序列化技术进行小文件的合并,并且对于小文件合并、元数据存储、缓存策略等进行了针对性优化.实验证明,该优化方案可以有效地解决Name Node内存负载过重的问题,并且海量指纹数据小文件的上传和查询性能得到了提高.
-
关键词
HDFS
小文件
sequencefile
文件合并
元数据存储
缓存策略
-
Keywords
HDFS
small files
sequencefile
merging of files
metadata storage
caching strategies
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-