hdfs

有高容错性特点的计算机系统
HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统,主要用于解决海量数据的存储问题。首先,它是一个文件系统,用于存储文件,通过统一的命名空间-目录树来定位文件;其次,它具备分布式存储的特点,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。[1]
HDFS中的文件在物理上是分块存储,块的大小可以通过配置参数dfs.blocksize来规定,默认大小在Hadoop1.x版本中是64MB,在Hadoop2.x版本中是128MB,在Hadoop3.x版本中是256MB,HDFS不太适合小文件的存储场景。[1]
HDFS会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如hdfs://namenode:port/dir-a/dir-b/dir-c/file.data[1]
HDFS目录结构及文件分块信息(元数据)的管理由NameNode节点承担。NameNode是HDFS集群的主(Master)节点,负责维护整个HDFS的目录树,以及每一个路径(文件)所对应的Block信息(Block的ID及所在的DataNode服务器)。HDFS是设计成适应一次写人、多次读出的场景,且不支持文件的修改。[1]

特点和目标