HDFS

  • 什么是HDFS

HDFS是Hadoop中的分布式文件系统,用于存储超大数据文件,为Hadoop提供基础存储服务

  • HDFS有什么特点
  1. HDFS可存储超大文件
  2. 一次写入,多次读取
    一个文件经过创建,写入和关闭之后就不需要改变,这个假设简化了数据一致性的问题,提高了数据访问的吞吐量
  3. 物理机设备硬件要求低
    HDFS设计中充分考虑了数据的可靠性、安全性和高可用性
  • HDFS的是否有块的概念?这样设计有什么优点

HDFS有Block的概念,其大小Hadoop1.0默认为64M(Hadoop2.0 为128M),相比于磁盘的文件系统大很多;设计的如此之大是为了
1.最小化寻址开销,因为大的块可以减少寻道时间
2.减少管理块的数据开销,因为每个Block在namenode上都有记录

  • 为什么说HDFS可以存储超大的文件

HDFS的文件可以大于任何一个磁盘的容量,因为文件的所有块并不需要存储在一个磁盘上,因此可以通过集群中的任意磁盘进行存储,正式因为这种分布式的逻辑使得HDFS存储的数据可以达到G、T、P等级别

  • 哪些场景不适合用HDFS

    1.低延迟,实时查询
    2.大量文件,由于每个文件都会产生各自的Metadata元数据,而Hadoop通过namenode存储这些数据,若小文件过多,会导致Namenode存储出现瓶颈
    3.多用户更新
    4.结构化数据
    5.数据量并不大