HDFS相关
HDFS
- 什么是HDFS
HDFS是Hadoop中的分布式文件系统,用于存储超大数据文件,为Hadoop提供基础存储服务
- HDFS有什么特点
- HDFS可存储超大文件
- 一次写入,多次读取
一个文件经过创建,写入和关闭之后就不需要改变,这个假设简化了数据一致性的问题,提高了数据访问的吞吐量- 物理机设备硬件要求低
HDFS设计中充分考虑了数据的可靠性、安全性和高可用性
- HDFS的是否有块的概念?这样设计有什么优点
HDFS有Block的概念,其大小Hadoop1.0默认为64M(Hadoop2.0 为128M),相比于磁盘的文件系统大很多;设计的如此之大是为了
1.最小化寻址开销,因为大的块可以减少寻道时间
2.减少管理块的数据开销,因为每个Block在namenode上都有记录
- 为什么说HDFS可以存储超大的文件
HDFS的文件可以大于任何一个磁盘的容量,因为文件的所有块并不需要存储在一个磁盘上,因此可以通过集群中的任意磁盘进行存储,正式因为这种分布式的逻辑使得HDFS存储的数据可以达到G、T、P等级别
- 哪些场景不适合用HDFS
1.低延迟,实时查询
2.大量小文件,由于每个文件都会产生各自的Metadata元数据,而Hadoop通过namenode存储这些数据,若小文件过多,会导致Namenode存储出现瓶颈
3.多用户更新
4.结构化数据
5.数据量并不大
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 野生Java程序员兼美食博主!
评论