HDFS分布式文件存储系统介绍
前言
#博学谷it学习技术支持#
hadoop是一些软件的统称,其底层是java;hadoop主要包含hdfs分布式文件存储框架、mapreduce分布式计算框架和yarn分布式资源调度框架。本篇文章主要介绍hadoop中的hdfs框架。
一、hdfs介绍
hdfs的全称是hadoop distributed file system,hadoop分布式文件系统。该系统是一个由多台计算机组成的集群,主要看重整体集群的工作效率,不注重单台计算机的性能,所以无论多低配置的计算机都可以加入该集群中。
hdfs系统具有文件切片的机制,可以将一个较大的文件进行切片,切分成多个较小的文件存储在该集群中不同的计算机上,取数据时再将所有的小文件进行合并,返回给客户端。
二、架构介绍

从上图可以看出,hdfs系统中的角色有namenode、secondaryname和datanode。这三个角色有各自的分工,从而是hdfs集群可以正常运行。
- namenode管理整个hdfs集群
- namenode管理整个集群中的元数据,元数据就是文件在系统中存储的相关信息,不是文件内容
- client客户端上传和下载数据都需要经过namenode,从而获取元数据的信息
- namenode是hdfs集群的核心,该角色一当掉,hdfs集群停止运行
相关文章:
-
大数据,你可能就简单理解为数据量大,那是多大才算大数据呢?如果只有数据量大是不是太片面单一了,实际上如果你说是从事大数据开发, 那么起码要满足下面的5大特征。5大特征1.数据量大需…
-
本人从事网路安全工作12年,曾在2个大厂工作过,安全服务、售后服务、售前、攻防比赛、安全讲师、销售经理等职位都做过,对这个行业了解比较全面。最近遍览了各种网络安全类的文章,内容参差…
-
在 HBase 表中,一条数据拥有一个全局唯一的键(RowKey)和任意数量的列(Column),一列或多列组成一个列族(Column Family),同一个列族中列的数据在物理上…
-
-
本文旨在探讨ES、HBase、Redis、MySQL和MongoDB这五种技术的核心特性和优势,通过分析它们在不同应用场景下的表现,为技术选型提供指导和建议。…
-
Hive 组件需要基于 Hadoop 系统进行安装。因此,在安装 Hive 组件前,需要确保 Hadoop系统能够正常运行Hive 组件的部署规划和软件包路径如下:(1)当前环境中…
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论