Hadoop框架及HDFS详细概述（小白到入门持续更新~）_ar

文章目录

hadoop概述
一、hadoop

hadoop概述

一、hadoop

1、分布式和集群

分布式: 分布式的主要工作是分解任务，将职能拆解，多个人在一起做不同的事
集群: 集群主要是将同一个业务，部署在多个服务器上 ，多个人在一起做同样的事

在这里插入图片描述

2、hadoop框架

2.1 概述

hadoop简介:是apache旗下的一个用java语言实现开源软件框架，是一个存储和计算大规模数据的软件平台。
hadoop起源: doug cutting 创建的，最早起源一个nutch项目。
三驾马车:  谷歌的三遍论文加速了hadoop的研发
hadoop框架意义: 作为大数据解决方案，越来越多的企业将hadoop 技术作为进入大数据领域的必备技术。

狭义上来说:hadoop指apache这款开源框架，它的核心组件有：hdfs,mr,yanr
广义上来说:hadoop通常是指一个更广泛的概念——hadoop生态圈

hadoop发行版本: 分为开源社区版和商业版。
开源社区版:指由apache软件基金会维护的版本，是官方维护的版本体系,版本丰富，兼容性稍差。
商业版:指由第三方商业公司在社区版hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本，如: cloudera的cdh等。

2.2 版本更新

1.x版本系列: hadoop的第二代开源版本，该版本基本已被淘汰        
hadoop组成: hdfs(存储)和mapreduce(计算和资源调度)

2.x版本系列: 架构产生重大变化，引入了yarn平台等许多新特性       
hadoop组成:  hdfs(存储)和mapreduce(计算)和yarn(资源调度)

3.x版本系列: 因为2版本的jdk1.7不更新,基于jdk1.8升级产生3版本   
hadoop组成:  hdfs(存储)和mapreduce(计算)和yarn(资源调度)

2.3 hadoop架构详解

简单聊下hadoop架构?

当前版本hadoop组成: hdfs , mapreduce ,yarn

hdfs: 分布式文件存储系统，hadoop distributed file system，负责海量数据存储
	元数据: 描述数据的数据。你的简历就是元数据，你的人就是具体的数据
	namenode: hdfs中的主节点（master），主要负责管理集群中众多的从节点以及元数据，不负责真正数据的存储
	secondarynamenode: 主要负责辅助namenode进行元数据的存储。如果namenode是ceo，那么secondarynamenode就是秘书。
	datanode: 主要负责真正数据的存储
	
yarn: 作业调度和集群资源管理的组件。负责资源调度工作
	resourcemanager: 接收用户的计算任务，并且负责给任务进行资源分配
	nodemanager: 负责执行主节点分配的任务，也就是给mapreduce计算程序提供资源
	现实生活例子: resourcemanager对应医生，nodemanager拿药的护士
	
mapreduce: 分布式计算框架，负责对海量数据进行处理
	如何计算: 核心思想是分而治之，map阶段负责任务的拆解，reduce阶段负责数据的合并计算
	mr（mapreduce）程序: 可以使用java/python去调用方法/函数来实现具体的海量数据分析功能
	
mapreduce计算需要的数据和产生的结果需要hdfs来进行存储
mapreduce的运行需要由yarn集群来提供资源调度。

2.4 官方示例

在hadoop的安装包中，官方提供了mapreduce程序的示例examples，以便快速上手体验mapreduce。该示例是使用java语言编写的，被打包成为了一个jar文件。

官方示例jar路径: /export/server/hadoop-3.3.0/share/hadoop/mapreduce

2.4.1 圆周率练习

[root@node1 ~]# cd /export/server/hadoop-3.3.0/share/hadoop/mapreduce
[root@node1 mapreduce]# hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 10 50
...
job finished in 29.04 seconds
estimated value of pi is 3.16000000000000000000

2.4.2 词频统计

需求:

步骤:

1.hdfs根目录中创建input目录,存储word.txt文件

zhangsan lisi wangwu zhangsan
zhaoliu lisi wangwu zhaoliu
xiaohong xiaoming hanmeimei lilei
zhaoliu lilei hanmeimei lilei

在这里插入图片描述

2.在shell命令行中执行如下命令

[root@node1 ~]# cd /export/server/hadoop-3.3.0/share/hadoop/mapreduce
[root@node1 mapreduce]# hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /output

注意: /input 和 /output间有空格

3.去hdfs中查看是否生成output目录

注意: output输出目录,在执行第2步命令后会自动生成,如果提前手动创建或者已经存在,就会报以下错误:

org.apache.hadoop.mapred.filealreadyexistsexception: output directory hdfs://node1.itcast.cn:8020/output already exists

4.进入output目录查看part-r-00000文件,结果如下:

hanmeimei	2
lilei	3
lisi	2
wangwu	2
xiaohong	1
xiaoming	1
zhangsan	2
zhaoliu	3

3、hadoop的hdfs

3.1 特点

hdfs文件系统可存储超大文件，时效性稍差。
hdfs具有硬件故障检测和自动快速恢复功能。
hdfs为数据存储提供很强的扩展能力。
hdfs存储一般为一次写入，多次读取，只支持追加写入，不支持随机修改。
hdfs可在普通廉价的机器上运行。
文件存储到hdfs上面可能会被进行切分，一个块的大小最大是128mb。一个块的副本数是3

3.2 架构

在这里插入图片描述

1- client: 客户端
	文件的上传和下载是由客户端发送请求给到namenode
	还要负责文件的切分；文件上传到hdfs的时候，客户端需要将文件分成一个一个的block，然后进行存储
	另外还提供了一些hdfs操作命令，用来操作和访问hdfs
	
2- namenode
	就是master主角色。它是一个管理者的角色
	处理客户端发送过来的文件的上传/下载请求
	管理hdfs元数据（文件路径、文件大小、文件的名称、文件的操作权限、文件被切分之后的block信息...）
	配置3副本的策略
	
3- datanode
	就是slave从角色。namenode下达命令，datanode执行具体的实际的操作。是真正干活的
	存储实际的数据块block
	负责文件的读写请求
	定时向namenode汇报block信息，心跳机制
	
4- secondarynamenode
	并非 namenode 的热备。当namenode 挂掉的时候，它并不能马上替换 namenode 并提供服务。
	辅助 namenode，分担其工作量。
	在紧急情况下，可辅助恢复 namenode。

3.3 副本

block: hdfs被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块，这个数据块被称为block，除了最后一个，所有的数据块都是同样大小的。

block: 默认是128mb。副本数是3

hdfs默认文件: https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

注意: 
	1- hdfs的相关配置，在企业中一般使用默认
	2- 但是这些参数也是可以调整。会根据数据的重要程度进行调整。如果数据的价值太低，可以调低副本数；如果数据的价值高，可以调高副本数

在这里插入图片描述

3.4 shell命令

***注意: 可以输入hdfs dfs查看hdfs支持的shell命令有那些

hdfs的shell命令概念: 安装好hadoop环境之后，可以执行类似于linux的shell命令对文件的操作，如ls、mkdir、rm等,对hdfs文件系统进行操作查看,创建,删除等。

hdfs的shell命令格式1: hadoop fs -命令 参数
hdfs的shell命令格式2: hdfs dfs -命令 参数

hdfs的家目录默认: /user/root   如果在使用命令操作的时候没有加根目录/,默认访问的是此家目录/user/root

查看目录下内容:  hdfs dfs -ls 目录的绝对路径。注意没有-l -a选项
创建目录: hdfs dfs -mkdir 目录的绝对路径
创建文件: hdfs dfs -touch 文件的绝对路径
移动目录/文件: hdfs dfs -mv 要移动的目录或者文件的绝对路径  目标位置绝对路径
复制目录/文件: hdfs dfs -cp 要复制的目录或者文件的绝对路径  目标位置绝对路径
删除目录/文件: hdfs dfs -rm [-r] 要删除的目录或者文件的绝对路径
查看文件的内容: hdfs dfs -cat 要查看的文件的绝对路径          注意: 除了cat还有head,tail也能查看
查看hdfs其他shell命令帮助: hdfs dfs --help
注意: hdfs有相对路径,如果操作目录或者文件的时候没有以根目录/开头,就是相对路径,默认操作的是/user/root

把本地文件内容追加到hdfs指定文件中: hdfs dfs -appendtofile 本地文件路径 hdfs文件绝对路径

注意: window中使用页面可以完成window本地和hdfs的上传下载,当然linux中使用命令也可以完成文件的上传和下载
linux本地上传文件到hdfs中: hdfs dfs -put linux本地要上传的目录或者文件路径  hdfs中目标位置绝对路径
hdfs中下载文件到liunx本地: hdfs dfs -get hdfs中要下载的目录或者文件的绝对路径 linux本地目标位置路径

路径 hdfs文件绝对路径

注意: window中使用页面可以完成window本地和hdfs的上传下载,当然linux中使用命令也可以完成文件的上传和下载
linux本地上传文件到hdfs中: hdfs dfs -put linux本地要上传的目录或者文件路径 hdfs中目标位置绝对路径
hdfs中下载文件到liunx本地: hdfs dfs -get hdfs中要下载的目录或者文件的绝对路径 linux本地目标位置路径

在这里插入图片描述

Hadoop框架及HDFS详细概述（小白到入门持续更新~）

2024年08月02日 • ar •我要评论

文章目录

hadoop概述

一、hadoop

1、分布式和集群

2、hadoop框架

2.1 概述

2.2 版本更新

2.3 hadoop架构详解

2.4 官方示例

2.4.1 圆周率练习

2.4.2 词频统计

3、hadoop的hdfs

3.1 特点

3.2 架构

3.3 副本

3.4 shell命令

相关文章:

最新AI大模型系统源码，ChatGPT商业运营版系统源（详细图文搭建部署教程）+AI绘画系统，DALL-E3文生图， Whisper & TTS 语音识别，文档分析

语音识别ASR背后的原理

最简单的Hadoop+Spark大数据集群搭建方法，看这一篇就够啦

发表评论


验证码：

Hadoop框架及HDFS详细概述（小白到入门 持续更新~）

2024年08月02日 • ar •我要评论

文章目录

hadoop概述

一、hadoop

1、分布式和集群

2、hadoop框架

2.1 概述

2.2 版本更新

2.3 hadoop架构详解

2.4 官方示例

2.4.1 圆周率练习

2.4.2 词频统计

3、hadoop的hdfs

3.1 特点

3.2 架构

3.3 副本

3.4 shell命令

相关文章:

最新AI大模型系统源码，ChatGPT商业运营版系统源（详细图文搭建部署教程）+AI绘画系统，DALL-E3文生图， Whisper & TTS 语音识别，文档分析

语音识别ASR背后的原理

最简单的Hadoop+Spark大数据集群搭建方法，看这一篇就够啦

发表评论

Hadoop框架及HDFS详细概述（小白到入门持续更新~）