Hadoop02【架构分析】(1)_Java

两者区别

==================================================================

1.从整体架构上分析

hadoop1.0由分布式存储系统hdfs和分布式计算框架mapreduce组成，其中hdfs由一个namenode和多个datenode组成，mapreduce由一个jobtracker和多个tasktracker组成。

hadoop2.0为克服hadoop1.0中的不足进行了下面改进：

针对hadoop1.0单namenode制约hdfs的扩展性问题，提出hdfs federation，它让多个namenode分管不同的目录进而实现访问隔离和横向扩展，同时彻底解决了namenode单点故障问题；
针对hadoop1.0中的mapreduce在扩展性和多框架支持等方面的不足，它将jobtracker中的资源管理和作业控制分开，分别由resourcemanager（负责所有应用程序的资源分配）和applicationmaster（负责管理一个应用程序）实现，即引入了资源管理框架yarn。
yarn作为hadoop2.0中的资源管理系统，它是一个通用的资源管理模块，可为各类应用程序进行资源管理和调度，不仅限于mapreduce一种框架，也可以为其他框架使用，如tez、spark、storm等

2.从mapreduce框架分析

mapreduce1.0

mapreduce1.0计算框架主要由三部分组成：编程模型、数据处理引擎和运行时环境。

| 组成 | 说明 |

| — | :-- |

| 编程模型 | map和reduce两个阶段. |

| 数据处理引擎 | 由maptask和reducetask组成 |

| 运行时环境 | 由一个jobtracker和若干个tasktracker两类服务组成 |

基本编程模型是将问题抽象成map和reduce两个阶段。map阶段将输入的数据解析成key/value，迭代调用map()函数处理后，再以key/value的形式输出到本地目录，reduce阶段将key相同的value进行规约处理，并将最终结果写到hdfs上。

数据处理引擎由maptask和reducetask组成，分别负责map阶段逻辑和reduce阶段的逻辑处理；

运行时环境由一个jobtracker和若干个tasktracker两类服务组成，其中jobtracker负责资源管理和所有作业的控制，tasktracker负责接收来自jobtracker的命令并执行它。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、oppo等大厂，18年进入阿里一直到现在。