猿创征文｜Hadoop大数据技术_Powershell

hadoop背景

hadoop生态圈

hadoop生态圈：

在这里插入图片描述

hadoop生态圈组件说明：

在这里插入图片描述

hadoop典型应用架构：

在这里插入图片描述

hadoop模式

单机模式：hadoop默认模式，在单机上按默认配置以非分布式模式运行的一个独立java进程，没有分布式文件系统hdfs，直接在本地操作的文件系统读写，一般仅用于本地mapreduce程序的调试。
伪分布式模式：单机上模拟一个分布式的环境，具备hadoop的主要功能，常用于调试程序。
完全分布式模式：也叫集群模式，hadoop的守护进程运行在由多台主机搭建的集群上，是真正的分布式环境，是用于实际的生产环境。

hdfs

在这里插入图片描述

概述

优点

高容错性，以数据复制多份并存储在集群的不同节点来实现数据容错。
高扩展性，hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高吞吐率，延时较低，可存储非常大的文件。
低成本，可构建在廉价机器上。
采用流式的数据访问方式，即一次写入，多次读取，保证数据一致性。
适合批处理
适合大数据处理

缺点

不适合低延迟数据访问：hadoop优化了高数据吞吐量，牺牲了获取数据的延迟，从而hadoop不适合低延迟数据访问，而hbase更适合低延迟访问需求。
不适合大量的小文件存储：namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。
不适合并发写入、文件随机修改

基本组成

namenode

其中：
edits 文件：记录操作日志，元数据的每一次变更操作都会被记录到edits中。
fsimage 文件：hdfs的元信息，namenode节点的元数据运行在内存中，为防止宕机数据丢失，每隔一段时间会将元数据持久化到磁盘中。

secondary namenode

datanode

yarn

在这里插入图片描述

yarn中应用（application）运行机制（流程）：

yarn中任务进度监控：


验证码：

验证码：

猿创征文｜Hadoop大数据技术

2024年08月01日 • Powershell •我要评论

hadoop大数据技术

hadoop背景

hadoop生态圈

hadoop模式

hdfs

概述

优点

缺点

基本组成

namenode

secondary namenode

datanode

yarn

相关文章:

本文介绍了如何刷新和清除Windows DNS缓存，包括使用“运行”对话框、命令提示符和Windows PowerShell的方法。如果你不确定要使用哪种方法，请从运行对话框方法开始。注意：本文中

解决webview缓存问题

CentOS更换yum源

Shell脚本高级进阶

发表评论

猿创征文｜Hadoop大数据技术

2024年08月01日 • Powershell •我要评论

hadoop大数据技术

hadoop背景

hadoop生态圈

hadoop模式

hdfs

概述

优点

缺点

基本组成

namenode

secondary namenode

datanode

yarn

相关文章:

本文介绍了如何刷新和清除Windows DNS缓存，包括使用“运行”对话框、命令提示符和Windows PowerShell的方法。如果你不确定要使用哪种方法，请从运行对话框方法开始。​注意：本文中

解决webview缓存问题

CentOS更换yum源

Shell脚本高级进阶

发表评论

本文介绍了如何刷新和清除Windows DNS缓存，包括使用“运行”对话框、命令提示符和Windows PowerShell的方法。如果你不确定要使用哪种方法，请从运行对话框方法开始。注意：本文中