当前位置: 代码网 > it编程>前端脚本>Powershell > 猿创征文|Hadoop大数据技术

猿创征文|Hadoop大数据技术

2024年08月01日 Powershell 我要评论
Hadoop大数据技术

hadoop背景

hadoop生态圈

hadoop生态圈:

在这里插入图片描述

hadoop生态圈组件说明:

在这里插入图片描述

hadoop典型应用架构:

在这里插入图片描述

hadoop模式

  • 单机模式:hadoop默认模式,在单机上按默认配置以非分布式模式运行的一个独立java进程,没有分布式文件系统hdfs,直接在本地操作的文件系统读写,一般仅用于本地mapreduce程序的调试。
  • 伪分布式模式:单机上模拟一个分布式的环境,具备hadoop的主要功能,常用于调试程序。
  • 完全分布式模式:也叫集群模式,hadoop的守护进程运行在由多台主机搭建的集群上,是真正的分布式环境,是用于实际的生产环境。

hdfs

在这里插入图片描述

概述

优点

  • 高容错性,以数据复制多份并存储在集群的不同节点来实现数据容错。
  • 高扩展性,hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
  • 高吞吐率,延时较低,可存储非常大的文件。
  • 低成本,可构建在廉价机器上。
  • 采用流式的数据访问方式,即一次写入,多次读取,保证数据一致性。
  • 适合批处理
  • 适合大数据处理

缺点

  • 不适合低延迟数据访问:hadoop优化了高数据吞吐量,牺牲了获取数据的延迟,从而hadoop不适合低延迟数据访问,而hbase更适合低延迟访问需求。
  • 不适合大量的小文件存储:namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。
  • 不适合并发写入、文件随机修改

基本组成

namenode

其中:
edits 文件:记录操作日志,元数据的每一次变更操作都会被记录到edits中。
fsimage 文件:hdfs的元信息,namenode节点的元数据运行在内存中,为防止宕机数据丢失,每隔一段时间会将元数据持久化到磁盘中。

secondary namenode

datanode

yarn

在这里插入图片描述

yarn中应用(application)运行机制(流程)

yarn中任务进度监控

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com