当前位置: 代码网 > 科技>操作系统>Windows > 【人机交互 复习】第2章 Hadoop

【人机交互 复习】第2章 Hadoop

2024年07月28日 Windows 我要评论
在Hadoop 2.0及以上版本中,start-all.sh 已被拆分为 start-dfs.sh 和 start-yarn.sh,但在旧版本中,start-all.sh 可以启动这两个服务。1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并 且是以一种可靠、高效、可伸缩的方式进行处理的,一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据。一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。D) 伪分布式安装是在一台机器上模拟一个小的集群。

一、概念

二、hadoop生态系统(要求熟读)

组件

功能

hdfs

分布式文件系统

mapreduce

分布式并行编程模型

yarn

资源管理和调度器

tez

运行在yarn之上的下一代hadoop查询处理框架

hive

hadoop上的数据仓库

hbase

hadoop上的非关系型的分布式数据库

pig

一个基于hadoop的大规模数据分析平台,提供类似sql的查询语言pig latin

sqoop

用于在hadoop与传统数据库之间进行数据传递

oozie

hadoop上的工作流管理系统

zookeeper

提供分布式协调一致性服务

storm

流计算框架

flume

一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

ambari

hadoop快速部署工具,支持apache hadoop集群的供应、管理和监控

kafka

一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

spark

类似于hadoop mapreduce的通用并行框架

三、习题

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com