当前位置：代码网 > it编程>编程语言>Java > 【大数据】Hadoop下载安装及伪分布式集群搭建教程

【大数据】Hadoop下载安装及伪分布式集群搭建教程

2024年08月01日 • Java •我要评论

一文详解hadoop下载安装以及伪分布式集群搭建教程

目录

3.1.下载安装配置

3.2.伪分布式集群

3.3.注意事项

4.hadoop集群的组成

1.概述

hadoop有三种安装模式

单机模式，只在一台机器上运行，存储用的本地文件系统而不是hdfs。
伪分布式模式，存储采用hdfs，名称节点和数据节点在同一台机器上。
分布式模式，标准的分布式集群。

做实验或者学习阶段选择伪分布式就好，本文将详细讲解在linux搭建起一个伪分布式的hadoop集群。

2.环境准备

1.安装jdk

略，这一步应该就不用多赘述了吧，作者用的oracle版的jdk8

2.配置ssh免密登录

由于名称节点要通过ssh来拉起数据节点的守护进程（用来上报信息），所以要先配置一下节点间的ssh免密登录，不然的话集群根本就起不来。

ubuntu默认安装了ssh client，除此之外还要安装ssh server、生成密钥

并将密钥追加到允许无密码登录的密钥列表文件中去：

3.hadoop安装

3.1.下载安装配置

下载地址：

index of /dist/hadoop/common

版本：

3.1.3

下载后直接解压即可。

用version参数看看解压是否正确：

测试一下单机模式是否能正常运行:

测试可以使用自带的demo来看运行是否正常，通过一个正则表达式去匹配指定格式的字符串，然后去查看output中存放的统计结果。

搭建伪分布式集群：

hadoop的配置文件所在路径：

core-site.xml:

hdfs-site.xml：

配置好配置文件后，下一步是什么？当然是格式化namenode了，这一步会根据配置文件去初始化好namenode节点：

格式化成功后的提示：

配置环境：

按道理说配置完配置文件后直接启动即可了对吧，但是在hadoop 3.1.3这个版本有个hadoop的环境配置文件etc/hadoop/hadoop-env.sh。这个配置里面要指定java_home的路径已经可以启动hadoop的用户，不然的话启动会报用户没有启动权限或者java_home找不到。这是一个小坑以下是作者的配置：

启动:

启动完成后：

3.2.伪分布式集群

hdfs做了资源隔离，要使用hdfs的前提是先在hdfs中为用户创建用户目录。

在/user/root/下创建一个input目录：

把测试数据拷贝过去：

这不是报错，不用管：

跑计算任务的demo：

跑demo的jar包的时候可以指定输入输出路径和一个正则表达式来指定匹配规则，下面的正则表达式会匹配dfs开头后面是a-z的字符的所有单词。

查看结果：

3.3.注意事项

下次再进行测试的时候一定要将output文件夹删掉，不然冲突会报错。

4.hadoop集群的组成

伪分布式的hadoop集群其实就两大核心组件构成：

hdfs
mapreduce

回顾一下上面启动hadoop后我们用jdk的jps命令看到的java进程：

可以看到一共有三个东西：

secondnamenode
datanode
namenode

这三个东西是属于hdfs的，datanode是具体存放数据的节点，namenode用来记录所有datanode的信息，secondnamenode是namenode的备份：

以上是节点在hdfs维度扮演的角色，除此之外节点还在mapreduce维度扮演有角色，mapreduce在跑一个大的任务的时候会把节点分为两类：

jobtracker，负责总的来协调位于不同节点的小任务，将多个小任务的计算结果汇成最终的结果。
tasktracker，datanode节点上跑的小任务。

赞 (0)

相关文章:

/usr/local/hbase/bin/hbase: line 857: /usr/lib/jvm/jdk1.8.0_371/bin/java: No such file or directory

在启动HBase时，系统无法找到Java的可执行文件。因为JAVA_HOME环境变量配置出错。这将停止旧的HBase进程并重新启动HBase，同时使用你正确设置... [阅读全文]
RabbitMQ不讲武德，发个消息也这么多花招(1)

大型分布式系统犹如一个生命，系统中各个服务犹如骨骼，其中的数据犹如血液，而Kafka犹如经络，串联整个系统。这份Kafka源码笔记通过大量的设计图展示、代码分析、示例分享，把Kaf…

2024年08月01日 • 编程语言
windows 10 HBase保姆级安装教程

set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_60这里可能会有一个报错，参考如下文章即可！点击查看4. 配置文件：在D:\HBase\hadoop…

2024年08月01日 • 编程语言
HRegion和HRegionServer：HBase的分布式特性

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。HBase提供了自动分区、数据复制和负载... [阅读全文]
CDH大数据平台 24Cloudera Manager Console之hbase、hive整合配置(markdown新版)

CDH大数据平台 24Cloudera Manager Console之hbase、hive整合配置(markdown新版) [阅读全文]
Springboot+Hbase获取regions信息并上报到metrics接口中

【代码】Springboot+Hbase获取regions信息并上报到metrics接口中。 [阅读全文]

版权声明：本文内容由互联网用户贡献，该文观点仅代表作者本人。本站仅提供信息存储服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 2386932994@qq.com 举报，一经查实将立刻删除。

发表评论


验证码：

Copyright © 2017-2025 代码网保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱：2386932994@qq.com