伪分布式环境搭建

前言

本案例基于阿里云CentOS7，仅作hadoop伪分布式搭建的过程命令及技巧总结
word笔记（下载）

Java环境搭建

安装Java环境yum install java-1.8.0-openjdk-devel.x86_64
验证Java环境版本 java -version
查看Java安装地址 which java、alternatives --display java

解压hadoop安装包

安装包官网下载或者我的地址:
链接:https://124.221.138.245:32039/down/mD8mtZhm8DyP.gz
提取码:1234

解压hadoop安装包
tar -zxvf hadoop-2.10.2-src.tar.gz
配置环境变量
vim /etc/profile

1 2	export HADOOP_HOME = /home/Hanzl/app/hadoop-3.4.0-src PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

验证环境变量
echo $HADOOP_HOME

Hadoop 伪分布式环境搭建

Hadoop 配置文件很多，都位于 $HADOOP_HOME/etc/hadoop 下



下面简单的描述一下几个重要的配置文件：

hadoop-env.sh：运行 Hadoop 要用的环境变量。

core-site.xml：核心配置项，包括 HDFS、MapReduce 和 YARN 常用的 I/O 设置等。

hdfs-site.xml：HDFS 相关进程的配置项，包括 NameNode、SecondaryNameNode、DataNode 等。

yarn-site.xml：YARN 相关进程的配置项，包括 ResourceManager、NodeManager 等。

mapred-site.xml：MapReduce 相关进程的配置项。

slaves：从节点配置文件，通常每行 1 个从节点主机名。

log4j.properties：系统日志、NameNode 审计日志、JVM 进程日志的配置项。

Hadoop 的配置文件繁多，我们可采用最小配置（6 个配置文件），其余文件保留默认即可：

第 1 步：配置 hadoop-env.sh。

第 2 步：配置 core-site.xml。

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop-2.9.2/tmp</value>
</property>

配置 fs.defaultFS 指定 Hadoop 所使用的文件系统的 URI（统一资源标识符），示例中的 URI 包含协议（HDFS）、NameNode 的 IP 地址（或者机器名）和端口（9000）。

配置 hadoop.tmp.dir 指定 Hadoop 运行时产生的临时文件的存储目录。

第 3 步：配置 hdfs-site.xml。

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<property>
    <name>dfs.secondary.http.address</name>
    <value>localhost:50090</value>
</property>

配置 dfs.replication 指定数据副本的数量，由于是伪分布式形式，只有 1 个节点，所以这里设置为 1 即可。

配置 dfs.secondary.http.address 指定 Secondary Namenode 的地址和端口。

第 4 步：配置 mapred-site.xml。
原文件名为“mapred-site.xml.template”，将其另存为“mapred-site.xml”以使其生效。
确认其内容如下：

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

配置 mapreduce.framework.name 指定 MapReduce 运行在 yarn 上。

第 5 步：配置 yarn-site.xml。

<property>
	<name>yarn.resourcemanager.webapp.address</name>
	<value>0.0.0.0:8088</value>
</property>
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>localhost</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>