大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署
小职 2021-07-27 来源 :浪尖聊大数据 阅读 528 评论 0

摘要:本文主要介绍了大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署,通过具体的内容向大家展现,希望对大家大数据开发Hadoop的学习有所帮助。

本文主要介绍了大数据开发Hadoop学习-Hadoop伪分布式集群安装部署,通过具体的内容向大家展现,希望对大家大数据开发Hadoop的学习有所帮助。

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

一、 准备环境

  

1, 安装简介

Java-- jdk-8u121-linux-x64.tar.gz

Hadoop--hadoop-2.7.4.tar.gz (jdk1.7会报错)

 

二, 修改主机名

 

2.1查看主机名

hostname

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

2.2 修改/etc/sysconfig/network文件

修改前

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

修改后

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

2.3 立即生效

假如只是完成了步骤2.2,实际上只是修改了静态配置,重启的时候才会生效,要想立即生效,可以输入

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

2.4 修改/etc/hosts

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

3, 安装java

主要就是配置一下JAVA_HOME。在这之前,由于采用的系统往往都带有openjdk,所以要先卸载。

rpm -qa |grep java

rpm -e --nodeps [java]

然后,配置JAVA_HOME及命令系统环境变量

Java的解压路径

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

配置环境变量,vi /etc/profile

 大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

 

三、 安装hadoop

配置伪分布式集群,学习来用实际上很简单。跟着下面的步骤,保证能成功。

1, 配置hadoop-env.sh,yarn-env.sh,mepre-env.sh

主要是在这三个文件的开头加上JAVA_HOME,不配置的话他们会自动从环境变量里面获取。配置为了显示指定JAVA版本环境。

export JAVA_HOME=/opt/modules/jdk1.8.0_121

默认情况下是这样的:

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

2,配置core-site.xml

 

 

<property>

        <name>hadoop.tmp.dir</name>

        <value>/opt/modules/hadoop-2.7.4/data/tmp</value>

    </property>

                <property>

        <name>fs.defaultFS</name>

        <value>hdfs://Luffy.OnePiece.com:8020</value>

</property>

这里之所以要配置,hostname而不是ip,主要是我们的ip,尤其是虚拟机的ip,会变动,所以为了避免频繁梗概配置文件,就采用hostname。

hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中。先创建该目录:mkdir -p /opt/modules/hadoop-2.7.4/data/tmp/

3,配置hdfs-site.xml

 

 

<property>

    <name>dfs.replication</name>

    <value>1</value>

</property>

简单的学习,伪分布式只需要将副本数配置为1(只有一个datanode实例).

4,配置mapred-site.xml

 

 

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

Mapreduce的运行模式,常用的就是yarn(生产),local(测试)两种模式。

5,配置yarn-site.xml

 

 

<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>Luffy.OnePiece.com</value>

</property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

yarn.nodemanager.aux-services 这个属性,常用的还有spark_shuffle,后面讲到Spark的安装配置的时候我们会讲到。

6,配置slaves

此文件,可以配置也可以不配,不配的话需要逐台去启动从节点。

我们配置未前面说的修改后的主机名

Luffy.OnePiece.com

7,配置hadoop环境变量

其实,配置到6小步骤的时候,就可以启动伪分布式模式了,但是很多小白曾经在我博客上留言说,少配置了系统环境变量。就是由于命令sbin/yarn-daemon.sh start resourcemanager类似这些,都是需要使用绝对路径或者相对路径,而不是直接使用

yarn-daemon.sh。其实这样做的目的是方便多版本测试,否则你没测试一个版本都要重建环境变量(当然也可以使用同名链接的方式)。

vi /etc/profile

 

 

export HADOOP_HOME=/opt/modules/hadoop-2.7.4/

export HADOOP_PREFIX=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

生效:

重启,或者再root模式下执行source /etc/profile

 

 

四、 测试wc

 

1, 启动hdfs

格式化,hdfs,然后启动hdfs相关的服务

$hdfs namenode -format

$hadoop-daemon.sh start namenode

$hadoop-daemon.sh start datanode

jps查看进程

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

这个时候可以访问我们的hdfs的50070端口,前提是windows和linux网络是通畅的,使用主机名的话也要讲主机和ip映射C:WindowsSystem32driversetcHOSTS文件

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

在浏览器输入Luffy.OnePiece.com:50070

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

2,启动yarn

$yarn-daemon.sh start resourcemanager

$yarn-daemon.sh start nodemanager

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

3,跑wordcount案例

准备好数据

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

运行

yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar wordcount input/ output

console输出

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

Yarn的Web界面

 大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

结果

 大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

 

五,总结

    hadoop伪分布式适合我们平时验证性学习,实际上也可以帮助我们快速学习入门其它的框架比如hive,hbase,spark等。搭建集群,我们学习用的机器一般是不允许的,所以此时采用hadoop伪分布式模式,kafka,hbase,spark,Flink等入门到深入源码,spark机器学习,大数据安全,大数据运维


我是小职,记得找我

✅ 解锁高薪工作

✅ 免费获取基础课程·答疑解惑·职业测评

大数据处理技术Hadoop学习-Hadoop伪分布式集群安装部署

本文由 @小职 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程