大数据技术 Hadoop分布式集群搭建
沉沙 2018-09-25 来源 : 阅读 1586 评论 0

摘要:本篇教程探讨了大数据技术 Hadoop分布式集群搭建,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术 Hadoop分布式集群搭建,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

<



    Hadoop是一个开源的分布式系统框架

一.集群准备

    1. 三台虚拟机,操作系统Centos7,三台主机名分别为k1,k2,k3,NAT模式

    2.节点分布

        k1: NameNode DataNode ResourceManager NodeManager
        k2: SecondNameNode DataNode NodeManager
        k3 : DataNode NodeManager

    3.安装包准备

        jdk-8uxx-linux-x64.rpm
        hadoop-2.7.1.tar.gz

二.Linux准备

    1.关闭防火墙

        systemctl status firewalld  //查看防火墙状态
        systemctl stop firewalld    //关闭防火墙
        systemctl disable firewalld   //防火墙开机不启动

    2.修改主机名

        hostnamectl set-hostname 主机名
        注:如果克隆的虚拟机,那么需要修改主机名

    3.IP设置

        编辑:vi /etc/sysconfig/network-scripts/ifcfg-ens33    

    文件中修改 :
    BOOTPROTO=none
    ONBOOT=yes [开机启动网卡]
    文件中添加 : 
    IPADDR=xxx  [IP地址]
    NETMASK=xxx  [子网掩码]
    GATEWAY=xxx  [网关] 
    DNS1=xxx  

        重启网卡 : systemctl restart network
        注 : 克隆的虚拟机需要修改IP地址,删除UUID

    4.添加hosts文件

        编辑:vi /etc/host

    文件中添加:
    IP地址 主机名
    IP地址 主机名
    IP地址 主机名 

    5.安装JDK

        安装包 : jdk-8uxx-linux-x64.rpm
        安装     : rpm -ivh jdk-8uxx-linux-x64.rpm
        配置环境变量 : vi /etc/profile
           文件中添加 : 
                JAVA_HOME=/usr/java/jdk
                PATH=$PATH:$JAVA_HOME/bin:
                CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:


       

 

 

  环境变量生效 : source /etc/profile
        查看:java -version

    6.SSH免密 

        1. ssh-keygen
            之后一直回车就可以 
        2.ssh-copy-id 主机名 
            三台机子都需要进行免密
        3.ssh 主机名
             测试免密是否成功

三.HADOOP环境搭建

    1.解压缩

            安装包 : hadoop-2.7.1.tar.gz
            解压缩 : tar -zxvf hadoop-2.7.1.tar.gz -C /opt/apps    

    2.修改环境变量

            编辑 :vi /etc/profile

    文件中添加 : 
      export HADOOP_HOME=/opt/apps/hadoop.2.7.1/
      export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

    3.环境变量生效

            source/etc/profile

四.HADOOP配置文件

    1.进入hadoop配置文件目录

            cd /opt/apps/hadoop.2.7.1/etc/hadoop

    2.修改配置文件 : hadoop-env.sh

    vi hadoop-env.sh     
        修改文件中JAVA_HOME,改为自己JDK的路径

    3.配置文件 :core-site.xml

        vi core-site.xml  添加如下内容:

            
            fs.defaultFS
            hdfs://主机名:8020  //NameNode节点主机名
            

            
            io.file.buffer.size
            4096
            

            
            hadoop.tmp.dir
            /home/hadoopdata/bigdata/tmp
            


    4.配置文件 : hdfs-site.xml

        vi hdfs-site.xml 添加如下内容:

            
            dfs.namenode.name.dir
            file:///home/hadoopdata/dfs/name
            

            
            dfs.datanode.data.dir
            file:///home/hadoopdata/dfs/data<>
            

            
            dfs.http.address
            NameNode节点主机名:50070
            

            
            dfs.secondary.http.address
            SecondNameNode节点主机名:50090
            

            
            dfs.replication
            3
            

            
            dfs.webhdfs.enabled
            true
            

            
            dfs.permissions
            false      
            


    5.配置文件 : salves

        vi salves 添加以下内容(三台机器的主机名) : 

            hostname1
            hostname2
            hostname3

    6.配置文件 : mapred-site.xml

        mv mapred-site.xml.template mapred-site.xml  (进行重命名)
        vi mapred-site.xml  添加以下内容 : 

            
            mapreduce.framework.name
            yarn
            true  
            

             
            mapreduce.jobhistory.address
            历史服务:10020
            

            
            mapreduce.jobhistory.webapp.address
            历史服务节点主机名:19888
            


    7.配置文件 : yarn-site.xml

        vi yarn-site.xml 添加如下内容 : 

            
            yarn.resourcemanager.hostname
            ResourceManager节点主机名
            

            
            yarn.nodemanager.aux-services
            mapreduce_shuffle
            

            
            yarn.resourcemanager.address
            ResourceManager节点主机名:8032
            

            
            yarn.resourcemanager.scheduler.address
            ResourceManager节点主机名:8030
            

            
            yarn.resourcemanager.resource-tracker.address      
            ResourceManager节点主机名:8031
            

            
            yarn.resourcemanager.admin.address
            ResourceManager节点主机名:8033
            

            
            yarn.resourcemanager.webapp.address
            ResourceManager节点主机名:8088
            

            
            yarn.client.failover-proxy-provider   
            org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider              

            
            yarn.web-proxy.address
            ResourceManager节点主机名:9989
            


五.Hadoop启动【Hadoop分发到别的机器,三台机器都要有Hadoop】

    1.格式化NameNode

        hdfs namenode -format
        注 : 如出现 [name has been successfully formated] 则格式化成功

    2.启动进程

        start-dfs.sh     
        start-yarn.sh

    3.查看节点 ------  jps

    4.创建wordcount.txt 验证Yarn

        yarn jar /root/app/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /hello.txt /out/1    

本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved