大数据技术集群本地安装方法-职坐标

大数据技术集群本地安装方法

沉沙 2018-10-10 来源：阅读 1331 评论 0

摘要：本篇教程探讨了大数据技术集群本地安装方法，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术集群本地安装方法，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

1、使用Vmware安装Linux系统

请自行下载，并安装。至少安装两台（这里以安装三台为例）
2、安装xshell和xftp

安装xshell和xftp主要主要是方面后面传文件、写命令等操作。

（注意，xshell和xftp的版本一定要一致，不然安装xftp可能会有问题）
3、配置虚拟机IP

A、每台虚拟机都用root账号登录

a、  编辑hosts文件(使用以下命令)

sudo vi /etc/hosts

添加以下内容

192.168.79.131 master

192.168.79.132 slave1

192.168.79.133 slave2

         B、修改主机名

                   分别修改三台主机/etc/hostname的内容为master、slave1、slave2

如果没有/etc/hostname目录文件，则自己新建一个。

注意主机名和hosts文件中设置的名称应当保持一致，否则会产生意外的错误

注意：1、安装大数据齐群，一定要把虚拟机的防火墙都关掉。2、每次换了网络时看看虚拟机的ip地址是否发生变化，如果发生变化，记得修改相应的地方
4、新建安装目录并更改所属用户和组

sudo mkdir -p /data/install

5、安装JDK

1、下载好的tar包放在 /data/install/java 目录并解压：

tar -xvf jdk-7u80-linux-x64.tar.gz

配置环境变量

首先进入编辑Linux配置环境变量的文件：

sudo vi /etc/profile

在里面添加如下内容：

export JAVA_HOME=/data/install/java/jdk1.7.0_80

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib4、使环境变量立刻生效：

source /etc/profile
6、hadoop的安装和配置

注：这里只需要配置一台（master），配置好之后，把配置好的hadoop-2.7.3文件夹考到另外几台机子即可，后面的Zookeeper、Hbase,spark也是一样的

首先到Apache官网（//www.apache.org/dyn/closer.cgi/hadoop/common/）复制下载地址，然后进入 /data/install/apache 目录下面执行以下命令直接进行下载：

wget //mirror.bit.edu.cn/apache/hadoop/common/stable/hadoop-2.7.3.tar.gz

下载完成后进行解压：

tar -xvf hadoop-2.7.3.tar.gz

A、配置Hadoop

进入hadoop的配置目录：

cd /data/install/apache/hadoop-2.7.3/etc/hadoop/

需要修改的配置文件为：core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、slaves、hadoop-env.sh、yarn-env.sh

core-site.xml（红色地方是主机IP，主机IP变了，这里的IP要跟着变，这里即master主机的IP地址）



        fs.default.name

        hdfs:// 192.168.79.131:9000





        hadoop.tmp.dir

        file:/data/install/apache/hadoop-2.7.3/tmp





        io.file.buffer.size

        131702



hdfs-site.xml



        dfs.namenode.name.dir

        file:/data/install/apache/hadoop-2.7.3/hdfs/name





        dfs.datanode.data.dir

        file:/data/install/apache/hadoop-2.7.3/hdfs/data





        dfs.replication

        1





        dfs.namenode.secondary.http-address

        192.168.79.131:9001





        dfs.webhdfs.enabled

        true





        dfs.namenode.datanode.registration.ip-hostname-check

        false



mapred-site.xml

通过cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml创建etc/hadoop/mapred-site.xml，内容改为如下：



        mapreduce.framework.name

        yarn





        mapreduce.jobhistory.address

        192.168.79.131:10020





        mapreduce.jobhistory.webapp.address

        192.168.79.131:19888



slaves文件

slave1

slave2

hadoop-env.sh和yarn-env.sh

export JAVA_HOME=/data/install/java/jdk1.7.0_80

配置文件修改完以后，将master下hadoop文件夹复制到slave1和slave2中

scp -r /data/install/apache/hadoop-2.7.3 root@slaver:/data/install/apache/

scp -r /data/install/apache/hadoop-2.7.3 root@slave2:/data/install/apache/

C、运行hadoop

启动hadoop的命令都在master上执行

（1）初始化hadoop（清空hdfs数据）：

rm -rf /data/install/apache/hadoop-2.7.3/hdfs/*

rm -rf /data/install/apache/hadoop-2.7.3/tmp/*

/data/install/apache/hadoop-2.7.3/bin/hdfs namenode -format

启动hadoop（每天机器都要启动）

/data/install/apache/hadoop-2.7.3/sbin/start-dfs.sh

（注：停止语句）

/data/install/apache/hadoop-2.7.3/sbin/stop-dfs.sh

验证是否启动成功，在master输入 jps，应当存在namenode和secondary namenode

在slave1和slave2输入jps，应当存在datanode

进一步验证，访问：// 192.168.79.131:50070/dfshealth.html（192.168.79.131是master的ip），如图：

（3）启停yarn

/data/install/apache/hadoop-2.7.3/sbin/start-yarn.sh

/data/install/apache/hadoop-2.7.3/sbin/stop-yarn.sh

在master输入 jps，应当存在resourcemanager

在slave1和slave2输入jps，应当存在nodemanager

访问：// 192.168.79.131:8088/cluster

6、zookeeper集群的安装配置

1、下载
到//apache.fayea.com/zookeeper/stable/下载安装包并解压：

wget //apache.fayea.com/zookeeper/stable/zookeeper-3.4.9.tar.gz

2、配置

（1）建立数据目录

mkdir /data/install/apache/zookeeper-3.4.9/data

（2）进入conf目录创建并修改zoo.cfg文件

cp zoo_sample.cfg zoo.cfg

修改以后的内容为：

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=5

# the directory where the snapshot is stored.

# do not use /tmp for storage, /tmp here is just

# example sakes.

dataDir=/data/install/apache/zookeeper-3.4.9/data

# the port at which the clients will connect

clientPort=2181

# the maximum number of client connections.

# increase this if you need to handle more clients

#maxClientCnxns=60

#

# Be sure to read the maintenance section of the

# administrator guide before turning on autopurge.

#

# //zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance

#

# The number of snapshots to retain in dataDir

#autopurge.snapRetainCount=3

# Purge task interval in hours

# Set to "0" to disable auto purge feature

#autopurge.purgeInterval=1

server.0=master:2888:3888

server.1=slave1:2888:3888

server.2=slave2:2888:3888

这里还需要在数据目录/data/install/apache/zookeeper-3.4.9/data下面新建名为myid的文件，各个主机对应的内容是不同的，master的内容是0，slave1的内容是1，slave2的内容是2，分别对应server.x中的x

（3）设置环境变量：/etc/profile添加如下内容

export ZOOKEEPER_HOME=/data/install/apache/zookeeper-3.4.9

export PATH=$PATH:$ZOOKEEPER_HOME/bin:$ZOOKEEPER_HOME/conf

别忘了source一下让环境变量生效

source /etc/profile

3、启停zookeeper

在各个节点执行以下命令：

/data/install/apache/zookeeper-3.4.9/bin/zkServer.sh start

/data/install/apache/zookeeper-3.4.9/bin/zkServer.sh stop

输入jps检测一下：

查看各个主机的状态：

sh bin/zkServer.sh status

这里如果报错：

bin/zkServer.sh: 81: /data/install/apache/zookeeper-3.4.9/bin/zkEnv.sh: Syntax error: "(" unexpected (expecting "fi")

看这篇文章的解决方法：//blog.csdn.net/lcdcxy/article/details/50393363

10 hbase的安装和配置

1、下载
首先到//apache.fayea.com/hbase/stable/下载稳定版安装包并解压：

wget //apache.fayea.com/hbase/stable/hbase-1.2.4-bin.tar.gz

2、配置

主要修改conf目录下的三个文件：hbase-env.sh、hbase-site.xml、regionservers

hbase-env.sh

export JAVA_HOME=/data/install/java/jdk1.7.0_80

export HBASE_MANAGES_ZK=true

export HBASE_LOG_DIR=/data/install/apache/hbase-1.2.4/logs

hbase-site.xml



        hbase.rootdir

        hdfs://master:9000/hbase





        hbase.cluster.distributed

        true





        hbase.zookeeper.quorum

        master,slave1,slave2





        hbase.master.maxclockskew

        180000

        Time difference of regionserver from master



regionservers

slave1

slave2

2016.11.25更新：还需要同步集群时间，否则有的从节点无法启动，在每个节点上运行ntp即可

ntpdate asia.pool.ntp.org

3、启停hbase

/data/install/apache/hbase-1.2.4/bin/start-hbase.sh

/data/install/apache/hbase-1.2.4/bin/stop-hbase.sh

master输入jps：

slave1和slave2输入jps：

访问：//192.168.79.131:16010

4、hbase的一些基本命令

名称

命令表达式

创建表

create ‘表名称’, ‘列名称1’,’列名称2’,’列名称N’

添加记录

put ‘表名称’, ‘行名称’, ‘列名称:’, ‘值’

查看记录

get ‘表名称’, ‘行名称’

查看表中的记录总数

count ‘表名称’

删除记录

delete ‘表名’ ,’行名称’ , ‘列名称’

删除一张表

disable ‘表名称’
drop ‘表名称’

查看所有记录

scan “表名称”

首先进入hbase shell

./bin/hbase shell

（1）创建表

create ‘test1‘,‘address1‘

（2）添加记录

put‘test‘,‘row1‘,‘address:province‘,‘zhejiang‘

put ‘test‘,‘row2‘,‘address:city‘,‘hangzhou‘

（3）查看记录

get ‘test‘,‘row1‘

（4）查看表中的记录总数

count ‘test‘

（5）删除记录

delete ‘test‘,‘row1‘,‘address‘

（6）删除一张表

disable ‘test‘

drop ‘test‘

（7）查看所有记录

scan ‘test‘

11 spark的安装和配置

1、下载
首先在//spark.apache.org/downloads.html下载指定hadoop版本的安装包，然后解压缩

2、配置

创建并修改conf目录下的配置文件 spark-env.sh，slaves

spark-env.sh

cp spark-env.sh.template spark-env.sh

修改内容为：

export JAVA_HOME=/data/install/java/jdk1.7.0_80

export HADOOP_HOME=/data/install/apache/hadoop-2.7.3

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HBASE_HOME=/data/install/apache/hbase-1.2.4

#如果ssh端口非22

export SPARK_SSH_OPTS="-p 22022"

slaves

cp slaves.template slaves

修改内容为：

slave1

slave2

3、启停spark

/data/install/apache/spark-2.0.0-bin-hadoop2.7/sbin/start-all.sh

/data/install/apache/spark-2.0.0-bin-hadoop2.7/sbin/stop-all.sh

在master上输入jps：

在slave1和slave2上输入jps：

访问：//192.168.79.131:8080/

问题解决：

　　在安装过程中也遇到了相当多的问题，下面对相关问题进行对应的解决。

1、启动hadoop的时候要确定master和slave上的的节点是不是启动了，master上面输入jps应出现namenode的字样，slave上应有datanode。如果启动不成功可尝试删除hdfs-site.xml 配置文件里面 dfs.data.dir 的值，找到路径对应的文件夹，把里面name和data下面的文件全部删除，再初始化hadoop环境就能成功启动hadoop。

2、启动zookeeper的时候注意要将机器的防火墙关闭，不然会导致集群机器之间无法连接，启动hbase的时候也会报错。

3、hbase启动的时候要注意网络是否正常，如果网络有波动，会导致集群机器的ip发生变化。从而导致莫名其妙地hbase就无法链接zookeeper导致出现问题。

4、在Windows下面链接hbase的时候按照官网的方法进行连接即可：//hbase.apache.org/book.html#_examples。（注意Windows下要安装winutils.exe解决方法查看：//bbs.csdn.net/topics/390951960?page=1）