大数据技术 Hadoop安装配置与使用-职坐标

大数据技术 Hadoop安装配置与使用

沉沙 2018-09-25 来源：阅读 1499 评论 0

摘要：本篇教程探讨了大数据技术 Hadoop安装配置与使用，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术 Hadoop安装配置与使用，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

安装配置
系统：Ubuntu14.04
java：1.7.0_75
相关资料
官网
下载地址
官网文档
安装
我们需要关闭掉防火墙，命令如下：
sudo ufw disable
下载2.6.5的版本，将下载的Hadooop的压缩包解压到相应的目录，我这里解压到/opt/hadoop-2.6.5文件夹下。
配置
修改/opt/hadoop-2.6.5/etc/hadoop/hadoop-env.sh文件，将JAVA_HOME直接写地址，默认的方式可能取不到
export JAVA_HOME=/usr/lib/jvm/default-java
修改/opt/hadoop-2.6.5/etc/hadoop/core-site.xml文件，将configuration中的内容配置如下：


        fs.defaultFS
        hdfs://linux01:9000/


        hadoop.tmp.dir
        /var/data


这里定义了HDFS文件访问路径以及其真正的存储路径，其中的linux01是在/etc/hosts文件中配置的域名，其实就是本地IP 127.0.0.1
修改/opt/hadoop-2.6.5/etc/hadoop/hdfs-site.xml文件，将configuration中的内容配置如下：



        dfs.replication
        1


这里定义了HDFS的副本数，默认是3，我这里只有一台机器，就配置成1了。如果是多台且配置了多个副本，可以避免因一台机器故障而造成的数据丢失。
修改/opt/hadoop-2.6.5/etc/hadoop/mapred-site.xml文件，将configuration中的内容配置如下：


        mapreduce.framework.name
        yarn


这里定义了处理MapReduce的框架是yarn。
修改/opt/hadoop-2.6.5/etc/hadoop/yarn-site.xml文件，将configuration中的内容配置如下：


        yarn.resourcemanager.hostname
        linux01


        yarn.nodemanager.aux-services
        mapreduce_shuffle


然后需要配置一下Hadoop的环境变量，我配置在/etc/profile中：
# Hadoop config
export HADOOP_HOME=/opt/hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
这就就可以在任意目录，直接使用hadoop的命令了。
简单使用
先格式化HDFS的磁盘，再启动HDFS，命令如下
// 格式化HDFS的磁盘
hdfs namenode -format
// 启动HDFS
start-dfs.sh
如果启动时报错如下：
Error: JAVA_HOME is not set and could not be found.
其解决办法如下：
修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME。使用绝对路径。
export JAVA_HOME=$JAVA_HOME                  // 错误，不能这么改
export JAVA_HOME=/usr/java/jdk1.6.0_45        // 正确，应该这么改
这是我们就可以使用HDFS了，可以使用如下命令操作
// 查看文件列表
hadoop fs -ls hdfs://linux01:9000/
hadoop fs -ls /

// 添加文件
hdfs dfs -put localfile /user/hadoop/hadoopfile
hdfs dfs -put localfile1 localfile2 /user/hadoop/hadoopdir
hdfs dfs -put localfile hdfs://linux01:9000/hadoop/hadoopfile

// 获取文件
hdfs dfs -get /user/hadoop/file localfile
hdfs dfs -get hdfs://linux01:9000/user/hadoop/file localfile

// 删除文件
hdfs dfs -rm hdfs://linux01:9000/hadoop/hadoopfile /user/hadoop/emptydir
更多操作可以查看2.6.5的官方文档FileSystem Shell
可以通过jps命令查看，其结果如下
18069 SecondaryNameNode
17879 DataNode
17760 NameNode
6547 Jps
16316 ResourceManager
16667 NodeManager
可以通过start-yarn.sh命令启动yarn，也可以通过start-all.sh启动所有。