大数据技术学习笔记（4）操作HDFS-职坐标

大数据技术学习笔记（4）操作HDFS

沉沙 2018-10-08 来源：阅读 1546 评论 0

摘要：本篇教程探讨了大数据技术学习笔记（4）操作HDFS，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术学习笔记（4）操作HDFS，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

一.Web Console：端口50070

二.HDFS的命令行操作

（一）普通操作命令　　

HDFS 操作命令帮助信息： hdfs dfs + Enter键

常见命令

1.  -mkdir

    在HDFS上创建目录：hdfs dfs -mkdir /aaa
    如果父目录不存在，使用 -p 命令先创建父目录：

2. -ls /

　　查看hdfs文件系统根目录下的目录和文件：

3.-ls -R /

　　查看所有目录和文件：

4.-put

　　上传数据：将本地Linux文件data.txt上传到HDFS的aaa目录下

-copyFromLocal 上传数据，类似-put

-moveFromLocal 上传数据，类似-put,相当于ctrl+x

5.-get 下载数据（刚才上传数据时已经有data.txt，所以要把Linux目录下的data.txt先删除）

6.-rm：删除目录

   -rmr: 删除目录，包括子目录

            hdfs dfs -rmr /bbb

7. -getmerge：把某个目录下的文件，合并后再下载

8.-cp：拷贝   hdfs dfs -cp /input/data.txt /input/data2.txt

9.-mv：移动   hdfs dfs -cp /input/data.txt /aaa/a.txt

10.-count 统计hdfs对应路径下的目录个数，文件个数，文件总计大小：hdfs dfs -count /students

11.-du 显示hdfs对应路径下每个文件夹和目录的大小 hdfs dfs -du /students

12.-cat 查看文本的内容 hdfs dfs -cat /input/data.txt

13.balancer：平衡操作如果管理员发现某些DataNode上保存数据过多，某些过少，就可以采取此操作

（二）管理命令：hdfs dfsadmin

举例：

1.-report  打印hdfs的报告 hdfs dfsadmin -report

2.-safemode：安全模式（安全模式下对hdfs只能进行只读操作）

三.JavaAPI

通过HDFS提供的JavaAPI，我们可以完成以下的功能：

（一）在HDFS上创建目录

（二）写入数据（上传文件）
复制代码

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;

import com.jcraft.jsch.Buffer;

public class TestUpload {

    @Test
    public void testUpload() throws IOException{
        System.setProperty("HADOOP_USER_NAME", "root");
        //NameNode   core.site.xml
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://192.168.153.11:9000");

        //构造一个输入流 <---HDFS
        FileSystem fs = FileSystem.get(conf);

        InputStream in = new FileInputStream("D:\\temp\\hadoop-2.7.3.tar.gz");

        //构造一个输出流------> HDFS
        OutputStream out = fs.create(new Path("/tools/hadoop-2.7.3.tar.gz"));


        byte[] buffer = new byte[1024];
        int len = 0;

        while ((len=in.read(buffer)) > 0) {
            out.write(buffer, 0, len);
        }

        out.flush();

        in.close();
        out.close();

    }
}

复制代码

（三）通过 FileSystem API 读取数据（下载文件）

（四）查看目录及文件信息

（五）查找某个文件在HDFS集群的位置

  （六）删除数据

  （七）获取HDFS集群上所有数据节点信息