大数据技术学习笔记(4)操作HDFS
沉沙 2018-10-08 来源 : 阅读 1546 评论 0

摘要:本篇教程探讨了大数据技术学习笔记(4)操作HDFS,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术学习笔记(4)操作HDFS,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

<

一.Web Console:端口50070

 

二.HDFS的命令行操作

(一)普通操作命令  

HDFS 操作命令帮助信息: hdfs dfs + Enter键

常见命令

1.  -mkdir 

    在HDFS上创建目录:hdfs dfs -mkdir /aaa
    如果父目录不存在,使用 -p 命令先创建父目录:

2. -ls /

  查看hdfs文件系统根目录下的目录和文件:

3.-ls -R /

  查看所有目录和文件:

4.-put

  上传数据:将本地Linux文件data.txt上传到HDFS的aaa目录下

 

 -copyFromLocal 上传数据,类似-put

-moveFromLocal 上传数据,类似-put,相当于ctrl+x

5.-get 下载数据(刚才上传数据时已经有data.txt,所以要把Linux目录下的data.txt先删除)

6.-rm: 删除目录

   -rmr: 删除目录,包括子目录

            hdfs dfs -rmr /bbb

7. -getmerge:把某个目录下的文件,合并后再下载

8.-cp:拷贝   hdfs dfs -cp /input/data.txt /input/data2.txt

9.-mv:移动   hdfs dfs -cp /input/data.txt /aaa/a.txt

10.-count 统计hdfs对应路径下的目录个数,文件个数,文件总计大小:hdfs dfs -count /students

 

11.-du 显示hdfs对应路径下每个文件夹和目录的大小 hdfs dfs -du /students

 

12.-cat 查看文本的内容 hdfs dfs -cat /input/data.txt

13.balancer:平衡操作 如果管理员发现某些DataNode上保存数据过多,某些过少,就可以采取此操作

 

 (二)管理命令:hdfs dfsadmin

举例:

1.-report  打印hdfs的报告 hdfs dfsadmin -report

2.-safemode:安全模式(安全模式下对hdfs只能进行只读操作)

 

三.JavaAPI

通过HDFS提供的JavaAPI,我们可以完成以下的功能:

(一)在HDFS上创建目录

 

 (二)写入数据(上传文件)
复制代码

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;

import com.jcraft.jsch.Buffer;

public class TestUpload {
    
    @Test
    public void testUpload() throws IOException{
        System.setProperty("HADOOP_USER_NAME", "root");
        //NameNode   core.site.xml
        Configuration conf = new Configuration(); 
        conf.set("fs.defaultFS", "hdfs://192.168.153.11:9000");
        
        //构造一个输入流 <---HDFS
        FileSystem fs = FileSystem.get(conf);
        
        InputStream in = new FileInputStream("D:\\temp\\hadoop-2.7.3.tar.gz");
        
        //构造一个输出流------> HDFS
        OutputStream out = fs.create(new Path("/tools/hadoop-2.7.3.tar.gz"));
                
        
        byte[] buffer = new byte[1024];
        int len = 0;
        
        while ((len=in.read(buffer)) > 0) {
            out.write(buffer, 0, len);
        }
        
        out.flush();
        
        in.close();
        out.close();
        
    }
}

复制代码

 

 (三)通过 FileSystem API 读取数据(下载文件)

 (四)查看目录及文件信息

 (五)查找某个文件在HDFS集群的位置

  (六)删除数据

  (七)获取HDFS集群上所有数据节点信息    

本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程