大数据技术 HBase操作-职坐标

海同科技，欢迎您！

就业

学习

资料

IT知识库

大数据云计算

站

热门城市全国站>

其他省市

快速购买

15692118659

热门课程

IT学院

职坐标首页 IT知识库大数据云计算大数据技术

选择在海同提升： 30 天 1531 名，今日申请 31 人 IT技术咨询 >>

大数据技术 HBase操作

沉沙 2018-10-11 来源：阅读 2121 评论 0

摘要：本篇教程探讨了大数据技术 HBase操作，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术 HBase操作，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

<

HBase集群建立在Hadoop集群基础之上，而且依赖于ZooKeeper，所以在搭建HBase集群之前需要把Hadoop集群搭建起来，并且搭建好ZooKeeper集群。Hadoop与ZooKeeper集群的搭建在前面章节已讲解过，在此不再赘述。
9.1 集群环境搭建
HBase集群搭建的详细步骤如下（也可以参考官网//hbase.apache.org/book.html#quickstart）：
1.上传解压HBase安装包
将hbase-1.2.4-bin.tar.gz上传到centos01服务器的/opt/softwares目录并将其解压到目录/opt/modules/，解压命令如下：
[hadoop@centos01 softwares]$ tar -zxf hbase-1.2.4-bin.tar.gz -C /opt/modules/
2.hbase-env.sh文件配置
修改HBase安装目录/conf下的配置文件hbase-env.sh，配置关联的JDK，加入以下代码：
export JAVA_HOME=/opt/modules/jdk1.8.0_101
如果需要使用HBase自带的ZooKeeper，则去掉该文件中的注释 # export HBASE_MANAGES_ZK=true即可。
3.hbase-site.xml文件配置
修改HBase安装目录/conf下的配置文件hbase-site.xml，加入以下代码：


    hbase.rootdir
    hdfs://centos01:9000/hbase


    hbase.cluster.distributed
    true


    hbase.zookeeper.quorum
    centos01,centos02,centos03


    hbase.zookeeper.property.dataDir
    /opt/modules/hbase-1.2.4/zkData


上述参数解析如下：
hbase.rootdir：HBase的数据存储目录，由于HBase数据存储在HDFS上，所以要写HDFS的目录，注意端口要和Hadoop的fs.defaultFS端口一致。配置好后，HBase数据就会写入到这个目录中，且目录不需要手动创建，HBase启动的时候会自动创建。
hbase.cluster.distributed：设置为true代表开启完全分布式。
hbase.zookeeper.quorum：设置依赖的ZooKeeper节点，此处加入所有ZooKeeper集群即可。
hbase.zookeeper.property.dataDir：设置ZooKeeper的配置、日志等数据存放目录。
另外，还有一个属性hbase.tmp.dir，是设置HBase临时文件存放目录，不设置的话，默认存放在/tmp目录，该目录重启就会清空。
4.regionservers文件配置
regionservers文件列出了所有运行HBase的服务器，即HRegionServer。对该文件的配置与Hadoop中对slaves文件的配置相似，需要在文件中的每一行指定一台服务器，当HBase启动时会读取该文件，将文件中指定的所有服务器启动。当HBase停止的时候，也会同时停止它们。
本例中，我们将三个节点都作为运行HRegionServer的服务器，因此，我们需要作出如下修改：
修改HBase安装目录下的/conf/regionservers文件，去掉默认的localhost，加入如下内容：
centos01
centos02
centos03
5.拷贝hbase到其它节点。
centos01节点配置完成后，需要拷贝整个HBase安装目录文件到集群的其它节点，拷贝命令如下：
[hadoop@centos01 modules]$ scp -r hbase-1.2.4/ hadoop@centos02:/opt/modules/
[hadoop@centos01 modules]$ scp -r hbase-1.2.4/ hadoop@centos03:/opt/modules/
6.启动与测试
启动HBase集群之前，需要先启动Hadoop集群：
sbin/start-all.sh
然后执行如下命令，启动HBase集群。启动HBase集群的同时，会将ZooKeeper集群也同时启动。
bin/start-hbase.sh
HBase启动日志如下：
[hadoop@centos01 hbase-1.2.4]$ bin/start-hbase.sh
centos02: starting zookeeper, logging to /opt/modules/hbase-1.2.4/bin/../logs/hbase-hadoop-zookeeper-centos02.out
centos03: starting zookeeper, logging to /opt/modules/hbase-1.2.4/bin/../logs/hbase-hadoop-zookeeper-centos03.out
centos01: starting zookeeper, logging to /opt/modules/hbase-1.2.4/bin/../logs/hbase-hadoop-zookeeper-centos01.out
starting master, logging to /opt/modules/hbase-1.2.4/bin/../logs/hbase-hadoop-master-centos01.out
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
centos03: starting regionserver, logging to /opt/modules/hbase-1.2.4/bin/../logs/hbase-hadoop-regionserver-centos03.out
centos02: starting regionserver, logging to /opt/modules/hbase-1.2.4/bin/../logs/hbase-hadoop-regionserver-centos02.out
centos01: starting regionserver, logging to /opt/modules/hbase-1.2.4/bin/../logs/hbase-hadoop-regionserver-centos01.out
centos02: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
centos02: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
centos03: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
centos03: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
centos01: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
centos01: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
HBase启动完成后，查看各节点Java进程：
[hadoop@centos01 hbase-1.2.4]$ jps
12544 DataNode
13584 HQuorumPeer
13074 NodeManager
12916 ResourceManager
14661 Jps
14311 HMaster
12745 SecondaryNameNode
12428 NameNode
14447 HRegionServer

[hadoop@centos02 zookeeper-3.4.9]$ jps
13632 DataNode
13761 NodeManager
14199 HRegionServer
14343 Jps
14093 HQuorumPeer

[hadoop@centos03 zookeeper-3.4.9]$ jps
8994 DataNode
9458 HQuorumPeer
9114 NodeManager
9546 HRegionServer
9679 Jps
从上述查看结果中可以看出，centos01节点上出现了HMaster、HQuorumPeer和HRegionServer进程，centos02和centos03节点上出现了HQuorumPeer和HRegionServer进程。这说明启动成功了。
HBase1.0以后的Web端访问默认端口变为了16010，浏览器地址输入//centos01:16010，查看HBase的运行状态，如下图所示。

9.2 HBase Shell命令操作
HBase 为用户提供了一个非常方便的命令行操作方式，我们称之为HBase Shell。
HBase Shell 提供了大多数的 HBase 命令，通过 HBase Shell 用户可以方便地创建、删除及修改表，还可以向表中添加数据、列出表中的相关信息等。
在启动 HBase 之后，我们可以通过下面的命令进入 HBase Shell 之中：
[hadoop@centos01 hbase-1.2.4]$ bin/hbase shell
下面通过实际操作来介绍HBase Shell的使用。
1.创建表
创建表t1，列族f1，命令如下：
create 't1','f1'
2.添加数据
向表t1中添加一条数据，rowkey为row1，列name的值为zhangsan。命令如下：
put 't1','row1','f1:name','zhangsan'
再向表t1中添加一条数据，rowkey为row2，列age为18。命令如下：
put 't1','row2','f1:age','18'
3.扫描表
扫描表t1，查看数据描述，命令如下：
scan 't1'
执行结果如下：
hbase(main):005:0> scan 't1'
ROW                                        COLUMN+CELL
row1                                      column=f1:name, timestamp=1509344793600, value=zhangsan
row2                                      column=f1:age, timestamp=1509345245541, value=18
2 row(s) in 0.0450 seconds
可以看到，表t1中已经存在两条已添加的数据了。
4.修改表
修改row1中的name值，将zhangsan改为lisi，仍然使用put命令：
put 't1','row1','f1:name','lisi'
再扫描表t1，此时row1中name的值已经变为了“lisi”：
hbase(main):002:0> scan 't1'
ROW                                        COLUMN+CELL
row1                                      column=f1:name, timestamp=1509345996225, value=lisi
row2                                      column=f1:age, timestamp=1509345245541, value=18
2 row(s) in 0.1000 seconds
5.删除特定单元格
删除表中rowkey为row1的行的name单元格，命令如下：
delete 't1','row1','f1:name'
扫描表t1，发现rowkey为row1的行不存在了，因为row1只有一个name单元格，name被删除了，row1一整行也就不存在了。
hbase(main):006:0> scan 't1'
ROW                                        COLUMN+CELL
row2                                      column=f1:age, timestamp=1509345245541, value=18
1 row(s) in 0.0750 seconds
6.删除一整行数据
删除rowkey为row2的行中所有单元格，命令如下：
deleteall 't1','row2'
扫描表t1，发现owkey为row2的行已不存在了：
hbase(main):008:0> scan 't1'
ROW                                        COLUMN+CELL
0 row(s) in 0.0250 seconds
7.删除整张表
删除整张表，需要先禁用表，然后再删除表。例如，删除表t1，命令如下：
disable 't1'
drop 't1'
9.3 Java API操作
使用HBase Java API可以对表进行创建、添加数据、修改删除数据等。本例在eclipse中编写Java API进行测试，测试前需先启动HBase集群。
9.3.1 创建Java工程
在eclipse中新建maven项目hbasedemo，然后在项目pom.xml中加入hbase的客户端jar包依赖：

        org.apache.hbase
        hbase-client
        1.2.4

加入以后发现pom.xml报如下错误：
Missing artifact jdk.tools:jdk.tools:jar:1.7
原因是，pom.xml中加入的hbase客户端jar包隐式依赖tools.jar包，而tools.jar并未存在于maven仓库中，tools.jar包是JDK自带的。因此我们需要在pom.xml中继续引入tools.jar包，代码如下：

         jdk.tools
         jdk.tools
         1.7
         system
         ${JAVA_HOME}/lib/tools.jar

此时问题得到解决。
9.3.2 创建表
（1）在maven项目hbasedemo中新建Java类HBaseCreateTable.java，在main函数中写入创建表的代码，如下：
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;

public class HBaseCreateTable{
    public static void main(String[] args) throws Exception {
        //创建Hadoop配置对象
        Configuration conf=HBaseConfiguration.create();
        //指定ZooKeeper集群地址
        conf.set("hbase.zookeeper.quorum", "192.168.170.128:2181,192.168.170.129:2181,192.168.170.130:2181");
        //创建连接对象Connection
        Connection conn=ConnectionFactory.createConnection(conf);
        //得到数据库管理员对象
        Admin admin=conn.getAdmin();

        TableName tableName=TableName.valueOf("t1");
        //创建表描述，并指定表名
        HTableDescriptor desc=new HTableDescriptor(tableName);
        //创建列族描述
        HColumnDescriptor family=new HColumnDescriptor("f1");
        //指定列族
        desc.addFamily(family);
        //创建表
        admin.createTable(desc);
        System.out.println("create table success!!");
    }
}
（2）右键运行main函数，输出create table success!!信息，则说明创建成功。
（3）在HBase集群的centos01节点上，输入hbase shell进入Shell命令行模式，然后输入list命令查看当前HBase中的所有表，效果如下：
hbase(main):007:0> list
TABLE
t1
从输出结果中我们可以看到，表t1已创建成功。
9.3.3 添加数据
（1）在maven项目hbasedemo中新建Java类HBasePutData.java，在main函数中写入添加三条数据的代码，如下：
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.util.Bytes;

public class HBasePutData{
    public static void main(String[] args) throws Exception {
        //创建Hadoop配置对象
        Configuration conf=HBaseConfiguration.create();
        //指定ZooKeeper集群地址
        conf.set("hbase.zookeeper.quorum", "192.168.170.128:2181,192.168.170.129:2181,192.168.170.130:2181");
        //创建数据库连接对象Connection
        Connection conn=ConnectionFactory.createConnection(conf);
        //Table负责与记录相关的操作,如增删改查等
        TableName tableName=TableName.valueOf("t1");
        Table table=conn.getTable(tableName);

        Put put = new Put(Bytes.toBytes("row1"));// 设置rowkey
        //添加列数据，指定列族、列名与列值
        put.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("name"), Bytes.toBytes("xiaoming"));
        put.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("age"), Bytes.toBytes("20"));
        put.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("address"), Bytes.toBytes("beijing"));

        Put put2 = new Put(Bytes.toBytes("row2"));// 设置rowkey
        //添加列数据，指定列族、列名与列值
        put2.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("name"), Bytes.toBytes("xiaoming2"));
        put2.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("age"), Bytes.toBytes("22"));
        put2.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("address"), Bytes.toBytes("beijing2"));

        Put put3 = new Put(Bytes.toBytes("row3"));// 设置rowkey
        //添加列数据，指定列族、列名与列值
        put3.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("age"), Bytes.toBytes("25"));
        put3.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("address"), Bytes.toBytes("beijing3"));

        //执行添加数据
        table.put(put);
        table.put(put2);
        table.put(put3);
        //释放资源
        table.close();
        System.out.println("put data success!!");
    }
}
上方代码中，新建了三个Put对象，每个Put对象包含需要添加的一条数据。
（2）右键运行main函数，输出put data success!!信息，则说明数据添加成功。
（3）在HBase集群的centos01节点上，输入hbase shell进入Shell命令行模式，然后输入scan 't1'命令扫描表t1中的数据，结果如下：
hbase(main):017:0> scan 't1'
ROW                                       COLUMN+CELL
row1                                     column=f1:address, timestamp=1514533573439, value=beijing
row1                                     column=f1:age, timestamp=1514533573439, value=20
row1                                     column=f1:name, timestamp=1514533573439, value=xiaoming
row2                                     column=f1:address, timestamp=1514533573514, value=beijing2
row2                                     column=f1:age, timestamp=1514533573514, value=22
row2                                     column=f1:name, timestamp=1514533573514, value=xiaoming2
row3                                     column=f1:address, timestamp=1514533573524, value=beijing3
row3                                     column=f1:age, timestamp=1514533573524, value=25
3 row(s) in 0.3930 seconds
从输出结果中我们可以看到，表t1成功添加了三条数据，rowkey分别为row1、row2和row3，同属于列族f1，row1有三个字段address、age、name，row2有三个字段address、age、name，row3有两个字段address、age。
9.3.4 查询数据
在maven项目hbasedemo中新建Java类HBaseGetData.java，在main函数中写入查询数据的代码。例如，查询表t1中行键为row1的一整条数据，代码如下：
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Table;
/**根据rowkey查询一条数据，实测成功，直接右键运行即可**/
public class HBaseGetData{
    public static void main(String[] args) throws Exception {
        //创建Hadoop配置对象
        Configuration conf=HBaseConfiguration.create();
        //指定ZooKeeper集群地址
        conf.set("hbase.zookeeper.quorum", "192.168.170.128:2181,192.168.170.129:2181,192.168.170.130:2181");
        //获得数据库连接
        Connection conn=ConnectionFactory.createConnection(conf);
       //获取Table对象，指定查询表名，Table负责与记录相关的操作,如增删改查等
        Table table = conn.getTable(TableName.valueOf("t1"));
        //创建Get对象，根据rowkey查询,rowkey=row1
        Get get = new Get("row1".getBytes());
        //查询数据，取得结果集
        Result r = table.get(get);
        //循环输出每个单元格的数据
        for (Cell cell : r.rawCells()) {
            //取得当前单元格所属的列族名称
            String family=new String(CellUtil.cloneFamily(cell));
            //取得当前单元格所属的列名称
            String qualifier=new String(CellUtil.cloneQualifier(cell));
            //取得当前单元格的列值
            String value=new String(CellUtil.cloneValue(cell));
            //输出结果
         System.out.println("列：" + family+":"+qualifier + "—————值:" + value);
        }
    }
}
右键运行main函数，控制台输出结果为：
列：f1:address—————值:beijing
列：f1:age—————值:20
列：f1:name—————值:xiaoming
与t1表中实际数据一致，则查询成功。
9.3.5 删除数据
（1）在maven项目hbasedemo中新建Java类HBaseDeleteData.java，在main函数中写入删除数据的代码。例如，删除表t1中行键为row1的一整条数据，代码如下：
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.util.Bytes;
/**根据rowkey查询一条数据，实测成功，直接右键运行即可**/
public class HBaseDeleteData{
    public static void main(String[] args) throws Exception {
        //创建Hadoop配置对象
        Configuration conf=HBaseConfiguration.create();
        //指定ZooKeeper集群地址
        conf.set("hbase.zookeeper.quorum", "192.168.170.128:2181,192.168.170.129:2181,192.168.170.130:2181");
        //获得数据库连接
        Connection conn=ConnectionFactory.createConnection(conf);
        //获取Table对象，指定表名，Table负责与记录相关的操作,如增删改查等
        TableName tableName=TableName.valueOf("t1");
        Table table=conn.getTable(tableName);
        //创建删除对象Delete，根据rowkey删除一整条
        Delete delete=new Delete(Bytes.toBytes("row1"));
        table.delete(delete);
        //释放资源
        table.close();
        System.out.println("delete data success!!");
    }
}
（2）右键运行main函数，输出delete data success!!信息，则说明数据删除成功。
（3）在HBase集群的centos01节点上，输入hbase shell进入Shell命令行模式，然后输入scan 't1'命令扫描表t1中的数据，结果如下：
hbase(main):019:0> scan 't1'
ROW                                       COLUMN+CELL
row2                                     column=f1:address, timestamp=1514533573514, value=beijing2
row2                                     column=f1:age, timestamp=1514533573514, value=22
row2                                     column=f1:name, timestamp=1514533573514, value=xiaoming2
row3                                     column=f1:address, timestamp=1514533573524, value=beijing3
row3                                     column=f1:age, timestamp=1514533573524, value=25
2 row(s) in 0.1080 seconds
从结果中我们可以看到，表t1中的rowkey为row1的行已经被删除了。

本文由职坐标整理发布，学习更多的大数据技术相关知识，请关注职坐标大技术云计算大技术技术频道！

大数据开发语言 go 大数据离线处理技术大数据知识抢答

本文由 @沉沙发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

评论（0）

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

职坐标公众号

大数据云计算 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

认证System Analyst，System Architect

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

【零基础】人工智能+Python全栈开发技术

人工智能+Python技术风口浪潮

【零基础】JavaEE高级开发技术

【零基础】JavaEE高级开发技术

起薪高，轻松进名企

【零基础】大数据与分布式架构技术

【零基础】大数据与分布式架构技术

培训大数据分布式架构

大数据技术30天热搜词更多>>

大数据处理技术框架大数据处理技术hadoop 大数据处理软件 java大数据处理技术大数据基本算法大数据算法大数据技术ppt 大数据基础知识 c语言大数据处理大数据处理方法大数据处理公司大数据十大经典算法大数据技术有哪些大数据技术应用专科大数据聚类算法大数据技术应用专业大数据技术及应用专业大数据技术在传统企业的应用大数据语言有哪些大数据开发是什么

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场匹配合适岗位

验证码手机号，获得海同独家IT培训资料

选择就业方向：: 人工智能物联网; 大数据开发/分析; 人工智能Python; Java全栈开发; WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了，明天再试试吧！

提交

我们会在第一时间安排职业规划师联系您！

您也可以联系我们的职业规划师咨询：

小职老师的微信号：z_zhizuobiao

小职老师的微信号：z_zhizuobiao

版权所有职坐标-一站式AI+学习就业服务平台沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com，All Rights Reserved.
沪公网安备 31011502005948号

关于我们 │ 法律声明 │ 联系我们

©2015 www.zhizuobiao.com All Rights Reserved