HBase高手之路4-Shell操作

文章目录


image-20230220084553544

HBase高手之路3—HBase的shell操作

一、hbase的shell命令汇总

命令 功能
create 创建表
put 插入或者更新数据
get 获取限定行或者列的数据
scan 全表扫描或扫描表并返回表的数据
describe 查看表的结构
count 统计行数
delete 删除指定的行或列的数据
deleteall 删除整个行或者列的数据
truncate 删除表的数据,结构还在
drop 删除整个表(包括数据)

二、需求

有以下的订单数据,需要将其保存在HBase中

订单id 订单状态 支付金额 支付方式 用户id 操作时间 商品分类
001 已付款 189.5 1 100001 2023-3-6 9:10:24 手机

三、表的操作

1.进入shell命令行

注意:需要提前启动 ZooKeeper、hdfs、hbase集群

image-20230308223358923

2.创建表

命令格式:

create '表名','列簇名1'[,'列簇名2',...]

image-20230308223646357

注意:create要小写,一个表可以有多个列簇

3.查看表的定义

命令格式:

describe '表名'

image-20230308223933406

4.列出所有的表

命令格式:

list

5.删除表

1)禁用表

命令格式:

disable '表名'

image-20230308224302201

2)启用表

命令格式:

enable '表名'

image-20230308224446904

3)删除表

命令格式:

drop '表名'

image-20230308224735495

注意:表处于启用状态时是无法删除的,若要删除表需要先禁用表,在进行删除。

四、数据的操作

1.添加数据

命令格式:

put '表名','rowkey行键','列簇名:列名',

image-20230308225608868

依次添加其他的数据

image-20230308225753624

注意:如果显示中文乱码,是因为hbase的shell中显示的是中文的十六进制编码,要解决中文乱码,需要添加选项,jrubby语法格式:

{属性名=>属性值}

如果有多个属性,中间用逗号格式

image-20230308225948457

image-20230308230110211

image-20230308230424118

image-20230308230707310

再次添加另一个rowkey的数据

image-20230308231006936

image-20230308231411706

2.获取(查看)数据

1)获取一行数据

命令格式:

get '表名','rowkey'

image-20230308231611538

image-20230308231709673

2)获取单个数据

命令格式:

get '表名','rowkey','列簇名:列名'

image-20230308232121937

3.更新(修改)数据

命令格式:

put '表名',新值

在这里插入图片描述

说明:

  • put命令如果键值存在则修改,如果不存在则添加
  • 在HBase中会自动维护表中数据的版本,即时间戳
  • 每执行一次put操作,都会生产一个新的时间戳

4.删除数据

1)删除指定列的数据

命令格式:

delete '表名','行键','列簇名:列名'

image-20230309000017422

2)删除整行数据

image-20230309000134939

命令格式:

deleteall '表名','行键'

image-20230309000258041

3)清空表

命令格式:

truncate '表名'

image-20230309000521697

五、导入数据

1.数据文件的准备

image-20230315122148022

2.把数据文件上次到服务器

image-20230315122451670

3.创建表,根据数据文件的定义

注意:集群启动

  1. 启动ZooKeeper
  2. 启动hdfs
  3. 启动HBASE
  4. 进入shell命令行
create 'ORDER_INFO','C1'

image-20230315123914770

4.执行命令导入命令数据文件

image-20230315124035164

5.查看数据

在这里插入图片描述

此时,HBase的数据在HDFS上是的存储查看

image-20230315124432172

六、计数操作

统计表中有多少条数据

1.计数命令

语法:

count '表名'

功能:统计rowkey不同的行数

image-20230315124714994

注意:当数据量很大的时候,这个操作是比较耗时的

2.MR程序计数

当数据量很大很大的时候,可以通过HBase提供的MR程序进行计数,这个mr程序是

org.apache.hadoop.hbase.mapreduce.RowCounter,语法格式:

hbase org.apache.hadoop.hbase.mapreduce.RowCounter '表名'

此时需启动yarn

image-20230315125009979

image-20230315125047846

启动计数命令

hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'ORDER_INFO'

image-20230315125250306

image-20230315125312801

image-20230315125335912

七、扫描操作

1.全表扫描

语法:
scan ‘表名’,{FORMATTER=>‘toString’}

image-20230315125606533

注意:尽量避免全表扫描一张很大很大的表

2.限定记录数

语法:

scan ‘表名’,{FORMATTER=>'toString',LIMIT=>数字}

image-20230315125947678

3.限定列

Rubby语法:

scan ‘表名’,COLUMNS=>[‘列簇名1:列名1,’列簇名1:列名2,...]}
scan "ORDER_INFO",LIMIT=>3,COLUMNS=>['C1:CATEGORY','C1:PAY_MONEY']}

image-20230315130445624

4.限定rowkey

语法:

scan ‘表名’,ROWPREFIXFILTER=>’rowkey一部分’}
scan "ORDER_INFO",'C1:PAY_MONEY'],ROWPREFIXFILTER=>'e'}

image-20230315130743173

image-20230315130853326

八、HBase的过滤器

1.简介

在HBase中,如果要对海量的数据进行扫描查询,尤其是全表扫描效率很低,可以使用过滤器Filter来提高查询的效率。过滤器Filter可以根据主键、列簇、列、版本号(时间戳)等条件对数据进行查询过滤。

在HBase中,使用过滤器有两种方式,一种就是使用命令行基于jRubby语法的选项实现交互式查询,另一种是基于HBase的JAVA API的方式进行编程开发。

官网文档:https://hbase.apache.org/devapidocs/index.html

2.过滤器

可以通过show_filters命令,查看hbase内置的过滤器

image-20230315140420882

我们来解释一下这些过滤器的用法:

类型 过滤器 功能
rowkey过滤器 RowFilter 实现行键字符串的比较和过滤
PrefixFilter rowkey的前缀过滤器
KeyOnlyFilter 只对单元格的键过滤不显示值
FirstKeyOnlyFilter 只扫描显示相同键的第一个单元格,其对应的键值会显示出来
列过滤器 FamilyFilter 列簇过滤器
QualifierFilter 列限定符过滤器,只显示对应列簇列名的数据
ColumnPrefixFilter 对列名的前缀进行限定
MultipleColumnPrefixFilter 对多个列名的前缀进行限定
ColumnRangeFilter 列名称范围的过滤器
值过滤器 ValueFilter 值过滤器,查询符合条件的键值对
SingleColumnValueFilter 对单个值进行过滤
ColumnValueFilter 列值的过滤器
SingleColumnValueExcludeFilter 排除匹配成功的值
其他过滤器 ColumnPaginationFilter 列分页过滤器,返回offset、limit的列
PageFilter 分页过滤器,分页显示
TimestampsFilter 时间戳过滤器
ColumnCountGetFilter 限制每个逻辑行返回值对的个数
DependentColumnFilter 依赖列过滤器

3.过滤器的用法

过滤器一般结合scan来使用

scan "ORDER_INFO",FILTER=>"RowFilter(=,'binary:02602f66-adc7-40d4-8485-76b5632b5b53')"}

image-20230315141149174

一般语法:

scan ‘表名’,{FILTER=>”过滤器的名称(参数列表(如比较运算符,比较器))}
1)比较运算符

比较运算符是我们比较常见的。

运算符 功能
= 等于
> 大于
< 小于
>= 大于等于
<= 小于等于
!= 不等于
2)比较器
比较器 功能
BinaryComparator 匹配完整的字节数组
BinaryPrefixComparator 匹配字节数组的前缀
BitComparator 匹配比特位
NullComparator 匹配空值
RegexStringComparator 匹配正则表达式
SubstringComparator 匹配子字符串
3)比较器表达式
比较器 表达式缩写
BinaryComparator binary:值
BinaryPrefixComparator binaryprefix:值
BitComparator bit:值
NullComparator null
RegexStringComparator regexstring:正则表达式
SubstringComparator substring:值

4.案例一:查询指定订单id的数据

1)需求

查询指定订单的数据,订单号为“e8b3bb37-1019-4492-93c7-305177271a71”,订单状态及支付方式

2)分析
  • 因为订单id就说表的rowkey,所以应该使用rowkey过滤器RowFilter

image-20230315142049236

只需要两个参数

  • 比较运算符:=
  • 比较器表达式:binary:订单号
3)实现
scan 'ORDER_INFO',COLUMNS=>['C1:STATUS','C1:PAYWAY'],'binary:e8b3bb37-1019-4492-93c7-305177271a71')"}

image-20230315142259349

5.案例二:查询状态为已付款的订单

1)需求

查询状态为已付款的订单

2)分析
  • 因为查询状态为已付款要查询指定值,所以应该使用值过滤器SingleColumnValueFilter

image-20230315142514218

需要传入四个参数

  • 列簇
  • 列名
  • 比较运算符
  • 比较器表达式
scan 'ORDER_INFO',FILTER=>"SingleColumnValueFilter('c1','STATUS',=,'binary:已付款')"}

image-20230315142911806

注意:

  • 列簇名和列名大小写一定要写对
  • 如果列簇名和列名大小写写错并不能过滤数据,但是HBase不会报错,而是显示全部的数据,因为HBase是无模式的

6.案例三:组合多条件过滤1

1)需求

查询支付方式为1,且支付金额大于8000的订单

2)分析
  • 此处需要使用多个过滤器共同来实现查询,多个过滤器,可以使用AND(并且)或者OR(或者)来组合多个过滤器完成查询
  • 使用SingleColumnValueFilter实现对应列的查询
  1. 支付方式为1的过滤器
SingleColumnValueFilter('C1', 'PAYWAY', = , 'binary:1')
  1. 支付金额大于8000的过滤器
SingleColumnValueFilter('C1', 'PAY_MONEY', > , 'binary:8000')
  1. 完整的命令
scan 'ORDER_INFO',{FORMATTER => 'toString',FILTER => "SingleColumnValueFilter('C1','PAYWAY','binary:1') AND SingleColumnValueFilter('C1','PAY_MONEY',>,'binary:8000')"}

image-20230320112103038

注意:

  • HBase shell中比较默认都是字符串比较,所以如果是比较数值类型的,会出现不准确的情况
  • 例如:在字符串比较中4000是比100000大的
  • 外层必须使用双引号,内层使用单引号

我们还可以加上限定列:

scan 'ORDER_INFO','binary:8000')",COLUMNS=>['C1:PAYWAY','C1:PAY_MONEY']}

image-20230320112316410

7. 案例四:组合多条件过滤2

1)需求

查询类别为“维修;手机;”或者“数码;女装;”,并且状态为“已付款”的订单,只显示类别和状态

2)分析
  • 此处需要使用多个过滤器组合使用,多个过滤器可以使用AND(并且)、OR(或者)来进行组合
  • 使用值过滤器中的SingleColumnValueFilter实现对应列值的查询

完整的命令

scan 'ORDER_INFO', {FORMATTER => 'toString',FILTER => "(SingleColumnValueFilter('C1','CATEGORY','binary:维修;手机;') OR SingleColumnValueFilter('C1','binary:数码;女装;')) AND SingleColumnValueFilter('C1','binary:已付款')",COLUMNS=>['C1:CATEGORY','C1:STATUS']}

image-20230320112444753

8.作业

选择操作时间在2020-04-25,12点8分到9分之间的已完成的订单,只显示操作时间和状态

scan 'ORDER_INFO',FILTER => "SingleColumnValueFilter('C1','OPERATION_DATE','binary:2020-04-25 12:08:00') AND SingleColumnValueFilter('C1','binary:2020-04-25 12:09:00')",COLUMNS=>['C1:OPERATION_DATE','C1:STATUS']}

image-20230320100200686

九、INCR

incr(increament)命令可以实现某个单元格的值进行原子性计数累加,默认累加1

1. 需求

某新闻app应用为了统计每个新闻的每隔一段时间的访问次数,将新闻数据保存在HBase中,该表格的数据如下所示,要求原子性的增加新闻的访问次数

新闻ID 访问次数 时间段 rowkey
0000000001 12 00:00-01:00 0000000001_00:00-01:00
0000000002 20 01:00-02:00 0000000002_01:00-02:00

2. incr操作

语法:

incr ‘表名’,‘rowkey’,‘列簇名:列名’,[累加值]

说明:

  • 如果某一列要实现计数功能,必须要使用incr来创建对应的列
  • 使用put创建的额列是不能实现累加的
  • 默认累加1

3.基本使用

image-20230320123358809

image-20230320123658394

image-20230320123822800

4.导入准备好的数据

image-20230320123846222

上传服务器

image-20230320123938823

导入HBase

image-20230320124048247

显示前5条数据

image-20230320124253280

5.获取计数器值的命令

不能使用get来获取计数器的值

image-20230320124502710

语法:

get_counter ‘表名’,‘rowkey’,‘列簇名:列名’

image-20230320124948914

image-20230320125058118

6.使用incr进行累加操作,修改计数器的值

image-20230320125410075

image-20230320125514176

十、Shell管理操作

1.status

查看服务器的状态

image-20230320125718373

2.whoami

显示当前用户

image-20230320125748533

3.list

显示当前的所有的表

image-20230320125820563

4.count

统计表的记录数

image-20230320125901029

5.describe

显示表的结构信息

image-20230320125940601

6.exists

判断某个表是否存在

image-20230320130103974

7.is_enabled、is_disabled

判断某个表是否被启用或者禁用

image-20230320130314663

8.alter

改变表和列簇的模式

  • 新增列簇

image-20230320130557415

  • 删除列簇

image-20230320130704439

image-20230320130926617

参考文章

HBASE官网文档

原文地址:https://blog.csdn.net/W_chuanqi/article/details/129675596

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读301次。你可以使用Thrift客户端来测试HBase Thrift服务。例如,在Python中,你可以使用。请确保你的HBase伪集群已正确配置并且Thrift服务已经启动。这将在你的伪集群中启动HBase Thrift服务。库或者直接使用Thrift接口。进入HBase的安装目录,找到。请根据需要进行相应的配置。这将停止Thrift服务。_hbase 单机 thrift 配置
文章浏览阅读565次。hive和hbase数据迁移_hive转hbase
文章浏览阅读707次。基于单机版安装HBase,前置条件为Hadoop安装完成,安装Hadoop可以参考链接,Hadoop单机安装。地址:https://dlcdn.apache.org/hbase/2.4.13/hbase-2.4.13-src.tar.gz2.解压缩文件3.进入到conf目录下4.修改配置文件 hbase-env.sh示例:示例:6.修改配置文件 hbase-site.xml示例:8.访问页面访问你所以在服务器的16010端口,查看页面以上就是单机版安装HBase的内容,后续_hbase 2.4.13下载
文章浏览阅读301次。linux集群搭建-HBase_linux中在/home目录下创建目录hbase
文章浏览阅读933次。中没有库的概念,说一个数据说的是哪一个名称空间下的那一张表下的哪一个行键的哪一个列族下面的哪一个列对应的是这个数据。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。操作Hbase系统DDL,对名称空间等进行操作。_hbase中报错undefined method for main:object
文章浏览阅读1k次,点赞16次,收藏21次。整理和梳理日常hbase的监控核心指标,作为经验沉淀_hbase 对应promethus指标名
文章浏览阅读1.5k次,点赞45次,收藏20次。今天把之前学习Hbase的入门基础知识笔记翻出来了,为了不忘记也是帮助身边的小伙伴,我把他又整理了下放了出来给大家,希望对HBASE一知半解的小伙伴,能够对Hbase有一个清晰的认识,好了废话不多说,进入正题。以上内容就是初的识HBase 入门知识,包含了hbase的由来,特性,物理存储,逻辑存储模型,以及优缺点,应用场景这些内容,相信后面在使用或更深入的研究Hbase打下了良好的基础,后面的更深入的学习内容,看计划安排在后面的文章中进行更新。
文章浏览阅读655次。HDFS,适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。Hbase,是一个分布式的、面向列的开源数据库,适合于非结构化数据存储。MapReduce,一种编程模型,方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。Chukwa,是一个开源的用于监控大型分布式系统的数据收集系统。_开源非结构化数据存储
文章浏览阅读1.9k次。mongodb和hbase的区别和应用场景_hbase和mongodb的区别
文章浏览阅读1.2k次。Hbase入门篇01---基本概念和部署教程_hbase教程
文章浏览阅读1.6k次,点赞19次,收藏25次。hbase相关内容
文章浏览阅读942次,点赞16次,收藏20次。在hbase1.x中transition是令广大大数据运维人员头疼的一个话题,因为,region 的状态转移涉及到了三个核心组件,分别为:hbase master,zookeeper和hbase 的regionserver,这三个组件中的某一个region的状态都是一致的情况下,这个region 才算是正常,状态转移过程及其复杂,hbase 集群很容易出现RIT。好消息是,hbase2.x中有个工具HBCK2,这个工具可不是简单的hbase1.x中hbck 的升级,变化有点大,详细变化请参考帮助文档(
文章浏览阅读1k次。在HBase中,Region分裂是一种自动的机制,用于在Region大小达到一定阈值时将其分裂成两个Region,以便更好地管理数据。HBase中的Region大小是可以配置的,通过设置HBase表的最小和最大Region大小来控制。需要注意的是,禁止Region分裂后,当表的大小达到一定阈值时,数据将不再分裂成新的Region,因此需要根据实际需求进行调整。需要注意的是,禁止Region分裂后,当表的大小达到一定阈值时,数据将不再分裂成新的Region,因此需要根据实际需求进行调整。_hbase region大小
文章浏览阅读737次。可以看出,HBase作为数据仓库的一种补充,可以用于存储和管理大量数据,以便快速地分析和查询。是一种基于数据库的形式,用于存储和管理大量数据,以便快速地分析和查询。例如,可以使用HBase存储一些用户行为数据,然后进行分析,以便更好地了解用户行为和需求。其次,需要配置HBase相关的环境变量,例如JAVA_HOME、HBASE_HOME等。HBase可以用于存储结构化和非结构化数据,包括文本、图像、视频等。例如,可以使用HBase存储一些传感器数据,然后进行实时分析和处理。一、HBase集群环境搭建。_用hbase 搭建数仓
文章浏览阅读1.9k次。Data。_springboot整合hbase
文章浏览阅读880次,点赞23次,收藏20次。etc/abrt下的两个文件,分别是:abrt-action-save-package-data.conf 和 abrt.conf,修改内容如下。我们后面排查的时候去查看/run/cloudera-scm-agent/process/2325-hbase-REGIONSERVER下是否有。发现有个hs_err_pid15967.log JVM生成的错误日志,那么把这个日志下载查看,返现日志这么写的。接下来就等下一次hbase的节点挂了之后查看转储文件,转储文件在/var/sqool/abrt下。_regionserver 退出 没有错误日志
文章浏览阅读1.7k次。以下命令都需要在Hbase Shell中运行:Hbase信息status:服务器状态version:版本表操作查看所有表:list表基本信息:describe "表名称"查看表是否存在:exists '表名称'创建表:create '表名称', '列族1', '列族2', '列族3'删除表:首先禁用表:disable '表名称'然后删除表:drop '表名称'修改表:表数据操作查看所有数据:scan "表名称"..._hbase sehll怎么看登录的是哪个hbase
文章浏览阅读885次,点赞18次,收藏21次。在HBase中执行查询操作通常使用HBase Shell或编程语言API(如Java或Python)来执行。使用编程语言API,您可以使用相应的HBase客户端库来执行查询操作。这是一个简单的Java代码示例,演示了如何使用HBase Java API进行单行查询。这些示例仅为基本查询操作,HBase Shell还提供其他高级查询功能,如按时间戳过滤,使用正则表达式进行查询等。请注意,这只是HBase查询的基本示例,您可以根据实际需求和HBase的数据模型进行更复杂的查询操作。
文章浏览阅读7.3k次,点赞7次,收藏28次。找到hbase的bin目录并进入,执行启动hbase hmaster命令。问题原因 hmaster挂了 ,需要重新启动hmaster才行。hbase shell输入命令出现如下问题。_keepererrorcode = nonode for /hbase/master
文章浏览阅读1.3k次。三次信息化浪潮。_大数据应用开发技术笔记