hbase显示数据内容流程,hbase查看数据

HBASE之创建表、插入值、表结构查看对表的创建、删除、显示以及修改等,可以用HBaseAdmin,一旦创建了表,那么可以通过HTable的实例来访问表,每次可以往表里增加数据 。
创建表 使用HBaseShell或HBaseAPI可以创建表,需要指定表的名称和列族 。例如,创建一个名为student的表,包含一个列族info 。插入数据 使用Put命令可以向表中插入数据,需要指定行键、列族、列和值 。
全表扫描(scan)RowKey行键 (RowKey)可以是任意字符串(最大长度是64KB,实际应用中长度一般为 10-100bytes),在HBASE内部,RowKey保存为字节数组 。存储时,数据按照RowKey的字典序(byte order)排序存储 。
两种方式:一,建立一个hive和hbase公用的表,这样可以使用hive操作hbase的表,但是插入数据较慢 , 不建议这样做 。二,手写mapreduce,把hive里面的数据转换为hfile,然后倒入 。
hbase web管理工具phphbaseadmin HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 。
六、HBase写入流程(1)当一个Region中的某个Store下的StoreFile的总大小查过某个值,由参数hbase.hregion.max.filesize设定(默认10g),该Region就会按照RowKey进行拆分 。
使用bulk load功能最简单的方式就是使用importtsv 工具 。importtsv 是从TSV文件直接加载内容至HBase的一个内置工具 。它通过运行一个MapReduce Job,将数据从TSV文件中直接写入HBase的表或者写入一个HBase的自有格式数据文件 。
当 RegionServer crash 或者目录达到一定大小 , 会开启 replay 模式,类似 MySQL 的 binlog 。/hbase/oldlogs当.logs 文件夹中的 HLog 没用之后会 move 到.oldlogs 中,HMaster 会定期去清理 。
和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小达到一定阈值(128M)之后,系统会异步将Memstore中数据flush到HDFS形成小文件 。
该过程会自动从指定hbase表内一行一行读取数据进行处理 。
虽然Region分裂后可以提高HBase的读写性能,但是Region分裂过程会对集群网络造成很大的压力,尤其是要分裂的Region尺寸过大、数目过多时 , 甚至可以使整个集群瘫痪 。
HBase中数据读取流程是怎样的需要注意的是要和initTableMapperJob 方法指定的数据类型一致 。该过程会自动从指定hbase表内一行一行读取数据进行处理 。
Zookeeper中记录了-ROOT-表的location 。.META. 表包含所有的用户空间region列表 , 以及 RegionServer的服务器地址 。
outpath/test/huanyu/hbase/outpath /table /configuration in_enc:hbase中的编码,以解析hbase中数据使用的编码 。out_enc:输出到hdfs路径上的编码 。tablename:操作的表名 。
深入理解HBASE(4)HFile1、依次加载各部分的HFileBlock(load-on-open所有部分都是以HFileBlock格式存储):data index block、meta index block、FileInfo block、generate bloom filter index、和delete bloom filter 。HFileBlock的格式会在下面介绍 。
2、混合了BloomFilter Block以后的HFile构成如下图所示:再来看hbase如何在hdfs上去检索一行数据 。
3、在Region里面管理的Store管理的是列族,Store里面有Mem Store(内存),Flush之后,删除内存中的数据,同时写入文件StoreFile Hfile,Hfile 其实是在DataNode里面的 。Hbase的读比写慢 。Hbase命名空间下有一张元数据表meta表和namespace表 。
4、/hbase/.archiveHBase 在做 Split或者 compact 操作完成之后 , 会将 HFile 移到.archive 目录中,然后将之前的 hfile 删除掉,该目录由 HMaster 上的一个定时任务定期去清理 。
5、因为HBase在HDFS中是以HFile文件结构存储的,所以高效便捷的方法就是直接生成HFile文件然后使用Bulk Load方法,即HBase提供的HFileOutputFormat类 。
hbase(分布式、可扩展的NoSQL数据库)1、HBase是一种分布式、可扩展的NoSQL数据库,它是基于Hadoop的HDFS文件系统构建的 。HBase被设计用来处理海量数据 , 并提供高可靠性、高性能的读写操作 。
2、Hbase是一种NoSQL数据库 , 这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言 。
3、HBase 是典型的 NoSQL 数据库,通常被描述成稀疏的、分布式的、持久化的,由行键、列键和时间戳进行索引的多维有序映射数据库,主要用来存储非结构化和半结构化的数据 。
4、HBase 是 Apache 的 Hadoop 项目的子项目,它不同于一般的关系数据库,而是一个适合于非结构化数据存储的数据库 。HBase 分布式数据库具有如下几个显著特点 。
HBase从入门到精通11:HBase数据保存过程和Region分裂HBase表的列族在创建之初只有一个Region , 随着插入数据的增多Region变得越来越大 。
以fileServer为例,在使用默认的split策略--IncreasingToUpperBoundRegionSplitPolicy 的情况下 , 16个预分区Region , 则单个Resion容量达到 min(32,50),即32GB时分裂 。
默认 , HBase 在创建表的时候,会自动为表分配一个 Region,正处于混沌时期,start-end key 无边界,所有 RowKey 都往这个 Region里分配 。
Hbase Split 是一个很重要的功能,HBase 通过把数据分配到一定数量的 Region 来达到负载均衡的 。
由于在HBase中数据存储是Key-Value形式 , 若向HBase中同一张表插入相同RowKey的数据,则原先存在的数据会被新的数据覆盖 。设计的RowKey应均匀的分布在各个HBase节点上,避免数据热点现象 。
【hbase显示数据内容流程,hbase查看数据】关于hbase显示数据内容流程和hbase查看数据的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息 , 记得收藏关注本站 。

    推荐阅读