HBase的 rowkey 设计原则 hbase

hbase所谓的三维有序存储的三维是指：rowkey（行主键），column key(columnFamily+qualifier)，timestamp(时间戳)三部分组成的三维有序存储。
rowkey是行的主键，而且hbase只能用个rowkey，或者一个rowkey范围即scan来查找数据。所以 rowkey的设计是至关重要的，关系到你应用层的查询效率。
rowkey是以字典顺序排序的，存储的是字节码。
Rowkey设计原则
1.Rowkey的唯一原则
必须在设计上保证其唯一性。由于在HBase中数据存储是Key-Value形式，若HBase中同一表插入相同Rowkey，则原先的数据会被覆盖掉(如果表的version设置为1的话)，所以务必保证Rowkey的唯一性.
2.Rowkey的排序原则
HBase的Rowkey是按照ASCII有序设计的，我们在设计Rowkey时要充分利用这点。比如视频网站上对影片《泰坦尼克号》的弹幕信息，这个弹幕是按照时间倒排序展示视频里，这个时候我们设计的Rowkey要和时间顺序相关。可以使用"Long.MAX_VALUE - 弹幕发表时间"的 long 值作为 Rowkey 的前缀。
3.Rowkey的散列原则
我们设计的Rowkey应均匀的分布在各个HBase节点上。拿常见的时间戳举例，假如Rowkey是按系统时间戳的方式递增，Rowkey的第一部分如果是时间戳信息的话将造成所有新数据都在一个RegionServer上堆积的热点现象，也就是通常说的Region热点问题，热点发生在大量的client直接访问集中在个别RegionServer上（访问可能是读，写或者其他操作），导致单个RegionServer机器自身负载过高，引起性能下降甚至Region不可用，常见的是发生jvm full gc或者显示region too busy异常情况，当然这也会影响同一个RegionServer上的其他Region。
Region热点问题
1、Reverse反转针对固定长度的Rowkey反转后存储，这样可以使Rowkey中经常改变的部分放在最前面，可以有效的随机Rowkey。
反转Rowkey的例子通常以手机举例，可以将手机号反转后的字符串作为Rowkey，这样的就避免了以手机号那样比较固定开头(137x、15x等)导致热点问题，这样做的缺点是牺牲了Rowkey的有序性。
2、Salt加盐 Salt是将每一个Rowkey加一个前缀，前缀使用一些随机字符，使得数据分散在多个不同的Region，达到Region负载均衡的目标。
比如在一个有4个Region(注：以 [ ,a)、[a,b)、[b,c)、[c, )为Region起至)的HBase表中，加Salt前的Rowkey：abc001、abc002、abc003 我们分别加上a、b、c前缀，加Salt后Rowkey为：a-abc001、b-abc002、c-abc003
可以看到，加盐前的Rowkey默认会在第2个region中，加盐后的Rowkey数据会分布在3个region中，理论上处理后的吞吐量应是之前的3倍。由于前缀是随机的，读这些数据时需要耗费更多的时间，所以Salt增加了写操作的吞吐量，不过缺点是同时增加了读操作的开销。
3、Hash散列或者Mod 用Hash散列来替代随机Salt前缀的好处是能让一个给定的行有相同的前缀，这在分散了Region负载的同时，使读操作也能够推断。确定性Hash(比如md5后取前4位做前缀)能让客户端重建完整RowKey，可以使用get操作直接get想要的行。
4.Rowkey的长度原则
复制代码 Rowkey长度设计原则：Rowkey是一个二进制，Rowkey的长度被很多开发者建议说设计在10~100个字节，建议是越短越好。
原因有两点：其一是HBase的持久化文件HFile是按照KeyValue存储的，如果Rowkey过长比如500个字节，1000万列数据光Rowkey就要占用500*1000万=50亿个字节，将近1G数据，这会极大影响HFile的存储效率；
其二是MemStore缓存部分数据到内存，如果Rowkey字段过长内存的有效利用率会降低，系统无法缓存更多的数据，这会降低检索效率；
需要指出的是不仅Rowkey的长度是越短越好，而且列族名、列名等尽量使用短名字，因为HBase属于列式数据库，这些名字都是会写入到HBase的持久化文件HFile中去，过长的Rowkey、列族、列名都会导致整体的存储量成倍增加。
【HBase的 rowkey 设计原则】关键词：大数据培训

HBase的 rowkey 设计原则

推荐阅读

降价|双11降价哪家强？iqoo：降900，三星：我降1300，荣耀：未知？

下厨房app菜单收藏方法

爱书签的孩子会有额外奖赏

金华个人所得税专项附加扣除指的是什么？

英语句法分析树

有哪些卖茶叶的天猫旗舰店值得推荐？

高仿尼康相机推荐高仿尼康相机

蛤蜊的营养功效

射手座女生喜欢什么样的礼物射手座女生漂亮吗

温州怎么查社保卡里有多少钱，怎么查社保余额

怎么用豆浆机打豆浆怎么用豆浆机打豆浆好喝

ps怎么给图像加影子详细教程

阳台种什么植物阳台种什么植物最旺风水

南极之恋是在南极拍的吗

vb.net设定为粗体 vb字体加粗代码后还原代码

快餐盒是什么材质的

孩子不阳光自信怎么办

榴莲,菠萝蜜,谁是你的最爱？

佳能35和50 佳能ef35与50

万答#13，MySQL自增键用完后，插入数据会发生什么情况