hbase压缩优化,hbase表压缩

HBase写数据的异常问题以及优化1、HBase数据写入通常会遇到两类问题,一类是写性能较差,另一类是数据根本写不进去 。
2、必须在设计上保证RowKey的唯一性 。由于在HBase中数据存储是Key-Value形式,若向HBase中同一张表插入相同RowKey的数据,则原先存在的数据会被新的数据覆盖 。设计的RowKey应均匀的分布在各个HBase节点上 , 避免数据热点现象 。
3、出现这种问题的原因是因为和服务器通信超时导致的 。所以需要将下面两个参数的默认值进行调整 。hbase.snapshot.region.timeout hbase.snapshot.master.timeoutMillis 这两个值的默认值为60000,单位是毫秒,也即1min 。
HBase性能优化-Rowkey&列族设计必须在设计上保证RowKey的唯一性 。由于在HBase中数据存储是Key-Value形式,若向HBase中同一张表插入相同RowKey的数据,则原先存在的数据会被新的数据覆盖 。设计的RowKey应均匀的分布在各个HBase节点上,避免数据热点现象 。
【hbase压缩优化,hbase表压缩】必须在设计上保证RowKey的唯一性 。由于在HBase中数据存储是Key-Value形式,若向HBase中同一张表插入相同RowKey的数据,则原先存在的数据会被新的数据覆盖 。设计的RowKey应均匀的分布在各个HBase节点上 , 避免数据热点现象 。
HBase的Rowkey是按照ASCII有序设计的,我们在设计Rowkey时要充分利用这点 。比如视频网站上对影片《泰坦尼克号》的弹幕信息,这个弹幕是按照时间倒排序展示视频里,这个时候我们设计的Rowkey要和时间顺序相关 。
HBase集群配置Snappy压缩算法1、N_MEMORY:设置是否存入内存 。KEEP_DELETED_CELLS:设置被删除的数据,在基于时间的历史数据查询中是否依然可见 。DATA_BLOCK_ENCODING:表示数据块的算法(读者只作了解即可) 。TTL:表示版本存活的时间 。
2、HBase目前提供了三种常用的压缩方式: GZip、LZO、Snappy。Snappy的压缩率最低,但是编解码速率最高,对CPU的消耗也最小 , 所以目前一般建议使用Snappy 。
3、ORC支持三种压缩选择:NONE,ZLIB,SNAPPY 。我们以TEXT存储方式和ORC存储方式为例,查看表的压缩情况 。
4、而在压缩比方面,zstd LZ4 GZIP Snappy 。
5、在hbase-site.xml中查找master.info.port的配置,并确保其值在有效的端口范围内,并且未被其他应用程序占用 。重启HBase:更改hbase-site.xml文件后,确保重新启动HBase集群,以便应用新的配置 。
hbase压缩优化的介绍就聊到这里吧,感谢你花时间阅读本站内容 , 更多关于hbase表压缩、hbase压缩优化的信息别忘了在本站进行查找喔 。

    推荐阅读