当用户向RegionServer发起HTable.put()请求时,其会将请求交给对应的HRegion实例来处理。
对应的HRegion首先决定数据是否需要写到由HLog类实现的预定日志(WAL)中。WAL是标准的Hadoop SequenceFile,并且存储了HLogKey实例。这些键包括序列号和实际数据,所以在服务器崩溃时可以回滚未持久化的数据。
一旦数据被写入WAL中,数据就被放到MemStore中,同时检查MemStore是否已经满了,如果满了,就会被请求刷写到磁盘中。刷写请求由另外一个线程处理,它会把数据写成HDFS中的一个新的HFile中。同时也会保存最后写入的序列号,系统就知道哪些数据现在被持久化了。
【大数据|HBase写数据】MemeStore刷写磁盘的第二种情况:预刷写(preflushing)。当region服务器被要求关闭时,会首先检查MemStore,通过hbase.hregion.preclose.flush.size值来确定什么时候刷写磁盘,然后在最后一轮刷写后关闭region。另一方面,关闭region服务器会强制所有的MemStore被刷写到磁盘,而不会关心MemStore是否达到配置的最大值。可以使用hbase.hregion.memstore.flush.size或通过创建表来进行设置。
推荐阅读
- 大数据|HBase region预拆分
- 大数据|HBase 行锁概念
- 分布式原理|分布式数据库理论知识之CAP理论、ACID原则及分布式事务一致性算法
- 大数据|HBase 负载均衡
- HBase|HBase日志中报Slow ReadProcessor read fields
- 大数据|HBase Balancer失败日志报错 ERROR org.apache.hadoop.hbase.regionserver.handler.OpenRegionHandler
- 大数据|Pair智能标注神器,全面升级,更加智能
- 资讯|AI 编程“神器”国产化!华为耗时 8 个月,这个能用中文生成代码的模型诞生了...
- 使用@Cacheable注解完成redis缓存