云原生数据库-浪潮云溪分布式数据库SST文件结构云原生数据库-浪潮云溪分布式

LSM tree保证数据库是有序写入（memtable-skiplist），起高了写性能，但是因为其本身的分层结构，牺牲了读性能（一个key如存储在了低级别的level，从上到下每一层都要进行查找，代价极大）。所以，针对读的性能提升有了很多的优化：bloom filter （高效判读一个key是否不存在），index-filter（二分查找，消耗低内存的情况下）索引key-value数据。这一些数据库都需要存储在SST文件之中，用来进行k-v数据的有序管理。
SST文件格式概览

文章图片

1）Footer ：固定48字节，指出 IndexBlock 和 MetaIndexBlock 在文件中的偏移量信息，它是元信息的元信息，它位于 sstable 文件的尾部
2）IndexBlock：占用一个 block 空间，记录了 DataBlock 相关的元信息
3）MetaIndexBlock：占用一个 block 空间，各个元信息的Block，包括Filter、Properties(整个table的属性信息)、Compression dictionary、Range deletion tombstone
4）MetaBlock：可能占用多个 block空间，存储布隆过滤器的二进制数据及其他元信息数据
【云原生数据库-浪潮云溪分布式数据库SST文件结构】5）DataBlock：可能占用多个 block空间，存储实际的数据即键值对内容
Footer 结构

文章图片

Footer固定48个字节大小，位于SSTable文件尾部；MetaBlockIndex和DataBlockIndex的offset和size组成BlockHandlel类型，用于寻址MetaBlockIndex和DataBlcokIndex的块所在的位置，size和offset采用varint变长编码，以节省空间，offset和size最少占用1个字节长度、最多占用9个字节长度，因此MetaBlockIndex和DataBlockIndex的offset和size最多占用4*9=36个字节，通过padding补齐到40个字节（8字节对齐）；比如DataBlockIndex.offset = 64、DataBlockIndex.size=216，表示DataBlockIndex位于SSTable文件的第64个字节至280个字节。
Block 结构
5个部分的数据结构，除了 Footer，其他的物理结构都是 Block 形式。每个 Block 对应物理磁盘的一个存储块，因此， Block 的大小与磁盘存储块的大小一致．这也是Footer放到文件末尾的原因，Footer本身４８个字节不能占用一个磁盘存储块．Block 在硬盘上存储的时候，会在实际数据之后加上5个字节的额外内容：compression type、crc。
Data Block 结构
DataBlcok Key 的存储采用了前缀压缩机制，前缀压缩，就是对于 key 的相同前缀，尽量只存储一次以节省空间。但是对于 SSTable 来说它并不是对整个 block 的所有 key 进行一次性地前缀压缩，而是设置了很多区段，处于同一区段的 key 进行一次前缀压缩，每个区段的起点就是一个重启点。前缀压缩机制导致每条记录需要记住它对应的 key 的共享长度和非共享长度。所谓 key 的共享长度，是指当前这条记录的 key 与上一条记录的 key 公共前缀的长度，非共享长度则是去掉相同部分后的不同部分的长度。这样当前这条记录只需要存储不同的那部分 key 的值即可。

文章图片

第一部分(Entry)用来存储key-value数据。由于sstable中所有的key-value对都是严格按序存储的，用了节省存储空间，并不会为每一对key-value对都存储完整的key值，而是存储与上一个key非共享的部分，避免了key重复内容的存储。每间隔若干个key-value对，将为该条记录重新存储一个完整的key。重复该过程（默认间隔值为16），每个重新存储完整key的点称之为Restart point。
Restart point的目的是在读取sstable内容时，加速查找的过程。由于每个Restart point存储的都是完整的key值，因此在sstable中进行数据查找时，可以首先利用restart point点的数据进行键值比较，以便于快速定位目标数据所在的区域；当确定目标数据所在区域时，再依次对区间内所有数据项逐项比较key值，进行细粒度地查找；该思想有点类似于跳表中利用高层数据迅速定位，底层数据详细查找的理念，降低查找的复杂度。
KV 数据存储结构

文章图片

shared key length: 与　restart point 相同的key前缀字节长度．
unshared key length:　当前key减去restart point 相同前缀长度后，剩余的字节长度
value length:　数值的字节长度
unshared key content:　key与restart point中的key不相同部分的key内容．
value: 存储真实的数值
Index Block 结构

文章图片

index block包含若干条记录，每一条记录代表一个data block的索引信息，用于快速定位到包含特定key的Data Block；Index Block首先是一个block，因此包含三部分KeyValue、Type（固定1字节）、CRC检验码（固定4字节）；Type标识该部分数据是否采用压缩算法，CRC是KeyValue + Type的检验码。
一条索引包括以下内容：

文章图片

key，取值是大于等于其索引block的最大key，并且小于下一个block的最小key；
该data block起始地址在sstable中的偏移量；
该data block的大小；
IndexBlock和 DataBlock 一样，采取了前缀压缩，只不过间隔为2（DataBlock 默认为16）。
为什么key不是采用其索引的DataBlock的最大key？
主要目的是节省空间；假设其索引的block的最大key为"acknowledge"，下一个block最小的key为"apple"，如果DataBlockIndex的key采用其索引block的最大key，占用长度为len("acknowledge")；采用后一种方式，key值可以为"ad"（"acknowledge" < "ad" < "apple"），长度仅为2，并且检索效果是一样的。
为什么BlockHandle的offset和size的单位是字节数而不是block？
因为SSTable中的block大小是不固定的，虽然option中可以指定block_size参数，但SSTable中存储数据时，并未严格按照block_size对齐，所以offset和size指的是偏移字节数和长度字节数。这样做主要有两个原因：
（1）可以存储任意长度的key和任意长度的value，而同一个key-value是不能跨block存储的，极端情况下，比如我们的单个 value 就很大，已经超过了 block_size，那么对于这种情况，SSTable 就没法进行存储了。所以通常，实际的 Block 大小都是要略微大于 block_size 的；
（2）从另外一个角度看，如果严格按照block_size对齐存储数据，必然有很多block通过补0的方式对齐，浪费存储空间。

云原生数据库-浪潮云溪分布式数据库SST文件结构

推荐阅读

盐水加白醋泡脚的好处舒服每一晚

床单起球是质量问题吗

马上消费金融额度是多少

上环后图片避孕环是什么样子图片

SpringBoot配置并使用Redis缓存服务

1秒钟等于几毫秒一秒等于多少毫秒多少微秒

罗汉松有哪些品种如何区分

中年之殇

电脑里编程的软件有哪些，目前计算机编程的常用软件有什么

网易怒斥暴雪:离婚不离身暴雪是不是网易的

cfree里面怎么一步一步分析结果

山东良法领导干部知识竞赛题目是什么？领导干部知识题库大全

95和98的暗语是什么意思 98是什么

vxlan 格式分析

如何在手机上连接黑魂2服务器？黑魂2服务器怎么用手机

医生竟会对孕检女子做出这事，女子怀孕去医院检查

崩坏3新版本新增内容汇总 3.4版本相关调整内容前瞻

中国民俗的“鬼节”有哪些？中元节和清明节有什么区分？

张裕干红葡萄酒口感怎么样张裕特选级干红葡萄酒怎么样

看财报|苏酒老二今世缘百亿冲刺第一战：7%的省外营收如何撬动全国化市场？｜看财报