MySQL(如何快速的查看Innodb数据文件)
水平有限,有误请谅解
注意:本文很多输出格式是16进制格式。
使用版本:MySQL 5.7.22
经常有朋友问我一些如何查看Innodb数据文件的问题比如:
- 如果我是UTF8字符集,如果插入字符‘a’到底占用几个字节 ?
- 主键和普通索引叶子节点的行数据在存储上有哪些区别?
- 如何证明rowid的存在?
- 数据中的NULL值如何存储的?
- char和varchar在存储上的区别?
......
- innblock:一个用于解析数据块的工具,能够得到每行的偏移量,并且按照逻辑和物理顺序排序。详细使用方式可以参考 https://mp.weixin.qq.com/s/yfi5XikDJlh6-nS-eoJbcA
下载地址:https://github.com/gaopengcarl/innblock 除了代码我已经编译好了直接使用即可
- bcview:一个小工具,用于将数据文件按照既定的大小(比如16K)分块,然后访问每个块的偏移量后指定的字节数,通常我们并不知道记录到底多长,可以设置一个较大的查看字节数。
下载地址:https://github.com/gaopengcarl/bcview 除了代码我已经编译好了直接使用即可
一、行结构简述
本文无意解释详细的Innodb文件结构,这样的文章和书籍很多,比如:
- https://blog.jcole.us/innodb/
其中普通记录的大概格式如下:
文章图片
格式.jpg 我暂且将黄色部分称为‘行头’,图中用粉红色标记的innblock每行数据offset的位置,我们发现innblock工具指向的是行头以后实际字段开启的位置。
下面是一个innblock工具典型的部分输出:
-----Total used rows:3 used rows list(logic):
(1) INFIMUM record offset:99 heapno:0 n_owned 1,delflag:N minflag:0 rectype:2
(2) normal record offset:128 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0
(3) SUPREMUM record offset:112 heapno:1 n_owned 2,delflag:N minflag:0 rectype:3
-----Total used rows:3 used rows list(phy):
(1) INFIMUM record offset:99 heapno:0 n_owned 1,delflag:N minflag:0 rectype:2
(2) SUPREMUM record offset:112 heapno:1 n_owned 2,delflag:N minflag:0 rectype:3
(3) normal record offset:128 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0
我们可以找到一行除了infimum和 supremum记录以外的normal记录,并且标记了这样记录字段的起点(offset:128),也就是图中的粉红色部分,但是需要注意的是聚集索引(表本身)而言,如果没有主键前面3列分别为:
- rowid 6字节
- trx id 6字节
- roll ptr 7字节
- 主键 和定义有关
- trx id 6字节
- roll ptr 7字节
#define DATA_ROW_ID 0/* row id: a 48-bit integer */
#define DATA_ROW_ID_LEN 6/* stored length for row id */#define DATA_TRX_ID 1/* transaction id: 6 bytes */
#define DATA_TRX_ID_LEN 6#define DATA_ROLL_PTR2/* rollback data pointer: 7 bytes */
#define DATA_ROLL_PTR_LEN 7
而roll ptr的具体含义可以参考函数trx_undo_decode_roll_ptr如下:
/***********************************************************************//**
Decodes a roll pointer. */
//从高位到低位依次是
//第1位是否是insert
//第2到8位是segmentid
//第9到40位为page no
//第41位到56位为OFFSET
UNIV_INLINE
void
trx_undo_decode_roll_ptr(
/*=====================*/
roll_ptr_troll_ptr,/*!< in: roll pointer */
ibool*is_insert,/*!< out: TRUE if insert undo log */
ulint*rseg_id,/*!< out: rollback segment id */
ulint*page_no,/*!< out: page number */
ulint*offset)/*!< out: offset of the undo
entry within page */
{
...
ut_ad(roll_ptr < (1ULL << 56));
*offset = (ulint) roll_ptr & 0xFFFF;
//获取低16位 为OFFSET
roll_ptr >>= 16;
//右移16位
*page_no = (ulint) roll_ptr & 0xFFFFFFFF;
//获取32位为 page no
roll_ptr >>= 32;
//右移32位
*rseg_id = (ulint) roll_ptr & 0x7F;
//获取7位为segment id
roll_ptr >>= 7;
//右移7位
*is_insert = (ibool) roll_ptr;
/* TRUE==1 *///最后一位
}
二、建立测试表
为了解决文中开头的几个问题,我们来建立测试表如下:
drop table baguait1;
create table baguait1(id int primary key,c1 varchar(20) ,c2 varchar(20),c3 char(20)) ENGINE=InnoDB DEFAULT CHARSET=utf8;
alter table baguait1 add key(c1);
insert into baguait1 values(1,NULL,'gaopeng','gaopeng');
insert into baguait1 values(2,'gaopeng',NULL,'gaopeng');
insert into baguait1 values(3,'gaopeng',NULL,NULL);
insert into baguait1 values(4,'a',NULL,NULL);
mysql> select * from baguait1;
+----+---------+---------+---------+
| id | c1| c2| c3|
+----+---------+---------+---------+
|1 | NULL| gaopeng | gaopeng |
|2 | gaopeng | NULL| gaopeng |
|3 | gaopeng | NULL| NULL|
|4 | a| NULL| NULL|
+----+---------+---------+---------+
4 rows in set (0.01 sec)
我们发现这里实际上除了rowid问题还不能包含,其他都包含了,接下来我们使用innblock进行扫描。如下:
1、扫描数据文件找到主键和普通索引数据块
[root@gp1 test]# ./innblock baguait1.ibd scan 16
···
Datafile Total Size:114688
===INDEX_ID:323
level0 total block is (1)
block_no:3,level:0|*|
===INDEX_ID:324
level0 total block is (1)
block_no:4,level:0|*|
这里实际上323就是聚集索引,324就是普通索引,它们数据块对应是3和4。
2、扫描聚集索引记录
[root@gp1 test]# ./innblock baguait1.ibd 3 16链表部分:
==== Block list info ====
-----Total used rows:6 used rows list(logic):
(1) INFIMUM record offset:99 heapno:0 n_owned 1,delflag:N minflag:0 rectype:2
(2) normal record offset:128 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0
(3) normal record offset:180 heapno:3 n_owned 0,delflag:N minflag:0 rectype:0
(4) normal record offset:231 heapno:4 n_owned 0,delflag:N minflag:0 rectype:0
(5) normal record offset:262 heapno:5 n_owned 0,delflag:N minflag:0 rectype:0
(6) SUPREMUM record offset:112 heapno:1 n_owned 5,delflag:N minflag:0 rectype:3
-----Total used rows:6 used rows list(phy):
(1) INFIMUM record offset:99 heapno:0 n_owned 1,delflag:N minflag:0 rectype:2
(2) SUPREMUM record offset:112 heapno:1 n_owned 5,delflag:N minflag:0 rectype:3
(3) normal record offset:128 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0
(4) normal record offset:180 heapno:3 n_owned 0,delflag:N minflag:0 rectype:0
(5) normal record offset:231 heapno:4 n_owned 0,delflag:N minflag:0 rectype:0
(6) normal record offset:262 heapno:5 n_owned 0,delflag:N minflag:0 rectype:0
3、扫描普通索引记录
[root@gp1 test]# ./innblock baguait1.ibd 4 16链表部分:
==== Block list info ====
-----Total used rows:6 used rows list(logic):
(1) INFIMUM record offset:99 heapno:0 n_owned 1,delflag:N minflag:0 rectype:2
(2) normal record offset:126 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0
(3) normal record offset:173 heapno:5 n_owned 0,delflag:N minflag:0 rectype:0
(4) normal record offset:137 heapno:3 n_owned 0,delflag:N minflag:0 rectype:0
(5) normal record offset:155 heapno:4 n_owned 0,delflag:N minflag:0 rectype:0
(6) SUPREMUM record offset:112 heapno:1 n_owned 5,delflag:N minflag:0 rectype:3
-----Total used rows:6 used rows list(phy):
(1) INFIMUM record offset:99 heapno:0 n_owned 1,delflag:N minflag:0 rectype:2
(2) SUPREMUM record offset:112 heapno:1 n_owned 5,delflag:N minflag:0 rectype:3
(3) normal record offset:126 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0
(4) normal record offset:137 heapno:3 n_owned 0,delflag:N minflag:0 rectype:0
(5) normal record offset:155 heapno:4 n_owned 0,delflag:N minflag:0 rectype:0
(6) normal record offset:173 heapno:5 n_owned 0,delflag:N minflag:0 rectype:0
我们发现不管聚集索引还是普通索引均包含了4条普通记录,并且采集到了记录的偏移量,我们需要注意一下这里普通索引的逻辑链表顺序中我们可以看到第4条记录(offset:173 )已经排到了第3位,实际上它是最后插入的,这是因为‘a’字符的顺序肯定是在‘gaopeng’这个字符串之前的。并且第一行记录C1为NULL它在逻辑链表顺序中依然是在第一位。好了下面我们就来将问题逐一解决。
三、如果我是UTF8字符集,如果插入字符‘a’到底占用几个字节 ?
在我们的语句中我们最后一条记录插入的数据就是'a',即:
|4 | a| NULL| NULL|
我们使用bcview来查看一下聚集索引 (offset 262 )的数据是啥,我们直接从块3的(offset 262 )后查看20个字节,如下:
[root@gp1 test]# ./bcview baguait1.ibd 16 262 30|grep 00000003
current block:00000003--Offset:00262--cnt bytes:30--data is:8000000400000005d970e000000043011061000000000000000000000000
我们来解析一样:
- 80000004:主键4,8是符号位
- 400000005d970:trx id 6字节
- e0000000430110:undo ptr 7字节
- 61:字符‘a’,ASCII编码
四、主键和普通索引叶子节点的行数据在存储上有哪些区别?
下面我先总结一下:
- 主键会包含全部的字段,普通索引只会包含它定义的字段内容
- 主键会包含trx id和roll ptr,普通索引不会包含
- 即便不定义主键也会包含一个根据rowid排列的聚集索引,很明显如果不定义普通索引则不会存在
- 普通索引叶子结点包含了主键或者rowid
|2 | gaopeng | NULL| gaopeng |
在主键上这条记录存在于(offset:180)中,在普通索引这条记录存在于(offset:137)中,下面我们分别解析:
主键(block 3 offset 180 ):
[root@gp1 test]# ./bcview baguait1.ibd 16 180 50|grep 00000003
current block:00000003--Offset:00180--cnt bytes:50--data is:8000000200000005d96adc00000042011067616f70656e6767616f70656e6720202020202020202020202020070600002000
解析一下:
- 80000002:主键
- 00000005d96a:trx id 6字节
- dc000000420110:undo ptr 7字节
- 67616f70656e67:第二个字段的‘gaopeng’的ASCII编码
- 67616f70656e6720202020202020202020202020:第四个字段的‘gaopeng’的ASCII编码,并且因为是char(20)类型因此出现了0X20补足的情况,这实际上也解决了第5个问题,我们可以实实在在的看到这种补足操作,占用了更多的空间。
普通索引(block 4 offset 137 ):
[root@gp1 test]# ./bcview baguait1.ibd 16 137 20|grep 00000004
current block:00000004--Offset:00137--cnt bytes:20--data is:67616f70656e67800000020700000020ffd56761
解析如下:
- 67616f70656e67:‘gaopeng’的ASCII编码
- 80000002:主键值2
[root@gp1 test]# ./bcview baguait1.ibd 16 173 20|grep 00000004
current block:00000004--Offset:00173--cnt bytes:20--data is:6180000004000000000000000000000000000000
解析为:
- 61:‘a’的ASCII编码
- 80000004:主键值4
五、char和varchar在存储上的区别?
这一点我在上面已经说了,下面我们还是以第二行数据为例:
|2 | gaopeng | NULL| gaopeng |
其中第1个‘gaopeng’是varchar(20)第2个‘gaopeng’是char(20)下面是他们的存储方式:
- 67616f70656e67:第二个字段的‘gaopeng’的ASCII编码
- 67616f70656e6720202020202020202020202020:第四个字段的‘gaopeng’的ASCII编码,并且因为是char(20)类型因此出现了0X20补足20字节的情况,我们可以实实在在的看到这种补足操作,占用了更多的空间。
六、数据中的NULL值如何存储的?
这一点还记得‘行头’的NULL位图吗?实际上这个位图会为每一个可以为NULL的字段预留1位的空间,用于标记是否字段的值为NULL,当然至少1字节(8位)。
+----+---------+---------+---------+
| id | c1| c2| c3|
+----+---------+---------+---------+
|1 | NULL| gaopeng | gaopeng |
|2 | gaopeng | NULL| gaopeng |
|3 | gaopeng | NULL| NULL|
|4 | a| NULL| NULL|
+----+---------+---------+---------+
c1\c2\c3均可以为空,因此我们分别访问4条记录聚集索引(block 3)上的NULL位图信息,计算方式如下:
- 第1行:记录(offset:128)那么128-5(5字节固定)-1(1字节NULL位图)= 122
- 第2行:记录(offset:180)那么180-5(5字节固定)-1(1字节NULL位图)= 174
- 第3行:记录(offset:231)那么231-5(5字节固定)-1(1字节NULL位图)= 225
- 第4行:记录(offset:262)那么262-5(5字节固定)-1(1字节NULL位图)= 256
第1行
[root@gp1 test]# ./bcview baguait1.ibd 16 122 1 |grep 00000003
current block:00000003--Offset:00122--cnt bytes:01--data is:01
转换为二进制为:0000 0001
第2行
[root@gp1 test]# ./bcview baguait1.ibd 16 174 1 |grep 00000003
current block:00000003--Offset:00174--cnt bytes:01--data is:02
转换为二进制为:0000 0010
第3行
[root@gp1 test]# ./bcview baguait1.ibd 16 225 1 |grep 00000003
current block:00000003--Offset:00225--cnt bytes:01--data is:06
转换为二进制为:0000 0110
第4行下面就是NULL位图的表示方法,1为NULL,我们发现和我们记录中的NULL记录一模一样。
[root@gp1 test]# ./bcview baguait1.ibd 16 256 1 |grep 00000003
current block:00000003--Offset:00256--cnt bytes:01--data is:06
转换为二进制为:0000 0110
c3 | c2 | c1 | |
---|---|---|---|
第1行 | 0 | 0 | 1 |
第2行 | 0 | 1 | 0 |
第3行 | 1 | 1 | 0 |
第4行 | 1 | 1 | 0 |
设置NULL和NOT NULL属性都是inplace方式,因为需要修改NULL位图 因此都需要重组,代价较高
ALTER TABLE tbl_name MODIFY COLUMN column_name data_type NULL, ALGORITHM=INPLACE, LOCK=NONE;
ALTER TABLE tbl_name MODIFY COLUMN column_name data_type NOT NULL, ALGORITHM=INPLACE, LOCK=NONE;
七、如何证明rowid的存在?
这一点实际上也很好证明,我们先来建立一个不包含主键并且插入一条记录如下:
drop table baguait1;
create table baguait1(id int ,c1 varchar(20) ,c2 varchar(20),c3 char(20)) ENGINE=InnoDB DEFAULT CHARSET=utf8;
insert into baguait1 values(1,NULL,'gaopeng','gaopeng');
mysql> select * from baguait1;
+------+------+---------+---------+
| id| c1| c2| c3|
+------+------+---------+---------+
|1 | NULL | gaopeng | gaopeng |
+------+------+---------+---------+
1 row in set (0.00 sec)
使用innblock扫描发现其只包含了1个块如下:
[root@gp1 test]# ./innblock baguait1.ibd scan 16
...
Datafile Total Size:98304
===INDEX_ID:325
level0 total block is (1)
block_no:3,level:0|*|
然后扫描这个块如下:
[root@gp1 test]# ./innblock baguait1.ibd 3 16...
==== Block list info ====
-----Total used rows:3 used rows list(logic):
(1) INFIMUM record offset:99 heapno:0 n_owned 1,delflag:N minflag:0 rectype:2
(2) normal record offset:128 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0
(3) SUPREMUM record offset:112 heapno:1 n_owned 2,delflag:N minflag:0 rectype:3
-----Total used rows:3 used rows list(phy):
(1) INFIMUM record offset:99 heapno:0 n_owned 1,delflag:N minflag:0 rectype:2
(2) SUPREMUM record offset:112 heapno:1 n_owned 2,delflag:N minflag:0 rectype:3
(3) normal record offset:128 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0
然后使用bcview查看(offset:128 )这条记录如下:
[root@gp1 test]# ./bcview baguait1.ibd 16 128 60 |grep 00000003
current block:00000003--Offset:00128--cnt bytes:60--data is:000001ac310000000005d97fea0000002c01108000000167616f70656e6767616f70656e672020202020202020202020202000000000000000000000
我们来解析一下:
- 000001ac3100:rowid 6字节,上面的测试中这里是主键定义的相关字段值
- 00000005d97f:trx id 6字节
- ea0000002c0110:roll ptr 7字节
- 80000001:第1个字段值 1
- 67616f70656e67:第2个字段值 ‘gaopeng’的ASCII编码
- 67616f70656e6720202020202020202020202020:第4个字段值‘gaopeng’的ASCII编码,并且char有0X20补足20字节。
当然这里只是列举了一些例子来说明工具的使用方式,可以按照你的需求方便的从ibd文件中提取出你感兴趣的信息。
推荐阅读
- 考研英语阅读终极解决方案——阅读理解如何巧拿高分
- 如何寻找情感问答App的分析切入点
- mybatisplus如何在xml的连表查询中使用queryWrapper
- MybatisPlus使用queryWrapper如何实现复杂查询
- 如何在Mac中的文件选择框中打开系统隐藏文件夹
- 漫画初学者如何学习漫画背景的透视画法(这篇教程请收藏好了!)
- java中如何实现重建二叉树
- Linux下面如何查看tomcat已经使用多少线程
- thinkphp|thinkphp 3.2 如何调用第三方类库
- 2019女表什么牌子好(如何挑选女士手表?)