在MySQL中设计表的时候,MySQL官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一,单机递增),而是推荐连续自增的主键id,官方的推荐是auto_increment。本文从以下几个部分来分析这个问题,探讨以下内部的原因:
- MySQL程序实例
- 使用uuid和自增id的索引结构对比
- 总结
首先来建立三张表,分别是:
- user_auto_key:自动增长的主键
- user_uuid:uuid作为主键
- user_random_key:随机key作为主键
注:这里的随机key其实是指用雪花算法算出来的前后不连续不重复无规律的id,一串18位长度的long值。id自动生成表:
create table user_auto_key(
id int unsigned not null auto_increment,
user_id bigint(64) not null default 0,
user_name varchar(64) not null default '',
sex int(2) not null,
address varchar(255) not null default '',
city varchar(64) not null default '',
email varchar(64) not null default '',
state int(6) not null default 0,
primary key(id),
key user_name_key(user_name)
)engine=innodb
用户uuid表:
create table user_uuid(
id bigint(64) not null default 0,
user_id bigint(64) not null default 0,
user_name varchar(64) not null default '',
sex int(2) not null,
address varchar(255) not null default '',
city varchar(64) not null default '',
email varchar(64) not null default '',
state int(6) not null default 0,
primary key(id),
key user_name_key(user_name)
)engine=innodb
随机主键表:
create table user_random_key(
id bigint(64) not null default 0,
user_id bigint(64) not null default 0,
user_name varchar(64) not null default '',
sex int(2) not null,
address varchar(255) not null default '',
city varchar(64) not null default '',
email varchar(64) not null default '',
state int(6) not null default 0,
primary key(id),
key user_name_key(user_name)
)engine=innodb
效率测试结果:
文章图片
在已有数据量为 130W 的时候:我们再来测试一下插入 10w 数据,看看会有什么结果:
文章图片
可以看出在数据量 100W 左右的时候,uuid 的插入效率垫底,并且在后序增加了 130W 的数据,uuid 的时间又直线下降。
时间占用量总体可以打出的效率排名为:auto_key>random_key>uuid。
uuid 的效率最低,在数据量较大的情况下,效率直线下滑。那么为什么会出现这样的现象呢?带着疑问,我们来探讨一下这个问题:
使用 uuid 和自增 id 的索引结构对比:
使用自增 id 的内部结构:
文章图片
自增的主键的值是顺序的,所以 InnoDB 把每一条记录都存储在一条记录的后面。
当达到页面的最大填充因子时候(InnoDB 默认的最大填充因子是页大小的 15/16,会留出 1/16 的空间留作以后的修改)。
①下一条记录就会写入新的页中,一旦数据按照这种顺序的方式加载,主键页就会近乎于顺序的记录填满,提升了页面的最大填充率,不会有页的浪费。
②新插入的行一定会在原有的最大数据行下一行,MySQL 定位和寻址很快,不会为计算新行的位置而做出额外的消耗。
③减少了页分裂和碎片的产生。
使用 uuid 的索引内部结构:
文章图片
因为 uuid 相对顺序的自增 id 来说是毫无规律可言的,新行的值不一定要比之前的主键的值要大,所以 innodb 无法做到总是把新行插入到索引的最后,而是需要为新行寻找新的合适的位置从而来分配新的空间。
这个过程需要做很多额外的操作,数据的毫无顺序会导致数据分布散乱,将会导致以下的问题:
①写入的目标页很可能已经刷新到磁盘上并且从缓存上移除,或者还没有被加载到缓存中,innodb 在插入之前不得不先找到并从磁盘读取目标页到内存中,这将导致大量的随机 IO。
②因为写入是乱序的,innodb 不得不频繁的做页分裂操作,以便为新的行分配空间,页分裂导致移动大量的数据,一次插入最少需要修改三个页以上。
③由于频繁的页分裂,页会变得稀疏并被不规则的填充,最终会导致数据会有碎片。
在把随机值(uuid 和雪花 id)载入到聚簇索引(InnoDB 默认的索引类型)以后,有时候会需要做一次 OPTIMEIZE TABLE 来重建表并优化页的填充,这将又需要一定的时间消耗。
结论:使用 InnoDB 应该尽可能的按主键的自增顺序插入,并且尽可能使用单调的增加的聚簇键的值来插入新行。
使用自增 id 的缺点
那么使用自增的 id 就完全没有坏处了吗?并不是,自增 id 也会存在以下几点问题:
①别人一旦爬取你的数据库,就可以根据数据库的自增 id 获取到你的业务增长信息,很容易分析出你的经营情况。
②对于高并发的负载,InnoDB 在按主键进行插入的时候会造成明显的锁争用,主键的上界会成为争抢的热点,因为所有的插入都发生在这里,并发插入会导致间隙锁竞争。
③Auto_Increment 锁机制会造成自增锁的抢夺,有一定的性能损失。
【MySQL|为什么不能用uuid做MySQL的主键】附:Auto_increment的锁争抢问题,如果要改善需要调优 innodb_autoinc_lock_mode 的配置。
推荐阅读
- 数据库|为啥不能用uuid做MySQL的主键!()
- 面试|面试官(看到你熟练性能调优,可以说一下你对MySQL索引的理解())
- mysql|文末送书 | WAF 那些事
- 数据库|【数据库原理及应用教程】【数据库系统的体系结构】【1.4-1.6】
- elasticsearch|使用canal实时同步MySQL数据到es
- es+canal|使用canal同步mysql数据到ES:日期格式问题.
- 技术|基于canal实现mysql和es增量数据同步
- elasticSearch|canal1.15 增量同步 mysql5.7 数据到ElasticSearch7.14.0
- elasticsearch|通过canal将MySQL数据同步到Elasticsearch