对于很多开发小伙伴来说,每天写SQL是必不可少的一项工作。
那不知道大家有没有深入了解过,当我们的一条SQL命令被执行时,MySQL是如何把数据从硬盘/内存中查出来并展示到用户面前的呢?
其实MySQL也没有大家想象的那么神秘,当我们从整个架构的角度去看待,MySQL会分为Server层和引擎层。
Server层主要包含连接器、分析器、优化器、执行器,还有各种函数之类的东西等等。
而引擎层就是用来真正处理数据,比如保存数据,提供读写接口供Server使用。
并且引擎层是可插拔的,就是说我们可以使用各种类型的引擎,比如最常见的InnoDB引擎。
甚至你不想使用官方的引擎,自己开发一个也是可以的。
那更进一步,MySQL是如何查询一条数据的呢?
以上图为例,是一个简陋版的普通二级索引B+树结构。
图中的每个颜色代表一个数据页,每个数据页中的数据会按照从小到大的顺序排列,并且会组成一个单向链表,即前一条数据有一个指向后一条数据的指针。不同的数据页之间也会组成一个双向链表。
这样的好处在于,当查询到第一条数据之后,只需要按照顺序查下一条数据,而不用再次从根节点往下查,大大节省了查询效率。
好了,我们回归正题,下面以一个简单的例子,看一下Server层和引擎层是如何分工的。
我们知道,MySQL在执行一条sql之前,会通过优化器生成执行计划,选择合适的索引。
以下面这条sql为例:
SELECT * FROM system_log
WHERE create_time BETWEEN '2022-01-01' AND '2022-02-01';
我们按照创建时间查询日志表的一些记录,并且对创建时间字段create_time加上索引,那么执行计划就是这样的:
从上图中我们可以看到,MySQL选择了索引index_createTime,执行type是range,表示会按照范围进行查询。
那么Server层和引擎层是如何分工的呢?
1、Server通过执行器调用InnoDB引擎的查询接口,InnoDB引擎根据条件开始定位第一条记录。/2、由于选择使用index_createTime索引,那么InnoDB引擎就会去这颗索引树上,查找符合条件的第一条记录。
而我们使用的是select *,要查询全部的数据,而普通索引树上的叶子节点只保存着索引列和主键列,所以需要拿着主键id去聚簇索引回表,查询一条完整的记录。
查询到完整记录之后,InnoDB就会把这条数据发送给Server,Server把这条数据返回给客户端。(隐藏知识点:MySQL是边查边发的)
3、InnoDB继续查询下一条数据,在上文我们说过,数据页中数据会组成一个单向链表,可以很方便的直接定位到下一条数据,找到下一条数据之后,判断是否符合条件,如果符合,就继续回表查询完整数据,然后再把数据发送给Server,Server再把数据返回到客户端。
就这样,不断的重复这个步骤,直到InnoDB匹配到不符合条件的记录,就停止查询,告诉Server数据已经查完了。
Server层和引擎层的交互大致就是这样的。
总结一下就是:Server调用InnoDB引擎接口查询数据,引擎把数据一条条的查出来并不断的反馈给Server,Server再将数据返回给客户端。
另外,我们可以在上图的执行计划中看到extra中出现了Using index condition的字样,这表示MySQL使用了索引下推的优化策略。
有时我们还能发现extra中会出现Using Where 的提示,这是什么意思呢?
比如我们改一下上面的查询sql,增加一个request_id='232333'的查询条件。
SELECT
*
FROM
system_log
WHERE
create_time BETWEEN '2022-01-01'
AND '2022-02-01'
AND request_id = '232333';
再次通过explain查看执行计划:
Using where的意思就是说InnoDB引擎查询到一条数据之后,虽然这条数据满足create_time BETWEEN '2022-01-01' AND '2022-02-01'这个条件,但是还需要Server层再去判断一下是否符合request_id = '232333'这个条件,两者都符合的情况下,才会被发送到客户端。
大家看到这里应该也清楚MySQL的Server是如何与InnoDB引擎交互的了,下次再遇到面试官问这种问题,相信大家就知道该怎么回答了。