在码农的世界里,优美的应用体验,来源于程序员对细节的处理以及自我要求的境界,年轻人也是忙忙碌碌的码农中一员,每天、每周,都会留下一些脚印,就是这些创作的内容,有一种执着,就是不知为什么,如果你迷茫,不妨来瞅瞅码农的轨迹。
有100万条数据,需要从中筛选查询10条数据,尽然用了3秒才出来,于是乎,你会想到添加个索引,然后查询速度一下从秒级别变成了毫秒级别,你知道中间发生了什么吗?
#添加索引
ALTER TABLE `question_wrong` ADD INDEX create_time_index ( `create_time` )
1 索引
索引的作用就是为了提高数据查询的效率,如同书的目录一样,你可以通过书的目录来快速定位内容的大概位置。
在 MySQL 中,索引是在存储引擎层实现的,所以并没有统一的索引标准,不同存储引 擎的索引的工作方式并不一样。
1.1 哈希表 索引模型
哈希表数据结构适用于只等值查询的场景。
哈希表是以键 - 值(key-value)存储数据的结构,只要输入待查找 key, 就可以从中获取到对应的值 Value,实现原理也就是在一个数组中,将key通过哈希函数换算成一个确定的位置,然后把 value 放在数组的这个位置上。
多个 key 值经过哈希函数的换算,会出现同一个值的情况,然后处理冲突的方法是,拉出一个链表,如下图中的152号位置。
1.2 有序数组 索引模型
有序数组常应用于等值查询和范围、适用于静态存储引擎 查询场景。
如将用户表的电话在数组中以递增的顺序保存,在查询某一电话号码时,用二分法就可以快速得到,这个时间复杂度很小。
1.3 二叉搜索树
二叉搜索树的特点是如下图所示:
二叉树是搜索效率最高的,但是实际上大多数的数据库存储却并不使用二叉树。
原因是,索引不止存在内存中,还要写到磁盘上,对于一个 100 多万行的表,如果使用二叉树来存储,一次查询可能需要访问 20 个数据块,从机械硬盘中随机读一个数据块大约需要 10 ms 左右的时间,那么查询一次就需要访问20个10ms,效率很低。
N 叉树在读写上的性能优点,以及适配磁盘的访问模式,已经被广泛应用在数据库引 擎中。
2 InnoDB 存储引擎的索引模型
在 InnoDB 使用了 B+ 树索引模型,所以数据都是存储在 B+ 树中的,其中表是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表。
每一个索引在 InnoDB 里面对应一棵 B+ 树。
例如在文章开如时有指令
#添加索引
ALTER TABLE `question_wrong` ADD INDEX create_time_index ( `create_time` )
question_wrong 表中有主键 ID,同时又为 create_time 添加了一个索引,这就有了主键索引和非主键索引区分。
主键索引的叶子节点存的是整行数据,在 InnoDB 里,主键索引也被称为聚簇索引 (clustered index)。
非主键索引的叶子节点内容是主键的值,在 InnoDB 里,非主键索引也被称为二级索引 (secondary index)。
如执行查询语句
select * from question_wrong where ID=100
即主键查询方式,则只需要搜索 ID 这棵 B+ 树
select * from question_wrong where create_time='2021-03-05 00:00:00'
普通索引查询方式,则需要先搜索 create_time索引树,得到对应的ID 的值,然后再到ID 索引树搜索一次(这个过程称为回表)。
基于非主键索引的查询需要多扫描一棵索引树。因此在实际应用中推荐使用主键查询。
3 索引维护
在插入新值的时候,B+ 树为了维护索引有序性,也需要做对应的更新,如当前主键索引B+ 树维护到 ID为 100,当插入新的数据ID为101时,只需要在 主键索引B+ 树记录的后面插入一个新记录就可以,如果插入的新的数据ID为50时,就需要逻辑上挪动后面的数据,空出位置。
如果当前 主键索引B+ 树的数据页满了,就需要申请一 个新的数据页,然后挪动部分数据过去,这个过程称为页分裂。
4 自增主键
一般情况下建表语句里要有自增主键,自增主键是指自增列上定义的主键,在建表语句中一般是这么定义的: NOT NULL PRIMARY KEY AUTO_INCREMENT。
小编的表构建规范就是建表一定要有自增主键,一般是ID。
CREATE TABLE `t_course_teacher`(
`id` BIGINT(20) NOT NULL AUTO_INCREMENT ,
`user_id` BIGINT(20) DEFAULT '0' COMMENT '用户; ' ,
`course_id` BIGINT(20) DEFAULT '0' COMMENT '课程 ' ,
`course_status` INT DEFAULT '0' COMMENT '默认为 0 可用; 1 禁用;2删除; ' ,
`create_time` DATETIME DEFAULT NULL COMMENT '课程创建时间' ,
`update_time` DATETIME DEFAULT NULL COMMENT '课程修改时间' ,
PRIMARY KEY(`id`)
) ENGINE = INNODB AUTO_INCREMENT = 39 DEFAULT CHARSET = utf8 COMMENT = '用户课程表';
当指定自增主键ID时,插入新记录的时候可以不指定 ID 的值,系统会获取当前 ID 最大值加 1 作为下一条记录的 ID 值,每次插入一条新记录,都是追加操作,都不涉及到挪动其他记录,也不会触发叶子节点的分裂。
主键长度越小,普通索引的叶子节点就越小,普通索引占用的空间也就越小。所以,从性能和存储空间方面考量,自增主键往往是一个不错的的选择。