mysql索引

简介

定义

索引是 一种特殊的文件 (InnoDB数据表上的索引是表空间的一个组成部分),它们包含着对数据表里 所有记录的引用指针。 更通俗的说,数据库索引好比是一本书前面的目录,能加快数据库的查询速度。

索引的目的在于提高查询效率,可以类比字典,如果要查“mysql”这个单词,我们肯定需要定位到m字母,然后从下往下找到y字母,再找到剩下的sql。如果没有索引,那么你可能需要把所有单词看一遍才能找到你想要的 。除了词典,生活中随处可见索引的例子,如火车站的车次表、图书的目录等。它们的原理都是一样的,通过不断的缩小想要获得数据的范围来筛选出最终想要的结果,同时把随机的事件变成顺序的事件,也就是我们总是通过同一种查找方式来锁定数据。

作用

在数据量和访问量不大的情况下,mysql访问是非常快的,是否加索引对访问影响不大。但是当数据量和访问量剧增的时候, 就会发现mysql变慢,甚至down掉,这就必须要考虑优化sql了,给数据库建立正确合理的索引,是mysql优化的一个重要手段。

在创建索引时,需要考虑哪些列会用于 SQL 查询,然后为这些列创建一个或多个索引。事实上,索引也是一种表,保存着主键或索引字段,以及一个能将每个记录指向实际表的指针。数据库用户是看不到索引的,它们只是用来加速查询的。数据库搜索引擎使用索引来快速定位记录。

INSERT 与 UPDATE 语句在拥有索引的表中执行会花费更多的时间,而SELECT 语句却会执行得更快。这是因为,在进行插入或更新时,数据库也需要插入或更新索引值。

Mysql索引结构

  1. B-tree索引:
  2. Hash索引:
  3. Full-text全文索引:
  4. R-Tree索引:

使用

分类

INDEX(单值索引)

允许出现相同的索引内容,一个索引只包含单个列,一个表可以有多个单列索引。

复合索引

实质上是将多个字段建到一个索引里,列值的组合必须唯一。

UNIQUE(唯一索引)

索引列的值必须唯一,可以有NULL值,NULL可以出现多次。

PRIMARY KEY(主键索引)

不允许出现相同的值,不为NULL。

FULLTEXT INDEX(全文索引)

可以针对值中的某个单词,但效率不高。

创建-删除-查看

基本语法

1
2
3
4
5
6
7
8
9
10
# 创建 
CREATE [UNIQUE] INDEX indexName ON mytable(columnname(length));

ALTER mytable ADD [UNIQUE] INDEX [indexName] ON (columnname(length));

#删除
DROP INDEX [indexName] ON mytable;

#查看
SHOW INDEX FROM table_name;

示例

使用ALTER TABLE语句创建索性

应用于表创建完毕之后再添加。

1
2
3
4
5
6
7
8
9
10
11
12
ALTER TABLE 表名 ADD 索引类型 (unique,primary key,fulltext,index)[索引名](字段名)

# 普通索引
ALTER TABLE table_name ADD INDEX index_name (column_list) ;
# 复合索引
ALTER TABLE table_name ADD INDEX index_name_name (column_list1,column_list2);
# 唯一索引
ALTER TABLE table_name ADD UNIQUE (column_list) ;
# 主键索引
ALTER TABLE table_name ADD PRIMARY KEY (column_list) ;
# 全文索引
ALTER TABLE tbl_name ADD FULLTEXT index_name(column_list):

ALTER TABLE可用于索引,table_name 是要增加索引的表名,column_list 指出对哪些列进行索引,多列时各列之间用 逗号分隔。索引名index_name可选,缺省时,MySQL将根据第一个索引列赋一个名称。另外,ALTER TABLE允许在单个语句中更改多个表,因此可以同时创建多个索引。

使用CREATE INDEX语句对表增加索引

CREATE INDEX可用于对表增加普通索引或UNIQUE索引,可用于建表时创建索引。

1
2
3
4
5
6
CREATE INDEX index_name ON table_name(username(length)); 

# 单值索引
CREATE INDEX index_name ON table_name (column_list)
# 唯一索引
CREATE UNIQUE INDEX index_name ON table_name (column_list)

table_name、index_namecolumn_list 具有与ALTER TABLE语句中相同的含义,索引名不可选。另外,不能用CREATE INDEX语句创建PRIMARY KEY索引。 如果是CHAR,VARCHAR类型,length可以小于字段实际长度;如果是BLOB(binary large object) 和TEXT类型,必须指定 length。

删除索引

删除索引可以使用ALTER TABLEDROP INDEX语句来实现。DROP INDEX可以在ALTER TABLE内部作为一条语句处理,其格式如下:

1
2
3
4
5
DROP INDEX index_name ON table_name ;

ALTER TABLE table_name DROP INDEX index_name ;

ALTER TABLE table_name DROP PRIMARY KEY ;

其中,在前面的两条语句中,都删除了table_name中的索引index_name。而在最后一条语句中,只在删除PRIMARY KEY索引中使用,因为一个表只可能有一个PRIMARY KEY索引,因此不需要指定索引名。如果没有创建PRIMARY KEY索引,但表具有一个或多个UNIQUE索引,则MySQL将删除第一个UNIQUE索引。

如果从表中删除某列,则索引会受影响。 对于多列组合的索引,如果删除其中的某列,则该列也会从索引中删除。如果删除组成索引的所有列,则整个索引将被删除。

探究

组合索引&左前缀原则

组合索引和前缀索引是对建立索引技巧的一种称呼,并不是索引的类型

示例:

1
ALTER TABLE user_demo ADD INDEX name_city_age (login_name(16),city,age); 

建表时,login_name 长度为100,这里用16(前16位有很好的区分度),这样会加快索引查询速度,还会减少索引文件的大小,提高INSERT,UPDATE的更新速度。

建立这样的组合索引,就相当于分别建立如下三种组合索引:

1
2
3
login_name,city,age
login_name,city
login_name

为什么没有city, age等这样的组合索引呢?这是因为 mysql组合索引“最左前缀” 的结果。简单的理解就是只从最左边的开始组合,并不是只要包含这三列的查询都会用到该组合索引。也就是说name_city_age(LOGIN_NAME(16),CITY,AGE) 从左到右进行索引,如果没有左前索引,mysql不会执行索引查询。

Tips

如果索引列长度过长,这种列索引时将会产生很大的索引文件,不便于操作,可以使用前缀索引方式进行索引,前缀索引应该控制在一个合适的点,控制在0.31黄金值即可(大于这个值就可以创建)。

1
2
# 这个值大于0.31就可以创建前缀索引,Distinct去重复
SELECT COUNT(DISTINCT(LEFT(`title`,10))) / COUNT(*) FROM pages; --

索引分析

单表索引

  1. 索引index1:(a,b,c),只会走a、a,b、a,b,c 三种类型的查询。
  2. 其实 a,c也走,但是只走a字段索引,不会走c字段。
  3. 同时,SELECT * FROM table WHERE a = ‘1’ AND b > ‘2’ AND c=’3’; 这种类型的也只会有a与b走索引,c不会走。
  4. 尽量使用等值查询,减少范围查询,能最大程度避免索引失效。

原因如下:

索引是有序的,index1索引在索引文件中的排列是有序的,首先根据a来排序,然后才是根据b来排序,最后是根据c来排序,

select * from table where a = ‘1’ and b > ‘2’ and c=’3’; 这种类型的sql语句,在a走完索引后,b使用索引进行范围查找,c肯定是无序了,所以c就没法走索引,数据库会觉得还不如全表扫描c字段来的快。

如果分别给login_name, city, age 建立单列索引,让该表有3个单列索引,查询时和组合索引的效率是大不一样的,甚至远远低于组合索引。 虽然此时有三个索引,但mysql只能用到其中的那个它认为似乎是最有效率的单列索引,另外两个是用不到的,也就是说还是一个全表扫描的过程。

两表索引

LEFT JOIN 索引加右表。
RIGHT JOIN 索引加在左表。

做链接用于确定如何从右表进行搜索,左边数据一定都会有,所以右表是检索的关键,要加索引。若左表加索引,右表没有则会出现两次全表扫描。

三表索引

JOIN 语句优化

  1. 尽可能减少join语句中的NestedLoop的循环总次数:永远使用小结果集驱动大结果集。
  2. 优先优化NestedLoop的内层循环。
  3. 保证join语句中被驱动表上join条件字段已经被索引。
  4. 当无法保证被驱动表的join条件字段被索引且内存资源充足的前提下,不要太吝啬JoinBuffer的设置。

索引失效

  1. 全值匹配

  2. 最佳左前缀法则

  3. 不在索引列上做任何操作
    计算、函数、(自动或手动)类型转换,会导致索引失效,进而导致全表扫描

  4. 索引在 范围查询后会失效。

  5. 尽量使用覆盖索引

  6. mysql在使用(!=, <>)的时候无法使用索引,会导致全表扫描。

  7. is null,is not null 无法使用索引。
    is null 会从另外的记录中读取,is not null将会进行全表扫描。

  8. like 以通配符开头(%abc) mysql 索引将会变成全表扫描。

两边都是%的like查询,应使用覆盖索引。即在查询的字段列表中(select xxx from···)只是用索引中的字段。将会使用index 索引。

  1. 字符串不加单引号索引失效。会导致自动的类型转换。

  2. 少用 or,用它来连接时会索引失效。

BAD SQL

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
# -- 正则表达式不使用索引,这应该很好理解

# 不会使用索引,因为所有索引列参与了计算
SELECT `sname` FROM `stu` WHERE `age`+10=30;

# 不会使用索引,因为使用了函数运算,原理与上面相同
SELECT `sname` FROM `stu` WHERE LEFT(`date`,4) <1990;

# 走索引
SELECT * FROM `houdunwang` WHERE `uname` LIKE'后盾%';

# 不走索引
SELECT * FROM `houdunwang` WHERE `uname` LIKE "%后盾%";


# -- 字符串与数字比较不使用索引;
CREATE TABLE `a` (`a` char(10));

# 走索引
EXPLAIN SELECT * FROM `a` WHERE `a`="1";
# 不走索引
EXPLAIN SELECT * FROM `a` WHERE `a`=1;


# -- 如果条件中有or,即使其中有条件带索引也不会使用。
# 换言之,就是要求使用的所有字段,都必须建立索引, 我们建议大家尽量避免使用or 关键字
select * from dept where dname='xxx' or loc='xx' or deptno=45;


# -- 如果mysql估计使用全表扫描要比使用索引快,则不使用索引

# index(a1, a2, a3, a4)
# 使用了索引,a3作用在排序而不是查找
select * from test_table where a1='a1' and a2='a2' and a4='a4' order by a3;

# 用到索引,但是由于a3没有出现,出现了a4,将出现filesort。
select * from test_table where a1='a1' and a2='a2' order by a4;

# 只使用了a1一个字段索引,但是a2, a3用于排序,无filesort。
select * from test_table where a1='a1' and a5='a5' order by a2, a3;

# 出现filesort,索引为1234 但是order by 没有按顺序。
select * from test_table where a1='a1' and a5='a5' order by a3, a2;

# 虽然order by顺序错误,但是前边已经定义a2,即a2已经是常量了,排序不关心,不会产生filesort。
select * from test_table where a1='a1' and a2='a2' order by a3, a2;

# 出现filesort,temporary,where 很惨。
select * from test_table where a1='a1' and a4='a4' group by a3,a2;

定值、范围还是排序,一般order by是给个范围

group by基本上都是需要进行排序,会有临时表产生


一般性建议

什么时候需要建立索引

  1. 主键自动建立唯一索引。
  2. 频繁作为查询条件的字段应该创建索引。
  3. 查询中与其他表关联的字段,外键关系建立索引。
  4. 单键/组合索引的选择。选择组合索引。(高并发倾向于组合索引)
  5. Where条件里用不到的字段不创建索引
  6. 查询中统计或者分组的字段要创建索引
  7. 查询中排序的字段,排序字段若通过索引去访问将大大提高排序速度。

什么时候不建议建立索引

  1. 表记录太少。(三百万以下)
  2. 经常增删改的表。提高了查询速度,但是会降低更新表的速度,更新表的时候,不仅要保存数据,还要保存索引。
  3. 数据重复且分布平均的表字段。

tips

  1. 索引不会包含有NULL的列

只要列中包含有NULL值,都将不会被包含在索引中,复合索引中只要有一列含有NULL值,那么这一列对于此符合索引就是无效的。

  1. 索引列排序

mysql查询只使用一个索引,因此如果where子句中已经使用了索引的话,那么order by中的列是不会使用索引的。因此数据库默认排序可以符合要求的情况下不要使用排序操作,尽量不要包含多个列的排序,如果需要最好给这些列建复合索引。

  1. like语句操作

一般情况下不鼓励使用like操作,如果非使用不可,注意正确的使用方式。like ‘%aaa%’不会使用索引,而like ‘aaa%’可以使用索引。

  1. 不要在列上进行运算

  2. 不使用NOT IN 、<>、!=操作,但 <,<=,=,>,>=,BETWEEN,IN是可以用到索引的.

  3. 在where和join中出现的列需要建立索引。

  4. 如果where字句的查询条件里使用了函数(如:where DAY(column)=…),mysql将无法使用索引。

  5. 在join操作中(需要从多个数据表提取数据时),mysql只有在 主键和外键的数据类型相同时 才能使用索引,否则及时建立了索引也不会使用。