详解MySQL分组查询Group By实现原理

2016-02-19 16:06 25 1 收藏

下面图老师小编要跟大家分享详解MySQL分组查询Group By实现原理,简单的过程中其实暗藏玄机,还是要细心学习,喜欢还请记得收藏哦!

【 tulaoshi.com - 编程语言 】

  由于GROUP BY 实际上也同样会进行排序操作,而且与ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数,那么还需要一些聚合函数的计算。所以,在GROUP BY 的实现过程中,与 ORDER BY 一样也可以利用到索引。

  在MySQL 中,GROUP BY 的实现同样有多种(三种)方式,其中有两种方式会利用现有的索引信息来完成 GROUP BY,另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析。

  1.使用松散(Loose)索引扫描实现 GROUP BY

  何谓松散索引扫描实现 GROUP BY 呢?实际上就是当 MySQL 完全利用索引扫描来实现 GROUP BY 的时候,并不需要扫描所有满足条件的索引键即可完成操作得出结果。

  下面我们通过一个示例来描述松散索引扫描实现 GROUP BY,在示例之前我们需要首先调整一下 group_message 表的索引,将 gmt_create 字段添加到 group_id 和 user_id 字段的索引中:

1 sky@localhost : example 08:49:45 create index idx_gid_uid_gc
2 
3 - on group_message(group_id,user_id,gmt_create);
4 
5 Query OK, rows affected (0.03 sec)
6 
7 Records: 96 Duplicates: 0 Warnings: 0
8 
9 sky@localhost : example 09:07:30 drop index idx_group_message_gid_uid
10 
11 - on group_message;
12 
13 Query OK, 96 rows affected (0.02 sec)
14 
15 Records: 96 Duplicates: 0 Warnings: 0
然后再看如下 Query 的执行计划:

1 sky@localhost : example 09:26:15 EXPLAIN
2 
3 - SELECT user_id,max(gmt_create)
4 
5 - FROM group_message
6 
7 - WHERE group_id  10
8 
9 - GROUP BY group_id,user_idG
10 
11 *************************** 1. row ***************************
12 
13 id: 1
14 
15 select_type: SIMPLE
16 
17 table: group_message
18 
19 type: range
20 
21 possible_keys: idx_gid_uid_gc
22 
23 key: idx_gid_uid_gc
24 
25 key_len: 8
26 
27 ref: NULL
28 
29 rows: 4
30 
31 Extra: Using where; Using index for group-by
32 
33 1 row in set (0.00 sec)

  我们看到在执行计划的 Extra 信息中有信息显示“Using index for group-by”,实际上这就是告诉我们,MySQL Query Optimizer 通过使用松散索引扫描来实现了我们所需要的 GROUP BY 操作。

  下面这张图片描绘了扫描过程的大概实现:

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/bianchengyuyan/)

  要利用到松散索引扫描实现 GROUP BY,需要至少满足以下几个条件:

  ◆GROUP BY 条件字段必须在同一个索引中最前面的连续位置;

  ◆在使用GROUP BY 的同时,只能使用 MAX 和 MIN 这两个聚合函数;

  ◆如果引用到了该索引中 GROUP BY 条件之外的字段条件的时候,必须以常量形式存在;

  为什么松散索引扫描的效率会很高?

  因为在没有WHERE子句,也就是必须经过全索引扫描的时候, 松散索引扫描需要读取的键值数量与分组的组数量一样多,也就是说比实际存在的键值数目要少很多。而在WHERE子句包含范围判断式或者等值表达式的时候, 松散索引扫描查找满足范围条件的每个组的第1个关键字,并且再次读取尽可能最少数量的关键字。

  2.使用紧凑(Tight)索引扫描实现 GROUP BY

  紧凑索引扫描实现 GROUP BY 和松散索引扫描的区别主要在于他需要在扫描索引的时候,读取所有满足条件的索引键,然后再根据读取恶的数据来完成 GROUP BY 操作得到相应结果。

1  sky@localhost : example 08:55:14 EXPLAIN
2 
3 - SELECT max(gmt_create)
4 
5 - FROM group_message
6 
7 - WHERE group_id = 2
8 
9 - GROUP BY user_idG
10 
11 *************************** 1. row ***************************
12 
13 id: 1
14 
15 select_type: SIMPLE
16 
17 table: group_message
18 
19 type: ref
20 
21 possible_keys: idx_group_message_gid_uid,idx_gid_uid_gc
22 
23 key: idx_gid_uid_gc
24 
25 key_len: 4
26 
27 ref: const
28 
29 rows: 4
30 
31 Extra: Using where; Using index
32 
33 1 row in set (0.01 sec)

  这时候的执行计划的 Extra 信息中已经没有“Using index for group-by”了,但并不是说 MySQL 的 GROUP BY 操作并不是通过索引完成的,只不过是需要访问 WHERE 条件所限定的所有索引键信息之后才能得出结果。这就是通过紧凑索引扫描来实现 GROUP BY 的执行计划输出信息。

  下面这张图片展示了大概的整个执行过程:

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/bianchengyuyan/)

  在 MySQL 中,MySQL Query Optimizer 首先会选择尝试通过松散索引扫描来实现 GROUP BY 操作,当发现某些情况无法满足松散索引扫描实现 GROUP BY 的要求之后,才会尝试通过紧凑索引扫描来实现。

  当 GROUP BY 条件字段并不连续或者不是索引前缀部分的时候,MySQL Query Optimizer 无法使用松散索引扫描,设置无法直接通过索引完成 GROUP BY 操作,因为缺失的索引键信息无法得到。但是,如果 Query 语句中存在一个常量值来引用缺失的索引键,则可以使用紧凑索引扫描完成 GROUP BY 操作,因为常量填充了搜索关键字中的“差距”,可以形成完整的索引前缀。这些索引前缀可以用于索引查找。而如果需要排序GROUP BY结果,并且能够形成索引前缀的搜索关键字,MySQL还可以避免额外的排序操作,因为使用有顺序的索引的前缀进行搜索已经按顺序检索到了所有关键字。

  3.使用临时表实现 GROUP BY

  MySQL 在进行 GROUP BY 操作的时候要想利用所有,必须满足 GROUP BY 的字段必须同时存放于同一个索引中,且该索引是一个有序索引(如 Hash 索引就不能满足要求)。而且,并不只是如此,是否能够利用索引来实现 GROUP BY 还与使用的聚合函数也有关系。

  前面两种 GROUP BY 的实现方式都是在有可以利用的索引的时候使用的,当 MySQL Query Optimizer 无法找到合适的索引可以利用的时候,就不得不先读取需要的数据,然后通过临时表来完成 GROUP BY 操作。

1 sky@localhost : example 09:02:40 EXPLAIN
2 
3 - SELECT max(gmt_create)
4 
5 - FROM group_message
6 
7 - WHERE group_id  1 and group_id  10
8 
9 - GROUP BY user_idG
10 
11 *************************** 1. row ***************************
12 
13 id: 1
14 
15 select_type: SIMPLE
16 
17 table: group_message
18 
19 type: range
20 
21 possible_keys: idx_group_message_gid_uid,idx_gid_uid_gc
22 
23 key: idx_gid_uid_gc
24 
25 key_len: 4
26 
27 ref: NULL
28 
29 rows: 32
30 
31 Extra: Using where; Using index; Using temporary; Using filesort
 

  这次的执行计划非常明显的告诉我们 MySQL 通过索引找到了我们需要的数据,然后创建了临时表,又进行了排序操作,才得到我们需要的 GROUP BY 结果。整个执行过程大概如下图所展示:

  当 MySQL Query Optimizer 发现仅仅通过索引扫描并不能直接得到 GROUP BY 的结果之后,他就不得不选择通过使用临时表然后再排序的方式来实现 GROUP BY了。

  在这样示例中即是这样的情况。 group_id 并不是一个常量条件,而是一个范围,而且 GROUP BY 字段为 user_id。所以 MySQL 无法根据索引的顺序来帮助 GROUP BY 的实现,只能先通过索引范围扫描得到需要的数据,然后将数据存入临时表,然后再进行排序和分组操作来完成 GROUP BY。

来源:http://www.tulaoshi.com/n/20160219/1611048.html

延伸阅读
标签: PHP
  if(get_magic_quotes_gpc()==1){    ? <html <head<titleMySQL通用查询程序</title</head <body 注意本程序需要将PHP配置文件(PHP3为php3.ini,PHP4为php.ini)中的magic_quotes_gpc 设成Off或0,修改后请重新启动Apache. </body </html    <?    exit(); } set...
4.2 MySQL查询优化程序 在发布一个选择行的查询时, MySQL进行分析,看是否能够对它进行优化,使它执行更快。本节中,我们将研究查询优化程序怎样工作。更详细的信息,可参阅MySQL参考指南中的Getting Maximum Performance from MySQL,该章描述了MySQL采用的各种优化措 施。该章中的信息会不断变化,因为MySQL的开发者不断对优...
打开通用查询日志:记录所有查询日志.该日志路经默认在/var/lib/mysql下.名字默认为"机器名.log" vi /etc/my.cnf [mysqld] ... log ... 打开慢查询日志: 记录所有慢查询日志(该例阀门为2秒). vi /etc/my.cnf [mysqld] ... log-slow-queries = /var/log/mysqlslowquery.log long_qu...
MySQL权限系统保证所有的用户可以严格地做他们假定被允许做的事情。当你连接一个MySQL服务器时, 你的身份由你从那连接的主机和你指定的用户名来决定,系统根据你的身份和你想做什么来授予权限。 MySQL在认定身份中考虑你的主机名和用户名字,是因为有很小的原因假定一个给定的用户在因特网上属于同一个人。例如,用户从whitehouse.gov连接的...
6.6 处理查询 我们已经知道了如何开始和结束与服务器的会话,现在应该看看如何控制会话。本节介绍了如何与服务器通信以处理查询。执行的每个查询应包括以下几步: 1) 构造查询。查询的构造取决于查询的内容特别要看是否含有二进制数据。 2) 通过将查询发送到服务器执行来发布查询。 3) 处理查询结果。这取决于发布查询...

经验教程

172

收藏

70
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部