09.25 深入剖析 MySQL 索引和 SQL 調優實戰（珍藏版）

2019-09-25 14:27:22 java互聯網架構

來源：juejin.im/post/5a6873fbf265da3e393a97fa

MySQL索引

MySQL支持諸多存儲引擎，而各種存儲引擎對索引的支持也各不相同，因此MySQL數據庫支持多種索引類型，如BTree索引，哈希索引，全文索引等等。

為了避免混亂，本文將只關注於BTree索引，因為這是平常使用MySQL時主要打交道的索引。

MySQL官方對索引的定義為：索引（Index）是幫助MySQL高效獲取數據的數據結構。提取句子主幹，就可以得到索引的本質：索引是數據結構。

MySQL索引原理

索引目的

索引的目的在於提高查詢效率，可以類比字典，如果要查“mysql”這個單詞，我們肯定需要定位到m字母，然後從下往下找到y字母，再找到剩下的sql。

如果沒有索引，那麼你可能需要把所有單詞看一遍才能找到你想要的，如果我想找到m開頭的單詞呢？或者ze開頭的單詞呢？是不是覺得如果沒有索引，這個事情根本無法完成？

咱們去圖書館借書也是一樣，如果你要借某一本書，一定是先找到對應的分類科目，再找到對應的編號，這是生活中活生生的例子，通用索引，可以加快查詢速度，快速定位。

索引原理

所有索引原理都是一樣的，通過不斷的縮小想要獲得數據的範圍來篩選出最終想要的結果，同時把隨機的事件變成順序的事件，也就是我們總是通過同一種查找方式來鎖定數據。

數據庫也是一樣，但顯然要複雜許多，因為不僅面臨著等值查詢，還有範圍查詢(>、

我們回想字典的例子，能不能把數據分成段，然後分段查詢呢？

最簡單的如果1000條數據，1到100分成第一段，101到200分成第二段，201到300分成第三段……

這樣查第250條數據，只要找第三段就可以了，一下子去除了90%的無效數據。

但如果是1千萬的記錄呢，分成幾段比較好？

稍有算法基礎的同學會想到搜索樹，其平均複雜度是lgN，具有不錯的查詢性能。

但這裡我們忽略了一個關鍵的問題，複雜度模型是基於每次相同的操作成本來考慮的，數據庫實現比較複雜，數據保存在磁盤上，而為了提高性能，每次又可以把部分數據讀入內存來計算，因為我們知道訪問磁盤的成本大概是訪問內存的十萬倍左右，所以簡單的搜索樹難以滿足複雜的應用場景。

索引結構

任何一種數據結構都不是憑空產生的，一定會有它的背景和使用場景，我們現在總結一下，我們需要這種數據結構能夠做些什麼

其實很簡單，那就是：每次查找數據時把磁盤IO次數控制在一個很小的數量級，最好是常數數量級。那麼我們就想到如果一個高度可控的多路搜索樹是否能滿足需求呢？

就這樣，b+樹應運而生。

b+樹的索引結構解釋

淺藍色的塊我們稱之為一個磁盤塊，可以看到每個磁盤塊包含幾個數據項（深藍色所示）和指針（黃色所示）

如磁盤塊1包含數據項17和35，包含指針P1、P2、P3，P1表示小於17的磁盤塊，P2表示在17和35之間的磁盤塊，P3表示大於35的磁盤塊。

真實的數據存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點不存儲真實的數據，只存儲指引搜索方向的數據項，如17、35並不真實存在於數據表中。

b+樹的查找過程

如圖所示，如果要查找數據項29，那麼首先會把磁盤塊1由磁盤加載到內存，此時發生一次IO，在內存中用二分查找確定29在17和35之間，鎖定磁盤塊1的P2指針，內存時間因為非常短（相比磁盤的IO）可以忽略不計

通過磁盤塊1的P2指針的磁盤地址把磁盤塊3由磁盤加載到內存，發生第二次IO，29在26和30之間，鎖定磁盤塊3的P2指針

通過指針加載磁盤塊8到內存，發生第三次IO，同時內存中做二分查找找到29，結束查詢，總計三次IO。

真實的情況是，3層的b+樹可以表示上百萬的數據，如果上百萬的數據查找只需要三次IO，性能提高將是巨大的

如果沒有索引，每個數據項都要發生一次IO，那麼總共需要百萬次的IO，顯然成本非常非常高。

b+樹性質

1、通過上面的分析，我們知道間越小，數據項的數量越多，樹的高度越低。

這就是為什麼每個數據項，即索引字段要儘量的小，比如int佔4字節，要比bigint8字節少一半。

這也是為什麼b+樹要求把真實的數據放到葉子節點而不是內層節點，一旦放到內層節點，磁盤塊的數據項會大幅度下降，導致樹增高。當數據項等於1時將會退化成線性表。

2、當b+樹的數據項是複合的數據結構，比如(name,age,sex)的時候，b+數是按照從左到右的順序來建立搜索樹的，比如當(張三,20,F)這樣的數據來檢索的時候，b+樹會優先比較name來確定下一步的所搜方向，如果name相同再依次比較age和sex，最後得到檢索的數據

但當(20,F)這樣的沒有name的數據來的時候，b+樹就不知道下一步該查哪個節點，因為建立搜索樹的時候name就是第一個比較因子，必須要先根據name來搜索才能知道下一步去哪裡查詢。

比如當(張三,F)這樣的數據來檢索時，b+樹可以用name來指定搜索方向，但下一個字段age的缺失，所以只能把名字等於張三的數據都找到，然後再匹配性別是F的數據了

這個是非常重要的性質，即索引的最左匹配特性。

MySQL 索引實現

在MySQL中，索引屬於存儲引擎級別的概念，不同存儲引擎對索引的實現方式是不同的，本文主要討論MyISAM和InnoDB兩個存儲引擎的索引實現方式。

MyISAM索引實現

MyISAM引擎使用B+Tree作為索引結構，葉節點的data域存放的是數據記錄的地址。

下圖是MyISAM索引的原理圖：

這裡設表一共有三列，假設我們以Col1為主鍵，則上圖便是一個MyISAM表的主索引（Primary key）示意圖。

可以看出MyISAM的索引文件僅僅保存數據記錄的地址。在MyISAM中，主索引和輔助索引（Secondary key）在結構上沒有任何區別，只是主索引要求key是唯一的，而輔助索引的key可以重複。

如果我們在Col2上建立一個輔助索引，則此索引的結構如下圖所示：

同樣也是一顆B+Tree，data域保存數據記錄的地址。因此，MyISAM中索引檢索的算法為首先按照B+Tree搜索算法搜索索引，如果指定的Key存在，則取出其data域的值，然後以data域的值為地址，讀取相應數據記錄。

MyISAM的索引方式也叫做“非聚集”的，之所以這麼稱呼是為了與InnoDB的聚集索引區分。

InnoDB索引實現

雖然InnoDB也使用B+Tree作為索引結構，但具體實現方式卻與MyISAM截然不同。

第一個重大區別是InnoDB的數據文件本身就是索引文件。

從上文知道，MyISAM索引文件和數據文件是分離的，索引文件僅保存數據記錄的地址。

而在InnoDB中，表數據文件本身就是按B+Tree組織的一個索引結構，這棵樹的葉節點data域保存了完整的數據記錄。這個索引的key是數據表的主鍵，因此InnoDB表數據文件本身就是主索引。

上圖是InnoDB主索引（同時也是數據文件）的示意圖，可以看到葉節點包含了完整的數據記錄，這種索引叫做聚集索引。

因為InnoDB的數據文件本身要按主鍵聚集，所以InnoDB要求表必須有主鍵（MyISAM可以沒有）

如果沒有顯式指定，則MySQL系統會自動選擇一個可以唯一標識數據記錄的列作為主鍵，如果不存在這種列，則MySQL自動為InnoDB表生成一個隱含字段作為主鍵，這個字段長度為6個字節，類型為長整形。

第二個與MyISAM索引的不同是InnoDB的輔助索引data域存儲相應記錄主鍵的值而不是地址。換句話說，InnoDB的所有輔助索引都引用主鍵作為data域。例如，下圖為定義在Col3上的一個輔助索引：

這裡以英文字符的ASCII碼作為比較準則。聚集索引這種實現方式使得按主鍵的搜索十分高效，但是輔助索引搜索需要檢索兩遍索引：首先檢索輔助索引獲得主鍵，然後用主鍵到主索引中檢索獲得記錄。

瞭解不同存儲引擎的索引實現方式對於正確使用和優化索引都非常有幫助，例如知道了InnoDB的索引實現後，就很容易明白為什麼不建議使用過長的字段作為主鍵，因為所有輔助索引都引用主索引，過長的主索引會令輔助索引變得過大。

再例如，用非單調的字段作為主鍵在InnoDB中不是個好主意，因為InnoDB數據文件本身是一顆B+Tree，非單調的主鍵會造成在插入新記錄時數據文件為了維持B+Tree的特性而頻繁的分裂調整，十分低效，而使用自增字段作為主鍵則是一個很好的選擇。

如何建立合適的索引

建立索引的原理

一個最重要的原則是最左前綴原理，在提這個之前要先說下聯合索引，MySQL中的索引可以以一定順序引用多個列，這種索引叫做聯合索引

一般的，一個聯合索引是一個有序元組，其中各個元素均為數據表的一列。另外，單列索引可以看成聯合索引元素數為1的特例。

索引匹配的最左原則具體是說，假如索引列分別為A，B，C，順序也是A，B，C：

那麼查詢的時候，如果查詢【A】【A，B】【A，B，C】，那麼可以通過索引查詢
如果查詢的時候，採用【A，C】，那麼C這個雖然是索引，但是由於中間缺失了B，因此C這個索引是用不到的，只能用到A索引
如果查詢的時候，採用【B】【B，C】【C】，由於沒有用到第一列索引，不是最左前綴，那麼後面的索引也是用不到了
如果查詢的時候，採用範圍查詢，並且是最左前綴，也就是第一列索引，那麼可以用到索引，但是範圍後面的列無法用到索引

因為索引雖然加快了查詢速度，但索引也是有代價的：索引文件本身要消耗存儲空間，同時索引會加重插入、刪除和修改記錄時的負擔，另外，MySQL在運行時也要消耗資源維護索引，因此索引並不是越多越好

在使用InnoDB存儲引擎時，如果沒有特別的需要，請永遠使用一個與業務無關的自增字段作為主鍵。如果從數據庫索引優化角度看，使用InnoDB引擎而不使用自增主鍵絕對是一個糟糕的主意。

InnoDB使用聚集索引，數據記錄本身被存於主索引（一顆B+Tree）的葉子節點上。這就要求同一個葉子節點內（大小為一個內存頁或磁盤頁）的各條數據記錄按主鍵順序存放

因此每當有一條新的記錄插入時，MySQL會根據其主鍵將其插入適當的節點和位置，如果頁面達到裝載因子（InnoDB默認為15/16），則開闢一個新的頁（節點）。

如果表使用自增主鍵，那麼每次插入新的記錄，記錄就會順序添加到當前索引節點的後續位置，當一頁寫滿，就會自動開闢一個新的頁。如下：

這樣就會形成一個緊湊的索引結構，近似順序填滿。由於每次插入時也不需要移動已有數據，因此效率很高，也不會增加很多開銷在維護索引上。

如果使用非自增主鍵（如果身份證號或學號等），由於每次插入主鍵的值近似於隨機，因此每次新紀錄都要被插到現有索引頁得中間某個位置，如下：

此時MySQL不得不為了將新記錄插到合適位置而移動數據，甚至目標頁面可能已經被回寫到磁盤上而從緩存中清掉

此時又要從磁盤上讀回來，這增加了很多開銷，同時頻繁的移動、分頁操作造成了大量的碎片，得到了不夠緊湊的索引結構，後續不得不通過OPTIMIZE TABLE來重建表並優化填充頁面。

因此，只要可以，請儘量在InnoDB上採用自增字段做主鍵。

建立索引的常用技巧

1、最左前綴匹配原則，非常重要的原則，mysql會一直向右匹配直到遇到範圍查詢(>、

比如a 1="" and="" b="2" c=""> 3 and d = 4 如果建立(a,b,c,d)順序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引則都可以用到，a,b,d的順序可以任意調整。

2、=和in可以亂序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序，mysql的查詢優化器會幫你優化成索引可以識別的形式

3、儘量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*)，表示字段不重複的比例，比例越大我們掃描的記錄數越少，唯一鍵的區分度是1，而一些狀態、性別字段可能在大數據面前區分度就是0

那可能有人會問，這個比例有什麼經驗值嗎？使用場景不同，這個值也很難確定，一般需要join的字段我們都要求是0.1以上，即平均1條掃描10條記錄

4、索引列不能參與計算，保持列“乾淨”，比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引

原因很簡單，b+樹中存的都是數據表中的字段值，但進行檢索時，需要把所有元素都應用函數才能比較，顯然成本太大。所以語句應該寫成create_time = unix_timestamp(’2014-05-29’);

5、儘量的擴展索引，不要新建索引。比如表中已經有a的索引，現在要加(a,b)的索引，那麼只需要修改原來的索引即可，當然要考慮原有數據和線上使用情況

MySQL優化

配置優化

配置優化指的MySQL 的 server端的配置，一般對於業務方而言，可以不用關注，畢竟會有專門的DBA來處理，但是對於原理的瞭解，我想，我們開發，是需要了解的。

MySQL優化，也可以參考：超級全面的MySQL優化面試解析

基本配置

innodb_buffer_pool_size

這是安裝完InnoDB後第一個應該設置的選項。緩衝池是數據和索引緩存的地方：這個值越大越好，這能保證你在大多數的讀取操作時使用的是內存而不是硬盤。典型的值是5-6GB(8GB內存)，20-25GB(32GB內存)，100-120GB(128GB內存)。

innodb_log_file_size

這是redo日誌的大小。redo日誌被用於確保寫操作快速而可靠並且在崩潰時恢復。一直到MySQL 5.1，它都難於調整，因為一方面你想讓它更大來提高性能，另一方面你想讓它更小來使得崩潰後更快恢復。

幸運的是從MySQL 5.5之後，崩潰恢復的性能的到了很大提升，這樣你就可以同時擁有較高的寫入性能和崩潰恢復性能了。

一直到MySQL 5.5，redo日誌的總尺寸被限定在4GB(默認可以有2個log文件)。這在MySQL 5.6裡被提高了。

如果你知道你的應用程序需要頻繁的寫入數據並且你使用的時MySQL 5.6，你可以一開始就把它這是成4G。

max_connections

如果你經常看到‘Too many connections'錯誤，是因為max_connections的值太低了。這非常常見因為應用程序沒有正確的關閉數據庫連接，你需要比默認的151連接數更大的值。

max_connection值被設高了(例如1000或更高)之後一個主要缺陷是當服務器運行1000個或更高的活動事務時會變的沒有響應。在應用程序裡使用連接池或者在MySQL裡使用進程池有助於解決這一問題。

InnoDB配置

innodb_file_per_table

這項設置告知InnoDB是否需要將所有表的數據和索引存放在共享表空間裡（innodb_file_per_table = OFF）或者為每張表的數據單獨放在一個.ibd文件（innodb_file_per_table = ON）。每張表一個文件允許你在drop、truncate或者rebuild表時回收磁盤空間。

這對於一些高級特性也是有必要的，比如數據壓縮。但是它不會帶來任何性能收益。你不想讓每張表一個文件的主要場景是：有非常多的表（比如10k+）。MySQL 5.6中，這個屬性默認值是ON，因此大部分情況下你什麼都不需要做。對於之前的版本你必需在加載數據之前將這個屬性設置為ON，因為它只對新創建的表有影響。

innodb_flush_log_at_trx_commit

默認值為1，表示InnoDB完全支持ACID特性。當你的主要關注點是數據安全的時候這個值是最合適的，比如在一個主節點上。但是對於磁盤（讀寫）速度較慢的系統，它會帶來很巨大的開銷，因為每次將改變flush到redo日誌都需要額外的fsyncs。

將它的值設置為2會導致不太可靠（reliable）因為提交的事務僅僅每秒才flush一次到redo日誌，但對於一些場景是可以接受的，比如對於主節點的備份節點這個值是可以接受的。如果值為0速度就更快了，但在系統崩潰時可能丟失一些數據：只適用於備份節點。

innodb_flush_method

這項配置決定了數據和日誌寫入硬盤的方式。一般來說，如果你有硬件RAID控制器，並且其獨立緩存採用write-back機制，並有著電池斷電保護，那麼應該設置配置為O_DIRECT；否則，大多數情況下應將其設為fdatasync（默認值）。sysbench是一個可以幫助你決定這個選項的好工具。

innodb_log_buffer_size

這項配置決定了為尚未執行的事務分配的緩存。其默認值（1MB）一般來說已經夠用了，但是如果你的事務中包含有二進制大對象或者大文本字段的話，這點緩存很快就會被填滿並觸發額外的I/O操作。看看Innodb_log_waits狀態變量，如果它不是0，增加innodb_log_buffer_size。

其他設置

query_cache_size

query cache（查詢緩存）是一個眾所周知的瓶頸，甚至在併發並不多的時候也是如此。最佳選項是將其從一開始就停用，設置query_cache_size = 0（現在MySQL 5.6的默認值）並利用其他方法加速查詢：優化索引、增加拷貝分散負載或者啟用額外的緩存（比如memcache或redis）。

如果你已經為你的應用啟用了query cache並且還沒有發現任何問題，query cache可能對你有用。這是如果你想停用它，那就得小心了。

log_bin

如果你想讓數據庫服務器充當主節點的備份節點，那麼開啟二進制日誌是必須的。

如果這麼做了之後，還別忘了設置server_id為一個唯一的值。就算只有一個服務器，如果你想做基於時間點的數據恢復，這（開啟二進制日誌）也是很有用的：從你最近的備份中恢復（全量備份），並應用二進制日誌中的修改（增量備份）。

二進制日誌一旦創建就將永久保存。所以如果你不想讓磁盤空間耗盡，你可以用 PURGE BINARY LOGS 來清除舊文件，或者設置 expire_logs_days 來指定過多少天日誌將被自動清除。

記錄二進制日誌不是沒有開銷的，所以如果你在一個非主節點的複製節點上不需要它的話，那麼建議關閉這個選項。

skip_name_resolve

當客戶端連接數據庫服務器時，服務器會進行主機名解析，並且當DNS很慢時，建立連接也會很慢。

因此建議在啟動服務器時關閉skip_name_resolve選項而不進行DNS查找。唯一的侷限是之後GRANT語句中只能使用IP地址了，因此在添加這項設置到一個已有系統中必須格外小心。

SQL 調優

一般要進行SQL調優，那麼就說有慢查詢的SQL，系統或者server可以開啟慢查詢日誌，尤其是線上系統，一般都會開啟慢查詢日誌，如果有慢查詢，可以通過日誌來過濾。但是知道了有需要優化的SQL後，下面要做的就是如何進行調優

慢查詢優化基本步驟

先運行看看是否真的很慢，注意設置SQL_NO_CACHE
where條件單表查，鎖定最小返回記錄表。這句話的意思是把查詢語句的where都應用到表中返回的記錄數最小的表開始查起，單表每個字段分別查詢，看哪個字段的區分度最高
explain查看執行計劃，是否與1預期一致（從鎖定記錄較少的表開始查詢）
order by limit 形式的sql語句讓排序的表優先查
瞭解業務方使用場景
加索引時參照建索引的幾大原則
觀察結果，不符合預期繼續從0分析

常用調優手段

執行計劃explain

在日常工作中，我們有時會開慢查詢去記錄一些執行時間比較久的SQL語句，找出這些SQL語句並不意味著完事了，我們常常用到explain這個命令來查看一個這些SQL語句的執行計劃，查看該SQL語句有沒有使用上了索引，有沒有做全表掃描，這都可以通過explain命令來查看。

所以我們深入瞭解MySQL的基於開銷的優化器，還可以獲得很多可能被優化器考慮到的訪問策略的細節，以及當運行SQL語句時哪種策略預計會被優化器採用。

使用explain 只需要在原有select 基礎上加上explain關鍵字就可以了，如下：

mysql> explain select * from servers;
+----+-------------+---------+------+---------------+------+---------+------+------+-------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+---------+------+---------------+------+---------+------+------+-------+
| 1 | SIMPLE | servers | ALL | NULL | NULL | NULL | NULL | 1 | NULL |
+----+-------------+---------+------+---------------+------+---------+------+------+-------+
1 row in set (0.03 sec)

簡要解釋下explain各個字段的含義

id : 表示SQL執行的順序的標識,SQL從大到小的執行
select_type：表示查詢中每個select子句的類型
table：顯示這一行的數據是關於哪張表的，有時不是真實的表名字
type：表示MySQL在表中找到所需行的方式，又稱“訪問類型”。常用的類型有：ALL, index, range, ref, eq_ref, const, system, NULL（從左到右，性能從差到好）
possible_keys：指出MySQL能使用哪個索引在表中找到記錄，查詢涉及到的字段上若存在索引，則該索引將被列出，但不一定被查詢使用
Key：key列顯示MySQL實際決定使用的鍵（索引），如果沒有選擇索引，鍵是NULL。
key_len：表示索引中使用的字節數，可通過該列計算查詢中使用的索引的長度（key_len顯示的值為索引字段的最大可能長度，並非實際使用長度，即key_len是根據表定義計算而得，不是通過表內檢索出的）
ref：表示上述表的連接匹配條件，即哪些列或常量被用於查找索引列上的值
rows：表示MySQL根據表統計信息及索引選用情況，估算的找到所需的記錄所需要讀取的行數，理論上行數越少，查詢性能越好
Extra：該列包含MySQL解決查詢的詳細信息

EXPLAIN的特性

EXPLAIN不會告訴你關於觸發器、存儲過程的信息或用戶自定義函數對查詢的影響情況
EXPLAIN不考慮各種Cache
EXPLAIN不能顯示MySQL在執行查詢時所作的優化工作
部分統計信息是估算的，並非精確值
EXPALIN只能解釋SELECT操作，其他操作要重寫為SELECT後查看執行計劃。

實戰演練

表結構和查詢語句

假如有如下表結構

circlemessage_idx_0 | CREATE TABLE `circlemessage_idx_0` (
 `circle_id` bigint(20) unsigned NOT NULL COMMENT '群組id',
 `from_id` bigint(20) unsigned NOT NULL COMMENT '發送用戶id',
 `to_id` bigint(20) unsigned NOT NULL COMMENT '指定接收用戶id',
 `msg_id` bigint(20) unsigned NOT NULL COMMENT '消息ID',
 `type` tinyint(3) unsigned NOT NULL DEFAULT '0' COMMENT '消息類型',
 PRIMARY KEY (`msg_id`,`to_id`),
 KEY `idx_from_circle` (`from_id`,`circle_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin

通過執行計劃explain分析如下查詢語句

mysql> explain select msg_id from circlemessage_idx_0 where to_id = 113487 and circle_id=10019063 and msg_id>=6273803462253938690 and from_id != 113487 order by msg_id asc limit 30;
+----+-------------+---------------------+-------+-------------------------+---------+---------+------+--------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+---------------------+-------+-------------------------+---------+---------+------+--------+-------------+
| 1 | SIMPLE | circlemessage_idx_0 | range | PRIMARY,idx_from_circle | PRIMARY | 16 | NULL | 349780 | Using where |
+----+-------------+---------------------+-------+-------------------------+---------+---------+------+--------+-------------+
1 row in set (0.00 sec)

mysql> explain select msg_id from circlemessage_idx_0 where to_id = 113487 and circle_id=10019063 and from_id != 113487 order by msg_id asc limit 30;
+----+-------------+---------------------+-------+-----------------+---------+---------+------+------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+---------------------+-------+-----------------+---------+---------+------+------+-------------+
| 1 | SIMPLE | circlemessage_idx_0 | index | idx_from_circle | PRIMARY | 16 | NULL | 30 | Using where |
+----+-------------+---------------------+-------+-----------------+---------+---------+------+------+-------------+
1 row in set (0.00 sec)

問題分析

通過上面兩個執行計劃可以發現當沒有msg_id >= xxx這個查詢條件的時候，檢索的rows要少很多，並且兩者查詢的時候都用到了索引，而且用到的還只是主鍵索引。那說明索引應該是不合理的，沒有發揮最大作用。

分析這個執行計劃可以看到，當包含msg_id >= xxx 查詢條件的時候，rows有34w多行，這種情況，說明檢索太多，要麼就是表裡面確實有這麼大，要麼就是索引不合理沒有用到索引，大都情況是沒用合理用到索引。

列中所用到的索引也是PRIMARY，那就可能是(msg_id,to_id)的其中一個，注意我們建立表的時候msg_id索引的順序是在to_id前面的，因此MySQL查詢一定會優先用msg_id索引，在使用了msg_id索引後，就已經檢索出了34w行，並且由於msg_id的查詢條件是大於等於，因此，再這個查詢條件後，就不能再用到to_id的索引。

然後再看key_len長度為16，結合 key為PRIMARY，那麼可以分析得知，只有一個主鍵索引被用到。

最後看看 type 值，是range，那麼就說明這個查詢要麼是範圍查詢，要麼就是多值匹配。

請注意，from_id != xxx這樣的語句，是無法用到索引的。只有from_id = xxx就可以用到所以，因此from id 的索引其實可以不用，建立索引的時候就要考慮清楚

如何優化

既然知道索引不合理，那麼就要分析並調整索引。一般而言，我們既然要從單表裡面查詢，那麼就需要能夠知道大體，單表裡面大致會有哪些數據，現在的量級大概是多少。

然後開始下一步的分析，既然msgid是被設置為了主鍵，那一定是全局唯一的，所有，有多少數據量就至少會有多少條msgid；那麼檢索msg_id基本就是檢索整個表了。

我們要做的優化就是要儘量減少索引，減少查詢的行數；那麼就需要思考，通過查詢哪些字段才能夠減少行數？比如，一個張表裡面，所屬某個用戶的數據，會不會比查詢msgid的行數要少？查詢某個用戶並且是屬於某個圈子的，那會不會就更少了？等等。

然後根據實際情況分析，單表裡面命中to_id 的行數應該是會小於命中msg_id的，因此要首先保證能夠使用到to_id的索引

為此，可以設置主鍵的時候把msg_id和to_id的順序交互一下；但是，由於已經是線上的表，已經有了大量數據，並且業務開始運行，這種情況下，修改主鍵會引發很多問題（當然修改索引是OK的），因此，不建議直接修改主鍵。

那麼，為了保證有效使用to_id的索引，就要新建一個聯合索引；那麼新建的聯合索引的第一索引字段必然是to_id

針對此業務場景，最好能夠再加上circle_id索引，這樣可以快速索引；這樣就得到了新的聯合索引(to_id,circle_id)的索引，然後，因為要找msg_id，為此，在此基礎上，再加上msg_id。最終得到的聯合索引為(to_id,circle_id,msg_id)；這樣的話，就能夠快速檢索這樣的查詢語句了：where to_id = xxx and circle_id = xxx and msgId >= xxx

當然，索引的建立，也不是說某個sql 語句需要啥索引，就建立某個聯合索引，這樣的話，索引太多的話，寫的性能受影響（插入、刪除、修改），然後存儲空間也會相應增大；另外mysql在運行時也會消耗資源維護索引，所以，索引並不是越多越好，需要結合查詢最頻繁、最影響性能的sql來建立合適的索引。需要再說明的是，一個聯合索引或者一組主鍵就是一個btree，多個索引就是多個btree

總結

首先我們需要深入理解索引的原理和實現，當理解了原理後，才能夠更有助於我們建立合適的索引。然後我們建立索引的時候，不要想當然，要先想清楚業務邏輯，再建立對應的表結構和索引。

需要再次強調如下幾點:

索引不是越多越好
區分主鍵和索引
理解索引結構原理
理解查詢索引規則

分享到:

閱讀更多 java互聯網架構 的文章

關鍵字: 數據結構科技向善萬家團圓索引

在CentOS 上調試 MySQL-5.7.x 或者 MySQL-8.0 源碼

Mysql -樂觀鎖和悲觀鎖

MYSQL 利用 MYSQL Shell 安裝 INNODB Cluster 這坑踩得

電力企業信息管理系統(ssm,mysql)

MySQL 數據操作 DML

Mysql 查詢天、周，月，季度、年的數據

乾貨!MYSQL:事務管理，鎖機制案例詳解

MySQL 聚集索引和二級索引

專治 MySQL 亂碼，再也不想看到亂碼了

MySQL 派生表優化

03.03 MySQL 派生表優化

02.27 MySQL charset不同導致無法使用索引的坑

MySQL 8.0新特性：持久化自增列

mysql 建立索引的一個規則

使用 TCP Wrappers 保護 MySQL 如何導致服務中斷

mysql 索引的使用與優化看這篇就夠了

MySQL 的 B+Tree 索引樹到底該怎麼畫？

mysql 數據庫整理

MySQL 用 limit 會影響性能嗎？

MySQL-mdl鎖

關於 mysql 在開發過程中使用的點

MySQL C API 參數 MYSQL

MySQL explain詳解

MySQL 優化之EXPLAIN詳解(執行計劃)

MySQL 用 limit 為什麼會影響性能？

MySQL InnoDB的4個特性

MySQL：你知道什麼是覆蓋索引嗎？

MySql Binlog事件介紹篇

MySQL

mysql 中的數據類型

MySQL InnoDB引擎鎖的總結

MySQL 事務

「mysql」索引的設計和使用

MySQL：優化嵌套查詢和分頁查詢

「MySQL」mysql中語句執行的順序以及查詢處理階段的分析

mysql sql語句大全

MySQL 性能調優技巧

MySQL 常用30種SQL查詢語句優化方法

07.26 MySQL 高效分頁方案

MySQL query rewrite插件簡單測試

MySQL 從零開始：02 MySQL 安裝

07.07 MySQL——如何快速對比數據？

不像 MySQL 的 MySQL：MySQL 文檔存儲介紹

「MySQL」關於MySQL中的if和case語句的使用

MySQL-海量數量下的查詢效率提升

「mysql」詳解在查詢時，offset過大影響性能的原因與優化方法

MySQL EXPLAIN詳解

12.13 MySQL EXPLAIN詳解

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"