一篇文章全面解析：MySQL B+樹索引原理

2020-03-18 09:26:11 Java全棧

索引，是幫助MySQL高效獲取數據的一數據結構，也就是說，通過創建索引，我們可以提高查詢的效率。索引的本質是一種數據結構。下面讓我們慢慢的分析下MySQL的索引實現原理。

一、為什麼要用索引

假如我們一張表中有一百萬的條數據，執行select * from user where id='1'，在沒有創建索引的情況下，將會進行全表掃描。顯然是超級不可取的一種方式。因此我們需要對id進行建立索引，提高查詢效率。

二、索引分類

1、數據結構-Hash

哈希表（Hash table，也叫散列表），是根據關鍵碼值(Key value)而直接進行訪問的數據結構。也就是說，它通過把關鍵碼值映射到表中一個位置來訪問記錄，以加快查找的速度。這個映射函數叫做散列函數，存放記錄的數組叫做散列表。是的，若僅僅執行語句select * from user where id='1'，無疑用Hash查詢是超級快的，但是假如我需要查詢select * from user where id>'1'，那麼由於Hash是根據鍵值進行訪問的，此時是範圍查詢，就不方便了，將會類似於全表掃描。

<code>優點：查找可以直接根據key訪問缺點：不支持範圍查詢/<code>

2、數據結構-平衡二叉樹

平衡二叉查找樹，又稱 AVL樹。它除了具備二叉查找樹的基本特徵之外，還具有一個非常重要的特點：它的左子樹和右子樹都是平衡二叉樹，且左子樹和右子樹的深度之差的絕對值（平衡因子）不超過1。也就是說AVL樹每個節點的平衡因子只可能是-1、0和1（左子樹高度減去右子樹高度）。如下圖所示：

這裡假如查找0010，順序如下

從硬盤讀取0004到內存中，比較0010>0004, 取右子樹；
從硬盤讀取0008到內存中，比較0010>0008, 取右子樹；
從硬盤讀取0009到內存中，比較0010>0009，取右子樹；
從硬盤讀取0010到內存中，比較0010==0010，查詢成功；

由上可知，。進行了4次的IO操作。

優點：查詢效率較高，
缺點：雖然支持範圍查詢，但是迴旋查詢效率較低，插入操作需要進行旋轉。並且隨著樹的深度增加，IO查詢次數將會增大。

3、數據結構-B樹

維基百科對B樹的定義為“在計算機科學中，B樹（B-tree）是一種樹狀數據結構，它能夠存儲數據、對其進行排序並允許以O(log n)的時間複雜度運行進行查找、順序讀取、插入和刪除的數據結構。B樹，概括來說是一個節點可以擁有多於2個子節點的二叉查找樹。與自平衡二叉查找樹不同，B樹為系統最優化大塊數據的讀和寫操作。B-tree算法減少定位記錄時所經歷的中間過程，從而加快存取速度。普遍運用在數據庫和文件系統。

這裡假如查找0010，順序如下

從硬盤讀取0004到內存中，比較0010>0004, 取右子樹；
從硬盤讀取0006和0008到內存中，比較0010>0008, 取右子樹；
從硬盤讀取0009和0010到內存中，比較0010>0010, 查詢成功；

由上可知。只進行了三次IO操作。因為B樹節點元素比平衡二叉樹要多，所以B樹數據結構相比平衡二叉樹數據結構實現減少磁盤IO的操作。

優點：B樹查詢效率比平衡二叉樹效率要高，因為B樹的節點中可以有多個元素，從而減少樹的高度，減少IO操作，從而提高查詢效率。
缺點：範圍查詢效率還是比較低。

4、數據結構B+樹

通過繼承了B樹的特徵，B+樹相比B樹，新增葉子節點與非葉子節點關係，葉子節點中包含了key和value，非葉子節點中只是包含了key，不包含value。通過非葉子節點查詢葉子節點獲取對應的value，所有相鄰的葉子節點包含非葉子節點，使用鏈表進行結合，有一定順序排序，從而範圍查詢效率非常高。也就是說，上面的二叉樹和B-tree，都是每個節點不僅保存key，而且還保存了value(可能是地址，可能是內容)，但是B+tree非葉子節點只會保存key，只有葉子節點才會保存key和value。

由圖可以知道，雖然都是三層IO，但是葉子節點包含了非葉子節點，使用鏈表進行結合，有一定的順序排序，所以範圍查詢效率也是非常高的，不需要一個個做迴旋對比。

優點：範圍查詢效率非常高；
缺點：因為有冗餘的節點數據，所以比較耗內存；

5、小結

有上可知，最終還是會回到了時間和空間的問題，不可能二者兼得，減少了時間就必須多耗費空間，減少了空間的使用，就必須降低查詢效率。當然我們知道mysql索引的數據結構是樹，常用的存儲引擎innodb採用的是B+Tree。MyISAM和InnoDB對B-Tree索引的實現方式是不同的，我們下面來分析下。順便說一句：有一個很好用的網站可以讓我們直觀的操作數據結構：https://www.cs.usfca.edu/~galles/visualization/Algorithms.html ，我上面的圖就是根據這個畫得。

三、MyISAM和InnoDB對B+樹索引的實現方式

我們先理解兩個概念：非聚簇索引和聚簇索引

非聚集索引。表數據存儲順序與索引順序無關。對於非聚集索引，葉結點包含索引字段值及指向數據頁數據行的邏輯指針，其行數量與數據錶行數據量一致。非聚簇索引的數據表和索引表是分開存儲的。

葉結點包含索引字段值及指向數據頁數據行的邏輯指針。

聚集索引。表數據按照索引的順序來存儲的，也就是說索引項的順序與表中記錄的物理順序一致。對於聚集索引，葉子結點即存儲了真實的數據行，不再有另外單獨的數據頁。在一張表上最多隻能創建一個聚集索引，因為真實數據的物理順序只能有一種。

葉子結點即存儲了真實的數據行，不再有另外單獨的數據頁。

MyISAM存儲引擎採用的是非聚簇索引，葉子結點的key都存儲指向鍵值對應的數據的物理地址。InnoDB存儲引擎採用的是聚簇索引，聚簇索引的數據和主鍵索引存儲在一起。也就是對於B+樹來說，非聚集索引，葉子節點只會存儲指向數據頁數據行的邏輯指針。而聚集索引則存儲了真實的數據行，不再有另外單獨的數據頁。如下人圖：MyISAM非聚集索引

InnoDB聚集索引

通過上面兩個圖，我們應該很清楚的明白了MyISAM和InnoDB對B+樹索引的實現方式上的區別。再總結一下：MyISAM索引文件和數據文件是分離的，索引文件僅保存數據記錄的地址。而在InnoDB中，表數據文件本身就是按B+樹組織的一個索引結構，這棵樹的葉節點data域保存了完整的數據記錄。這個索引的key是數據表的主鍵，因此InnoDB表數據文件本身就是主索引。

四、MyISAM和innoDB引擎對比

上面是描述了兩大引擎實現B+tree上的區別，這裡再比較一下這兩個引擎。

五、MySQL數據庫優化方案

Mysql的優化，大體可以分為三部分：

索引的優化，sql慢查詢的優化，表的優化。

1、索引的優化

1.最左前綴索引的最左前綴和和B+Tree中的“最左前綴原理”有關，舉例來說就是where之後的條件如果設置了組合索引<col1>那麼以下3中情況可以使用索引：col1，<col1>，<col1>，其它的列，比如<col2>，<col1>，col2，col3等等都是不能使用索引的。也就是：/<col1>/<col2>/<col1>/<col1>/<col1>

<code>select * from table where col1="a";
select * from table where col1="a" and col2="b";
select * from table where col1="a" and col2="b" and col3="c";/<code>

上面三條語句是可以用到索引的。但是如下四條不遵從最左前綴的,導致索引失效：

<code>select * from table where col2="b";
select * from table where col3="c";
select * from table where col2="b" and col3="c";
select * from table where col1="a" and col3="c";/<code>

當然前提是<col1>為組合索引。/<col1>

2.不在索引列上做任何操作,否則會導致索引失效而轉向全表掃描

select * from table where left(col1,4)=’a’;

3.存儲引擎不能使用索引中範圍條件右邊的列,範圍之後全失效,將導致col1和col2被用到了，col3失效

select * from table where col1=’a’ and col2 >25 and col3=’c’;

4.儘量用覆蓋索引(覆蓋索引:查詢的列和所建立的索引的列個數相同,字段相同),減少select * 的使用

5.儘量不使用!=或<>,如果使用,則無法使用索引,會導致全表掃描

6.is null, is not null無法使用索引

7.帶索引的模糊查詢優化like查詢,%要在最右側(‘字符串%’),否則會進行全表掃描,那麼如何解決like查詢時’%字符串%’時索引不被使用的方法(可以使用覆蓋索引)

8.字符串類型不加單引號會導致索引失效,因為mysql會自己做類型轉換,相當於在索引列上進行了操作

9.少用or,用它會索引失效

2、sql慢查詢的優化

查詢優化神器 – explain命令,步驟如下：

先運行看看是否真的很慢，注意設置SQL_NO_CACHE

where條件單表查，鎖定最小返回記錄表。這句話的意思是把查詢語句的where都應用到表中返回的記錄數最小的表開始查起，單表每個字段分別查詢，看哪個字段的區分度最高
explain查看執行計劃，是否與1預期一致（從鎖定記錄較少的表開始查詢）
order by limit 形式的sql語句讓排序的表優先查
瞭解業務方使用場景
加索引時參照建索引的幾大原則觀察結果，不符合預期繼續從0分析

3、表的優化

當MySQL單表記錄數過大時，增刪改查性能都會急劇下降，可以參考以下步驟來優化：單表優化除非單表數據未來會一直不斷上漲，否則不要一開始就考慮拆分，拆分會帶來邏輯、部署、運維的各種複雜度，一般以整型值為主的表在千萬級以下，字符串為主的表在五百萬以下是沒有太大問題的。而事實上很多時候MySQL單表的性能依然有不少優化空間，甚至能正常支撐千萬級以上的數據量：

1.字段

儘量使用TINYINT、SMALLINT、MEDIUM_INT作為整數類型而非INT，如果非負則加上UNSIGNED
VARCHAR的長度只分配真正需要的空間
使用枚舉或整數代替字符串類型
儘量使用TIMESTAMP而非DATETIME，單表不要有太多字段，建議在20以內
避免使用NULL字段，很難查詢優化且佔用額外索引空間用整型來存IP

2.索引

索引並不是越多越好，要根據查詢有針對性的創建，考慮在WHERE和ORDER BY命令上涉及的列建立索引，可根據EXPLAIN來查看是否用了索引還是全表掃描
應儘量避免在WHERE子句中對字段進行NULL值判斷，否則將導致引擎放棄使用索引而進行全表掃描
值分佈很稀少的字段不適合建索引，例如"性別"這種只有兩三個值的字段
字符字段只建前綴索引
字符字段最好不要做主鍵
不用外鍵，由程序保證約束
儘量不用UNIQUE，由程序保證約束使用多列索引時主意順序和查詢條件保持一致，同時刪除不必要的單列索引

3.查詢SQL

可通過開啟慢查詢日誌來找出較慢的SQL
不做列運算：SELECT id WHERE age + 1 = 10，任何對列的操作都將導致表掃描，它包括數據庫教程函數、計算表達式等等，查詢時要儘可能將操作移至等號右邊
sql語句儘可能簡單：一條sql只能在一個cpu運算；大語句拆小語句，減少鎖時間；一條大sql可以堵死整個庫不用SELECT *OR改寫成IN：OR的效率是n級別，IN的效率是log(n)級別，in的個數建議控制在200以內
不用函數和觸發器，在應用程序實現避免%xxx式查詢少用JOIN
使用同類型進行比較，比如用'123'和'123'比，123和123比
儘量避免在WHERE子句中使用!=或<>操作符，否則將引擎放棄使用索引而進行全表掃描
對於連續數值，使用BETWEEN不用IN：SELECT id FROM t WHERE num BETWEEN 1 AND 5
列表數據不要拿全表，要使用LIMIT來分頁，每頁數量也不要太大

4.引擎

<code>總體來講，MyISAM適合SELECT密集型的表，而InnoDB適合INSERT和UPDATE密集型的表。/<code>

當然還有一些參數配置的優化。

六、總結

我們從啥是索引，以及索引的類別和優缺點到MySQL兩種引擎實現B+tree不同方式對比，到最後大概說明了下MySQL的優化。基本上對MySQL的索引有了一個大概的認識，以後每一部分還是需要再深入研究瞭解的。話說又費了兩個鍾，以後還是要換方法，比如今天學習總結，明天再整理為博文，而不是邊學習邊整理，太費時間啦。

分享到:

閱讀更多 Java全棧 的文章

關鍵字: 算法數據結構解析

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"