那些年被面試官懟的 MySQL 索引

2020-04-08 18:32:20 程序員小樂

點擊上方 "程序員小樂"關注, 星標或置頂一起成長

每天凌晨00點00分, 第一時間與你相約

每日英文

A single hand that wipes tears during failures is much better than countless hands that come together to clap on success.

失敗時有人伸出一隻手來為你擦淚，會好過成功時無數人伸手為你鼓掌。

每日掏心話

當看破一切的時候才知道，其實失去比擁有更踏實。

來自：NebulaGraph | 責編：樂樂

鏈接：my.oschina.net/u/4169309/blog/3216614

程序員小樂(ID:study_tech)第 826 次推文圖片來自百度

往日回顧：Google 出品的 Java 編碼規範，強烈推薦，權威又科學！

正文

之前有過一次面試，關於MySQL索引的原理及使用被面試官懟的體無完膚，立志要總結一番，然後一直沒有時間（其實是懶……），準備好了嗎？

索引是什麼？

數據庫索引，是數據庫管理系統(DBMS)中一個排序的數據結構，它可以對數據庫表中一列或多列的值進行排序，以協助更加快速的訪問數據庫表中特定的數據。通俗的說，我們可以把數據庫索引比做是一本書前面的目錄，它能加快數據庫的查詢速度。

為什麼需要索引？

思考：如何在一個圖書館中找到一本書？設想一下，假如在圖書館中沒有其他輔助手段，只能一條道走到黑，一本書一本書的找，經過3個小時的連續查找，終於找到了你需要看的那本書，但此時天都黑了。為了避免這樣的事情，每個圖書館才都配備了一套圖書館管理系統，大家要找書籍的話，先在系統上查找到書籍所在的房屋編號、圖書架編號還有書在圖書架幾層的那個方位，然後就可以直接大搖大擺的去取書了，就可以很快速的找到我們所需要的書籍。索引就是這個原理，它可以幫助我們快速的檢索數據。

一般的應用系統對數據庫的操作，遇到最多、最容易出問題是一些複雜的查詢操作，當數據庫中數據量很大時，查找數據就會變得很慢，這樣就很影響整個應用系統的效率，我們就可以使用索引來提高數據庫的查詢效率。

B-Tree和B+Tree

目前大部分數據庫系統及文件系統都採用B-Tree或其變種B+Tree作為索引結構，我在這裡分別講一下：

B-Tree

即B樹，注意（不是B減樹），B樹是一種多路搜索樹。使用B-Tree結構可以顯著減少定位記錄時所經歷的中間過程，從而加快存取速度。

B-Tree有如下一些特徵：

定義任意非葉子結點最多隻有M個子節點，且M>2。
根結點的兒子數為[2, M]。
除根結點以外的非葉子結點的兒子數為[M/2, M]，向上取整。
每個結點存放至少M/2-1（取上整）和至多M-1個關鍵字；（至少2個關鍵字）。
非葉子結點的關鍵字個數=指向兒子的指針個數-1。
非葉子結點的關鍵字：K[1], K[2], …, K[M-1]，且K[i] <= K[i+1]。
非葉子結點的指針：P[1], P[2], …,P[M]（其中P[1]指向關鍵字小於K[1]的子樹，P[M]指向關鍵字大於K[M-1]的子樹，其它P[i]指向關鍵字屬於(K[i-1], K[i])的子樹）。
所有葉子結點位於同一層。

有關b樹的一些特性：

關鍵字集合分佈在整顆樹的所有結點之中；
任何一個關鍵字出現且只出現在一個結點中；
搜索有可能在非葉子結點結束；
其搜索性能等價於在關鍵字全集內做一次二分查找。

B樹的搜索：從根結點開始，對結點內的關鍵字（有序）序列進行二分查找，如果命中則結束，否則進入查詢關鍵字所屬範圍的兒子結點；重複執行這個操作，直到所對應的節點指針為空，或者已經是是葉子結點。

例如下面一個B樹，那麼查找元素43的過程如下：

根據根節點指針找到18、37所在節點，把此節點讀入內存，進行第一次磁盤IO，此時發現43>37，找到指針p3。

根據指針p3，找到42、51所在節點，把此節點讀入內存，進行第二次磁盤IO，此時發現42<43<51，找到指針p2。

根據指針p2，找到43、46所在節點，把此節點讀入內存，進行第三次磁盤IO，此時我們就已經查到了元素43。

在此過程總共進行了三次磁盤IO。

B+Tree

B+Tree屬於B-Tree的變種。與B-Tree相比，B+Tree有以下不同點：

有n棵子樹的非葉子結點中含有n個關鍵字（B樹是n-1個），即非葉子結點的子樹指針與關鍵字個數相同。這些關鍵字不保存數據，只用來索引，所有數據都保存在葉子節點（B樹是每個關鍵字都保存數據）。
所有的葉子結點中包含了全部關鍵字的信息，及指向含這些關鍵字記錄的指針，且葉子結點本身依關鍵字的大小自小而大順序鏈接。
所有的非葉子結點可以看成是葉子節點的索引部分。
同一個數字會在不同節點中重複出現，根節點的最大元素就是b+樹的最大元素。

相對B樹，B+樹做索引的優勢

B+樹的磁盤IO代價更低： B+樹非葉子節點沒有指向數據行的指針，所以相同的磁盤容量存儲的節點數更多，相應的IO讀寫次數肯定減少了。

B+樹的查詢效率更加穩定：由於所有數據都存於葉子節點。所有關鍵字查詢的路徑長度相同，每一個數據的查詢效率相當。
所有的葉子節點形成了一個有序鏈表，更加便於查找。

關於MySQL的兩種常用存儲引擎MyISAM和InnoDB的索引均以B+樹作為數據結構，二者卻有不同（這裡只說二者索引的區別）。

MyISAM索引和Innodb索引的區別

MyISAM使用B+樹作為索引結構，葉節點葉節點的data域保存的是存儲數據的地址，主鍵索引key值唯一，輔助索引key可以重複，二者在結構上相同。因此，MyISAM中索引檢索的算法為首先按照B+Tree搜索算法搜索索引，如果要找的Key存在，則取出其data域的值，然後以data域的值為地址，去讀取相應數據記錄。因此，索引文件和數據文件是分開的，從索引中檢索到的是數據的地址，而不是數據。

Innodb也是用B+樹作為索引結構，但具體實現方式卻與MyISAM截然不同，首先，數據表本身就是按照b+樹組織，所以數據文件本身就是主鍵索引文件。葉節點key值為數據表的主鍵，data域為完整的數據記錄，因此InnoDB表數據文件本身就是主鍵索引(這也就是MyISAM可以允許沒有主鍵，但是Innodb必須有主鍵的原因）。第二個與MyISAM索引的不同是InnoDB的輔助索引的data域存儲相應數據記錄的主鍵值而不是地址。換句話說，InnoDB的所有輔助索引都引用主鍵作為data域。

索引類型

普通索引：（由關鍵字KEY或INDEX定義的索引）的唯一任務是加快對數據的訪問速度。

唯一索引：普通索引允許被索引的數據列包含重複的值，而唯一索引不允許，但是可以為null。所以任務是保證訪問速度和避免數據出現重複。

主鍵索引：在主鍵字段創建的索引，一張表只有一個主鍵索引。

組合索引：多列值組成一個索引，專門用於組合搜索。

全文索引：對文本的內容進行分詞，進行搜索。（MySQL5.6及以後的版本，MyISAM和InnoDB存儲引擎均支持全文索引。）

索引的使用策略及優缺點

使用索引

主鍵自動建立唯一索引。
經常作為查詢條件在WHERE或者ORDER BY 語句中出現的列要建立索引。

查詢中與其他表關聯的字段，外鍵關係建立索引。
經常用於聚合函數的列要建立索引，如min()，max()等的聚合函數。

不使用索引

經常增刪改的列不要建立索引。
有大量重複的列不建立索引。
表記錄太少不要建立索引，因為數據較少，可能查詢全部數據花費的時間比遍歷索引的時間還要短，索引就可能不會產生優化效果。

最左匹配原則

建立聯合索引的時候都會默認從最左邊開始，所以索引列的順序很重要，建立索引的時候就應該把最常用的放在左邊，使用select的時候也是這樣，從最左邊的開始，依次匹配右邊的。

優點

可以保證數據庫表中每一行的數據的唯一性。
可以大大加快數據的索引速度。

加速表與表之間的連接。
可以顯著的減少查詢中分組和排序的時間。

缺點

創建索引和維護索引要耗費時間，這種時間隨著數據量的增加而增加。
索引需要佔物理空間，除了數據表佔用數據空間之外，每一個索引還要佔用一定的物理空間，如果需要建立聚簇索引，那麼需要佔用的空間會更大，其實建立索引就是以空間換時間。
表中的數據進行增、刪、改的時候，索引也要動態的維護，這就降低了維護效率。

驗證索引是否能夠提升查詢性能

創建測試表index_test

使用python腳本程序通過pymsql模塊，向表中添加十萬條數據

import pymysql

def main():
# 創建Connection連接
conn = pymysql.connect(host='localhost',
port=3306,
database='db_test',
user='root',
password='deepin',
charset='utf8')
# 獲得Cursor對象
cursor = conn.cursor()
# 插入10萬次數據
for i in range(100000):
cursor.execute("insert into index_test values('haha-%d')" % i)
# 提交數據
conn.commit()

if __name__ == "__main__":
main()

在mysql終端開啟運行時間監測：set profiling=1;

查找第1萬條數據ha-99999

select * from index_test where name='haha-99999';

查看執行的時間：

show profiles;

為表index_test的name列創建索引：
create index name_index on index_test(name(10));

再次執行查詢語句、查看執行的時間：

可以看出合適的索引確實可以明顯提高某些字段的查詢效率。

最後，感謝女朋友在生活中，工作上的包容、理解與支持！

歡迎在留言區留下你的觀點，一起討論提高。如果今天的文章讓你有新的啟發，學習能力的提升上有新的認識，歡迎轉發分享給更多人。

猜你還想看

阿里、騰訊、百度、華為、京東最新面試題彙集

如何更好的使用Java異常，看這篇就對了！

Java IO使用的四種模式

（三）SpringBoot+SpringCloud —— 高可用的Eureka註冊中心

關注訂閱號「程序員小樂」，收看更多精彩內容
嘿，你在看嗎？

分享到:

閱讀更多 程序員小樂 的文章

關鍵字: 數據庫索引數據結構數據庫

在CentOS 上調試 MySQL-5.7.x 或者 MySQL-8.0 源碼

Mysql -樂觀鎖和悲觀鎖

MYSQL 利用 MYSQL Shell 安裝 INNODB Cluster 這坑踩得

電力企業信息管理系統(ssm,mysql)

MySQL 數據操作 DML

Mysql 查詢天、周，月，季度、年的數據

乾貨!MYSQL:事務管理，鎖機制案例詳解

MySQL 聚集索引和二級索引

專治 MySQL 亂碼，再也不想看到亂碼了

MySQL 派生表優化

03.03 MySQL 派生表優化

02.27 MySQL charset不同導致無法使用索引的坑

MySQL 8.0新特性：持久化自增列

mysql 建立索引的一個規則

使用 TCP Wrappers 保護 MySQL 如何導致服務中斷

mysql 索引的使用與優化看這篇就夠了

MySQL 的 B+Tree 索引樹到底該怎麼畫？

mysql 數據庫整理

MySQL 用 limit 會影響性能嗎？

MySQL-mdl鎖

關於 mysql 在開發過程中使用的點

MySQL C API 參數 MYSQL

MySQL explain詳解

MySQL 優化之EXPLAIN詳解(執行計劃)

MySQL 用 limit 為什麼會影響性能？

MySQL InnoDB的4個特性

MySQL：你知道什麼是覆蓋索引嗎？

MySql Binlog事件介紹篇

MySQL

mysql 中的數據類型

MySQL InnoDB引擎鎖的總結

MySQL 事務

「mysql」索引的設計和使用

MySQL：優化嵌套查詢和分頁查詢

「MySQL」mysql中語句執行的順序以及查詢處理階段的分析

mysql sql語句大全

MySQL 性能調優技巧

MySQL 常用30種SQL查詢語句優化方法

07.26 MySQL 高效分頁方案

MySQL query rewrite插件簡單測試

MySQL 從零開始：02 MySQL 安裝

07.07 MySQL——如何快速對比數據？

不像 MySQL 的 MySQL：MySQL 文檔存儲介紹

「MySQL」關於MySQL中的if和case語句的使用

MySQL-海量數量下的查詢效率提升

「mysql」詳解在查詢時，offset過大影響性能的原因與優化方法

MySQL EXPLAIN詳解

12.13 MySQL EXPLAIN詳解

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"