面試官:說說Innodb中LRU怎麼做的？

2019-04-25 17:58:45 java互聯網架構

引言

某日，小編去面試(純屬瞎編)，有了如下對話

面試官:"懂mysql吧，知道CPU在讀硬盤上數據的時候，是怎麼解決CPU和硬盤速度不一致問題麼?"我:"懂啊，mysql先把數據頁加載到內存裡，然後讀內存中的數據啊！"面試官:"你們用的是哪個存儲引擎?"我:"嗯，innodb，因為需要用事務功能！"面試官:"嗯，好。那既然需要把數據頁加載到內存裡，這裡必然涉及到LRU算法，當這塊區域滿了後，將一些不常用的數據頁淘汰掉，innodb具體怎麼做的？"我尷尬的笑了笑，回答道:"我只知道redis中LRU怎麼做的..balabala"面試官:"停，我只想知道innodb怎麼做的？"我:"我還是回去等通知吧~"

接下來回去

於是就有了本文誕生

正文

什麼是BufferPool

Innodb為了解決磁盤上磁盤速度和CPU速度不一致的問題，在操作磁盤上的數據時，先將數據加載至內存中，在內存中對數據頁進行操作。

Mysql在啟動的時候，會向內存申請一塊連續的空間，這塊空間名為Bufffer Pool，也就是緩衝池，默認情況下Buffer Pool只有128M。

那緩衝池長什麼樣的呢，如下圖所示

圖片出自《Mysql運維內參》

如圖所示，有三部分組成:

ctl: 俗稱控制體，裡頭有一個指針指向緩存頁，還有一個成員變量存儲著所謂的一些所謂的控制信息，例如該頁所屬的表空間編號、頁號
page:緩存頁，就是磁盤上的頁加載進Bufffer Pool後的結構體
碎片：每個控制體都有一個緩存頁。最後內存中會有一點點的空間不足以容納一對控制體和緩存頁，於是碎片就誕生的！

這個控制體ctl在mysql源碼中長這樣的

struct buf_block_t{
 //省略
 buf_page_t page;
 byte* frame;
 //省略
}

嗯，懂C語言的自然知道，frame是一個指針啦，指向緩存頁。

而page存儲的就是該頁所屬的表空間編號、頁號等。

在BufferPool中有三大鏈表，需要重點關注，它們存儲的元素都是buf_page_t。

比如，我總要知道那些頁是可以用，是空閒的吧。

OK,這些信息在free鏈表中維護。

再比如，CPU肯定是不會去修改磁盤上的數據。那麼，CPU修改了BufferPool中的數據後，Innodb總要知道要把哪一塊信息刷到磁盤上吧。

OK，這些信息在flush鏈表中維護。

最後，當free鏈表裡沒多餘的空閒頁啦，innodb要淘汰一些緩存頁啦。怎麼淘汰？

這還用問，一定是淘汰最近最少使用的緩存頁啊。

怎麼知道這些頁是最近最少使用的呢？

嗯，那就是要藉助傳說中的LRU鏈表啦。

簡單的LRU

我們先來說一個簡單的LRU算法。LRU嘛，全稱吧啦吧啦…英文名忘了。反正就是一個淘汰最近最少使用

的算法。

然後就去百度了一下，我發現百度是這麼說的

最常見的實現是使用一個鏈表保存緩存數據，詳細算法實現如下：

1. 新數據插入到鏈表頭部；
2. 每當緩存命中（即緩存數據被訪問），則將數據移到鏈表頭部；
3. 當鏈表滿的時候，將鏈表尾部的數據丟棄。

嗯，完美！很完美！反正innodb中不可能這樣設計～

那麼為什麼不能這麼設計呢？

原因一

假設有一張表叫yan_ge_hao_shuai,(請將表名多看幾遍)，回到正題，這張表什麼索引都木有，有著幾千萬數據，反正就是很多很多數據頁。然後，執行下面的語句

select * from yan_ge_hao_shuai

因為沒有任何索引嘛，那就進行全表掃描了。那麼按照上面說的算法，這些數據頁也會被全部塞入LRU鏈表，並且通通加載到BufferPool中，從而迅速清空其他查詢語句留下來的高頻的數據頁。那麼此時，你的BufferPool裡全是低頻的數據頁，就會發現緩存命中率大大滴降低了。

於是你就會覺得:"我勒個去，設計這個Innodb的人，怕不是腦袋有問題…(以下省略一萬字)"

原因二

這裡先說以下innodb的預讀機制，是這樣子滴！這個預讀細說起來可以分為線性預讀和隨機預讀。借一張姜承堯大大的圖，innodb的表邏輯結構如下圖所示

從 InnoDB存儲引擎的邏輯存儲結構看,所有數據都被邏輯地存放在一個空間中,稱之為表空間( tablespace)。表空間又由段(segment)、區( extent)、頁(page)組成。頁在一些文檔中有時也稱為塊( block), InnoDB存儲引擎的邏輯存儲結構大致如圖所示。

其實借這張圖，我只想說一件事。數據頁(page)是放在區(extent)裡的。

那麼

線性預讀:當一個區中有連續56個頁面(56為默認值)被加載到BufferPool中，會將這個區中的所有頁面都加載到BufferPool中。其實挺合理的，畢竟一個區最多才64個頁。
隨機預讀:當一個區中隨機13個頁面(13為默認值)被加載到BufferPool中，會將這個區中所有頁面都加載到BufferPool中。隨機預讀默認是關閉，由變量innodb_random_read_ahead控制。

好了，上面那一堆其實看不懂也沒事。我只想說一件事，預讀機制會預讀一些額外的頁到到BufferPool中。

那麼，如果這些預讀頁並不是高頻的頁呢？

OK，如果這些頁並不是高頻的頁，按照上面的算法，也會被加入LRU 鏈表，就會將鏈表末端一些高頻的數據頁給淘汰掉，從而導致命中率下降。

於是你會覺得:"唉，自己寫一個都比他強…(此處略過一萬字)"

Innodb的LRU

OK，為了解決上面的兩個缺點。Innodb將這個鏈表分為兩個部分，也就是所謂的old區和young區。

天啦嚕，這兩個區幹嘛用的？

ok，young區在鏈表的頭部，存放經常被訪問的數據頁，可以理解為熱數據！

ok，old區在鏈表的尾部，存放不經常被訪問的數據頁，可以理解為冷數據！

這兩個部分的交匯處稱為midpoint，往下看！

怎麼知道兩個區的比例？

執行下面的命令

mysql> SHOW VARIABLES LIKE 'innodb_old_blocks_pct';
+-----------------------+-------+
| Variable_name | Value |
+-----------------------+-------+
| innodb_old_blocks_pct | 37 |
+-----------------------+-------+
1 row in set (0.01 sec)

這說明了old區的比例為37%，也就是冷數據大概佔LRU鏈表的3/8。剩下的就是young區的熱數據。

於是可以得到一張大概的LRU鏈表圖，如下所示(圖片出自網絡)

ps：一般生產的機器，內存比較大。我們會把innodb_old_blocks_pct值調低，防止熱數據被刷出內存。

數據何時在old區，何時進入young區？

好，數據頁第一次被加載進BufferPool時在old區頭部。

當這個數據頁在old區，再次被訪問到，會做如下判斷

如果這個數據頁在LRU鏈表中old區存在的時間超過了1秒，就把它移動到young區
這個存在時間由innodb_old_blocks_time控制

我們來看看innodb_old_blocks_time的值，如下所示

mysql> SHOW VARIABLES LIKE 'innodb_old_blocks_time';
+------------------------+-------+
| Variable_name | Value |
+------------------------+-------+
| innodb_old_blocks_time | 1000 |
+------------------------+-------+
1 row in set (0.01 sec)

那怎麼解決這些缺點的？

針對原因一

也就是所謂的全表掃描導致Bufferpool中的高頻數據頁快速被淘汰的問題。

Innodb這麼做的:

(1)掃描過程中，需要新插入的數據頁，都被放到old區

(2)一個數據頁會有多條記錄，因此一個數據頁會被訪問多次

(3)由於是順序掃描,數據頁的第一次被訪問和最後一次被訪問的時間間隔不會超過1S，因此還是會留在old區

(4)繼續掃描，之前的數據頁再也不會被訪問到，因此也不會被移到young區，最終很快被淘汰

針對原因二

也就是預讀到的頁，可能不是高頻次的頁。

你看，你預讀到的頁，是存在old區的。如果這個頁後續不會被繼續訪問到，是會在old區逐步被淘汰的。因此不會影響young區的熱數據。

監控冷熱數據

執行下面命令即可

mysql> show engine innnodb status\G
……
Pages made young 0, not young 0
0.00 youngs/s, 0.00 non-youngs/s

1、數據頁從冷到熱，稱為young；not young就是數據在沒有成為熱數據情況下就被刷走的量(累計值)。

2、non-youngs/s，這個數值如果很高，一般情況下就是系統存在嚴重的全表掃描，自然意味著很高的物理讀。(上面分析過)

3、youngs/s，如果這個值相對較高，最好增加一個innodb_old_blocks_time，降低innodb_old_blocks_pct，保護熱數據。

總結

本文總結了Innodb中的LRU是如何做的，希望大家有所收穫。

另外，唉，最近有一番新的感慨。

代碼寫的好，bug少，看起來像是一個閒人
註釋多，代碼清晰，任何人可以接手，看起來就是誰都可以替代
代碼寫的爛，每天驚動各大領導提流程改生產代碼，解決生產問題，就是公司亮眼人才
代碼寫的爛，只有自己看得懂，就是公司不可替代的重要人才

心累，社會呀～

分享到:

閱讀更多 java互聯網架構 的文章

關鍵字: 中央處理器 C語言在讀

03.07 面試官：如何用python找出1000以內的所有完數

03.06 面試官：咱們聊一聊Redis分佈式鎖

03.05 面試官：高併發下HashMap的死循環是怎麼形成的？

面試官：如何設計一個可擴展的限流算法？

03.04 面試官：一個TCP連接可以發多少個HTTP請求？

面試官："聊聊線程池中的線程的增長

02.26 面試官："聊聊線程池中的線程的增長

面試官：如何用zabbix實現應用url批量監控？

面試官：說說你都知道哪些Java框架

面試官：談談Spring中都用到了那些設計模式？

面試官：Springbean的幾種注入方式都瞭解嗎？

01.16 面試官：mysql字符集編碼不一致會導致索引失效嗎？

01.09 面試官：為什麼代碼規範要求SQL語句不要過多的join？

面試官：為什麼代碼規範要求SQL語句不要過多的join？

面試官：如何用rabbitmqctl來管理和監控RabbitMQ？

12.24 面試官：MySQL的可重複讀級別能解決幻讀問題嗎？

面試官：為什麼要用Redis

12.09 面試官：優化代碼中大量的if

面試官：優化代碼中大量的if

11.27 面試官：給我手寫一個哈夫曼編碼（java語言實現）

11.21 面試官：如何迅速找出數組中重複的數字？

面試官：給我說說你使用Mybatis的過程中遇到過哪些坑？

面試官：你連RESTful都不知道我怎麼敢要你？

面試官：高併發的性能測試做過嗎？

面試官：如何用shell腳本實現DDOS攻擊自動封禁IP？

面試官：兩個Redis實例怎麼快速對比哪些數據不一致

10.13 面試官：Redis單線程為什麼執行效率這麼高？

10.11 面試官：Redis為什麼設計成單線程的？

面試官：你知道如何減少GC暫停時間嗎？

面試官：您能說說序列化和反序列化嗎？

面試官：知道類在什麼時候加載嗎？

面試官：如何有效處理nohup日誌輸出過大問題？

面試官：100萬個成員的數組取第一個和最後一個有性能差距嗎？

面試官：手寫一個冒泡排序並對其改進（java實現）

面試官：線上服務器CPU佔用率高如何排查定位問題？

面試官：給我說一下你理解的分佈式架構？

面試官：“請講一講數組扁平化”！

面試官：說說你知道的幾種負載均衡分類

面試官：不使用synchronized和lock如何實現一個線程安全的單例？

面試官：能給我講講用代碼實現MySQL的讀寫分離的思路嗎？

面試官：說說一條查詢sql的執行流程和底層原理？

面試官：給我說一下你項目中的單點登錄是如何實現的？

面試官：消息中間件如何實現每秒幾十萬的高併發寫入？

面試官：Spring中用了哪些設計模式？

面試官：請你談談Java的類加載過程

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"