圖解PostgreSQL--buffer管理

2020-01-11 21:26:52 yanzongshuaiDBA

一、共享緩衝區數據結構

1、Buffer由數組BufferDescriptor[]數組進行管理。該數組由函數InitBufferPool創建，大小為NBuffers個成員即BufferDesc。該數組創建後由StrategyControl進行管理，firstFreeBuffer為鏈表頭，指向鏈表第一個成員；lastFreeBuffer指向鏈表尾；所有free list中成員由freeNext串起來，該值為數組下標。

2、BufferDescriptor數組是共享內存中申請，所有進程共享。

<code>進程1：

(gdb) p BufferDescriptors

$1 = (BufferDescPadded *) 0xa615fb80

(gdb) p *BufferDescriptors

$2 = {bufferdesc = {tag = {rnode = {spcNode = 1664, dbNode = 0,

relNode = 1262}, forkNum = MAIN_FORKNUM, blockNum = 0}, buf_id = 0,

state = {value = 2199126016}, wait_backend_pid = 0, freeNext = -2,

content_lock = {tranche = 53, state = {value = 536870912}, waiters = {

head = 2147483647, tail = 2147483647}}}, pad = "\\200"}

進程2

(gdb) p BufferDescriptors

$1 = (BufferDescPadded *) 0xa615fb80

(gdb) p *BufferDescriptors

$2 = {bufferdesc = {tag = {rnode = {spcNode = 1664, dbNode = 0,

relNode = 1262}, forkNum = MAIN_FORKNUM, blockNum = 0}, buf_id = 0,

state = {value = 2199126016}, wait_backend_pid = 0, freeNext = -2,

content_lock = {tranche = 53, state = {value = 536870912}, waiters = {
 

head = 2147483647, tail = 2147483647}}}, pad = "\\200"}/<code>

3、同時還會通過一個環形區進行管理這些數組成員。當進行大表掃描時使用。由strategy->buffers[]數組管理，該數組存儲的是BufferDescriptors[]數組的下標+1後的值，而每次取buf描述符時，從strategy->current值開始進行選擇。選出的不可用後，依次向後進行遍歷，遍歷到頭後從頭再來進行選擇，即形成一個環。是否可用的標準後文詳述。

4、下面說下BufferDesc成員變量。

1）BufferTag tag為一個描述符對應磁盤物理頁的映射。即space ID+database ID+文件ID -- forkNum（表文件還是fsm文件或者vm文件）-- 頁號

2）buf_id為buffer數組BufferBlocks[]的下標

3）state為狀態標記，包括該buffer的refcount和usagecount以及是否合法valid等待

4）wait_backend_pid：若進程A需要刪除的元組所在緩衝塊有其他進程訪問，即refcount>0時，進程A不能物理上刪除元組。系統將該進程的ID記錄在wait_backend_id上，然後對緩衝塊加pin，並阻塞自己。當refcount為1時最後一個使用該緩衝塊的進程釋放緩衝區時，會向wait_backend_id進程發送消息。

5）FreeNext為鏈表的下一個節點的下標

6）content_lock為buffer鎖，當進程訪問緩衝塊時加鎖，讀加LW_SHARE鎖，寫加LW_EXCLUSIVE鎖

二、共享緩衝區分配buffer原理

1、共享buffer的分配

1、前期準備：

1）該buffer分配有4種情況：從hash表SharedBufHash中查找；從環形緩衝區查找；從free list查找以及驅逐策略進行分配。

2）hash表SharedBufHash同樣是共享內存全局的，所有進程公有。下面分別是兩個會話連接的server端進程打印出的hash表。

<code>(gdb) p SharedBufHash

$1 = (HTAB *) 0x87f5b04



(gdb) p SharedBufHash

$1 = (HTAB *) 0x87f5b04/<code>

該hash表同樣在InitBufferPool中進行創建：

<code>StrategyInitialize->InitBufTable(NBuffers + NUM_BUFFER_PARTITIONS)->

SharedBufHash = ShmemInitHash/<code>

3）該hash表中條目為：[BufferTag,id]即key值為物理磁盤頁的標誌，id為對應buffer的ID

3）首先需要創建一個newTag，對應物理文件的一個頁

4）通過newTag到函數BufTableHashCode中計算hash表的key值newHash

5）共有128個buffer partition鎖，通過hash的key值以輪詢的方式取鎖

6）此時對key值對應的buffer partition加LW_SHARED鎖

2、此時進入第一種獲取buffer描述符的方法：所有進程共享的SharedBufHash

1）根據newTag從hash表SharedBufHash中查找對應的buffer

2）buf_id>0則表示數據頁在hash表中找到，即對應數據頁以加載到內存

3）根據buf_id獲取buffer的描述符BufferDescriptors[buf_id)].bufferdesc

4）通過函數PinBuffer將對應buffer pin住，然後就可以將buffer的partition鎖釋放

即，將buf的state的refcount+1，usagecount根據情況+1，具體流程下文分析。

5）pin失敗，通過StartBufferIO判斷，返回TRUE，緩衝區無效，此時foundPtr為false，並返回對應buf；返回false，表示別人正在使用，直接返回對應buf。foundPtr表示是否在緩衝區命中

3、若hash表中不存在，則需要從磁盤讀取。首先釋放buf的partition鎖，進入循環。

1）StrategyGetBuffer取出一個buf描述符，具體原理見下文。

2）PinBuffer_Locked將buf的refcount+1

3）此時該buf為髒塊BM_DIRTY，則對buf->content_lock加LW_SHARED鎖，加鎖失敗釋放pin，返回1）。加鎖成功根據strategy是否為空處理。

4）使用環形緩衝區，即strategy不為空：BM_LOCKED鎖內獲取buf髒頁的lsn，根據lsn判斷其日誌是否已經刷寫到磁盤，若未則將該buf從環形緩衝區刪除；釋放buf->content_lock鎖及pin，返回1）重新循環進行選擇。

5）使用環形緩衝區且日誌已刷或者未使用環形緩衝區，則調用FlushBuffer將髒數據刷寫磁盤，最後釋放buf->content_lock鎖。

6）接著進入4，當該頁不為髒時也進入4

4、替換為自己的tag

1）先獲取buf的oldTag，是誰用過。其oldPartitionLock和newTag的newPartitionLock按順序加鎖，若同一個則只加一個鎖。LW_EXCUSIVE

2）將newTag對應的條目插入到hash表SharedBufHash

3）buf_id>=0，表示該條目已在hash表，那麼unpin、oldPartitionLock鎖釋放後，獲取老buf，pin後釋放newPartitionLock

4）pin失敗，通過StartBufferIO判斷，返回TRUE，緩衝區無效，此時foundPtr為false，並返回對應buf；返回false，表示別人正在使用，直接返回對應buf。foundPtr表示是否在緩衝區命中

5）buf_id<0，即未在hash表SharedBufHash：buf_state的refcount==1且不為BM_DIRTY，表示無人使用該buf，退出循環，將buf->tag=newTag，最後釋放相關鎖

6）否則，需要釋放相關鎖，並將newTag對應的條目從hash表刪除後，重新回到3進行選擇。

2、PinBuffer

1、若buffer的state已為BM_LOCKED即已加鎖，則需等待，該鎖是pin鎖

2、GetPrivateRefCountEntry獲取ref,若ref不為NULL，則表示別人在使用，然後TRUE。是這樣理解嗎？需要理解這個函數

3、原子操作讀取state值old_buf_state，並將之保存為buf_state

4、buf_state的refcount+1

5、默認策略下，即從free list中選擇空閒描述符，buf_state的usagecount+1；環形緩衝區策略下，buf_state的usagecount保持為1

6、通過CAS操作將buf->state的值替換為buf_state的值

7、函數返回TRUE表示該buffer的數據有效，即合法的數據已經加載到內存；返回false表示數據無效，即數據未加載到內存

3、StartBufferIO：開啟IO，將buf狀態置為BM_IO_IN_PROGRESS

1、每個buffer都有一個IO鎖(BufferIOLWLockArray[(bdesc)->buf_id]).lock

2、獲取buf_state狀態，需要先將其置為BM_LOCKED

3、該buf此時已為BM_IO_IN_PROGRESS，即正在讀寫，需要將上面兩個鎖釋放後WaitIO等待狀態變化

4、forInput為TRUE：要向裡面寫，需要其為!BM_VALID，若是BM_VALID表示有人已經向裡寫了合法數據；FALSE：需要向外讀，若為!BM_DIRTY表示已有人刷寫了。釋放兩個鎖返回

5、將buf_state置為BM_IO_IN_PROGRESS。

6、返回TRUE，表示buf中數據無效，可以使用。False，表示別人正在使用

4、StrategyGetBuffer

1、如果使用strategy，則從環形緩衝區取一個空閒的描述符：bufnum=strategy->buffers[strategy->current]；buf = GetBufferDescriptor(bufnum - 1);，若沒有可用的則GetBufferFromRing返回NULL，否則直接返回該buf。

2、環形緩衝區取buffer失敗，則去free list取

3、StrategyControl->firstFreeBuffer>0，此時list不為空，

4、則先申請spin鎖StrategyControl->buffer_strategy_lock，再次判斷鏈表情況，若StrategyControl->firstFreeBuffer<0鏈表空了，則釋放鎖後退出循環，進入第8步

5、獲取StrategyControl->firstFreeBuffer指向的buffer描述符，並將該節點從free list刪除

6、釋放StrategyControl->buffer_strategy_lock鎖

7、該buf的refcount和usagecount都為0，則表示我們可以用，若strategy不為NULL，則現將該buf放到環形緩衝區，返回該buffer描述符；否則再次到第4步循環

8、此時free list都取了一遍，但是沒有可用的，通過時鐘算法，即循環StrategyControl->nextVictimBuffer取該buf，看其是否可用。同樣如果找到後，根據strategy是否為NULL，將其放到環形緩衝區。將所有buf都取了一遍後，仍沒有可用的話就報錯：no unpinned buffers available

三、本地緩衝區數據結構

1、數組LocalBufferDescriptors[]為本地緩衝塊的描述符，buf_id從-2開始，都是負數。為和共享緩衝區有區別，通過是否為負值就可以判斷是否是本地緩衝區

2、數組大小由變量num_temp_buffers控制

3、LocalBufferBlockPointers數組為本地緩衝塊的指針。這些數組的初始化由函數InitLocalBuffers完成，此時並沒有分配本地緩衝塊內存。

4、本地緩衝塊內存的申請和分配由函數GetLocalBufferStorage完成。第一次時從內存上下文LocalBufferContext中分配16個頁大小的block，然後將第一個頁地址分配給LocalBufferBlockPointers[i]，並不是一下子全部分配，下次使用時再分配數組下一個頁。

5、16個頁的block用完，再次申請32個頁的block；同理32個頁的block用完，申請64個頁的block，每次都是之前的兩倍。

6、最大一次分配1個GB的block

四、本地buffer的分配

1、本地buffer的分配由函數LocalBufferAlloc來完成，用於臨時表的讀寫。

2、同樣需要先初始化tag：newTag，唯一標記一個物理頁

3、第一次使用臨時表時，需要通過calloc創建一系列緩衝區（InitLocalBuffers完成）：幾個數組，大小為num_temp_buffers，即該變量控制大小。

LocalBufferDescriptors[]：存儲本地緩衝塊的描述符

LocalBufferBlockPointers[]：本地緩衝塊指針數組，存儲指向塊的指針

LocalRefcount[]：每個描述符引用次數

LocalBufHash：用戶管理本地緩衝塊的hash表，key為tag，value為buffer的數組下標。

4、通過tag從LocalBufHash表中查找，看有沒有，是否已經加載到內存。

5、LocalBufHash表中已存在：

1）獲取其ID，然後獲取local buffer的描述符bufHdr

2）原子操作讀出bufHdr的state即buf_state

3）buf_state的usagecount保持為1？refcount+1

4）buf為BM_VALID，則foundPtr為TRUE，表示命中緩衝，否則為false

5）返回該描述符bufHdr

6、LocalBufHash不存在：

1）通過該值nextFreeLocalBuf遍歷本地緩衝區，若超過NlocBuffer值則從頭開始遍歷

2）LocalRefcount對應的引用值不為0，則返回到1）；否則取出其bufHdr的state

3）usagecount=0，表示沒有人在用，則LocalRefcount=1後退出循環，進入步驟7

4）usagecount>0，則將usagecount-1後返回1）重新選擇下一個

7、buf_satate為BM_DIRTY，則需要刷髒：

1）獲取具體頁localpage，smgropen一個oreln，如打開checksum則計算checksum並寫入localpage；smgrwrite將其寫入到磁盤；最後將狀態置為非BM_DIRTY

8、如果第一次使用本地buffer，則需要調用GetLocalBufferStorage將其掛到TopMemoryContext

9、如果該buffer緩衝區的數據有效，則需要更新hash表：將該tag從LocalBufHash中刪除，並將狀態置為 ~(BM_VALID | BM_TAG_VALID)，其bufHdr->tag需要清空

10、將新的tag newTag插入hash表LocalBufHash

11、將bufHdr->tag替換成newTag，此時是我們的tag了。

12、buf_state清空，並且置為BM_TAG_VALID,且usagecount加1，foundPTR為false

13、返回buf描述符bufHdr

分享到:

閱讀更多 yanzongshuaiDBA 的文章

關鍵字: PostgreSQL 虛擬機圖解

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"