從 RAID 到分佈式系統的副本分佈

2020-02-24 10:16:56 sandag

我們知道，在面對大規模數據的計算和存儲時，有兩種處理思路：

垂直擴展（scale up） ：通過升級單機的硬件，如 CPU、內存、磁盤等，提高計算機的處理能力。
水平擴展（scale out） ：通過添加 更多的機器 到分佈式系統中，提高整個系統的處理能力。

在分佈式技術尚未成熟的時候，小型機、中型機、大型機、超級計算機逐步升級的方案几乎是大型公司的唯一選擇，但是這種垂直擴展是有天花板的，硬件升級的速度遠遠比不上數據規模的增速，即使是超級計算機也無法滿足人們對計算資源的需求。

水平擴展方案，也就是在一個系統裡不斷添加機器的方案，就這麼走上了歷史舞臺。這就是現在的分佈式技術。

在這篇文章裡，我將分別介紹單機系統下的 RAID 存儲技術以及分佈式系統下的存儲分佈技術，這兩種技術在思想上有很相近的地方，希望讀者慢慢體會。

RAID

RAID，全稱是 Redundant Array of Inexpensive/Independent Disks ，也就是磁盤冗餘陣列，這裡的 I 有兩種說法，一種是 Inexpensive，廉價，另一種是Independent ，獨立。所謂 RAID 就是將多塊磁盤組合在一起，對外抽象成一個 容量大

， 讀寫速度高 ， 容錯性好 的大型磁盤。

我很喜歡「抽象」這個概念，因為它為我們屏蔽了更底層的細節，比如操作系統中的文件系統，虛擬內存等。在我看來，RAID 就是對多個獨立磁盤的抽象。

注意，上面的圖裡的三個方面（存儲容量、讀寫速度、數據可靠性）是衡量存儲系統的重要標準，我們在分佈式系統裡也會提及，不過現在讓我們先來看看常用的 RAID 技術。

RAID 0

RAID 0 是數據在從內存緩衝區寫入磁盤時，根據磁盤的數量，將數據分成 N 份，然後把這些數據併發寫入 N 塊磁盤，每塊磁盤上存儲不同的數據，這樣整體的數據寫入速度是單個磁盤的 N 倍，讀取當然也是併發執行的。

因此 RAID 0 具有極快的數據讀寫速度。但是RAID 0不做數據備份，N塊磁盤中只要有一塊損壞，數據完整性就被破壞，其他磁盤的數據就無法使用了。

RAID 1

RAID 1 的策略更為簡單，不管你有幾個磁盤，都給我存一樣的數據，這樣數據的可靠性極高，但是寫入速度收到很大影響。

Any read request can be serviced by any drive in the set. If a request is broadcast to every drive in the set, it can be serviced by the drive that accesses the data first (depending on its seek time and rotational latency ), improving performance. Sustained read throughput, if the controller or software is optimized for it, approaches the sum of throughputs of every drive in the set, just as for RAID 0. Actual read throughput of most RAID 1 implementations is slower than the fastest drive. Write throughput is always slower because every drive must be updated, and the slowest drive limits the write performance. The array continues to operate as long as at least one drive is functioning. ^1

這段話意思是說，RAID 1 的讀取速度取決於哪一個硬盤能 最先訪問 到待讀取的數據，如果軟件上有優化，可以達到 RAID 0 的讀取速度。但是最慢的磁盤限制了寫入速度，因為系統需要等待 最慢的磁盤 完成寫入並做好檢驗工作。RAID 1 的可靠性好，只要陣列裡有任意一塊磁盤還能用，陣列就能繼續工作，而且當新磁盤替代舊磁盤後，系統會自動複製數據。

RAID 10

RAID 0 讀寫速度高，但沒有數據冗餘， RAID 1 做了數據備份，但讀寫速度受到制約，所以就需要想辦法結合 RAID 0 和 RAID 1，揚長避短，RAID 10 就這麼出現了。

RAID 10 就是將 N 個磁盤平均分成兩份，這兩份互為鏡像，相當於是 RAID 1，但對於每份磁盤中的 N/2 塊磁盤來說，其存儲方式像 RAID 0 一樣，可以做到併發讀寫。這樣就做到了折中，在讀寫速度和容錯能力上有一個平衡。

我們不難看出來，RAID 10 的磁盤利用率較低，有一半的磁盤都拿來做備份了，著實有些奢侈。

就一般情況而言，服務器上很少出現同時損壞兩塊磁盤的情況，往往是損壞一塊磁盤的時候，就換上新的磁盤，然後利用恢復技術恢復損壞磁盤上的數據，所以我們可以據此設計一個磁盤利用率更高的方案。

RAID 3 and RAID 5

有了前面的討論，我們可以想到，如果任何一塊磁盤上的數據，都能通過其它 N-1 塊磁盤上的數據恢復出來，不就解決我們的問題了嗎？

校驗機制正好滿足我們的要求。

在寫入磁盤的時候，我們把數據分成 N-1 份，併發寫入 N-1 塊磁盤，然後用剩下的一塊磁盤記錄校驗數據，這樣我們就可以容忍任意一塊磁盤的損壞。

根據校驗數據寫入的位置，我們有了兩種方案：

RAID 3： 所有的校驗數據寫在同一塊磁盤上 。在 數據修改較頻繁
的場景下，任何一塊磁盤上數據的修改都會導致校驗盤要 重新寫入數據 。這會導致校驗盤比其他磁盤更容易損壞，所以 RAID 3 很少在實踐中使用。用專業一點的話來說，就是 負載不均衡 了。
RAID 5： 校驗數據螺旋式地寫入所有磁盤 。看上面的圖就能分辨出這兩種方案的差別，RAID 5 讓每一塊磁盤都承擔一部分的校驗工作，這樣修改校驗數據的壓力也就被分散到了所有的磁盤，做到了我們所期望的 負載均衡 。因此 RAID 5 是使用更為廣泛的方案。

RAID 6

相較於 RAID 5，RAID 6 的可靠性更高，因為 RAID 6 採用了兩種校驗碼螺旋寫入的方案，這樣可以容忍兩塊磁盤同時損壞。

什麼情況下需要這樣的容錯能力？在大型服務器上，每塊磁盤的容量往往很大，在某一塊磁盤損壞後，即使立馬替換上了新磁盤，也 需要很長時間才能把所有數據恢復完畢 ，那麼在這段時間裡，如果有另一塊磁盤損壞，數據就沒辦法恢復了，這是我們不能接受的，因此就需要 RAID 6 來確保數據的完整性。

分佈式存儲方案

PS：本文著重於分佈式系統的副本與數據分佈的關係，因為這部分的思想與 RAID 有相似之處，關於一致性哈希等問題將單獨寫一篇文章介紹。

分佈式系統應對的存儲規模要比單機大很多，但基本思想和設計目標都是一致的：

提高系統的吞吐量
提高系統的存儲容量
利用數據備份，提高系統可靠性

與單機情況不同，分佈式系統面臨的問題要多得多，因為服務器之間的數據是通過網絡傳輸，延時較高，甚至可能會出現網絡中斷，導致某些機器無法訪問。這對我們的存儲方案有很大影響，比如，我們還能用類似 RAID 5 的校驗方式來做冗餘嗎？

答案是否定的，因為做校驗的成本太高了，一次校驗需要其它 N-1 臺機器的響應，一等就是幾十毫秒，效率極低，而且網絡負載太大了。相反，RAID 10 的方案看起來更適合現在的情況。

以機器為單位的副本

在該方式下，若干機器互為副本，副本機器之間的數據是完全一樣的，就像 RAID 1 的方案一樣。這種方式的優點就是簡單，但缺點也很明顯：

恢復數據的效率低：假如機器 3 磁盤損壞，丟失了所有的數據，於是我們又調度一臺新機器進入該機器組，為了讓該機器儘快提供服務，需要從其他兩臺機器上拷貝數據。但是由於網絡帶寬的限制，數據恢復的速度慢。
可擴展性不高：每個機器組有三臺機器，想要擴展，就需要一次加三臺機器。
不利於系統容錯：一臺機器宕機，讀寫壓力將由剩下的兩臺機器承擔，壓力增加了 50 %，很有可能超過單臺機器的處理能力。

因此，以機器作為副本單位不適合當前的場景，我們需要尋找其它的途徑。

以數據段為單位的副本

相較於以機器為副本單位，將數據拆分成以數據段為單位作為副本的靈活性更佳，下面我就用一個更直觀例子來說明該方案的優點。

該例子下，機器 1 的所有數據都分佈在其他的 7 臺機器上，忽略集群中其他的機器。

這種方案為我們帶來了什麼好處？

恢復數據的效率高。假設機器 1 數據丟失，需要重新拷貝所有數據，由於數據分佈在剩下的 7 臺機器上，我們可以從剩下的所有機器同時拷貝恢復數據，這樣，即使每臺機器都以較低的資源做拷貝工作，也能很快將數據複製完畢。注意，集群越大，每臺機器上承擔的工作量就越小，而且實現了負載均衡。
集群的可擴展性高。當加入一臺新的機器時，我們只需要從每臺機器上遷移 1/8 比例的數據段到新機器上，實現新的負載均衡。
系統容錯性高。假設機器 1 宕機，暫時無法提供服務，那麼剩餘 7 臺機器的壓力提高 14.3% ，可以接受。

但是這種方案不是沒有問題，因為我們需要一臺服務器來記錄數據段與機器的對應關係，這臺服務器稱為 元數據服務器 。可以想象，隨著集群規模的增長，需要管理的元數據的開銷也會不斷增大，副本的維護難度相應增大，所以現在一種折中的方案是，將某些數據段組成一個數據段分組，以數據段分組為粒度進行副本管理，這樣，可以將副本粒度控制在一個較為合適的範圍。

分享到:

閱讀更多 sandag 的文章

關鍵字: 電腦中央處理器超級計算機

ThreadLocal原理分析與使用場景

阿里大牛實戰歸納——Kafka架構原理

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"