一眼看透機械硬盤是否可靠:桌面級、監控機、企業級

在企業級存儲市場中,結構化數據的存儲很快就會是SSD的天下,機械硬盤(HDD)會逐步退出;非結構化數據因為其巨大的容量,從成本的角度來看,會長時間存在。但不論怎麼說,SSD代替HDD是趨勢。生產HDD的廠家很少,就WD、希捷、HGST等,其中,HGST也是WD的子公司。看似他們壟斷了市場,但他們的日子卻不好過。因為HDD大勢已去,在SSD領域,領先的卻是Intel、三星等玩家。HDD越做越大,價格也越來越低。

但IPFS等存儲挖礦項目卻讓HDD市場又看到了一點希望。今年,10TB以及以上的硬盤大幅度缺貨,價格比去年的最低點已經上漲了30%。瘋狂的玩家囤礦機(存儲服務器)、囤硬盤。我從好幾個地方,都聽到了有人批量買幾萬塊硬盤的事情。【注:只是聽說,不一定代表事實】也冒出來了各種各樣的IPFS礦機,大多數都像最低端的群暉NAS一樣,插了一塊硬盤,擴展性不是特別好,放在家裡,等待文件幣發佈就挖礦。如果這個礦機能做一個家用NAS,也挺好的。許多人也在對比各種礦機。但大家容易忽視的是,同是機械硬盤,其可靠性也千差萬別。我們不能光看硬盤容量,而要看洞察更多的硬盤參數。好在這些參數不多,非常容易理解。

我們就以希捷的硬盤為例來進行講解。型號太多,就說說幾種典型的。

一、 桌面級硬盤

這是消費級電腦中最常用的硬盤,基本都是採用SATA接口。比如希捷BarraCuda系列的8TB硬盤ST8000DM004。

  • 最大值持續數據傳輸率OD(MB/秒):190MB/秒。 看上去這個值挺高的。但它只是硬盤外圈的順序讀寫性能。較小的文件讀寫,基本都達不到這個性能。
  • 每年運行小時數(24×7) :2,400。 如果24x7開機,每年能運行2400小時。也就是能每年持續運行100天。每天上班8小時的辦公室文員,用這個硬盤不錯;但用來挖礦,就有點悲催了。所以……存儲挖礦,肯定不能選擇桌面級硬盤。
  • 工作負載評級限制(TB/年):55。 一每年讀寫55TB數據以下,故障率較低。以前的HDD參數沒有這個值。SSD因為Flash的磨損次數有限制,有一個TBW值。HDD理論上讀寫次數沒有限制,但因為機械部件多,可靠性並不高,所以,也可以理解廠商為什麼需要加這個參數。
  • 有限質保(年):2 桌面級硬盤保修2年。
  • 最大不可恢復錯誤/被讀數據(位):1/10E14。 這個是大多數人不瞭解的參數。我認為是評估硬盤穩定性的最重要的參數之一。HDD運行過程因為受到振動等影響,是非常容易出錯的。但因為糾錯手段完善,大多數錯誤可以被糾正。但仍然會存在一定概率,在工作環境正常的情況下,錯誤無法糾正。通常我們就把它認為是ECC算法也無法糾正的錯誤,所以叫做Uncorrectable ECC Count。這個桌面硬盤對應的值為10的14次方分之一,其含義為,從硬盤上讀10的14次方個bit,就可能出現一次無法被糾正的錯誤,導致數據出錯。10的14次方個bit,其實大概就是11TB的數據。從概率上來講,全盤讀寫1次大容量硬盤,就很可能出現這樣的錯誤。


二、監控級硬盤

這是在安防系統中最常用的硬盤。基本都是採用SATA接口。

  • 最大值持續數據傳輸率OD(MB/秒):根據容量的不同,該值從180MB/秒到210MB/秒,和桌面級硬盤差不多。
  • 每年運行小時數(24×7):清一色的是8760。說明可以一年365天不間斷運行。這和桌面級硬盤有非常大的區別。
  • 額定工作負載限制(WRL):180TB。 相對於桌面級硬盤的工作負載評級限制,該值要高不少。
  • MTBF(平均故障間隔時間) :1,000,000 hr。 桌面級硬盤的參數中,就沒有寫這個值。1百萬小時,是理論上可以用114年嗎?顯然不是。大概可以這麼算,1/114約等於0.9%,說明年壞盤率理論上為0.9%。當然,這個只是理論值,實際的壞盤率受到多種因素的影響。
  • 有限質保(年):3 顯然,3年的質保,也是廠商對這種硬盤更有信心。
  • 最大不可恢復錯誤/被讀數據(位):ST4000VX007這塊4TB的硬盤為1/10E14,其他型號為1/10E15。前幾年的較老型號監控級硬盤其值均為1/10E14,顯然是非常容易壞的。如果為1/10E15,需要寫入將近113TB數據,從概率上才會出現一次不可恢復的錯誤,自然可靠性會增大很多。

(注:希捷還有充氦氣的監控硬盤,但從型號和參數來看,完全是企業級硬盤的範疇了。)


一眼看透機械硬盤是否可靠:桌面級、監控機、企業級


三、企業級硬盤

這是企業級存儲系統和數據中心最常用的硬盤。可靠性自然比前面兩種硬盤要高很多。接口有SATA和SATA,其中SAS又分NL-SAS(近線SAS)和高轉速SAS(1萬轉或1.5萬轉)。NL-SAS盤和企業級SATA盤的主要差別在於接口採用SAS,可以支持雙端口(用於雙控存儲系統,可以兩個主機同時連接),其他參數基本一致。高轉速SAS盤的轉速高於我們常用7200轉,性能更好,可靠性也更高,但容量相對較小,價格也比較昂貴。大容量企業級SATA硬盤(8TB及以上)一般在內部充氦氣,利用氦氣的惰性,可以全面提升硬盤容量,從數據中心的壞盤率統計來看,其可靠性也更高。這裡我們討論希捷的企業級SATA硬盤,以常用的10TB充氦氣硬盤ST10000NM0016為例。

  • 最大值持續數據傳輸率OD(MB/秒):249MB/秒。 這個值比前面的硬盤略微高一點點,但也高不到哪裡去。
  • 隨機讀取/寫入4K QD16 WCD (IOPS) :170, 138。 這是4KB隨機讀和寫的IOPS值,表示每秒最大的I/O請求個數。算成帶寬,就是680KB/秒和552KB/秒。我去,這個值和前面的傳輸速度差了好幾個數量級!對於HDD來說,因為機械部件的尋道時間很難縮短,所以這個值是很正常的,這也是為什麼SSD會受到追捧的重要因素之一——SSD的隨機性能遠高於HDD。前面的桌面級硬盤和監控級硬盤都沒有寫這個參數呢,它們的實際IOPS值比企業級硬盤更差。這也是為什麼專業的存儲系統,需要複雜的算法,通過CACHE等手段,儘可能變隨機的讀寫為有點點順序的讀寫,來提升系統的整體性能。
  • 每年運行小時數(24×7):8760。因為一年只有365天,所以這個值也不會更大了。
  • 平均故障間隔時間(MTBF,小時) :2,500,000。理論上,年壞盤率為0.35%。
  • 有限質保(年) :5。 顯然,希捷對於企業級硬盤更有信心。
  • 不可恢復錯誤/被讀數據(位) :1 扇區/10E15。從概率上講,每讀寫10的15次方個bit,會有一個扇區出現不可恢復的bit。 10TB的硬盤,從頭到尾讀寫超過11遍,平均會遇到一次這樣的情況。比起桌面級硬盤,還是要穩定許多。

(注:沒有看到額定工作負載限制或類似的參數。看來企業級硬盤直接取消了這個讀寫數據量的限制。)


一眼看透機械硬盤是否可靠:桌面級、監控機、企業級


回過頭再來看看“不可恢復錯誤/被讀數據(位)”這個參數。企業級SATA盤和較新的監控級硬盤,比較老的監控級硬盤和桌面級硬盤要高一個數量級,自然要穩定許多。桌面級硬盤和監控級硬盤的對應參數名字前加了一個“最大”,企業級硬盤沒有寫“最大”,不知道是否希捷有意為之。如果是,證明企業級硬盤的讀寫錯誤更低。以前問過硬盤廠商的工程師,他們回覆說,桌面級硬盤和監控級硬盤沒有防震芯片,所以錯誤率高;企業級硬盤,和較新的監控級硬盤,都加了這個芯片,通過避震的方式來提高可靠性。

我們也接觸過大量的存儲項目,有上萬片硬盤實際運行的穩定性統計數據。某項目用了80%的監控級硬盤(不可恢復錯誤/被讀數據(位)這個值為1/10E14)和20%的企業級SATA硬盤,運行了三年,監控級硬盤的壞盤率超過10%,但企業級硬盤的壞盤率低於1%。桌面級硬盤因為都不能全天候運行,所以完全不適合這種大型的項目。另外,如果大容量硬盤做RAID5或者RAID6,壞了一塊盤,會導致硬盤重建。如果該參數為1/10E14,基本上硬盤從頭到尾讀一遍,就有很大的概率產生新的不可恢復錯誤,直接導致第二塊壞盤的產生。這個也是為什麼RAID5/6在重建的時候,很容易產生第二塊盤,導致RAID出現更嚴重問題的原因。實際上,重建的時候,所有硬盤都在高速讀寫,其震動本身就會導致更多的問題。不用RAID容易壞盤導致數據丟失,使用RAID也容易壞盤,那怎麼辦?選擇更高可靠性的硬盤,才是正確的辦法。如果是高轉速的SAS硬盤和企業級SSD,不可恢復錯誤/被讀數據(位)往往都是1/10E16甚至更高,其出錯的概率就會更低了。

除了上面的HDD,希捷還有NAS系列的硬盤,可以滿足全天候的運行需求,價格比企業級硬盤低。但因為我沒有用過,所以暫時不評述。

如果存儲挖礦,選擇什麼硬盤比較好呢?雖然性價比是首要因素,但因為其不間斷運行的機制,對硬盤的選擇我們不能不漠視。不是價格便宜容量越大越好。SAS硬盤不是考慮的範圍,企業級SATA硬盤應該是主力,不過價格可能會偏貴。至於新一代的監控級硬盤和NAS硬盤,是否可以滿足長時間穩定運行的要求,還需要更多的運營數據來分析。

再好的硬盤,也可能會很快壞掉。以上所有的參數,都是針對大批量硬盤而言的平均值。所以,通過軟件進行合理的硬盤管理(RAID、CACHE、硬盤全程監控),是必要的手段,且需要一個易用的存儲管理系統,在硬盤真的出現問題時,能夠及時發現,及時排除故障,保證系統的穩定運行。算了,說再多了就是廣告了。


一眼看透機械硬盤是否可靠:桌面級、監控機、企業級



針對之前文章的評論,我把大家比較關注的內容,統一加在文章的後面。

國行盤和OEM盤:淘寶上購買硬盤的時候,一些賣家會說這是OEM盤,所以便宜。所謂的OEM盤,就是希捷、WD等原廠供給大客戶(比如海康大華、華為、BAT等)的硬盤。因為這些客戶採購量大,所以給他們的價格就比普通的市場價格要低。但硬盤廠商也有要求,就是這些盤只能用於客戶自家的產品或者項目,不能隨意拿來到市場渠道上面以批發或者零售的方式銷售,不然就打亂了他們已有的市場體系。OEM盤的確要便宜一些(比如便宜10%),也有少量的渠道在賣,如果動作不大,不張揚,原廠也就睜一隻眼閉一隻眼,誰也不想得罪誰。國行盤和OEM盤的對應型號,就產品本身是一模一樣的,沒有啥區別。但售後服務有區別。國行的話,是原廠負責,比如希捷可以保修5年。如果是OEM盤,有問題只能找供應商,一般保修3年。


分享到:


相關文章: