雲計算數據丟失之殤:數據備份重於一切!

雲計算數據丟失之殤:數據備份重於一切!

今天,一篇題為《騰訊雲給一家創業公司帶來的災難!》的文章刷爆了IT圈。北京清博數控科技有限公司在該文中爆料,因為受到騰訊云云硬盤故障(物理硬盤固件版本bug導致的靜默錯誤)影響,該公司所屬“前沿數控平臺”存放在雲上的數據全部丟失。

隨後,騰訊雲官方對外說明,解釋該硬盤靜默錯誤是在極小概率下被觸發,並承諾對用戶進行13餘萬額外補償的說明,但數據丟失還是引發了巨大的輿論效應。

在數字化時代,數據資產對於企業來說越來越重要。隨著各行各業深度擁抱雲計算,雲上的數據安全也成了企業關注的焦點。不過騰訊雲遇到的用戶數據丟失問題,並不是個案,在其他雲廠商身上也曾經上演。

作為雲計算行業的領頭羊,亞馬遜旗下的AWS早前幾年在數據丟失上有過多次踩坑經歷。據公開消息,2011年-2012年,AWS先後發生三次故障,故障導致EBS卷和Single-AZ RDS實例無法恢復。

谷歌雲也遇到過數據丟失,不過,其遇到的情況有點像是“天災”。2015年8月20日,雷電天氣有四次擊中了比利時布魯塞爾一處電力設施,並導致主要電力系統的供電中斷,而谷歌的數據中心恰好就位於該電力設施的附近,導致磁盤受損、部分雲存儲系統斷線、數據丟失。雖然數據中心很快便切換到了備用電源,但這一切換卻依舊導致0.000001%的數據遭到了刪除,且無法恢復。

雖然0.000001%的數據丟失比例看起來極小,但行業人士估計,谷歌大概擁有10-15EB的數據(每EB等於100萬TB),因此0.000001%的數據依舊相當於100多GB的數據內容。

中國雲計算的老大阿里雲也遇到過類似的問題。今年1月,麥田音樂網(www.mtyyw.com)在其博客中發帖,因阿里雲服務器崩潰,磁盤分區表損壞,自己存放在阿里雲上的數據全部丟失。後來經長時間盡力恢復,最終終於找回在2017年9月份的備份包。該時間點之後至2018年間的所有數據均丟失。

這一事件也在知名技術社區v2ex的一篇控訴帖中得到證實。用戶在帖子中吐槽,在阿里雲上的ECS 生產環境倆主機被無故釋放。在帖子評論中,還有人爆料線上redis實例被釋放。

騰訊雲以及其他雲計算廠商所遇到的數據丟失問題,說明了一個事實:即使有多少個9的可靠性,畢竟不是100%,小概率不管有多小,依然是有可能發生的。這就像是墨菲定律所說的,凡是可能出錯的事就一定會出錯。

我將騰訊雲數據丟失事件發到微頭條後,引發了大家的激烈討論。其中有網友留言稱,“雲數據就是放在別人手裡,自己竟然沒有備份,實在難以想象!”

站在用戶的角度,如果是單機部署,不管放哪家雲上,都存在一定的風險。雖然雲平臺的確有多副本機制,但所有副本都壞了也不是不可能。用戶應該充分考慮備份策略和多活機制,這樣既能防範雲計算層面的問題,也能杜絕應用層錯誤和誤操作導致的問題。

可以說,騰訊雲數據丟失事件,帶來的警示作用是很大的。一方面,雲計算基於服務提供商的技術水準以及規模效應,整體在數據保障上相對自有服務器更具優勢;另一方面,大型雲平臺自身非常複雜,絕對安全的、100%不出問題的雲也不存在,用戶自身也需要做好數據備份和恢復演練。

因為,“備份重於一切”才是IT運維中的唯一真理。​​​​


分享到:


相關文章: