騰訊雲復盤數據丟失全程啓示:雲計算也要注意「海恩法則」

8月5日,一家名為"前沿數控"的創業公司與騰訊雲槓上了,因其放在騰訊雲的數據全部丟失且無法恢復,故要求騰訊雲賠償11016000元。

針對"前沿數控"數據丟失一事,騰訊雲方面也向"前沿數控"表達了歉意,並提出"賠償+補償"的解決方案。在騰訊雲官方聲明中也說明,其原意承擔136469元的賠償金,然而這與"前沿數控"所要求的11016000元賠償相差甚遠,故雙方未達成一致。

騰訊雲覆盤數據丟失全程啟示:雲計算也要注意“海恩法則”

技術覆盤,數據丟失系操作不當

8月7日晚間,騰訊雲對外公佈了其內部調查的關於客戶"前沿數控"數據完整性受損的技術覆盤情況。騰訊雲表示:系運維人員人為操作錯誤導致有關數據最終無法恢復。

騰訊雲在對故障原因進行分析和覆盤後得出結論:本次事故起源自因磁盤靜默錯誤導致的單副本數據錯誤,再由於數據遷移過程中的不規範操作,導致異常數據擴散至三副本,三副本安全機制失效,最終導致客戶數據完整性受損。

具體來說,騰訊雲的運維人員存在如下兩點違規操作。

第一次,運維人員為了加速完成搬遷任務,違規關閉了數據校驗。而正常數據搬遷流程是默認開啟數據校驗,這樣才能有效發現並規避源端數據異常,保障搬遷數據正確性。

第二次,運維人員為了儘快降低倉庫使用率,違規對源倉庫進行了數據回收。而正常的操作是數據搬遷完成後,源倉庫數據應保留24小時,用於搬遷異常情況下的數據恢復。

兩次失誤操作,導致"前沿數控"全部數據徹底崩潰,無法恢復。

優化流程,降低人工干預

除了覆盤了"數據丟失"的全程,騰訊雲還針對數據安全性的問題,發佈了相應的改進措施。

騰訊雲覆盤數據丟失全程啟示:雲計算也要注意“海恩法則”

根據騰訊雲發佈的內容顯示,未來騰訊雲存儲,涉及數據安全的流程自動化閉環,進一步提升我們常規運維自動化和流程化,降低人工干預。同時,此前"數據丟失"事件人工干預的校驗數據功能,未來將不允許被關閉。

另外,騰訊雲還將優化巡檢機制,通過優先巡檢主副本數據塊、跳過近期用戶訪問過的正確數據塊等方法,加速發現該類錯誤,進行數據修復。

雲的"海恩法則",推動行業完善機制

目前,事件還在發酵,但這次的事件就猶如"海恩法則",更應該給行業一個血的教訓。

正如德國飛機渦輪機的發明者德國人帕布斯·海恩提出的在航空界關於安全飛行的法則——海恩法則:每一起嚴重事故的背後,必然有29次輕微事故和300起未遂先兆以及1000起事故隱患。

騰訊雲覆盤數據丟失全程啟示:雲計算也要注意“海恩法則”

法則強調兩點:一是事故的發生是量的積累的結果;二是再好的技術,再完美的規章,在實際操作層面,也無法取代人自身的素質和責任心。

至今,雲計算在各行各業的重要性已經不言而喻,雖然產業已經成熟,但技術並沒有達百分百的保障,這不僅僅是出現問題的騰訊雲的痛點,更是全行業的痛點。

騰訊雲覆盤數據丟失全程啟示:雲計算也要注意“海恩法則”

當下的雲服務商,經常宣傳自己"幾個9"的可靠性,但始終不是"1",即便是億分之一的概率,但對於用戶也只有"丟失"與"不丟失"兩種選擇。

同時,"前沿數控"的事情也告訴雲計算的用戶,不論誰家的"雲",重要的數據一定要保證自己備份,或者製作快照。莫等數據丟失,再去辛苦索賠,得不償失。

騰訊雲服務的前沿數控數據丟失,或許給行業"進化"提供了一個契機,只不過這個契機代價有點大。


分享到:


相關文章: