騰訊雲丟失數據被索賠1100萬!官方承認有兩次違規

近日,騰訊雲的客戶北京清博數控科技有限公司所屬“前沿數控”平臺一塊操作系統雲盤發生故障,導致文件系統元數據損壞。

騰訊方面提出了總金額136,469元的“賠償+補償”解決方案,前沿數控則索賠11,016,000元,被騰訊認為過高,雙方未達成一致。

現在,騰訊雲發佈了一份關於客戶“前沿數控”數據完整性受損的技術覆盤,對客戶業務所受影響表示誠摯歉意的同時,詳細解釋了此次故障發生的根源,以及將採取的措施。

騰訊雲經過覆盤發現,故障緣起於因磁盤靜默錯誤導致的單副本數據錯誤,再加上數據遷移過程中的兩次不規範的操作,導致雲盤的三副本安全機制失效,並最終導致客戶數據完整性受損。

當天上午11:57,騰訊雲運維人員收到倉庫I空間使用率過高告警,準備發起搬遷擴容。

14:05,運維人員從倉庫I選擇了一批雲盤搬遷至新倉庫II,為了加速搬遷,手動關閉了遷移過程中的數據校驗。

20:27,搬遷完成之後,運維人員將客戶的雲盤訪問切至倉庫II,同時為了釋放空間,對倉庫I中的源數據發起了回收操作。

20:30,監控發現倉庫II部分雲盤出現IO異常。

騰訊表示,數據搬遷過程中的違規操作主要如下兩點:

第一是正常數據搬遷流程默認開啟數據校驗,開啟之後可以有效發現並規避源端數據異常,保障搬遷數據正確性,但是運維人員為了加速完成搬遷任務,違規關閉了數據校驗;

第二是正常數據搬遷完成之後,源倉庫數據應保留24小時,用於搬遷異常情況下的數據恢復,但是運維人員為了儘快降低倉庫使用率,違規對源倉庫進行了數據回收。

因這些錯誤操作的連續影響,導致該客戶數據完整性受損,給客戶的正常業務運行造成影響,騰訊雲再次表示最誠懇的歉意。

改進措施方面,騰訊雲提出了兩點:

首先,將全面審視所有的數據流程,涉及數據安全的流程自動化閉環,進一步提升常規運維自動化和流程化,降低人工干預,同時把全流程的數據安全校驗作為系統的常開功能,不允許被關閉。

其次,針對物理硬盤靜默數據錯誤,在當前用戶訪問路徑數據校驗自愈的基礎上,優化現有巡檢機制,通過優先巡檢主副本數據塊、跳過近期用戶訪問過的正確數據塊等方法,加速發現該類錯誤,進行數據修復。

另外,騰訊雲建議用戶開啟免費的快照功能,對重要數據進行定期備份。

對於索賠和賠償問題,騰訊雲暫未披露更多進展。

騰訊雲丟失數據被索賠1100萬!官方承認有兩次違規


分享到:


相關文章: