騰訊雲公布丟數據原因:人爲誤操作,未提及賠償及犯錯員工處理

日前,一則因為存儲數據丟失,用戶像騰訊雲索賠千萬的消息,讓騰訊雲身處風口浪尖,也給雲計算和雲存儲的神奇形象蒙上了陰影。

8月7日晚間,騰訊雲對外公佈了其內部調查的關於客戶“前沿數控”數據完整性受損的技術覆盤情況,騰訊雲表示,系運維人員人為操作錯誤導致有關數據最終無法恢復。

騰訊雲公佈丟數據原因:人為誤操作,未提及賠償及犯錯員工處理

據悉,事發當天上午11:57,騰訊雲的運維人員收到倉庫Ⅰ空間使用率過高告警,準備發起搬遷擴容;在14:05時,運維人員從倉庫Ⅰ選擇了一批雲盤搬遷至新倉庫Ⅱ,為了加速搬遷,手動關閉了遷移過程中的數據校驗;在20:27 搬遷完成之後,運維人員將客戶的雲盤訪問切至倉庫Ⅱ,同時為了釋放空間,對倉庫Ⅰ中的源數據發起了回收操作;到20:30 監控發現倉庫Ⅱ部分雲盤出現IO異常。

騰訊雲在對故障原因進行分析和覆盤後得出結論:本次事故起源自因磁盤靜默錯誤導致的單副本數據錯誤,再由於數據遷移過程中的不規範操作,導致異常數據擴散至三副本,三副本安全機制失效,最終導致客戶數據完整性受損。

具體來說,騰訊雲的運維人員存在如下兩點違規操作,導致擁有99.9999999%可靠性以及三副本安全機制的騰訊雲最終也沒能保住“前沿數控”存儲的數據——

第一次,運維人員為了加速完成搬遷任務,違規關閉了數據校驗。而正常數據搬遷流程是默認開啟數據校驗,這樣才能有效發現並規避源端數據異常,保障搬遷數據正確性。

第二次,運維人員為了儘快降低倉庫使用率,違規對源倉庫進行了數據回收。而正常的操作是數據搬遷完成後,源倉庫數據應保留24小時,用於搬遷異常情況下的數據恢復。

正是以上兩點致命的違規操作,最終導致了悲劇的發生。令人不解的是,上述兩步操作都應該是一個運維人員最基礎的標準操作流程,可是偏偏騰訊雲的運維人員兩步都人為做錯。

既然事情已經發生了,騰訊雲也只能亡羊補牢了。

​作為改進措施,騰訊雲表示,會把全流程的數據安全校驗作為系統的常開功能,不允許被關閉。同時,進一步提升常規運維自動化和流程化,降低人工干預。

而針對導致本次事件的物理硬盤靜默數據錯誤,騰訊雲提出的改進辦法是,通過優先巡檢主副本數據塊、跳過近期用戶訪問過的正確數據塊等方法,加速發現該類錯誤,進行數據修復。

與此同時,騰訊雲呼籲,客戶開啟免費的快照功能,對重要數據進行定期備份。

不過,在當晚的通告中,騰訊雲並沒有提及跟“前沿數控”之間是否就巨大的賠償金額差異矛盾進行新的溝通,或者有什麼新的進展。

而對於在本次事件中負有直接責任的相關運維人員,騰訊雲也沒有提及是否會進行相關處罰。

事件回顧:


​歡迎關注虎龍吟,看盡科技互聯網大事小情。聯繫作者請私信留言。

虎龍吟,科技互聯網領域獨立觀察家,全平臺資深自媒體,覆蓋千萬讀者群。

微信關注公眾號“虎龍吟”,隨時奉上最新科技互聯網臺前幕後最勁爆消息和熱辣點評。

好內容,多分享。有想法?請評論!


分享到:


相關文章: