阿里雲的工程師要被祭天了?

那邊剛根據美國市場研究機構 Synergy Research Group 的數據,阿里巴巴雲計算業務趕超了 IBM,成為全球第四大雲基礎設施及相關服務的提供商,然後這邊的阿里雲就掛掉了。

昨天下午 16:30 左右,朋友圈、微博等地方受到眾多網友的刷屏,原因是紛紛吐槽阿里雲控制檯訪問出現故障,導致官網時好時壞,後臺直接登錄不上,其中圖片服務器也掛掉。

▌影響範圍

受影響的可不止阿里巴巴自家的淘寶天貓,畢竟如今作為全球領先的雲計算服務平臺,這一故障,直接導致了國內半個互聯網癱瘓。

對此,不少網友怨聲載道:

阿里雲的函數計算掛了,導致線上故障。打算馬上降級到本地計算,結果阿里雲的 Kubernetes 也掛了。想著挨個機器手工改一下,發現 OSS 也掛了...整個過程沒有報警,因為 SLS 也掛了...

阿里雲的工程師要被祭天了?

阿里雲的工程師要被祭天了?

最怕就是在上線交差的時候出現了 Bug。

阿里雲的工程師要被祭天了?

隨後,阿里雲正式發佈通告稱,於北京時間 2018 年 6 月 27 日 16:21 分左右,阿里雲官網的部分管控功能,及 NAS、OSS 等產品的部分功能出現訪問異常。阿里工程師正在緊急處理中。

阿里雲的工程師要被祭天了?

▌現狀

而對於這次故障,阿里雲表示已經在昨天下午 17:30 陸續修復恢復正常,並於凌晨 12:54 發佈聲明表示:沒有藉口,我們不能也不該出現這樣的失誤!我們將認真覆盤改進自動化運維技術和發佈驗證流程,敬畏每一行代碼,敬畏每一份託付。

至於具體的原因,阿里雲稱:

當天下午,工程師團隊在上線一個自動化運維新功能中,執行了一項變更驗證操作。這一功能在測試環境驗證中並未發生問題,上線到自動化運維繫統後,觸發了一個未知代碼bug。錯誤代碼禁用了部分內部IP,導致部分產品訪問鏈路不通。 後續人工介入後,工程師團隊快速定位問題進行了恢復。

受影響範圍包括阿里雲官網控制檯,以及MQ、NAS、OSS等產品功能。

阿里雲的工程師要被祭天了?

▌寫在最後

每一次的故障確實不應該發生,但有時又難以避免。對此,不少網友表示,理解身為同行的程序員們,解決問題比解決人更重要。

阿里雲的工程師要被祭天了?

但是也有不少人認為:

出了故障可以原諒,那客戶的損失該如何算?

如果是沒按規範操作導致的事故肯定是要處罰的,否則這次事故的覆盤就是無價的經驗啊。

技術人員肯定得背故障啊,但是這事應該要升級,不是說一個技術人或者開除就算了的。


分享到:


相關文章: