1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

最近,技術圈又出現了一次轟動性的大事故——阿里雲重大技術故障,超過1000家企業系統癱瘓,損失過億!

故障於北京時間2018年6月27日16:21左右爆發,16:50分開始陸續恢復。官方給出的時間大概持續30分鐘,完全恢復實際用了一個多小時。

上一次同等規模的故障是在2015年,攜程癱瘓了11小時,損失高達7000W+。

阿里雲是國內最大的雲服務商,服務著製造、金融、政務、交通、醫療、電信、能源等眾多領域的領軍企業,包括中國聯通、12306、中石化、中石油、飛利浦、華大基因等大型企業客戶,以及微博、知乎、錘子科技等明星互聯網公司。在天貓雙11全球狂歡節、12306春運購票等極富挑戰的應用場景中,阿里雲均保持著良好的運行紀錄。

1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

對於此故障的原因,網上傳的各種版本都有,傳的最多的是以下2個版本:

網上流傳故障原因版本一

1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

網上流傳故障原因版本二

1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

小編認為實習生誤刪登陸服務之說,應該是不存在的。

一般大型互聯網公司尤其是阿里雲這樣支撐千億級業務規模的公司,對工程師權限有著極為嚴格的控制,不可能在實習生不熟悉的情況下,給予過高的管理權限,這是極其不專業的做法。

對於版本二,我通過內部瞭解到原因:

1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

這個說法跟阿里雲官方通告是比較吻合的。

次日凌晨時分,阿里雲發佈的說明稱:“工程師團隊在上線一次自動化運維新功能的時候,執行了一項變更驗證操作,這一項功能在測試環境驗證中未出現問題,上線生產環境中,觸發了一個未知的bug。”

1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

不論何種原因引起,重要的是,本次故障的嚴重程度是非常高的,故障級別定義在S1,整個阿里集團的核心業務,以及依託阿里雲的公司,很多都受了影響。

1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

互聯網時代,雖然不是每個公司都像阿里一樣擁有一個龐大複雜的架構體系,會涉及到成千上萬的配置以及幾十種技術的應用,但是,事故的發生對每個公司來說概率都是一樣的。

阿里雲對於本次故障非常坦誠:

"這次故障,沒有藉口,我們不能也不該出現這樣的失誤!我們將認真覆盤改進自動化運維技術和發佈驗證流程,敬畏每一行代碼,敬畏每一份託付。"

1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

這樣的態度中小企業同樣值得學習,

IT運維無小事,容不得半點馬虎。也許一個小BUG,一個小病毒,甚至是工作人員一次不經意的誤操作,就會造成小到幾臺電腦無法工作,大到整個公司網絡癱瘓的影響,甚至給公司業務帶來無法挽回的損失。

如果能做到日常有專業人員例行維護,例行排查安全隱患,做好病毒查殺、軟件更新等等預防工作,那麼會將事故發生率降低到最小。

IT運維的最佳境界就是保障一切系統正常運行,從不宕機,為企業正常運轉保駕護航,而不僅僅是出了問題才來“修修補補”。

1000+公司業務癱瘓,損失過億,故障真正原因竟是這樣!

如果你的企業已經有了可愛的運維工程師,請珍惜他。


分享到:


相關文章: