Azure 掛了:雲被雷擊垮了;已持續 22 個小時

微軟公司的Azure公共雲近日算是被真正的雲搞垮了,因為該公司將週二導致美國用戶無法正常使用幾項服務的一起故障歸咎於“惡劣天氣”。

Azure 掛了:雲被雷擊垮了;已持續 22 個小時


微軟表示,位於得克薩斯州的美國中南部數據中心遭到了雷電風暴,結果散熱系統出現了故障,迫使該公司關閉了許多服務器和系統,以防遭到更嚴重的損壞。

微軟在Azure狀態頁面上的一份聲明中表示:“美國中南部的數據中心附近發生了一起惡劣的天氣事件,包括雷擊。這導致電源電壓升高,從而影響了散熱系統。確保數據和硬件完整性的自動化數據中心程序立即生效,關鍵硬件進入了有條不紊的斷電過程。”


開始故障時Azure狀態頁面甚至一度無法打開:

Azure 掛了:雲被雷擊垮了;已持續 22 個小時


散熱系統是現代數據中心的一個重要組成部分,因為散熱系統是消除在一個封閉的地方緊密堆疊在一起的成千上萬臺服務器產生的高溫所必不可少的。簡而言之,如果這個系統出了故障,所有系統都將隨之停運。

因此,如果溫度上升到超過安全水平,像微軟這樣的公司落實了自動關閉數據中心機器的程序。這是保護微軟數據中心投資的重要措施,但是對雲客戶來說也帶來了很大的不便。

微軟提到的惡劣天氣很可能與颶風戈登有關,這場1級風暴目前正在得克薩斯州海岸的附近兜轉。

微軟表示,這起故障已影響了許多Azure雲服務,包括Visual Studio Team服務。停運的其他服務包括Azure Active Directory身份管理服務和基於雲的生產力套件Office 365。

Visual Studio Team Services小組補充道:“由於一些內部基礎設施依賴Azure雲服務,美國中南部地區以外的企業組織的客戶所用的持續集成/持續交付(CI/CD)工作流程和儀表板也可能受到了影響。”

專家們表示,這一事件向使用雲服務的企業組織敲響了警鐘:說到運行雲端的關鍵工作負載,只有傻瓜才會依賴單單一家提供商。

Mimecast有限公司的網絡彈性專家彼得•班納姆(Pete Banham)說:“今天Azure發生的事件再一次清楚地表明,企業組織需要做好自己的冗餘機制,而不是依靠單單一家提供商。”

Constellation研究公司的首席分析師兼副總裁霍爾格•米勒(Holger Mueller)表示,不過,該事件也給了希望避免將來發生此類事件的微軟一個深刻的教訓。

米勒說:“這次事件深刻地提醒人們,即使對於像微軟這等規模的IaaS提供商來說,要保持數據中心正常運行有多難。閃電、洪水、颶風、大雪和暴雨都會影響數據中心的可用性。所以一個關鍵的問題是,微軟從中汲取了什麼教訓?它如何在將來能避免類似的故障?這給了希望加強雲基礎設施的公司一個深刻的教訓。”

在發佈的最新消息中,微軟表示它在努力使所有受影響的服務重新上線,不過截止本文發稿時,這項工作顯然仍在進行之中。

微軟表示:“工程師已成功地恢復了數據中心的電源。此外,工程師已恢復了大部分受影響的網絡設備。雖然一些服務開始出現了恢復如初的跡象,但搶救工作仍在進行之中。”


分享到:


相關文章: