微軟提供雲服務故障的初步報告

至頂網軟件頻道消息: 微軟已經對9月4日影響全球客戶的故障發佈了一份初步根本原因分析(RCA)報告。Azure工程團隊正在繼續調查此事件,並表示他們將在"未來幾周內"提供更詳細的分析。

微軟的官員們在這份分析報告中表示,受到影響的客戶將在10月份的賬單中,根據微軟Azure服務水平協議(Microsoft Azure Service Level Agreement)得到相應的補償。

9月4日,正如之前在博客的文章中所述,微軟在美國中南部的數據中心附近出現了一次雷擊,很多Azure服務出現了故障,需要通過Azure 動態目錄(Azure Active Directory)進行身份認證的Office 365也受到影響,此次事件的影響波及到了微軟全球的很多客戶。

微軟的分析報告總結表示,風暴導致"電力系統供應的波動,導致電壓驟升。"電壓的驟升導致一個Azure數據中心切換至發電機供電,並關閉了該數據中心的製冷系統,但該中心配備有浪湧抑制器。該數據中心仍然通過冷卻系統中與負載相關的熱緩衝器維持所需的工作溫度,但是等到緩衝器作用耗盡,溫度就出現了升高,設備就出現了自動關閉。

一些硬件在關閉之前就已經被損壞,包括"大量存儲服務器"以及其他網絡設備和電源單元。現場團隊開始嘗試恢復基礎架構,這意味著更換故障硬件,將服務器遷移到健康的服務器上並檢查數據是否已經損壞。

對於那些想知道為什麼微軟的數據中心沒有在故障中轉移到備份站點的人:"當時做出的決定是為了恢復數據而不是轉移到另一個數據中心,因為由於地理複製的異步特性,故障轉移會導致部分數據丟失。"

關閉數據中心會影響許多依賴於該數據中心內存儲服務器的Azure服務。受影響的服務包括:torage、虛擬機(Virtual Machines)、Application Insights、認知服務和自定義視覺API(Cognitive Services & Custom Vision API)、備份(Backup)、應用程序服務(以及用於Linux的應用程序服務和用於容器的Web應用程序)、用於MySQL的Azure數據庫、SQL數據庫、Azure自動化(Azure Automation)、站點恢復(Site Recovery),Redis緩存(Redis Cache)、Cosmos數據庫、流分析(Stream Analytics)、媒體服務(Media Services)、Azure資源管理器(Azure Resource Manager)、Azure VPN網關、PostgreSQL、Application Insights 、Azure機器學習工作室、Azure搜索、數據工廠、HDInsight、物聯網中心、分析服務、密鑰庫、日誌分析、Azure監視器、Azure計劃程序、邏輯應用程序、Databricks、ExpressRoute、容器註冊表(Container Registry)、應用程序網關(Application Gateway)、服務總線(Service Bus)、事件中心(Event Hub)、Azure Portal IaaS Experiences-- Bot服務、Azure批處理、Service Fabric和Visual Studio Team Services(VSTS)。

微軟表示"這些服務中的絕大部分在協調世界時9月5日的11:00都已經恢復了",但是也承認到了9月7日的8:40才完全解決這些問題。

為什麼美國中南部地區以外的客戶也會受到這一系列事件的影響?據該帖子稱,"Azure Service Manager的彈性不足",它採用的是"經典"資源類型的運營管理服務。微軟的高管們表示,"雖然ASM是一項全球服務,但它不支持自動故障轉移。"由於對ASM和其他相關服務的各種依賴性,美國中南部地區以外的Azure資源管理器服務也受到了影響。


分享到:


相關文章: