微軟:對不起,Azure雲服務故障原因找到了

IT之家(www.ithome.com):微軟:對不起,Azure雲服務故障原因找到了

本週微軟Azure近11小時的故障是由於微軟升級Azure存儲服務的性能更新導致的,微軟Azure企業副總裁Jason Zander解釋了這次故障的原因,並對所有受影響的Azure用戶道歉。

美國太平洋時間11月18日晚,美國、歐洲和亞洲部分Azure用戶存儲和網站服務無法訪問,也影響到了部分Xbox LIVE用戶無法聯機,包括微軟MSN.com網站、Visual Studio Online和搜索也得到了影響。更糟糕的是,Azure服務健康狀態和Azure管理門戶都依賴於Azure存儲服務,這兩款服務都沒有正確地顯示Azure故障狀態–Azure故障的時候,服務狀態卻顯示為正常。

微软:对不起,Azure云服务故障原因找到了

儘管微軟已經測試了幾周這次的Azure存儲服務的性能更新,但直到微軟部署到Azure上才意識到“無限循環”的問題。微軟在發現問題後,立刻回滾了更新,但仍需要重啟存儲前端來徹底恢復。根據官方故障報告,“這次故障已經被大範圍擴散,由於操作失誤更新在短時間內快速部署到了大部分數據中心,通常這一生產環境的部署是漸進部署的”。

Jason Zander也承諾儘可能避免再出現此類故障:

- 確保部署工具使用漸進式部署

- 改進恢復方式來最小化恢復時間

- 修復存儲前端無限循環Bug,然後再部署到生產環境

- 改進服務健康狀態架構和協議


分享到:


相關文章: