微軟致歉,因經理睡覺,Azure延遲5小時未給客戶確認

微軟通過官方渠道透露,Azure確認了三月末影響歐洲客戶的長時間中斷,最長有5個小時未給客戶確認,原因是通知客戶的任務由美國的主要事件經理(primary incident manager)負責,因時差所致,事件經理們正在睡覺。

延遲影響了歐洲和英國的客戶,具體時間從3月24日上午9點開始,持續了三天。最開始時,客戶不得不悶頭應對超慢的Azure服務。5個小時,這與微軟承諾的10分鐘確認,差距巨大。

在官方的事後分析中,Azure的工程總監Chad Kimes承認微軟的溝通存在問題,並對6136名受影響客戶的困惑,表示歉意。

微軟致歉,因經理睡覺,Azure延遲5小時未給客戶確認

此期間受影響的客戶數量

聚焦到技術問題本身,由於新型冠狀病毒的流行,對Azure計算資源的需求激增而導致虛擬機容量限制,影響了微軟的Pipelines DevOps服務,該服務針對Azure中託管的Windows和Linux代理的新版本和發佈。導致客戶平均延遲21分鐘,最長9個小時。

Kimes強調:“產生的問題是,我們的現場流程對於這類事件響應有一定的差距。”

“現場流程是當事件涉及客戶請求失敗或性能影響時,我們將使用自動化工具來啟動事件,並在DRI(指定負責人)和我們的PIM(主要事件經理)之間循環。PIM負責人通常負責發佈外部通訊以確認事件,”他補充說。 “通過不同的工具可以檢測出Pipelines的延遲,並且對於這些類型的事件,PIM卻並未在線。因此,儘管DRI努力工作以瞭解技術問題並尋找潛在的緩解措施,但PIM仍然處於睡眠狀態。當PIM大約在美國東部時間開始加入時,事件才終於得到承認。”

微軟表示,將計劃改善其現場流程,以“確保Pipelines延遲事件的初始通信與其他事件類型的時間表相同。”

此外,微軟還將加快架構更改,以緩解從其託管代理池中拆分新代理的瓶頸。


分享到:


相關文章: