微软致歉,因经理睡觉,Azure延迟5小时未给客户确认

微软通过官方渠道透露,Azure确认了三月末影响欧洲客户的长时间中断,最长有5个小时未给客户确认,原因是通知客户的任务由美国的主要事件经理(primary incident manager)负责,因时差所致,事件经理们正在睡觉。

延迟影响了欧洲和英国的客户,具体时间从3月24日上午9点开始,持续了三天。最开始时,客户不得不闷头应对超慢的Azure服务。5个小时,这与微软承诺的10分钟确认,差距巨大。

在官方的事后分析中,Azure的工程总监Chad Kimes承认微软的沟通存在问题,并对6136名受影响客户的困惑,表示歉意。

微软致歉,因经理睡觉,Azure延迟5小时未给客户确认

此期间受影响的客户数量

聚焦到技术问题本身,由于新型冠状病毒的流行,对Azure计算资源的需求激增而导致虚拟机容量限制,影响了微软的Pipelines DevOps服务,该服务针对Azure中托管的Windows和Linux代理的新版本和发布。导致客户平均延迟21分钟,最长9个小时。

Kimes强调:“产生的问题是,我们的现场流程对于这类事件响应有一定的差距。”

“现场流程是当事件涉及客户请求失败或性能影响时,我们将使用自动化工具来启动事件,并在DRI(指定负责人)和我们的PIM(主要事件经理)之间循环。PIM负责人通常负责发布外部通讯以确认事件,”他补充说。 “通过不同的工具可以检测出Pipelines的延迟,并且对于这些类型的事件,PIM却并未在线。因此,尽管DRI努力工作以了解技术问题并寻找潜在的缓解措施,但PIM仍然处于睡眠状态。当PIM大约在美国东部时间开始加入时,事件才终于得到承认。”

微软表示,将计划改善其现场流程,以“确保Pipelines延迟事件的初始通信与其他事件类型的时间表相同。”

此外,微软还将加快架构更改,以缓解从其托管代理池中拆分新代理的瓶颈。


分享到:


相關文章: