微软:对不起,Azure云服务故障原因找到了

IT之家(www.ithome.com):微软:对不起,Azure云服务故障原因找到了

本周微软Azure近11小时的故障是由于微软升级Azure存储服务的性能更新导致的,微软Azure企业副总裁Jason Zander解释了这次故障的原因,并对所有受影响的Azure用户道歉。

美国太平洋时间11月18日晚,美国、欧洲和亚洲部分Azure用户存储和网站服务无法访问,也影响到了部分Xbox LIVE用户无法联机,包括微软MSN.com网站、Visual Studio Online和搜索也得到了影响。更糟糕的是,Azure服务健康状态和Azure管理门户都依赖于Azure存储服务,这两款服务都没有正确地显示Azure故障状态–Azure故障的时候,服务状态却显示为正常。

微软:对不起,Azure云服务故障原因找到了

尽管微软已经测试了几周这次的Azure存储服务的性能更新,但直到微软部署到Azure上才意识到“无限循环”的问题。微软在发现问题后,立刻回滚了更新,但仍需要重启存储前端来彻底恢复。根据官方故障报告,“这次故障已经被大范围扩散,由于操作失误更新在短时间内快速部署到了大部分数据中心,通常这一生产环境的部署是渐进部署的”。

Jason Zander也承诺尽可能避免再出现此类故障:

- 确保部署工具使用渐进式部署

- 改进恢复方式来最小化恢复时间

- 修复存储前端无限循环Bug,然后再部署到生产环境

- 改进服务健康状态架构和协议


分享到:


相關文章: