阿里云的工程师要被祭天了?

那边刚根据美国市场研究机构 Synergy Research Group 的数据,阿里巴巴云计算业务赶超了 IBM,成为全球第四大云基础设施及相关服务的提供商,然后这边的阿里云就挂掉了。

昨天下午 16:30 左右,朋友圈、微博等地方受到众多网友的刷屏,原因是纷纷吐槽阿里云控制台访问出现故障,导致官网时好时坏,后台直接登录不上,其中图片服务器也挂掉。

▌影响范围

受影响的可不止阿里巴巴自家的淘宝天猫,毕竟如今作为全球领先的云计算服务平台,这一故障,直接导致了国内半个互联网瘫痪。

对此,不少网友怨声载道:

阿里云的函数计算挂了,导致线上故障。打算马上降级到本地计算,结果阿里云的 Kubernetes 也挂了。想着挨个机器手工改一下,发现 OSS 也挂了...整个过程没有报警,因为 SLS 也挂了...

阿里云的工程师要被祭天了?

阿里云的工程师要被祭天了?

最怕就是在上线交差的时候出现了 Bug。

阿里云的工程师要被祭天了?

随后,阿里云正式发布通告称,于北京时间 2018 年 6 月 27 日 16:21 分左右,阿里云官网的部分管控功能,及 NAS、OSS 等产品的部分功能出现访问异常。阿里工程师正在紧急处理中。

阿里云的工程师要被祭天了?

▌现状

而对于这次故障,阿里云表示已经在昨天下午 17:30 陆续修复恢复正常,并于凌晨 12:54 发布声明表示:没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。

至于具体的原因,阿里云称:

当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。 后续人工介入后,工程师团队快速定位问题进行了恢复。

受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。

阿里云的工程师要被祭天了?

▌写在最后

每一次的故障确实不应该发生,但有时又难以避免。对此,不少网友表示,理解身为同行的程序员们,解决问题比解决人更重要。

阿里云的工程师要被祭天了?

但是也有不少人认为:

出了故障可以原谅,那客户的损失该如何算?

如果是没按规范操作导致的事故肯定是要处罚的,否则这次事故的复盘就是无价的经验啊。

技术人员肯定得背故障啊,但是这事应该要升级,不是说一个技术人或者开除就算了的。


分享到:


相關文章: