饿了么还是挂了,而且挂那么久!异地多活成了摆设

饿着肚子的时候,打开饿了么App,看到的却是这样的页面。

饿了么还是挂了,而且挂那么久!异地多活成了摆设


无法忍受,居然直接扔一个RunttimeError给我!!!这种测试需要拉出去祭天了吧?

随后饿了么官方微博称:非常抱歉!由于快速增长的订单,我们的服务器没能承接住大家的热情,11时32分左右,在部分地区遭遇了大约28分钟的故障,到12时左右,故障已经被修复。

饿了么还是挂了,而且挂那么久!异地多活成了摆设


这里要打一个大大的问号,你真的是因为快速增长的订单而挂掉的吗?道歉文案还不忘吹一把,你的容量规划呢,动态扩容呢?这么容易就挂了吗?

17年5月的时候,朋友圈各种刷屏饿了么异地多活实现方案分享,在当时也是一个重磅消息,那么一瞬间觉得这技术,贼牛逼。饿了么CTO张雪峰在朋友圈透露:饿了么多活(Multi-Active IDCs/Regions)终于取得成功,实现首次多活生产环境全网切换(灰度)

饿了么还是挂了,而且挂那么久!异地多活成了摆设


昨天这张截图还被拿出来在各种群里调侃,确实有点打脸的味道,但是我还是想说,给技术人一点时间,故障总是会有,但是我们得想尽一切办法去避免,架构的演进过程中,不可能面面俱到,即使是那种你觉得不可能发生的故障,你也得做好100%的故障降级准备。

1、机房会不会停电,或者是电压不稳

2、周围施工,会不会挖断电缆

3、雷雨天气,会不会把机房变压打挂

4、台风山竹来,机房会不会被吹跑

当然了,上面这些都是大家觉得不可能发生的外界因素,可是万一发生了呢?

不过饿了么这次肯定不是外界故障,故障定位后,内部架构也许又要进行一次大规模演进,然后又可以在各种大会上吹吹吹... 然后继续砰pa!

总之呢,作为技术人,各种技术方案落地,话不能说的太满,给未来可能发生的问题留点台阶。


分享到:


相關文章: