宕机有轮回,苍天饶过谁

今天云圈的xdjm们

又集体“

高潮”了一把

某“大云”发生故障了

而且恢复时间还不算短



大部分公有云从业者,包括友商们

对这个事件表现的都比较克制


因为做云的,经历了那么多次宕机

大家都相信

“故障有轮回,苍天饶过谁”


翻看公有云的宕机血泪史

3A云、404云、鹅云、菊云、小清新云

都是一把鼻涕一把泪



云业务的规模越大,宕机影响就越大

所以,有人戏言

判断一家公有云做得好不好

就看它宕机以后,能不能上热搜


于是我连忙去看了看热搜,没有找到

从这个角度看,菊云还差点意思


宕机并不合理

但宕机却无法100%避免

这里面有挖掘机的锅、运营商的锅、设备商的锅、运维误操作的锅、软件平台bug的锅、台风地震雷击的锅…

一锅又一锅,总有躲不过去的锅

……


为了提高可靠性

广大云商们都付出了巨大的努力

风火水电、网络、主机、平台、架构、运维

小数点后的9增加一位

付出的成本,可能都要增加数倍

却永远给不出100%的SLA


然而

我们有体谅云服务商宕机的借口

云用户却没有容忍自家业务停摆的理由

所以,宕机来了的时候

总要有些说法


这个行业,需要在一次次宕机中

不断成熟和进步


这种成熟是需要双方的

云服务商和云用户

比如

云服务商在不断提高自身可靠性的基础上

还要有更加透明和完善的故障通告体系

有更公开的Services Dashborad

而不仅限于站内信或者发条微博


比如

SLA协议能被更理性的看待

能成为一种双方的共识

作为云服务商,当你承诺了SLA

就需要为这个承诺配置相应的资源

SLA不是云商们横向比拼的冰冷数字

不是信口承诺,而是可量化的指标

作为云用户,当你认可了SLA

就代表了你能接受那个“宕机”时间

该背的锅自己要背起来

该为宕机做的预案就要考虑到

用多云分担风险,买云保险降低损失

你想要的100%的可靠性

就要付出100%的代价

比如

不要看到公有云宕机多

就认为私有云更可靠

的确,我们很少看见私有云故障刷屏

那是因为99%的私有云宕机,都被捂住了

公有云vs私有云

就像坐飞机vs坐汽车

前者可靠性更高,但一出事就万众瞩目

后者事故天天有,但只当事人有感

通常我们认为,公有云的可靠性

要高于绝大多数私有云

(个别影响国计民生的n地n中心系统除外)

so,遇到这类事故

云友商们不必互相倾轧、借势推销

云用户们也不必因噎废食,闻“宕”即改

我们不需要把业务“All in Cloud”

更不要把错误“All in Cloud”