今天云圈的xdjm们
又集体“
某“大云”发生故障了
而且恢复时间还不算短
大部分公有云从业者,包括友商们
对这个事件表现的都比较克制
因为做云的,经历了那么多次宕机
大家都相信
“故障有轮回,苍天饶过谁”
翻看公有云的宕机血泪史
3A云、404云、鹅云、菊云、小清新云
都是一把鼻涕一把泪
云业务的规模越大,宕机影响就越大
所以,有人戏言
判断一家公有云做得好不好
就看它宕机以后,能不能上热搜
于是我连忙去看了看热搜,没有找到
从这个角度看,菊云还差点意思
宕机并不合理
但宕机却无法100%避免
这里面有挖掘机的锅、运营商的锅、设备商的锅、运维误操作的锅、软件平台bug的锅、台风地震雷击的锅…
一锅又一锅,总有躲不过去的锅
……
为了提高可靠性
广大云商们都付出了巨大的努力
风火水电、网络、主机、平台、架构、运维
小数点后的9增加一位
付出的成本,可能都要增加数倍
却永远给不出100%的SLA
然而
我们有体谅云服务商宕机的借口
云用户却没有容忍自家业务停摆的理由
所以,宕机来了的时候
总要有些说法
这个行业,需要在一次次宕机中
不断成熟和进步
这种成熟是需要双方的
云服务商和云用户
❶ 比如
云服务商在不断提高自身可靠性的基础上
还要有更加透明和完善的故障通告体系
有更公开的Services Dashborad
而不仅限于站内信或者发条微博
❷ 比如
SLA协议能被更理性的看待
能成为一种双方的共识
作为云服务商,当你承诺了SLA
就需要为这个承诺配置相应的资源
SLA不是云商们横向比拼的冰冷数字
不是信口承诺,而是可量化的指标
作为云用户,当你认可了SLA
就代表了你能接受那个“宕机”时间
该背的锅自己要背起来
该为宕机做的预案就要考虑到
用多云分担风险,买云保险降低损失
你想要的100%的可靠性
就要付出100%的代价
❸ 比如
不要看到公有云宕机多
就认为私有云更可靠
的确,我们很少看见私有云故障刷屏
那是因为99%的私有云宕机,都被捂住了
公有云vs私有云
就像坐飞机vs坐汽车
前者可靠性更高,但一出事就万众瞩目
后者事故天天有,但只当事人有感
通常我们认为,公有云的可靠性
要高于绝大多数私有云
(个别影响国计民生的n地n中心系统除外)
so,遇到这类事故
云友商们不必互相倾轧、借势推销
云用户们也不必因噎废食,闻“宕”即改
我们不需要把业务“All in Cloud”
更不要把错误“All in Cloud”