今天雲圈的xdjm們
又集體“
高潮”了一把某“大雲”發生故障了
而且恢復時間還不算短
大部分公有云從業者,包括友商們
對這個事件表現的都比較剋制
因為做雲的,經歷了那麼多次宕機
大家都相信
“故障有輪迴,蒼天饒過誰”
翻看公有云的宕機血淚史
3A雲、404雲、鵝雲、菊雲、小清新雲
都是一把鼻涕一把淚
雲業務的規模越大,宕機影響就越大
所以,有人戲言
判斷一家公有云做得好不好
就看它宕機以後,能不能上熱搜
於是我連忙去看了看熱搜,沒有找到
從這個角度看,菊雲還差點意思
宕機並不合理
但宕機卻無法100%避免
這裡面有挖掘機的鍋、運營商的鍋、設備商的鍋、運維誤操作的鍋、軟件平臺bug的鍋、颱風地震雷擊的鍋…
一鍋又一鍋,總有躲不過去的鍋
……
為了提高可靠性
廣大雲商們都付出了巨大的努力
風火水電、網絡、主機、平臺、架構、運維
小數點後的9增加一位
付出的成本,可能都要增加數倍
卻永遠給不出100%的SLA
然而
我們有體諒雲服務商宕機的藉口
雲用戶卻沒有容忍自家業務停擺的理由
所以,宕機來了的時候
總要有些說法
這個行業,需要在一次次宕機中
不斷成熟和進步
這種成熟是需要雙方的
雲服務商和雲用戶
❶ 比如
雲服務商在不斷提高自身可靠性的基礎上
還要有更加透明和完善的故障通告體系
有更公開的Services Dashborad
而不僅限於站內信或者發條微博
❷ 比如
SLA協議能被更理性的看待
能成為一種雙方的共識
作為雲服務商,當你承諾了SLA
就需要為這個承諾配置相應的資源
SLA不是雲商們橫向比拼的冰冷數字
不是信口承諾,而是可量化的指標
作為雲用戶,當你認可了SLA
就代表了你能接受那個“宕機”時間
該背的鍋自己要背起來
該為宕機做的預案就要考慮到
用多雲分擔風險,買雲保險降低損失
你想要的100%的可靠性
就要付出100%的代價
❸ 比如
不要看到公有云宕機多
就認為私有云更可靠
的確,我們很少看見私有云故障刷屏
那是因為99%的私有云宕機,都被捂住了
公有云vs私有云
就像坐飛機vs坐汽車
前者可靠性更高,但一出事就萬眾矚目
後者事故天天有,但只當事人有感
通常我們認為,公有云的可靠性
要高於絕大多數私有云
(個別影響國計民生的n地n中心繫統除外)
so,遇到這類事故
雲友商們不必互相傾軋、借勢推銷
雲用戶們也不必因噎廢食,聞“宕”即改
我們不需要把業務“All in Cloud”
更不要把錯誤“All in Cloud”
閱讀更多 神州邦邦 的文章