宕機有輪迴,蒼天饒過誰

今天雲圈的xdjm們

又集體“

高潮”了一把

某“大雲”發生故障了

而且恢復時間還不算短


宕機有輪迴,蒼天饒過誰


大部分公有云從業者,包括友商們

對這個事件表現的都比較剋制


因為做雲的,經歷了那麼多次宕機

大家都相信

“故障有輪迴,蒼天饒過誰”

宕機有輪迴,蒼天饒過誰


翻看公有云的宕機血淚史

3A雲、404雲、鵝雲、菊雲、小清新雲

都是一把鼻涕一把淚


宕機有輪迴,蒼天饒過誰


雲業務的規模越大,宕機影響就越大

所以,有人戲言

判斷一家公有云做得好不好

就看它宕機以後,能不能上熱搜

宕機有輪迴,蒼天饒過誰


於是我連忙去看了看熱搜,沒有找到

從這個角度看,菊雲還差點意思


宕機並不合理

但宕機卻無法100%避免

這裡面有挖掘機的鍋、運營商的鍋、設備商的鍋、運維誤操作的鍋、軟件平臺bug的鍋、颱風地震雷擊的鍋…

一鍋又一鍋,總有躲不過去的鍋

……


為了提高可靠性

廣大雲商們都付出了巨大的努力

風火水電、網絡、主機、平臺、架構、運維

小數點後的9增加一位

付出的成本,可能都要增加數倍

卻永遠給不出100%的SLA


然而

我們有體諒雲服務商宕機的藉口

雲用戶卻沒有容忍自家業務停擺的理由

所以,宕機來了的時候

總要有些說法


這個行業,需要在一次次宕機中

不斷成熟和進步


這種成熟是需要雙方的

雲服務商和雲用戶

比如

雲服務商在不斷提高自身可靠性的基礎上

還要有更加透明和完善的故障通告體系

有更公開的Services Dashborad

而不僅限於站內信或者發條微博


比如

SLA協議能被更理性的看待

能成為一種雙方的共識

作為雲服務商,當你承諾了SLA

就需要為這個承諾配置相應的資源

SLA不是雲商們橫向比拼的冰冷數字

不是信口承諾,而是可量化的指標

作為雲用戶,當你認可了SLA

就代表了你能接受那個“宕機”時間

該背的鍋自己要背起來

該為宕機做的預案就要考慮到

用多雲分擔風險,買雲保險降低損失

你想要的100%的可靠性

就要付出100%的代價

比如

不要看到公有云宕機多

就認為私有云更可靠

的確,我們很少看見私有云故障刷屏

那是因為99%的私有云宕機,都被捂住了

公有云vs私有云

就像坐飛機vs坐汽車

前者可靠性更高,但一出事就萬眾矚目

後者事故天天有,但只當事人有感

通常我們認為,公有云的可靠性

要高於絕大多數私有云

(個別影響國計民生的n地n中心繫統除外)

so,遇到這類事故

雲友商們不必互相傾軋、借勢推銷

雲用戶們也不必因噎廢食,聞“宕”即改

我們不需要把業務“All in Cloud”

更不要把錯誤“All in Cloud”

宕機有輪迴,蒼天饒過誰

宕機有輪迴,蒼天饒過誰


分享到:


相關文章: