刪庫跑路的江湖:順豐運維工程師誤刪庫被開除

刪庫跑路的江湖:順豐運維工程師誤刪庫被開除

做運維工作一定不能捉急,要穩。

根據@大佬坊間八卦 9 月 19 日的微博,順豐一名運維工程師在誤刪數據庫以後被開除了。

刪庫跑路的江湖:順豐運維工程師誤刪庫被開除


根據微博內容顯示,順豐運維工程師在收到變更需求後,按照操作流程要求,登陸生產數據庫跳轉機,通過 navicat-mysql 客戶端管理工具,連入 SHIVA-OMCS 的 RUSS 庫進行操作。但在操作過程中,該工程師錯選了 RUSS 數據庫,打算刪除執行的 sql,在選定刪除時,因其操作不嚴謹,光標回跳到 RUSS 庫的實例上,在未看清所選內容的情況下,便通過 delete 執行刪除。同時,他忽略了彈窗提示,直接回車,導致 RUSS 庫被刪除。因運維工作人員不嚴謹的操作,導致 OMCS 運營監控管控系統發生故障,該系統上臨時車線上發車功能無法使用並持續了約 590 分鐘。同比 9 月 5 日的 929 條臨時車需求,此次故障對業務運營產生了嚴重的負面影響。

順豐對事件作出的分析為:此次事件反映出運維工作人員對高風險操作的風險意識不足,在生產環境執行高風險變更操作時不嚴謹,導致數據庫的誤操作,造成公司成產系統故障。

最後順豐的處罰是與該運維工程師解除勞動合同,並在順豐科技全網通報批評。

運維工作者或多或少都經歷過或聽說過刪庫跑路的事件,所以說做運維工作一定不能捉急,要穩。年輕人總有第一次的 rm-rf 操作,之前也有人留言說過,現在敲 rm-rf 都會手抖。畢竟一旦發生失誤,後果不堪設想。

刪庫跑路的江湖:順豐運維工程師誤刪庫被開除


該事件也引起了很多人的討論,在這裡跟大家分享知乎上一位資深互聯網從業人員(作者:qcin,鏈接:https://www.zhihu.com/question/295314440/answer/495189539)的思考:

  • 人肉運維

一直以來,我都覺得直接到生產線上敲命令是一種非常不好的習慣。我認為,一個公司的運維能力的強弱和你上線上環境敲命令是有關的,你越是喜歡上線敲命令你的運維能力就越弱,越是通過自動化來處理問題,你的運維能力就越強數據丟失有各種各樣的情況,不單單只是人員的誤操作,比如,掉電、磁盤損壞、中病毒等等,在這些情況下,你設計的那些想流程、規則、人肉檢查、權限系統、checklist 等等統統都不管用了,這個時候,你覺得應該怎麼做呢?是的,你會發現,你不得不用更好的技術去設計出一個高可用的系統!別無它法。

  • 關於備份

備份通常來說都是週期性的,所以,如果你的數據丟失了,從你最近的備份恢復數據裡,從備份時間到故障時間的數據都丟失了。如果你要讓你的備份系統隨時都可以用,那麼你就要讓它隨時都 Live 著,而隨時都 Live 著的多結點系統,基本上就是一個分佈式的高可用的系統。

  • 故障反思

如果你是一個技術公司,你就會更多的相信技術而不是管理。相信技術會用技術來解決問題,相信管理,那就只會有制度、流程和價值觀來解決問題。

  • 最終結果

而如果一個公司在遇到事情之後就總是想到懲罰,不注意保護和發揮技術人員的能動性,技術導向也只能是一個口號。說到底不過一句話。一個團隊或公司,要變成什麼樣子,跟她邁出的每一步都有關係。畢竟羅馬不是一天建成的。


分享到:


相關文章: