有150臺服務器,怎麼運維?

MRLOKI


150臺服務器,不算多也不算少。要想真正做好運維。我們可以採用PDCA理念和系統化運維的思路來做。

運維的目標

要想做好運維,我們首先要明確運維的目標是什麼。這決定了我們後面該做多少運維工作。比如:“確保這150臺服務器穩定運行,可用性達到95%。(運維週期1年)”。可用性是指:服務器正常提供服務的時間/總時間。

制定運維計劃

當我們有了運維的目標後,我們就可以根據運維目標制定運維計劃。制定出在運維週期內要開展的各項工作。這裡就安全運維目標舉的例子來。要想可用性達到95%,我們首先得評估自己單位有沒有能力保障?如果沒有能力保障則可以考慮借第三方運維的力量來保障。畢竟錢能解決的問題就不是問題。

一、自己單位技術保障

如果是有自己單位的技術團隊來保障。那就要開始計劃一下資源安排,我們可以從運維的四大要素(團隊、工具、流程、夥伴)來考慮。

①、團隊資源計劃

你需要從你這150臺機器出發,評估需要什麼技術才能保障服務器少出故障,就算出了故障也能在短時間內快速恢復。假如:這150臺服務器中,有windows系統50臺,linux系統80臺,AIX系統8臺,HP-unix系統8臺,4臺solaris系統。那麼,我們就必須要有這方面的系統工程至少1人。規劃如下:

  • AIX 系統管理員:需要1人;

  • HP-Unix系統工程師:需要1人;

  • Solaris系統工程師:需要1人;

  • windows、linux系統工程師:需要1人;

前面3個都是小型機系統,3個人管20臺,有點浪費,而pc服務器的1人卻要管130臺有點累。那我們可以讓小機的工程師兼會linux系統。這樣就可以分攤得比較好。

②、運維工具

如今是信息化時代。運維不能只是靠堆人來運維,我們需要藉助自動化工具。市面上非常多自動化運維工具。可以幫助監控系統主機的運行狀態、性能、容量、並在監控到異常時候及時告警。工程師在接到告警後及時處理告警。

③、運維流程

基於ITIL管理的運維是公認的運維最佳實踐。我們自己運維也要重視運維的管理流程,因為很多故障是管理的缺失導致的。在ITIL運維管理中,主要有五大流程和我們實際運維息息相關:

  • 配置庫管理(含知識庫):資產清晰,運維過程清晰,知識庫可以讓修復一般故障更加高效。

  • 事件管理:將所有的運維事件納入管理,讓所有事件處理都可以閉環處理。不要讓運維事件發生了,很長時間都沒有關閉。這樣很難保障運維目標。

  • 問題管理:從眾多運維事件的分析出根本原因(包括管理原因)。得出行之有效的方法。確保同類問題不再發生。

  • 變更管理:對任何資產、配置等等的變更,都需要進入變更管理。並需要被審核。只有審核通過的變更才能執行變更。

  • 發佈管理:對經過審核的變更,需要進行發佈管理。也就是通知到相關人。讓所有人都知道某個資產或者某個配置發生了變更。

④、合作伙伴

合作伙伴在運維過程中也是至關重要。我們在處理故障時,如果整機硬件損壞,我們需要跟合作伙伴採購整機硬件。如果配件損壞,我們需要找合作伙伴採購配件。如果技術問題無法解決,有時也需要通過外面合作伙伴的技術來幫忙解決。所以,我們必須合理規劃合作伙伴。確保這些合作伙伴的能力能夠覆蓋我們這150臺機器維保的要求。

二、第三方運維

如果是選擇第三方運維,自己就可以相對輕鬆一點。只需要對接管理好第三方運維公司即可。對接管理的工作包括:

①、溝通管理

我們既然是採用第三方運維,那麼技術溝通就是非常頻繁的了。我們在合同開始之時,就要有針對性的進行溝通的規劃。比如:運維單位的項目組織架構必須清楚,運維單位的報障方式,運維單位的應急預案等等都需要清楚。同時,我們還需要列一個溝通矩陣。包括: 一件事發生,誰是直接負責人,誰是應該知情人等等。

②、範圍管理

在運維過程中,我們要非常清楚第三方運維公司的服務範圍。也就是大家的工作界面,不然很容易出現問題的時候才來扯皮。非常被動,而且耗時耗力,還會延誤系統恢復時間。

③、變更管理

變更管理無論是自己運維還是第三方運維都是非常重要的。第三方運維要執行變更,必須向我們使用單位申請彙報,由我們使用單位同意後才能進行。否者就不能執行。因為,如果第三方運維隨意變更了配置項。很可能造成將來不可預料的問題。

④、安全管理

因為是第三方運維,我們必須要重視信息安全。因為運維人員通常需要較高的權限來修復系統故障。所以,我們在規劃第三方運維時,需要把安全管理考慮進來。比如:增加堡壘機來對運維人員進行審計,增加日誌審計系統來對所有系統的日誌進行審計。確保運維安全。

運維執行

有了計劃,我們就可以根據計劃來執行運維過程。通常我們都需要執行以下幾個步驟。

一、申請資源(預算)

無論是自己運維還是第三方運維,我們都需要申請公司的資金支持用於運維過程需要投入的資源。

二、按計劃執行運維工作項

在資源到位後,我們就可以將全年的運維工作做一個工作分解。比如;將整個運維工作分解如下:

  • 日常運維工作:每天查看監控軟件,檢查是否有異常報警等。平時,對員工加強培訓(包括使用培訓、安全培訓等)

  • 定期巡檢:定期對系統執行全面檢查,消除系統隱患;

  • 故障處理:對於突發故障,我們走事件管理流程,並及時處理;

  • 應急響應;對於緊急的重大故障,我們需要啟動應急流程;

  • 備件管理:對於一些易損耗的備件,必須常備一些放在自己倉庫。其他的,和合作夥伴簽好備件合作協議,要求及時提供整機或備件作為考核指標。

  • 文檔報告:任何運維處理過程都需要提供文檔報告,存檔以備將來核查,持續改進服務。

運維持續改進

我們在運維週期內,除了執行運維計劃外。我們還需要對做得好的繼續發揚,對做得不好的地方進行持續改進。


持續改進的方法,就是對運維過程的所有事件進行監控。檢查是否存在不足,是否有優化空間。如果有,則指定改進計劃,提交領導審批。領導審批通過後進行改進。

總結

總之,無論是自己運維還是第三方運維都不可小視。因為運維這個工作,做好是本分,不會有嘉獎;做不好就大罪過,要處罰的。所以,我們要仔細規劃好再執行。

我是數智風,以經驗回答問題。如果幫到你歡迎關注我,如有不同看法歡迎評論交流。


分享到:


相關文章: