02.28 幾十臺到幾千臺服務器的運維監控該怎麼做?

Vista211


一個Zabbix做服務器監控,一個saltstack做遠程分發控制,足以

好好了解一下


搞IT的小哥哥


首先這個問題非常專業,還好我有多年這方面的經驗,我就來回答下這個問題吧

服務器在公司的數字業務當中,用來存放或者運行公司的數據業務,充當著至關重要的角色,需要服務器的公司一般少則幾臺,多則成千上萬臺,甚至幾十萬臺都有可能!那麼就如標題所問的,如何來管理這麼多的服務器就成了一個非常重要的問題。

如果企業裡只有幾臺服務器,一臺一臺的來管理尚可實現,但是一旦到了幾十臺以上就需要進行專業的管理了!目前國內已經有一些非常優秀的服務器管理軟件,我就以我用過的一個給大家做一下功能說明(為了防止打廣告嫌疑,我隱去了軟件名稱):

1、多服務器統一管理

快速查看各個機器實時數據,高效的集中管理服務器,免去來回切換及記錄密碼的煩惱

2、跨越平臺,便捷登錄

3、權限分配,安全管理

4、運行數據,一目瞭然

5、命令群發

6、多服務器數據同步,快速自動備份

這是一般服務器管理軟件需要具備的常用功能,當然每個平臺還有一些其他的實用功能,我就不在這裡贅述,希望我的回答能夠對有需要的人起到拋磚引玉的作用!


趙家碼農


隨著互聯網時代的發展,很多人也在經歷公司從幾十臺到幾千臺服務器的飛速增加階段。某數據公司每天數據量增長超過5T,請求數超過100億,計算超過1000億條記錄。計算任務數超過10萬個,達到1000億記錄的秒級查詢。100萬級的QPS。不管服務器的數量如何增加。運維工作最重要的是要以穩定運行為前提。確保業務用不掉線。

高效的監控系統可以對運維數據進行分析整理,將運維工作透明化可視化方便運維人員及時找出問題。保障系統穩定運行,是提高運維效率必不可少的一環。滿足不同業務需求,適用服務器不同場景,也決定運維成本和效率的重要因素。

服務器數量小於200 臺的階段。

這個時期一般滿足基礎監控需求,我們主要考慮是簡單易用、穩定運行、監控報警三個方面。資源監控系統全程可視化界面,一鍵傻瓜式操作,能夠從cpu、沒錯、磁盤、網絡四個方面對服務器進行24小時不間斷基礎監控,並可自主設置告警規則,在狀態異常時第一時間產生告警,幫助你快速定位問題。

服務器數量200到1000的階段。隨著服務器的數量增加,需求開始變得複雜,我們需要做的一下幾點。

統一監控內容,將基礎監控進行統一。默認每個機器都包含cpu、內存、磁盤空間等基礎信息監控。

覆蓋式監控。多ip服務器監控,所有服務器統一可視化管理,功能覆蓋整個業務流程。避免多系統複雜管理,保證業務高效運行。及時通知確保無遺報。

服務器數量超過1000臺的階段。需要監控的服務器越來越多,告警信息出現爆發式增長,每天收到上千條報警信息。我們需要將告警進行整理,化繁為簡,減少重複告警。

分離告警和顯示,將cpu、內存使用率、磁盤使用率等各監控模塊進行告警規則獨立設置。告警時段分離推送,告警記錄分離展示。重要的告警處理是分秒必爭的。能夠避免同一時間重複告警,影響運維效率。

快速定位、及時分析。針對每個服務器進行獨立可視化管理。根據告警推送進行查看到哪裡流量達到預警值。那個服務器出現了問題,方便運維人員及時解決,並根據告警記錄進行分析,避免同樣餓問題發生。

最後,每個公司的需求不一樣,每個運維面對的痛點也不相同,不管有多少變化,萬變不離其宗。有了服務器的各種監控數據,就可以組合分析出你想要的結果。因此選擇一個高效的運維監控系統才是解決運維難題的有效途徑。希望我的回答能對你有所幫助。



人稱二蛋哥


一.統一基礎監控,每個機器都必須有CPU,內存,磁盤空間等基礎監控信息。然後由底層交換機上傳。

二.將所有納入了監控底層交換機由雙絞線或光纜線上傳至核心交換機。

三.高清解碼器 矩陣 管理電腦把信號上傳至顯示設備(監視器、液晶拼接屏、LED大屏)


慧而優科技


有現成的一些工具,比如ganglia promethus,這些都可以支撐上千節點的集群監控


分享到:


相關文章: