IT運維生涯中最常見的網絡故障,以及相應的解決方法

從事IT運維很多年,近日得閒,整理一下自己所遇到的最多見的網絡故障,並且在後面逐一給出對應的解決方法。

壹 | 先給常見的網絡故障簡單地做個分類(只是根據人個經驗整理而來的常見故障,不能代表大眾意見):

一、硬件故障:

1、設備散熱風扇損壞,導致處理器溫度過高;

2、電源模塊損壞,導致供電不穩定或者不供電;

3、主板老化或者元器件損壞,直接導致設備不穩定或宕機;

4、硬盤或者內存等主要配件故障,導致設備宕機或者停止服務;


IT運維生涯中最常見的網絡故障,以及相應的解決方法


二、軟件故障:

1、更新的補丁導致系統或者應用軟件崩潰;

2、病毒及惡意程序的破壞;

3、同時安裝多個功能類似的安全軟件;

4、同時安裝同一軟件的多個版本;

三、設計缺陷或者配置不嚴謹、管理不嚴格造成的故障:

1、通風、散熱設計不合理,導致設備經常運行在過熱狀態下;

2、IP地址規劃不合理,直接導致IP衝突;

3、私接網絡設備造成的網絡故障;


IT運維生涯中最常見的網絡故障,以及相應的解決方法


貳 | 各類故障的解決方法、應對措施:

一、硬件故障的判斷和處理方法:

硬件故障,是最直接、最不可怕的故障,相對來說,判斷容易、處理方法也簡單,可以這麼說:只要硬盤不壞,其他問題都好解決

1、設備本身的散熱故障的處理:無論是服務器、交換機、還是路由器,運行時間長了,都會出現散熱問題,會不會報故障(或者說多長時間後報故障)、給網絡效率造成多大的影響,一定程度上取決於機房的環境——隨著網絡的普及,人們對待IT設備,已經沒早些年那麼重視了,現在還有哪個學校的電腦教室,還強制帶鞋套的?不能說所有的散熱問題都是灰塵引起的,但是灰塵確實是散熱問題的最大來源,好在這類故障處理起來很容易,收到告警信息後,更換散熱器能解決90%的問題——不能排除有一部分設備,是主板上的針腳不再給散熱風扇供電了,這時候,就要另想辦法給風扇供電了,好在也不是什麼難事。

2、電源模塊故障的處理:電源完全損壞,不再供電的時候,如果沒有冗餘配置,這時候設備肯定已經被動關機了,直接替換新的電源即可; 有的時候,電源的故障並不是那麼明顯,筆者就碰到過一例,某品牌服務器,頻繁死機,每次重啟後,能正常運轉一天兩天,一時找不出原因,有一次正好在機房維護,聽到有蜂鳴聲,本以為是哪個設備高溫報告,檢查了一遍並沒有,“聽聲辨位”後發現,就是那臺經常死機的服務器在叫,此時服務器還沒有死機,查詢日誌無異常,遂重啟,進入BIOS查看,發現電源有高壓報警——12V輸出,達到了16V!因為有冗餘電源,直接把故障電源拔下來,服務器就恢復正常了。

3、主板老化或者元器件損壞的處理:這類故障不是那麼明顯,但是會直接導致設備不穩定或宕機,筆者見過很多例,有臺服務器年代久遠,最近不穩定,三天兩頭要重啟,有時也報高溫故障,於是決定拆下來徹底清理一遍,到客戶的生產車間,用風槍吹乾淨,感覺主板像新的一樣,但是問題來了,服務器點不亮了,汗。。。冷靜下來仔細查看,發現CPU周圍有幾個電容鼓包了,甚至有爆漿,找了幾個來換上,問題也就解決了,同樣的方法,也修好過交換機主板、電腦主板、顯卡等等,但是大多數時候,設備一旦出現元器件損壞,就未必能修好了,就算修好,也不再建議當成主要設備來使用了,作為備用件是不錯的選擇。

4、硬盤或者內存等主要配件故障的處理:前面說過,除了硬盤故障,別的都好處理,無論有沒有告警信息,都很好判斷,直接替換掉損壞的配件就可以了;最麻煩的是硬盤故障,RAID1或者RAID5是服務器中常見的配置,這種情況下,損壞一塊硬盤還好,一般不會有什麼損失,換個新的上去,也就解決了,最怕的是陣列中多塊硬盤損壞,那就麻煩了,如果數據非常重要,一定都交給專業的公司處理,盲目地操作只會增加數據恢復的難度。


IT運維生涯中最常見的網絡故障,以及相應的解決方法


二、軟件類故障的處理方法:

1、更新的補丁導致系統或者應用軟件崩潰:近期,微軟Win10頻頻翻車,多個補丁都引發了較大數量的藍屏故障,其實這還算好的,重啟後,卸載補丁也就沒事了。當年賽門鐵克誤殺門,那才叫厲害,崩潰的電腦和服務器,真是不計其數,我們也跟著忙活了好幾天。正確的做法是:補丁要先給測試機更新,兩三天後,沒什麼問題,再大面積部署,即便如此,還是要定期做好系統的狀態備份,萬一有事兒,還能快速恢復。

2、病毒及惡意程序的處理:即使是部署了企業級的硬件防火牆、專業級的安全軟件,我們依然不能掉以輕心,病毒及惡意程序的破壞,往往是不可修復的,常見的病毒或者惡意程序,我們能用防火牆成功隔離或者安全軟件成功查殺,但是每隔一段時間,總會有個超級病毒,能穿過各種安全設備和軟件,對我們的系統造成破壞,致使我們蒙受巨大的損失:比如近兩年瘋狂的勒索病毒,很多公司的服務器都中招了,有的迫於數據的重要性,只能給黑客付錢,還必須是比特幣!也有的付了錢,都沒能拿回所有的數據。所以筆者認為:

重要的數據文件,冷備份很有必要!(所謂冷備份 :準備一臺電腦或者服務器,只在定期備份的時候開機,備份完畢立即關機,確保數據安全)

3、同時安裝多個功能類似的安全軟件而引發的故障:有些IT盲目自信,服務器上不安裝任何安全軟件,也有些IT人員特別不專業,在服務器(或者電腦)上安裝功能類似或者重複的安全軟件,殊不知,這會造成系統混亂、不穩定,筆者甚至見到過,服務器同時安裝兩款國產的殺毒軟件後,操作系統直接無法啟動了,進入安全模式強制卸載其中一款,才解決問題,所以說,殺毒軟件、安全助手類軟件,同一臺服務器或者電腦上,只能安裝一款。

4、同時安裝同一軟件的多個版本引起的故障:筆者經常接到客戶的求助,說是某某軟件突然打不開了,細問之下,才知道,同一軟件裝了兩三個版本,卸載其中一個版本後,另一個版本也無法運行了——應該是軟件卸載的時候,刪除了相關的系統文件,導致另外一個版本缺少關鍵文件,也就無法運行了,想要覆蓋安裝還不一定能行,有時候會提示軟件已存在,那就只能卸載重裝,或者選擇修復。個人電腦無所謂,最多麻煩一點,幾次重裝而已,服務器上

要安裝同一軟件的多個版本,就要慎重了,強烈建議先用虛擬機測試,確定沒問題,再正式安裝


IT運維生涯中最常見的網絡故障,以及相應的解決方法


三、設計缺陷或者配置不嚴謹、管理不嚴格引起故障的處理方法:

1、通風、散熱設計不合理,導致設備經常運行在過熱狀態下:這類故障比較直觀,處理起來也簡單,就是費點力氣,筆者曾經不止一次地見過,一個機櫃好多臺機架式服務器,無間隔地堆在一起,雖然用了導軌,不至於壓壞,但是中間就不能留2U嗎?裝上去的時候,沒什麼,時間長了,機房都走不進去,為什麼?不是因為太熱——因為空調製冷開得大,最多也就是費電,機房體感溫度還行——而是因為太吵了,服務器的每個風扇都在全功率、全速度地轉,就像機房有架直升機在盤旋,後來費了一天的勁,才整改好,有時候做IT,也是體力活兒啊!

2、IP地址規劃不合理,直接導致IP衝突的處理:這恐怕是運維過程中見得最多的故障了,事例1:某客戶打電話來詢問,公司很多人無法上網,獲取不到IP地址了,連在同一個交換機上的電腦,有的能聯網,有的不能聯網,排查之後發現,DHCP竟然是無期限的,拿到IP後永久有效,時間長了,自然就沒有IP地址可用了,改成有效期一天

,重啟DHCP服務,不能聯網的電腦,禁用本地連接,再啟用,或者直接重啟電腦就好了;事例2:內網經常報IP地址衝突,排查中發現:路由器配置的IP地址池是192.168.1.2-192.168.1.254,可是硬盤錄像機有5臺,手動設置IP地址為:192.168.1.201-192.168.1.205,後來又增加了ERP服務器、文件服務器,分別手動設置IP地址為:192.168.1.211和192.168.1.212,還有門禁控制器、網絡考勤機、網絡打印機。。。全是手動設置的IP地址,設備越多,報IP地址衝突就越頻繁,解決方法也很簡單,在DHCP配置中,為IP不能隨意變化的設備指定靜態IP就可以了。


IT運維生涯中最常見的網絡故障,以及相應的解決方法


3、私接網絡設備造成的網絡故障的處理方法:這恐怕是筆者最深惡痛絕的故障了,每年都要處理好多次,費時費力,又不敢跟客戶發火,有時候還要被誤解,其實這是客戶管理不嚴格造成的。就在昨天,還碰到一例:客戶反應上網爆卡,但是我們技術員遠程登錄服務器,卻很快,在服務器上ping路由器的管理地址,300毫秒算是快的,基本上要900毫秒左右,甚至丟包率很高——廣播風暴吧,要麼就是交換機壞了,沒什麼好說的,開車趕到現場,那叫一個好找,後來在二樓車間的機櫃旁邊的地上,找到一個8口交換機,有人把備用網線也給插上了!搞笑的是,上面居然還插著一條電話線!幸虧因為疫情,車間並沒全部開放,要不然找起來更要費時費力。可網管的交換機,應對廣播風暴就輕省多了,它會自動關閉相應端口,不會影響整個網絡,排查也直接而簡單,但是很多企業還在使用最普通的非網管交換機,又不嚴格管理,給IT運維人員帶來了很大的工作壓力。


IT運維生涯中最常見的網絡故障,以及相應的解決方法


叄 | 總結:備份最重要、管理要跟上

一、多年的從業經驗得到一個結論:備份最重要!筆者認為,重要的備份主要有以下幾種:

1、鏈路備份:互聯網時代,外網鏈路也顯得日益重要了,說簡單一點,所謂的鏈路備份,就是要有兩條上網的線路,最好是不同運營商提供的;鏈路備份,同時可以實現鏈路的負載均衡,可以說是一舉兩得;

2、設備備份(專業的叫法應該是設備冗餘):包括:出口設備的冗餘、核心交換機的冗餘、服務器的冗餘和數據同步等等;

3、數據備份:包括服務器之間的同步備份,以及定期的冷備份;有時候,真的有必要做到:數據備份在手,機房火災不愁。


IT運維生涯中最常見的網絡故障,以及相應的解決方法


二、管理要跟上:

企業一定要有必要的IT管理制度,筆者曾經見到到,公司裡好多人都知道域管理員的帳戶和密碼,基本上處於半公開狀態,萬一哪天出點事,都不知道該找誰負責。

1、帳戶密碼制度:(1)密碼要規定長度、複雜度;(2)一人一個帳戶密碼,不得隨意使用他人帳戶;(3)必須定期修改密碼;

2、IT設備管理制度:(1)機房、機櫃必須上鎖,鑰匙可以掌握在不同的人手中,但是不能隨意交給其他人開門、維護設備,很多時候,就是因為多插了一條網線,而導致了整個網絡的崩潰;(2)IT設備的配置文檔,要有備份,而且配置一旦有變化,就要及時備份,既要保證能恢復到配置修改之前,又要保證設備損壞時,能將配置文件直接導入到新設備;


IT運維生涯中最常見的網絡故障,以及相應的解決方法


——筆者為網絡工程師,擅長計算機網絡領域,創業多年,希望把自己的經驗分享給大家,覺得有用的,可以關注一下,並請點贊、轉發,如有相同或者不同觀點,歡迎評論,謝謝!


分享到:


相關文章: