這次犯了自認為不應該犯的錯誤,引起整個網絡POP下的匯聚設備環路。
覆盤下給未來的自己以及現在的你們提個醒:
虛線表示挪到的位置,將POP2/0/5端口的鏈路挪到4/0/6,而2/0/5與BRAS去互聯。
故障原因
本次故障原因是鏈路調整過程中配置操作不當引起聚合組內端口全部處於未選擇狀態(unselect),從而導致設備託管,上行流量受到影響(故障影響時長7分鐘);期間因操作將2/0/5踢出組後,端口狀態UP的,引起2/0/5與Bri100形成環路,產生大量廣播包影響到VPN業務投訴15例。
故障過程
故障前POP的4/0/6已經被加入捆綁組Bri100裡(鏈路調試前端口DOWN的),機房調試鏈路跳纖將2/0/5與YP互聯的鏈路調整至4/0/6端口,同時將2/0/5端口調至與24-BRAS互聯。而因為沒及時把2/0/5踢出Bri100聚合組(Bri100的端口2/0/5的鏈路是和24-BRAS互聯的),這樣就導致--->Bri100 LACP協商出問題,POP設備自動將的其他端口都剔除了聚合組,導致YP至POP的流量異常,YP-6520直接託管。
故障總結
因為YP-6520 2/0/5接的對端不在原來6520裡面的那個聚合組內端口,設備上相關日誌
其實將鏈路還原沒有用的,因為還是在一個聚合組裡,故障恢復需要將和BRAS互聯的2/0/5踢出組。
故障處理思路
故障來時還是做不到理性應對,思路不夠清晰導致故障解決的不夠及時。三年來手上也遇到過不少故障,這次是不仔細背鍋嗎(NO!)?就是平時不注意技術細節,以前作為新人的時候加聚合組都會先關閉再加,反而是現在這種狀態才容易犯這種錯誤。大家引以為戒,希望不要在同樣的問題上栽跟頭。
對網絡工程感興趣的,可以關注下我,我會不定期分享網絡相關技術或者自認為不爽、不開心的事情讓各位開心下(此處附上抓狂的表情)。今天就寫到這裡,不說了,我繼續哭會去-V-。