備戰主網上線|星際大陸服務器上架紀實

上架視頻:https://v.qq.com/x/page/i3055pklukd.html

今天是春節之後,為防控疫情宅在家的第十天,湖北仍在最前線與病毒決戰,全國井然有序地開展保衛戰。有的人已經看完了幾部長篇連續劇,有的人躺睡幾天之後終於受不了開始了抖音拍攝之旅。但對於星際大陸礦場部運維團隊來說,卻沒有什麼區別,一直在忙碌,只不過從線下轉移至線上。


星際大陸礦場運維團隊對星際大陸所有業務進行基層支持。有關基礎IT資源的一切,包括設備採購的需求對接、機房服務器上架、操作系統部署、服務器運維保障等都是他們來完成實現的。沒有他們,線上業務就沒有了物理基礎,他們承載了服務器設備從上架安裝到交付使用的全部環節。


元宵過後,Filecoin測試網第二階段、主網上線接踵而來,這是分佈式存儲生態參與者的“狂歡”之日,也是礦場運維團隊肩負重任之時。全球分佈式存儲服務器,被分為多個批次和多個時間點,從各大廠商發貨,無論是空運還是陸運,最終都會先交付給運維的同事們。


備戰主網上線|星際大陸服務器上架紀實


服務器上架的五個階段


設備運輸到礦場之後,服務器上架前後的工作是重要而繁重的。據星際大陸礦場部負責人Daniel 介紹,服務器上架要分五個階段。


第一階段:兩條線。第一條:供應鏈採購元器件,交給工廠組裝成服務器,經過檢測,運輸到機房。第二條:運維要完成網絡耗材和網絡設備的採購,之後要在機房布好網線。


第二階段:服務器在機房上架、安裝硬盤、點亮測試。


第三階段:網絡設置。


第四階段:系統化檢查。


第五階段:運行業務。


服務器上架之前:機房環境改造工程


備戰主網上線|星際大陸服務器上架紀實


在設備上架之前,首先要完成的就是機櫃驗收、綜合佈線等準備工作。運維同事使用業內先進儀器,完成機房內綜合佈線的數據探勘,再進行機房綜合佈線的施工改造,最終交付給機房團隊和網絡團隊使用。


Barry Li是礦場部最早的成員之一,結婚前二天和蜜月都是在IDC機房中度過的。據他介紹,在機房投入使用之前,先要完成機房網絡的綜合佈線工作,機房輸出和網絡規劃輸出後,工程師會先做機房的綜合佈線工程探勘,根據網絡核心機櫃的規劃、網絡架構的規劃及現場機櫃物理環境的分佈,完成綜合佈線耗材的測量工作,然後提交線纜耗材的採購申請。


測量數據包括:線纜數量、長度、各個橋架的線纜走線方向等。還要根據網絡的規劃及現場機櫃弱電橋架的走向,進行合理的改造建議。因為每個機房物理環境都不太一樣,這樣提前探勘是為了保證綜合佈線數據的準確性,以及在確保方案正常實施的同時,減少不必要的資源浪費。


這些工作一般在設備到達現場之前半個月到一個月就要開始準備了,網絡綜合佈線完成後,再繼續解決排障線路等問題。


備戰主網上線|星際大陸服務器上架紀實


再者,在服務器上架之前,還需要事先根據機櫃的尺寸以及用電量來規定每個機櫃服務器的臺數。


中心機房的機櫃都是有一定的規格,不同的規格放置的服務器臺數也不會相同。


一般來說,一個42U的機櫃,1U服務器會放置16臺左右;2U尺寸的服務器,一般是放置12臺左右;4U大尺寸的服務器一般會在7臺上下。在進行服務器佈置的時候,要考慮到服務器之間的散熱問題,因此一般來說,服務器與服務器之間會有一定的空隙位置,大概也就是1U這樣大的尺寸空間,這樣是便於很好的進行散熱,保障服務器的正常使用。


服務器上架機櫃的時候,還需要考慮機櫃裡面涉及到的交換機空間的大小,以及PDU位置等。這些設備都是會佔據服務器機櫃的一定空間,會導致可上架服務器的臺數相應的減少。


機櫃一般還會有一個額定的電源量。當超出了規定的電源量的時候,即使服務器機櫃還有空間,也不能再上架服務器了。否則會導致其他的服務器用電量不足等情況的發生。


服務器上架,時間緊任務重


機房物理環境準備完畢後,開始上架服務器。


Daniel Cao具體介紹了他們的工作:


“設備上架工作內容十分龐雜。我們日常要對機房內的所有動作進行嚴格把控和管理,比如設備移動、設備的硬件擴容、機櫃內佈線、設備信息反饋以及日常的維護工作等。”


備戰主網上線|星際大陸服務器上架紀實


設備到貨後,要開始拆箱、驗收、上架、硬件配置、連線、測試一直到最後的交付。每一環節單列出來都是一份耗時耗力、需要耐心的工程:


驗收:按照廠商當天的到貨數量、硬件配置信息、外觀驗收等,進行現場逐一核對;


測試:主要測試帶外管理的連通性測試、測試設備可以正常加電開機運行。


……


為了正常交付、保障業務正常運行。在服務器上架期間,團隊成員必須加班加點地工作。


“到時,我們不僅沒時間吃飯還可能經常睡機房。”Daniel笑著說道。


服務器上架後 工作只進行到一半


備戰主網上線|星際大陸服務器上架紀實


據運維部同事瞭解,其實服務器上架後,工作才進行到一半。所有新上架的服務器都要進行以下檢查工作:


修改主機名,並做相關初始化(磁盤,時間,nrpe,snmp等)


備份並修改機器列表


增加信任關係


增加防火牆配置


crontab檢查


關聯關係更新


文檔更新


日誌檢查,負載檢查


單點備份及預案


搭建好環境測試後,再加相關監控。


注意服務器情況


配置時間服務器


確認主從是否同步


檢查確認iptables


任何步驟都需要先備份


確認日誌正常滾動,無錯誤日誌


確認supervisor正常


確認無遺漏機器


日誌備份,日誌切割腳本修改


系統服務開啟檢查


網卡 路由檢查


磁盤檢查


……


工作環環相扣,任何一項都需要專人負責。


雲存儲爆發在即 服務器備戰正當時


備戰主網上線|星際大陸服務器上架紀實


隨著數字化、網絡化的發展,越來越多的公司構建在以數字組成的產品服務之上,蘋果、亞馬遜和微軟等公司已經超越以物質為主進行建設的傳統公司。數字化、網絡化的建設過程中,公司和個人正在產生越來越多的數據。據統計,從2010年到2020年,世界每年創造的數據在以42%的複合增長率增長;到2020年將達到每年44ZB的數據量。


5G落地帶動新一輪數據浪潮來襲,Filecoin等分佈式存儲項目作為當前最讓人期待的大數據存儲解決方案,將在5G時代迎來大發展,而分佈式存儲服務器作為產業鏈核心環節必將率先受益。


其實,從2017年開始,星際大陸礦場運維團隊就開始對全球IDC機房進行了深入的考察和對比。團隊分為兩大組,一組與研發部合作,對Filecoin挖礦原理和網絡進展進行研究討論,不斷完善服務器礦場運維方案。一組分成幾撥人馬,同時在不同的機房進行高效率、高質量、低成本的工作。


備戰主網上線|星際大陸服務器上架紀實


當爆發期真正到來之時,礦場運維還將遇到哪些的挑戰呢?


“我們必須具備充足的人員、大規模精細化的採購、穩定精細的運維軟件、千錘百煉的挖礦方案、運維現場的人事協調和穩定。任何一個環節都必須重視,不能掉以輕心。不過運維部同事一直是在實戰中敢於面對、不停地一個個解決問題。”Barry Li說道。


Daniel最後表示:“生態參與者越多,我們壓力越大,但我們敢於迎接挑戰,現在的團隊大都是具備十幾年經驗的資深運維人員。團隊裡任何一個人都有能力獨挑大樑!保證服務器的運維安全,提高服務器的性能是我們工作中的重中之重,服務器備戰正當時,我們一直在行動!”


分享到:


相關文章: