一個零售科技企業,完成一次數據機房的遷移,需要幾步?需要多久?
組織規劃、資源準備、遷移實施、總結歸納。
26888臺服務器Server,參與人數超2000人,涉及蘇寧近四分之一系統的規模。75個日夜,這是蘇寧團隊給出的答案。
緣起:數據中心升級,我們接下了這個艱鉅的任務
2019年底,出於數據中心升級的需求,板橋機房遷移團隊承擔了在6個月內完成26888臺服務器Server、涉及蘇寧近四分之一系統遷移的任務,這樣的遷移規模對於蘇寧來說還屬首次。
第一次嘗試,擺在團隊面前的問題也的確不止一個。
首先是時間緊迫,每月一半以上窗口有促銷活動,可遷移的時間窗口少,幾乎全部為凌晨1-6點間。
其次是溝通梳理,機器多、系統多,前期需要進行大量的溝通工作,梳理系統架構及配置,可能涉及整個系統的騰挪,大規模的遷移動作可能對系統穩定性保障帶來影響。
兼顧日常工作、提升遷移效率、聯動近三十個子項目組、服務器資源籌備……
“坦白講,心裡還是有點打鼓的“。
過程:太“南”了,那段時間做夢都在“遷移”
當被問到項目過程中最印象深刻的事情,項目經理李中秋停頓了一會兒。
“就是系統遷移不管什麼時候,可能是凌晨、週末出問題有風險失敗了,各團隊都第一時間協調解決。有一次是物流中心的一個LPSS系統遷移失敗,我記的很清楚是週五晚上8點臨時拉的會,大家都準時到線上討論。你從發言的他們那頭都能聽到,有打雙跳停在路上的,有在地鐵上還報到站信息的……就那一刻你會覺得,嗯大家都在,我們都在。每次遇到遷移失敗、遇到風險雖然很難很累,但大家都到位一起解決問題,一次次難關都渡過了。”
遷移能夠順利完成,得益於各團隊極速響應,緊密配合。
團隊成員還同記者分享道,一次研發團隊在擴容時遇到報錯,經PCP李楊和NCM薄康龍確認是負載設備real_server池滿無法下發配置的問題,接到反饋後,技術負責人陳連海立即上升問題,協調網絡管理部提供臨時和長期方案,當天解決問題並梳理潛在風險,制定治理計劃。類似於此種數據中心團隊,雲計算團隊,研發團隊共同協作排除遷移阻礙和風險的經歷,還有很多。
例如sentinel遷移,作為公共基礎組件,板橋機房兩組sentinel註冊有近1000個系統,超5000組shard,數據中心團隊由張亞昌專門負責配合遷移執行操作。3月底到5月初期間,在兼顧日常工作前提下,他和緩存技術團隊共同協作,經過6個批次的實施,零故障圓滿地完成遷移工作。
“因為所有的遷移都是在夜裡流量低點進行的,基本是凌晨1點到6點,盡最大努力規避可能對業務產生的影響,那段時間可是每週通宵一次的頻率哦”,張亞昌笑笑。
迴響:我們是“吃螃蟹的人”, 吃完定要“有個說法”
在技術總負責人陳連海看來,在整個遷移過程中效率是倍增式的提升。“比如第一批次遷移了200組,經過團隊溝通磨合,總結歸納,遷移工具的複用、優化提升等,第二批次就可以遷移400組,遷移高峰一晚上可以遷移1000多個虛機。“
在項目總結回顧會議上,團隊將這次成功遷移總結成這樣幾個要點:
(1)設定明確目標並拆分子目標,無退路、不折不扣執行;
(2)優先級先難後易,工作節奏先緊後松;
(3)識別目標風險,做好應對措施,保證實行可行性,杜絕邊做邊看;
(4)無法解決的問題及時上升,尋求決策者和其他團隊協助;
(5)團隊間的鼎力配合,每個人的執著拼搏。
這次板橋機房遷移項目,是蘇寧首例如此規模的遷移項目,且比原規劃提前半個多月完成,為後期數據中心基礎層面調整提供了案例與寶貴經驗;首先,系統穩定性將進一步提升;遷移工具的長期收益,對後期的運維工作幫助很大;同時,加深了運維和研發人員對系統架構和基礎設施的理解,運維團隊的技能和執行力得到成倍的提升。
在雲能力提升方面,如web/app/acache/db遷移工具,較以往運維效率有了10倍的提升,IAAS資源精準的預估和預佔,減少了人力重複投入的情況,遷移後租賃成本節約超千萬/年。
昨日剛結束的618蘇寧超級秀,5個半小時1.2億人觀看,成交破50億……流量洪峰背後是穩健的基礎保障,也是整個遷移團隊最好的表彰。
“今年的618,格外值得銘記”。