獨家揭祕阿里自研飛天操作系統洛神平臺如何支撐起 2684 億全球大促!

獨家揭秘阿里自研飛天操作系統洛神平臺如何支撐起 2684 億全球大促!| 問底中國 IT 技術演進

作者 | 宗志剛 阿里雲資深技術專家

出品 | CSDN(ID:CSDNnews)

2019年雙11當天總成交額2684億,交易峰值54.4萬筆/秒,成交量背後是單日970PB的數據處理量。阿里巴巴核心系統100%上雲,意味著公共雲第一次支撐全球最大規模在線交易,阿里雲自研的飛天操作系統(Apsara),完成了這個挑戰。而“洛神“作為飛天的虛擬網絡系統,則承載了雙11期間超大規模併發、超穩定性和複雜的業務流量調度。

下圖是一張簡化的電商系統架構,底層即是阿里雲的計算、存儲、網絡等一系列產品和解決方案。由於電商平臺需要巨大的處理能力,其依託的分佈式節點之間的通信,就是由洛神虛擬化網絡來提供的。

独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进

圖1 簡化電商系統架構

独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进

什麼是飛天“洛神”雲網絡平臺?

洛神是阿里雲飛天分佈式操作系統的核心組件,提供了虛擬化網絡服務,例如虛擬專有網絡(VPC)、軟件定義網絡(SDN)控制器和服務器負載均衡(SLB) 等多項網絡產品及技術。

独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进
独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进

洛神網絡平臺如何支撐雙11?

1、迎戰Tbps級流量洪峰

11月11日00:02時,僅僅在雙11開始不到2分鐘,總體流量達到峰值1.1TB!如此龐大的併發訪問,正在買買買的“剁手黨們”卻察覺不到任何異樣,這背後離不開阿里雲網絡兩位流量洪峰悍將:負載均衡SLB和NAT網關。

負載均衡SLB(Server Load Balancer)是承載Tbps級別流量調度的“大管家”, 徹底“消滅”網站響應慢或者交易失敗的現象。通過集群部署,平均分發用戶請求並通過自動健康檢查剔除異常服務器,消除單點故障,提升系統可靠性。同時實現跨可用區容災,當主區出現故障時,SLB能秒級實現業務平滑切換。

独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进

當用戶選好心儀的寶貝,跳轉到支付寶進行付款時,就是由NAT網關調用支付寶的支付接口來實現,每一筆支付都會在NAT網關產生新連接。雙11期間每秒交易峰值達到54.4萬筆,就是背靠NAT網關超大規模的帶寬和併發能力,其中單NAT網關的最大活躍連接數就高達400萬。

2. 構建全球購物狂歡的高質量網絡

2019年雙11吸引了超過200個國家的全球用戶參與,為了打造全球用戶優質的購物體驗,阿里巴巴集團在阿里雲的河北,上海,深圳,香港,新加坡,美國等多個地域部署了

Virtual Private Cloud(VPC),並使用了彈性公網IP (Elastic IPAddress),使不同地區和國家的用戶能夠就近、快速接入到網絡。同時通過雲企業網(Cloud Enterprise Network)進行多地域網絡互聯,分鐘級構建出一張覆蓋全球的,高質量的,安全的企業網絡。

例如,新加坡的用戶在購物時,就近接入新加坡阿里雲並通過雲企業網的專有鏈路到中國內地的阿里雲,進而和部署在中國內地的阿里巴巴核心服務器和數據庫進行交互。在這種跨地域的“專用高速公路”架構下,新加坡的用戶可以獲得極好的應用訪問體驗。

独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进

搭建好了全球網絡,還需要超強算例資源部署。通過阿里雲VPC ,工程師可以在1個小時內部署包括上萬臺雲服務器。這在傳統數據中心需要花費近月的時間。2019年雙11雲上單個VPC的IP規模達到 30萬,最大的一個VPC的ECS和容器實例數量達到百萬級,成為雙11超級算力和最強大腦,雲上公網和跨域出口流量達到數十Tbps,在業界遙遙領先。

3. 雲網絡QoS能力

雙11期間,不僅是阿里巴巴電商購物,還有螞蟻支付,菜鳥物流,大數據分析等多個業務系統均幾乎同時進入流量高峰,然而不同系統對於通信的帶寬、時延、丟包要求卻不盡相同。為此,洛神網絡平臺提供了智能QoS功能,對不同業務進行流量優先級區分,對大帶寬、丟包敏感業務設置通信報文高優先級,成為業界第一個具備QoS能力的雲網絡。

4. 智能網絡分析

在雙11的幾個月前,洛神的網絡運維和運營中樞—“齊天”已先行計算出承載雙11流量所需的網絡資源,精準的預測每個區域可承受的流量峰值、每條線路的帶寬峰值、服務器數量。不僅如此,齊天還基於阿里雲實時計算(Alibaba Cloud Realtime Compute),阿里雲時間序列數據庫TSDB(TimeSeries Database)結合數據可視化,構建了一張全網實時監控大盤和分佈式網絡質量探測系統,支撐超過每秒2000萬,多達100種核心網絡數據的計算。通過智能診斷網絡故障、多維度實時監測網絡狀態,齊天保障了雙11網絡的穩定運行。

2019 年雙11,洛神網絡平臺強力支撐阿里集團核心業務的全面上雲,提供快速、安全、穩定的網絡服務。未來在彈性、開放、智能網絡能力上會持續創新,提供給用戶更加美好的體驗,最終將做到讓網絡更簡單,這是阿里雲網絡追求的理念也是使命。

系列閱讀:

  • 提高 10 倍性能,揭秘淘寶、天貓背後的圖片存儲如何扛住雙十一巨流?| 問底中國 IT 技術演進

  • 2684 億背後的虛擬化技術:雙 11 All on 神龍 | 問底中國 IT 技術演進

  • 抗住 60 億次攻擊,起底阿里雲安全的演進之路 | 問底中國 IT 技術演進

  • 阿里雲智能開放平臺團隊何登成:解碼雲計算的 2B 服務基因 | 問底中國 IT 技術演進

  • 阿里雲安全掌門人肖力:企業上雲,如何保證安全?| 問底中國 IT 技術演進

  • 神龍 X-Dragon,這技術“範兒”如何?| 問底中國 IT 技術演進

  • 阿里雲智能 AIoT 首席科學家丁險峰:阿里全面進軍 IoT 這一年 | 問底中國 IT 技術演進

  • 阿里雲彈性計算負責人蔣林泉:億級場景驅動的技術自研之路 | 問底中國 IT 技術演變


分享到:


相關文章: