在陽泉,探密百度AI“心臟”

在阳泉,探密百度AI“心脏”

美劇《紙牌屋》中曾有這樣一個畫面。男記者Lucas以採訪之名受黑客之託前往FBI的雲計算中心,把一枚帶有病毒的U盤插入了服務器上。意圖藉此感染服務器網絡,盜取其中的數據。FBI的探員眼疾手快,Lucas因此被捕。

事實上,這只是美劇常用的誇張表述。這種場景基本不可能實現。但是雲計算中心的重要性在這個畫面中被體現得淋漓盡致。

是的,雲計算中心是科技企業、政府組織最為神秘的一個組成部分,是這家絕對的“心臟”。每一個科技公司都一定會有多個雲計算中心,它們承載了企業的所有業務。

這一次,我進入了百度的“心臟”——百度陽泉計算中心。它既是百度AI技術的基石,也是百度AI商業化的基石。

為什麼說是心臟?

百度在陽泉、順義、南京等地區都已部署數據中心,而陽泉是百度最大的雲計算中心,也是亞洲單體規模最大的計算中心。

在阳泉,探密百度AI“心脏”

它在2014年投入使用,建成投產12萬平米,服務器超過15萬臺,擁有超過300萬顆CPU核、6EB級存儲容量,可存儲信息量相當30多萬個中國國家圖書館的藏書總量。

陽泉雲計算中心據說是百度的“心臟”毫不為過。

覆蓋全球的互聯網和無數機構的業務實際上是在成千上萬臺服務器支持下運轉的,承載龐大服務器資源的就是數據中心。數據中心已經成為交通、能源一樣的經濟基礎設施。

不管你是刷百度、聊微信、搶紅包、看網劇,都離不開數據中心在背後做支撐。你在手機上的每一次操作,都和數據中心有關係。

陽泉雲計算中心既是百度AI技術的心臟,也是百度AI商業化的心臟。

1、AI技術的心臟

百度App、百度地圖、百度智能雲、智能城市、小度、Apollo等AI業務的數據都在這裡傳輸、存儲、計算。

今年春節為例,百度APP的全球觀眾互動次數達到208億次,春晚數據流量為每秒峰值5000萬次,每分鐘峰值10億次。

搶紅包的人春晚之夜輕鬆愉快,但對數據中心來說可不是如此。

我在《BAT春晚暗戰雲計算》這篇文章中很早就提到:大家明面上能看到是三家發了多少紅包、撒了多少現金,背後牽扯到的技術、資源等配置確是錯綜複雜——這都要靠數據中心做支撐。

在這次探秘陽泉雲計算中心的過程中,百度系統部總監張炳華用了“數據海嘯、驚濤駭浪”這八個字來形容今年百度春晚紅包帶來的數據挑戰。

在陽泉的全部百度員工以及十餘家供應商技術支持人員在除夕當晚守在“數據海嘯”面前,最終抵擋住了億級流量。可以說,沒有陽泉、順義、南京在內的幾個雲計算中心,就沒有今年百度春晚紅包的正常運轉。

2、AI商業化的心臟

去年12月,百度組織架構整合,決定升級“ABC智能雲”業務戰略、加速推進“雲上百度”的進程。ABC智能雲事業部升級為智能雲事業群組(ACG),同時承載AI To B業務和雲業務,越來越多地為互聯網、娛樂、金融、教育、交通、安防、能源等行業的客戶提供全棧ABC+IoT產品與解決方案。

以能源工業等行業為例,鍊鋼廠、發電廠需要在高溫的生產車間部署攝像頭、傳感器等IoT設備,這些設備會對運轉溫度、壓力等數據的實時採集。像寶鋼和百度智能雲的合作中,就要通過百度智能雲的AI、大數據平臺,對各種數據進行分析和處理。

百度智能雲在為這些客戶提供服務的時候,則是有賴於雲計算中心在背後做支撐。

心臟到底有多強?

走進百度陽泉雲計算中心的機房之內,就會發現一排排機櫃統一排列,機櫃上的服務器的風扇聲嗡嗡作響。機房的溫度明顯比室外高了一截。

在阳泉,探密百度AI“心脏”

這是百度“心臟”的聲音與溫度。百度的“心臟”到底有多強,我們可以從這幾個維度來進行解析。

1、性能和效率

“心臟”想要跳的快,一方面需要“心臟”本身有力度,另外一方面則是需要血管供血足。對AI的“心臟”來說則是兩個點,一是算力強,另一方面也要數據傳輸快。

百度陽泉雲計算中心目前已上線服務器超過15萬臺。包括了天蠍整機櫃服務器、“冰山”冷存儲服務器、X-MAN超級AI計算平臺等多種百度自研計算系統。像去年年底百度最新發布AI計算平臺X-MAN3.0每秒可完成2000萬億次深度神經網絡計算。這種強大的計算能力都是為了適應AI時代的運算要求。

為這種強大算力“供血”的“血管”則是百度自主研發高性能交換機。提供超大規模的網絡吞吐,支持10G、25G的通用計算網絡接入和100G的AI高速無損網絡互聯技術。百度通過大帶寬、低時延、無損網絡,讓數據中心數十萬臺服務器連接成了一個超級計算機。

2、容災和備災

“心臟”作為人最重要的器官當然一刻都不能停止,數據中心作為心臟當然也不能停。雲計算中心裡設備價格昂貴,一旦發生不可預知的災難,對企業將造成嚴重損失。設備損壞等有形的損失可以彌補,而寶貴的數據丟失造成的損失則是無法計算的。

在移動互聯網時代,一個數據中心的服務器一旦出現短時間抖動,就會導致刷不了淘寶、付不了支付寶,在全網產生討論。

AI時代服務器出問題,可能會導致自動駕駛車輛失控,鋼鐵能源工業客戶面臨數以億計的經濟損失。

因此,數據中心的容災備災顯得及其重要。而百度陽泉雲計算中心通過AI控制,數據中心的運維從人工走向智能,可以實現大數據分析和診斷,迅速縮短故障維修時間。過去30分鐘的網絡故障排查直接縮減到了5分鐘。

當問到一旦出現自然災害、意外火災等極端意外情況下百度陽泉雲計算中心要如何應對時,百度系統部總監張炳華提到:

從業務部署角度,百度數據中心計算資源採用了N+1的冗餘設計,用戶的流量有多個入口,可以繞道其他數據中心。在入口層面也有一套智能調度的系統。

百度內部甚至做過這樣一個極端測試——關掉任何一個數據中心,用戶端也不會有任何感知,服務也不會受到任何影響。

我簡單翻譯一下這段話。大概相當於百度有好幾顆“心臟”,即使是一顆“心臟“出現故障,其他心臟也可以在故障的那一瞬間隨時頂上。

事實上,截止4月8日,百度陽泉雲計算中心已安全運行1744天。目前也還尚未遇到這些極端意外情況。

3、能耗和環保

某種意義上說,科技企業也是高能耗企業。因為龐大的服務器群組每天處理各種數據,產生了龐大的能源消耗。

國家層面在今年9月發佈了《關於加強綠色雲計算中心建設的指導意見》,提出到2022年全國新建大型、超大型雲計算中心PUE(雲計算中心總設備能耗/IT設備能耗,越接近1表明能效越高,是雲計算中心領域衡量能源效率的權威指標)需達到1.4以下。

這個指導意見的目的在於逼迫科技企業提高自身技術,做到節能環保。

2018年8月,Uptime Institute發佈的《2018數據中心調查報告》顯示2018年全球數據中心PUE為1.58。

在阳泉,探密百度AI“心脏”

阿里所有自研雲計算中心平均PUE已經低於1.3,即使是谷歌業務關鍵應用和廣告系統也都運行在PUE 1.2的雲計算中心上。

令人意外的是,百度陽泉雲計算中心的PUE突破了1.10,達到1.09,能源效率國內第一,每年可節電量可達2.5億度,相當於13萬戶居民一年的用電量。

為AI+5G+IoT未雨綢繆

百度陽泉雲計算中心可以說是目前國內雲計算中心的頂級水準,而且和百度目前的AI戰略以及面向未來的業務佈局高度匹配。

我曾在《春晚紅包宕機史,也是半部中國互聯網技術進步史》中提到:

春晚的流量規模,未來可能正是5G和IoT時代的“常規需求”。提前排兵佈陣,百利無一害。

2017年,微軟CEO納德拉在曾經提到過一個信息,在1992年互聯網每天流量總量是100G。今天一個手機就能存下所有的數據。

服務器和計算中心的算力、存儲進化史,其實也是世界互聯網的技術進步史。互聯網的發展,伴隨著IT算力、存儲能力的指數級提升。

2018年全球有70億臺IoT 設備,有機構預測到2020年全球將有500億臺設備同時連接網絡,2023年則是有790億設備連接到物聯網。5G時代流量每小時所產生的數據高達數百GB,預計將處理比4G多1000倍的數據。

當代哲學家西閃在《國家的計算》中對計算有過這樣一個論述:

在現實世界的“賭局”中,帕斯卡的上帝已經隱退,取而代之的,是作為信仰的“未來”。它像一個永恆的獎盃,在時間的盡頭閃閃發光。而計算則取代了程式化的行為訓練,演變成為一種新的思維習慣。

百度作為一家面向AI的企業,它的業務同樣無處不體現著計算的魅力——信息流、智能雲、無人車……所有數據都要經過服務器存儲、計算、傳輸,最終實現業務落地。

百度陽泉雲計算中心恰恰是在為AI+5G+IoT時代做準備。

----------------------------------------------

作者 | 吳俊宇 公眾號 | 深幾度

作者系獨立撰稿人,微信號852405518

關注科技公司、互聯網現象的解讀

曾獲鈦媒體2015、2016、2018年度作者

新浪創事記2018年度十大作者

品途網2016年度十大作者

騰訊科技2015年度最具影響力自媒體

在阳泉,探密百度AI“心脏”


分享到:


相關文章: