百度AI的底氣從何而來?

2018年底,百度宣佈技術體系架構整合ABC智能雲事業部升級為智能雲事業群組(ACG),同時承載人工智能toB業務和雲業務;搜索公司及各BG的運維、基礎架構和集團級共享平臺整合至基礎技術體系(TG)。

百度創始人、董事長李彥宏稱此次組織架構調整將強化集中資源“打大仗、打硬仗”的能力,幫助百度客戶完成智能化轉型、早日邁入AI時代。“百度將打造AI時代最領先的技術平臺,實現前端業務和技術平臺的資源高效統籌及組織全面協同。”

而數據中心作為上述一切業務的基礎,是百度發力AI的根基。

目前,百度在陽泉、順義、南京等地區都已部署數據中心。本週,鈦媒體探訪了百度陽泉雲計算中心,該中心是百度自建的第一個超大規模數據中心,也是亞洲規模最大的數據中心。

如圖所示,陽泉雲計算中心分為八個模組樓,而每一個區域則通過一條環狀長廊連接在一起,在發生緊急狀況時工作人員能夠靈活調度。

就在剛剛過去的2019年春節,百度抗住了春晚紅包互動活動的數據流衝擊,陽泉雲計算數據中心功不可沒。

“春晚的數據流可以用驚濤駭浪來形容。全球觀眾互動次數達到208億次,春晚數據流量預計每秒峰值5000萬次,每分鐘峰值10億次。”百度系統部總監張炳華說道。

靠近用戶的陽泉雲計算中心

目前,百度在陽泉、順義、南京等多個地區都已部署數據中心。其中,陽泉中心是百度自建的第一個超大規模數據中心,從2011年9月選址到2018年9月一期整體交付,歷時7年,直至今日,陽泉雲計算中心仍在不停的建設、擴展中。

百度陽泉雲計算中心規劃建築面積超過20萬平米,按照T3+標準設計,服務器裝機能力超過28萬臺。一期已建成投產建築面積約12萬平方米,建設涵蓋8個高標準模組樓,機房滿載可提供約6000個40A機櫃、承載16萬多臺服務器。為百度智能雲、百度App、百度地圖、智能城市、小度、Apollo等百度內外部的產品和廠商提供強勁的計算能力。

選址

張炳華表示,百度在東、南、西北各大區都有數據中心選址佈局,和大部分公司一樣,具體選到哪可能有各種因素考量,從技術上看,主要考察以下6個方面的因素,最後綜合平衡選擇。

第一,就是環境地理條件。遠離地震、海嘯、颱風等自然災害地區的,除此之外,還要考慮氣候條件,氣候適宜有利於降低成本;第二,政策支持力度 ;第三,電力、水力的豐富度,豐富的電力和水源供應,是建設數據中心的必備條件;而且,電價也是要重點考量因素,電力成本佔運營成本的60、70%;第四,網絡技術條件,地方很好,政策也好,網絡接入能力好不好,能不能接入運營商骨幹網,也是選址需要重點考慮的點;第五,交通環境;第六,人才條件。而選擇在陽泉,則是考慮百度的業務類型,以及靠近用戶,提升用戶體驗。

據介紹,目前百度陽泉雲計算中心使用百度自主研發高性能交換機,提供超大規模的網絡吞吐能力,支持10G、25G的通用計算網絡接入和100G的AI高速無損網絡互聯技術。

在數據中心外部,百度網絡構建了三個時延圈:從數據中心覆蓋用戶時延不超過30ms,從POP點覆蓋用戶的時延不超過10ms,從CDN覆蓋用戶的時延不超過2ms,確保全國用戶的全面覆蓋和就近接入。在數據中心內部,百度通過大帶寬、低時延、無損網絡,把數據中心數十萬臺服務器連接成為一個超級計算機。

優化

數據中心建設週期長,在規劃過程中必須具備前瞻性。在這幾年陸續建設過程中,各種先進技術都在逐漸被運用到陽泉雲計算中心。其中,數據中心模塊化技術、整機櫃服務器技術成為了數據中心國家技術標準。其他不斷成熟應用的領先技術包括AHU風扇牆、市電直供+HVDC、OCU等等。

目前,該中心已上線服務器超過15萬臺、年均PUE低至1.09、超過300萬個CPU核、存儲容量超過了6EB。

張炳華介紹到,PUE(Power Usage Effectiveness,電力使用效率),是國際上通行的衡量數據中心能源效率的指標,PUE值是指數據中心總能耗(供電、製冷、照明、IT)與IT能耗之比。PUE值越接近於1,表示效率越高。

“數據中心成本中,電力成本佔了60%-70%,降低PUE,可以直接降低數據中心的運營成本,提高產品的競爭能力。通過技術創新,提高數據中心能效,對行業有極大的示範作用和帶動作用,同時,可以減少能源消耗,減少CO2排放。”

百度陽泉雲計算中心監控中心,如屏幕所示,實際當天的PUE為1.06,還要低於1.09這一數值。

除了PUE以外,數據中心的機架規模、功率密度、運行穩定性、運營成本等,都是數據中心的核心指標。

對標國際巨頭,百度陽泉雲計算中心數據中心單體規模、算力、存儲容量方面上非常強大,比如:採用“天蠍”整機櫃服務器、“冰山”冷存儲系統、“X-MAN”AI超級計算平臺等;在數據中心基礎設施架構非常領先,比如:高效供電、免費冷卻、智能控制,並與服務器、網絡設備間的協同創新,達到最佳匹配效果。

安全

業務安全及用戶體驗對於任何一個數據中心來說都是至關緊要的。百度智能雲產業智能化業務負責人李碩介紹到,百度採用分層機制,基本能夠做到N+1的服務模式,即一個用戶可以通過多個入口來訪問百度的服務,若訪問數據時物理服務器出現故障,會通過智慧調度系統實現分層處理。

“對於相對比較冷的數據,比如陽泉和青島各有備份,在網盤中就不會有對應的數據,但即使該數據在10年內沒有被用到,我們當前在使用時也能很快訪問到,這個是和底層完全剝離的。如果是非常火的數據,會在多個系統中增加備份,這樣南方的用戶可以在廣州訪問,北方的用戶可以在陽泉或青島訪問。”

李碩表示:“隨機關掉百度的任何一個數據中心,我們訪問依舊沒有任何問題,到今天為止依然是這樣,這是上層服務設計需要做到的。”

在管理上,陽泉數據中心與北京總部實時聯動。陽泉數據中心團隊主要負責數據中心7*24時值班,負責現場運營管理、故障處理和維護保養,業務層面的部署和調度由總部統一調度。

2018年底,百度剛剛發佈自主研發的超級AI計算平臺X-MAN3.0。該平臺專為AI深度學習場景優化設計,每秒完成2000萬億次深度神經網絡計算,極大的加快了AI深度學習模型的訓練速度。

就在陽泉雲計算中心,鈦媒體看到了“傳說中”的AI計算集群。“冷板式液冷技術已經在百度X-MAN 2.0上規模應用了。”據張炳華介紹,2017年上線的X-MAN 2.0,是國內首個採用液體冷卻技術的GPU解決方案,實現了超高的散熱效率,規模應用後,可以去除製冷機組,全面實現無冷機運行。

目前,陽泉雲計算中心是由CPU通用計算+GPU異構計算+XPU新一代AI處理架構所組成的強大算力平臺。不僅僅是百度搜索、度秘、智能雲、基礎技術、新興業務的基礎,更是百度發力人工智能、自動駕駛、AI的重要基石。

張炳華對鈦媒體說道,這些算力平臺定義了AI時代的基礎設施標準,併為百度AI技術多年積累和業務實踐的集大成——百度大腦提供了強大的算力平臺。而算力平臺之上的百度大腦,則為百度的AI業務提供了強有力的算法和數據支持。

“我們都希望通過開源和開放,把中國的數據中心產業生態做好,縮小與國際先進水平的差距,大家一起想辦法把蛋糕做大,把規模效益做起來,這樣的話,每個參與者都是受益者。ODCC每年發佈的幾十項成果,這些成果都是由各個會員單位貢獻的,這些個成果都是開放的。隨著這個生態的規模越來越大,產業鏈越來越成熟,也越來越得到行業的認可。”


分享到:


相關文章: