解讀阿里巴巴AI「發電廠」:打造通用平台 GPU加持AI推理應用提速

上週NVIDIA發佈了業界最先進的AI推理平臺–NVIDIA TensorRT超大規模推理平臺,其採用基於突破性NVIDIA Turing架構的 NVIDIA Tesla T4 GPU,以及一整套完整的新推理軟件,這些產品針對強大、高效的推理進行的優化備受業界矚目,這套全新數據中心推理平臺,為語音、視頻、圖像和推薦服務帶了值得期待的推理加速。

解讀阿里巴巴AI“發電廠”:打造通用平臺 GPU加持AI推理應用提速

隨著智能手機、智能音箱、智能攝像頭等智能終端爆發,以語音交互、人臉識別、圖像識別、機器翻譯等為代表的AI服務開始大量湧入我們的生活與工作中,AI在推理側的應用也在爆發。

每天,大規模數據中心都會處理數以億計的語音查詢、翻譯、圖像、視頻、推薦和社交媒體交互。所有這些應用的處理過程都需要在位於服務器上不同類型的神經網絡進行。

解讀阿里巴巴AI“發電廠”:打造通用平臺 GPU加持AI推理應用提速

所謂推理端是相對於訓練端而言的,目前一項AI能力的打造大都需要拿大量數據來“喂”模型,來訓練出一個可供使用的模型,然後將模型部署在服務器或者終端上,來做推理應用。

作為AI計算的領導者,NVIDIA也在不斷推動適時推動為推理端的AI應用提供低時延、高性能的算力支持,保障AI服務的體驗。

作為國內最大的電商平臺以及雲服務平臺,阿里巴巴不但在AI應用的訓練端大量使用GPU,近年來還將許多推理端AI能力構建在GPU之上。近期我們與阿里巴巴計算平臺事業部機器學習平臺PAI團隊高級算法專家楊軍進行深度溝通,看看阿里巴巴如何使用GPU構建AI全平臺的超級火力“發電廠”。

解讀阿里巴巴AI“發電廠”:打造通用平臺 GPU加持AI推理應用提速

阿里巴巴GPU部署國內前三

如果將一項AI應用比作一輛火車,那麼服務器等計算平臺就是“發電廠”提供能量,算法模型就是火車的“大腦”控制前進,模型框架、部署平臺就是“軌道”,只有這三者協調配合,AI應用才能真正跑起來。

楊軍所在的計算平臺事業部扮演的是阿里巴巴AI“發電廠”的角色,他們搭建一個通用的算力平臺,對不同的算法模型提供不同的算力,滿足各項業務的發展。

智東西瞭解到,阿里巴巴計算平臺事業部原本在阿里巴巴雲業務下,後來阿里巴巴出於對該業務的重視,想在基礎設施方面有更多的沉澱,就將其從阿里雲獨立出去成為一個獨立事業部。

阿里巴巴計算平臺的能力不但輸出給阿里巴巴內部,也向外部的雲上客戶提供服務。我們瞭解到,該計算平臺的能力首先服務於阿里巴巴內部,比如搜索、推薦、淘寶、安全部、廣告之類的業務;另一方面,他們也會將能力在阿里雲上輸出產品,供長尾用戶構建AI能力。

如果將阿里巴巴的計算平臺比作一座“發電廠”,那麼GPU就是高性能“燃料”,來支持AI應用的訓練和推理。阿里巴巴從2015年開始採用NVIDIA的GPU搭建計算平臺。楊軍稱,儘管搭建的起點不算太早,但阿里巴巴對GPU非常重視,投入也非常大,目前阿里巴巴GPU的採購總量在國內可排前三。

目前NVIDIA多個系列的GPU產品阿里巴巴都有使用,而在推理端,阿里巴巴主要使用Tesla P100、Tesla P4等GPU來做AI推理任務。

由於阿里巴巴計算平臺面對不同的業務類型不同的算法模型,也要具備包容性與靈活性,能夠根據不同的業務特點匹配所需的算力。這意味著平臺必須要走通用化之路,阿里巴巴正在嘗試通過編譯器優化的方法進行解決。

楊軍也談道,部署計算平臺最關注三個方面:第一,希望客戶業務跑的足夠快,更快的完成訓練推理任務;第二,客戶的資源使用效率更高,幫助客戶節省資源;第三是透明性和智能化,客戶只需要提交模型即可,剩下的由平臺來完成,客戶可以把更多精力聚焦在業務層面。

阿里巴巴下屬的多個業務,都有著越來越好的用戶體驗,產品的創新速度也是層出不窮,在這背後就有著楊軍所在的GPU計算平臺的助力。在GPU的加持下,阿里巴巴計算平臺支持著阿里巴巴旗下的安全內容審核、機器翻譯等諸多業務AI推理應用都得以大幅提速。

解讀阿里巴巴AI“發電廠”:打造通用平臺 GPU加持AI推理應用提速

通過編譯器優化滿足不同業務AI推理需求

在阿里巴巴通用算力平臺中,面對阿里巴巴多元化的業務需求,它採用編譯器優化的方法來滿足不同業務對算力的需求。像圖像識別、語音識別、機器翻譯等不同任務在算力獲取的細節上不同,阿里巴巴通過編譯器優化的方法,將訓練和推理任務變成一個編譯優化任務,將高層次的語言描述變成一個底層可執行代碼的過程。

楊軍還介紹了一些他們在編譯器優化方面的實踐,不同的算法模型可以按照設備劃分、業務場景劃分,來進行優化。比如雲端和終端上的需求是不同的, 對於終端的搜索推薦,時延要求非常苛刻,需要及時響應。

此外同一模型不同的業務場景需求也不同,比如針對機器翻譯,類似拍照翻譯這種交互式翻譯,就需要低時延;而對於批量翻譯,時效需求就沒有那麼強。阿里巴巴計算平臺可以根據業務本身的需求,進行傾向性的優化。

楊軍以圖像識別舉例到,他們設計了一個叫做PAI Blade的離線優化器,輸入客戶的模型和一些關注的選項,優化器會對模型進行分析,發現哪些模型適合用 TensorRT(NVIDIA推出的一種神經網絡推理引擎)執行,哪些適合換成自己寫的推理引擎來執行,通過不斷迭代調優,來確保業務應用的性能符合預期。

“通過編譯優化的技術,推理效果大概會有3倍提升,以一個業務為例的話,大概可以節省一百到兩百張NVIDIA Tesla P100的卡,一張卡大概幾萬人民幣,這是很高的成本節省”,楊軍笑著說。

在使用GPU構建通用算力平臺的過程中,如何保證模型快速迭代呢?當我們把這個問題拋給楊軍後,他總結為“從業務中來,到業務中去”。

具體而言,一般他們需要先走進業務,貼身做一些手動的優化看看效果;然後從業務中走出來,去發現不同模型之間的共性,做一些通用的工作;當做到某一階段後,還需要工作人員回到業務中,看看模型效果是否有效。他稱,“通過這種方法,我們將模型不斷迭代循環,讓方案更通用,同時密切關注客戶業務需求”。

解讀阿里巴巴AI“發電廠”:打造通用平臺 GPU加持AI推理應用提速

與NVIDIA一起推動AI在推理側優化

對於通用算力平臺而言,阿里巴巴如何充分釋放GPU本身所能夠提供的算力?楊軍稱,做平臺首先要考慮的就是通用性,其次受限於業務特點,不同場景的利用率不同,有的業務與GPU也並非天然契合,這一方面需要內部快速解決,儘可能進行優化;另一方面需要反饋給NVIDIA,在下一代產品中提供更優更全面的解決方案。

楊軍提到,“NVIDIA的芯片演進很快,但是前提要有一個足夠好的GPU優化團隊,GPU的使用是有門檻的,對於不瞭解的用戶很難用到極致。”

目前阿里巴巴也在跟NVIDIA合作進行AI推理側的優化。楊軍透露道,在模型的推理優化中,可能TensorRT並不能完全適用於某些特定場景,阿里巴巴也在與NVIDIA協同開發,比如模型壓縮部分自己來做,做完後也可以享受TensorRT中的效果,使之相互兼容。

而針對AI在推理側需求的迅猛增長,楊軍認為,未來阿里巴巴需要從三個方面增強計算平臺的部署:

首先,在軟件層面不斷推廣通用優化的服務,用通用的編譯優化的方法來做這件事情;第二,通過系統和模型相結合的方法做優化,打通系統和模型之間的邊界就能夠看到更廣闊的優化空間;第三,不斷探尋硬件的邊界,跟NVIDIA有更多的合作,通過產品迭代,將某些功能放到硬件層去實現。

解讀阿里巴巴AI“發電廠”:打造通用平臺 GPU加持AI推理應用提速

結語:GPU推理側應用將迎來大爆發

我們才剛剛跨過AI時代的門檻,可以預見的是,隨著AI應用的大爆發,AI在推理側的需求也將迎來大爆發。

而目前在CPU、GPU、FPGA等幾種AI推理側算力方案中,GPU以期通用性、低時延、高性能也逐漸受到各大AI公司的追捧,也在推理端扮演越來越重的角色。

行業也需要NVIDIA這種快速響應市場變化的公司,不斷面向市場需求推出新的GPU產品,並與應用方一道針對應用場景充分釋放GPU的能力,賦能更多行業。


分享到:


相關文章: