03.06 AWS最新產品來咯,一篇文章帶你玩轉Amazon EC2 G4

Amazon EC2 G4 實例近日在 Amazon Web Service 北京和寧夏兩個區域均已上線運行。G4 實例提供了極具成本效益的 GPU,針對需要使用基礎 GPU 軟件庫的機器學習應用進行了優化,為機器學習應用和圖形密集型應用提供了經濟高效的解決方案。本文從 G4 實例的基本情況、優勢、應用場景等方面進行介紹,幫助您快速瞭解 G4 實例。


G4 實例基本介紹

Amazon EC2 G4 實例提供最新一代的 NVIDIA T4 GPU,AWS 定製的Intel Cascade Lake CPU,最高100Gbps 的網絡吞吐量,最高1.8TB 的本地 NVMe 存儲,用於在生產和圖形密集型應用程序中部署機器學習模型。G4 實例針對需要使用基礎GPU軟件庫的機器學習應用進行了優化,例如圖像分類、對象檢測、推薦引擎、語音識別、語言翻譯、推薦系統等場景,使得它非常適合承載機器學習應用程序。G4 實例同時也是圖形密集型應用的經濟高效解決方案,例如遠程圖形工作站、視頻轉碼、雲遊戲等。G4 實例有不同的大小,配置從1個GPU到最多8個 GPU,供客戶靈活選用。


G4 實例的優勢

  • 性能提升

G4實例配備了 NVIDIA T4 GPU,可以提供260個TFLOP性能,多達 256GB 的內存,通過 Nitro 架構的 ENA 網卡提供的最高 100Gbps 網絡吞吐量,以及最高1.8TB 的本地 NVMe 存儲,是機器學習、圖形計算的理想解決方案。

NVIDIA T4 GPU 性能參數:

AWS最新產品來咯,一篇文章帶你玩轉Amazon EC2 G4

NVIDIA GPU 系列芯片與 AWS EC2 實例系列:

AWS最新產品來咯,一篇文章帶你玩轉Amazon EC2 G4

AWS G4 系列 EC2 實例配置與規格:

(基於 AWS 寧夏區域,Linux 操作系統,不含 6% 的增值稅)

AWS最新產品來咯,一篇文章帶你玩轉Amazon EC2 G4

G4dn.metal 裸金屬實例即將推出。


  • 降低機器學習推理成本

G4 實例使用 NVIDIA T4 GPU,擁有高達130 TOPS 的 INT8 性能,具有混合精度張量處理功能,可加速基於 AI 的應用程序不斷髮展的創新,多樣性和複雜性。與 CPU 相比低延遲吞吐量提升了 40 倍,可以實時處理更多請求;同時 G4 實例針對機器學習工作進行了優化,提高了成本效益,最多可以節省 90%的機器學習任務推理成本。此外 G4 實例提供的高速 NVMe本地存儲以及ENA 網卡大幅縮短了數據模型從本地加載到顯卡以及 S3 存儲桶加載到本地的時間。

與此同時 Intel Cascade Lake 搭載了 Skylake 架構CPU所不具備的 AVX-512 VNNI (Vector Neural Network Instructions)擴展指令集,該指令集被設計為用於加速卷積神經網絡算法,提供新的指令對兩個 8位或 16位數乘法的結果進行32位累加操作。

不過需要說明的是,儘管 NVIDIA T4 GPU 擁有優異的整數與浮點運算性能,以及低廉的價格,但是由於缺乏多 GPU 顯卡之間的高速 NVLink 鏈路,只能通過 PCIe 總線互聯,在多卡情況下其表現會弱於使用 NVIDIA V100 GPU 的 P3 實例(單 GPU 支持多達六條 NVLink 鏈路,總帶寬為 300GB/ 秒),因此對於需要多張顯卡共同完成的分佈式機器學習訓練任務,建議使用 P3 或 P3dn 實例。

下圖是針對 GNMT、DeepSpeech2、ResNet50 推理,T4 GPU 與其他 CPU 的性能對比。

AWS最新產品來咯,一篇文章帶你玩轉Amazon EC2 G4


  • 第二代 Tensor Core

NVIDIA Turing 架構下的 Tensor Core 加速了在神經網絡訓練和推理過程中矩陣與矩陣乘法操作。Tensor Core 尤其特別擅長推理計算場景,在這種計算中,受過訓練的深度神經網絡(DNN)可以根據給定的輸入來推理有用的相關信息並進行傳遞。 例如:照片相冊中識別朋友的照片,識別和分類自動駕駛汽車中不同類型的汽車,行人和道路危險,實時翻譯人類語音並在在線零售和社交媒體上創建個性化的用戶推薦系統。

AWS最新產品來咯,一篇文章帶你玩轉Amazon EC2 G4

Tensor Core 執行融合乘法加法,其中兩個4*4 FP16 矩陣相乘,然後將結果添加到 4*4 FP16 或FP32矩陣中,最終輸出新的 4*4 FP16 或 FP32 矩陣。NVIDIA 將通過 Tensor Core 進行的這種運算成為混合精度特性,因為輸入矩陣的精度為半精度,但乘積可以達到完全精度。於此同時 TensorFlow、PyTorch 和 MXNet框架中的自動混合精度特性為深度學習研究人員和工程師提供了在 NVIDIA Turing GPU 上最多3倍的人工智能訓練速度,而只需要添加幾行代碼就能實現。

AWS最新產品來咯,一篇文章帶你玩轉Amazon EC2 G4

G4 實例是繼 P3/P3dn 之後第二款 GPU 支持 Tensor Core 的實例, 通過利用 NVIDIA Tensor RT 推理框架,能夠提供快速的 INT8 矩陣張量運算能力,從而以最小的精度損失極大提高了推理吞吐量,大幅降低了模型推理成本。而NVIDIA T4也是 NVIDIA 第二代 Tensor 核心 GPU, 額外增加了新的低精度 INT4 矩陣運算能力,可以在保持 CUDA 編程性不變的情況下為深度學習AI應用程序實現最高吞吐性能表現。

在 3D 遊戲場景中這些 Tensor 核心也同樣能夠發揮作用,NVIDIA 提供了基於深度學習超採樣(DLSS)方式的抗鋸齒技術,通過 AI 方式以很小的幀率損失代價換取足夠優異的採樣效果,提升遊戲細節真實度。


  • 實時光線追蹤能力

G4 實例所搭載的 NVIDIA T4 GPU 是雲上第一款提供了 RT核心、支持 NVIDIA RTX 實時光線追蹤的 GPU實例。實時光線追蹤技術使單個 GPU 可以渲染視覺非常逼真的 3D 遊戲,在專業模型上渲染出無與倫比的光源反射、折射與陰影的物理表現。實時光線追蹤提供了最逼真的場景。 設計師和藝術家可以通過實時逼真的渲染,人工智能增強的圖形以及視頻和圖像處理,以新的方式創建內容。


  • 提高圖形計算效率

與上一代 Amazon G3 實例相比,G4 實例的圖形性能提高了1.8倍,視頻解碼能力提高了2倍。NVIDIA T4 GPU 還可以用於圖形應用程序和3D渲染,並支持最新的API:DirectX 12,OpenGL 4.6,OpenCL 2.2,CUDA 10.1和 Microsoft DXR。通過 G4 實例與NVIDIA Quadro vWS 驅動相結合,從而支持最新的光線跟蹤API,包括 Microsoft DXR,NVIDIA OptiX 和 Vulkan。


G4 實例應用場景

  • 機器學習推理

如果您正在尋找更具有成本效益的機器學習推理平臺,尤其是需要直接訪問 GPU 庫(NVIDIA CUDA、CuDNN、TensorRT 等)的機器學習推理應用程序,G4實例是理想的解決方案。您可以使用 Amazon Deep Learning AMI,啟動預裝有流行的深度學習框架和接口的 G4 實例,例如 TensorFlow,PyTorch,Apache MXNet,Chainer,Gluon,Horovod和Keras,快速開始機器學習模型的訓練。


  • GPU 驅動的雲遊戲

G4 實例所搭載的 Turing 架構GPU 也將 NVIDIA 的遊戲能力帶到了 AWS。您可以使用 GPU 的硬件編碼器引擎(通過 NVIDIA Video Codec SDK 對其進行編程)來渲染和傳輸最複雜的遊戲。遊戲發行商可以基於最新的 NVIDIA 技術構建自己的雲遊戲實例,並使幾乎所有設備上的遊戲玩家均可使用其完整的PC遊戲特性,以高分辨率以快速,流暢的幀速率享受遊戲,而無需擔心硬件性能、驅動補丁。


  • 遠程圖形工作站

您可以使用 G4 實例作為遠程工作站,來運行圖形應用程序,例如 Autodesk Maya 或 3D Studio Max 等。這種形式可以幫助您擴展渲染能力,靈活地分配資源。在使用專業軟件訪問 NVIDIA T4 GPU 硬件時,我們建議您使用 AWS 的遠程桌面產品 NICE Desktop Cloud Visualization (DCV)(Amazon Appstream 2.0 與 AWS RoboMaker 就是通過 DCV 提供流傳輸協議能力),在AWS EC2 上使用完全免費。配合NVIDIA專業圖形工作站驅動能夠提供 4臺 4K 分辨率的遠程顯示器。


  • 媒體與視頻轉碼

G4 實例可用於後期製作和視頻播放、廣播、視頻編碼、視頻轉碼等場景。NVIDIA T4 GPU 為人工智能視頻應用提供極具突破性的性能,其專用的硬件轉碼引擎將解碼性能提升至上一代 GPU 的兩倍(增強的 NVENC 能夠提供 H.265(HEVC) 編碼 8K 分辨率下提供30fps性能)。T4 可以解碼多達 38 個全高清視頻流,從而可以輕鬆地將可擴展的深度學習集成到視頻管線中,以提供創新的智能視頻服務。


  • 娛樂與 AR、VR、MHD

在增強現實、虛擬現實、頭戴智能顯示器領域 G4 實例通過實時光線追蹤技術、DLSS 抗鋸齒技術、MVR(多視圖渲染)、VRS(可變速率著色)技術能夠獲得更加逼真的沉浸式體驗。在新平臺架構上 NVIDIA VRWorks Audio 的運行速度可提高 6 倍。其光線追蹤的音頻技術能夠實時創建虛擬環境的物理逼真聲學圖像。


編寫:

李思源([email protected]),AWS解決方案架構師,負責基於 AWS 的雲計算方案的諮詢與架構設計,在軟件開發、網絡等領域有實踐經驗。加入AWS 之前曾任軟件開發工程師、Scrum master、項目經理等角色,PMI認證PMP。目前關注遊戲、高性能計算等領域。


莫梓元([email protected]),AWS 解決方案架構師,有著超過5年的雲計算領域從業經驗,工作中擔任過解決方案、售前、研發、實施、運維等多種角色。加入 AWS 之前,作為技術骨幹負責中國聯通基於 OpenStack 的沃雲平臺自研工作。


分享到:


相關文章: