03.06 「DL」如何配置一臺深度學習工作站?

來源 | 極市平臺

作者 | 楊培文

這篇文章主要介紹的是家用的深度學習工作站,典型的配置有兩種,分別是一個 GPU 的機器和四個 GPU的機器。如果需要更多的 GPU 可以考慮配置兩臺四個 GPU 的機器。

如果希望一臺機器同時具備 6~8 個 GPU 需要聯繫專門的供應商進行配置,並且有專業的機房存放,放在家裡噪聲很大並且容易跳閘。


CPU

由於最近 AMD 和 Intel 頻繁更新 CPU,因此大家選擇新款的 CPU 比較好。

CPU 與 GPU 的關係

CPU 瓶頸沒有那麼大,一般以一個GPU 對應 2~4 個 CPU 核比較好,比如單卡機器買四核 CPU,四卡機器買十核 CPU。

當你在訓練的時候,只要數據生成器(DataLoader)的產出速度比 GPU 的消耗速度快,那麼 CPU 就不會成為瓶頸,也就不會拖慢訓練速度。

PCI-E 支持情況

除了核數,你還需要注意 PCI-E 支持情況,一般顯卡是 PCI-E 3.0 x16,比如 i9-9820X 的 PCI-E 通道數是 44 ,配置四卡的話,只能支持 1x16+3x8+1x4,也就是單卡全速,三卡半速,一個 NVMe 固態硬盤。這種情況下可以考慮選擇帶有 PLX 橋接芯片的主板。

AMD 的 2990WX 有 64條 PCI-E,但是隻支持 x16/x8/x16/x8 的四卡配置。

英特爾CPU

「DL」如何配置一臺深度學習工作站?

英特爾CPU

雙卡機器選 i9-9900K,四卡機器按照預算選X系列的CPU。


主板

主板需要注意:

  • CPU 接口是否能對上,如LGA2066 和 SocketTR4
  • PCI-E 插槽的高度是否夠插顯卡,比如 PCI-E 插口之間的距離至少要滿足雙槽寬顯卡的高度
  • PCI-E 同時可以支持幾張卡以什麼樣的速度運行,如 1x16 + 3x8 是常見的配置

主板必看參數

GIGABYTE X299 AORUS MASTER (rev. 1.0) 使用了 4 組 2 槽間距顯卡插槽設計,支持1x16、2x16、2x16 + 1x8、1x16 + 3x8 四種配置(需要十核以上的 CPU),這裡請參閱說明書安裝顯卡,安裝在不同位置的速度是不一樣的:

「DL」如何配置一臺深度學習工作站?

GIGABYTE X299 AORUS MASTER (rev. 1.0)

「DL」如何配置一臺深度學習工作站?

GIGABYTE X299 AORUS MASTER manual

帶有橋接芯片的主板

有的主板如 WS X299 SAGE 帶有 PLX 橋接芯片,可以在 CPU 沒有足夠 PCI-E 的情況下達到四卡 x16 的速度:

「DL」如何配置一臺深度學習工作站?

WS X299 SAGE

「DL」如何配置一臺深度學習工作站?

WS X299 SAGE User Guide

在多卡並行訓練的時候,PCI-E 的傳輸速度決定了梯度同步的速度,如果你訓練的的模型比較大,希望搭建多卡機器,建議選擇支持四路 PCI-E x16 的主板。


顯卡

顯卡性能表

「DL」如何配置一臺深度學習工作站?

訓練需要 FP32 和 FP16 的性能,推斷需要 INT8 的性能。訓練大模型需要注意顯存大小。

考慮成本可以買 RTX 2080Ti,想要高性能並且高性價比可以買 TITAN RTX,土豪可以選 Tesla V100。

RTX 2080 顯存較小,不推薦。GTX1080Ti 已經出了太久了,網上都是二手卡,不推薦。

參考鏈接:

  • Turing 架構白皮書
  • Volta 架構白皮書
  • RTX 2080 Ti Deep Learning Benchmarks with TensorFlow - 2019

渦輪與風扇

採購顯卡的時候,一定要注意買渦輪版的,不要買兩個或者三個風扇的版本,除非你只打算買一張卡。

因為渦輪風扇的熱是往外機箱外部吹的,所以可以很好地帶走熱量,散熱比較好。如果買三個風扇的版本,插多卡的時候,上面的卡會把熱量吹向第二張卡,導致第二張卡溫度過高,影響性能。

風扇顯卡很有可能是超過雙槽寬的,第二張卡可能插不上第二個 PCI-E 插槽,這個也需要注意。

「DL」如何配置一臺深度學習工作站?

渦輪散熱

「DL」如何配置一臺深度學習工作站?


風扇散熱

服務器推斷卡

除了用於訓練,還有一類卡是用於推斷的(只預測,不訓練),如:

「DL」如何配置一臺深度學習工作站?

這些卡全部都是不帶風扇的,但它們也需要散熱,需要藉助服務器強大的風扇被動散熱,所以只能在專門設計的服務器上運行,具體請參考英偉達官網的說明。

性價比之選應該是 Tesla T4,但是發揮全部性能需要使用 TensorRT 深度優化,目前仍然存在許多坑,比如當你的網絡使用了不支持的運算符時,需要自己實現。

英偉達只允許這類卡在服務器上運行,像 GTX 1080Ti、RTX 2080Ti 都是不能在數據中心使用的。

No Datacenter Deployment. The SOFTWARE isnot licensed for datacenter deployment, except that blockchain processing in adatacenter is permitted.

參考鏈接:

https://developer.nvidia.com/deep-learning-performance-training-inference

https://www.nvidia.cn/object/where-to-buy-tesla-catalog-cn.html

https://www.supermicro.org.cn/support/resources/gpu/

https://www.geforce.com/drivers/license/geforce


硬盤

硬盤類型

常用硬盤接口有三種:

SATA3.0,速度 600MB/s

SAS,速度 1200MB/s

PCIE 3.0 x4(NVMe),速度 3.94GB/s

參數對比

下面是根據代表產品查詢的參數:

「DL」如何配置一臺深度學習工作站?

注:

4K 隨機讀寫的隊列深度為 32

SATA3 機械硬盤沒有太好的數據來源,所以數據是經驗值

SATA3 固態硬盤數據來源:三星(SAMSUNG)1TB SSD固態硬盤 SATA3.0接口 860 EVO

NVMe 固態硬盤數據來源:英特爾(Intel)1TB SSD固態硬盤 M.2接口(NVMe協議) 760P系

在面對大量小文件的時候,使用 NVMe 硬盤可以一分鐘掃完 1000萬文件,如果使用普通硬盤,那麼就需要一天時間。為了節省生命,簡化代碼,硬盤建議選擇 NVMe 協議的固態硬盤。

如果你的主板不夠新,沒有NVMe 插槽,你可以使用 M.2 轉接卡將 M.2 接口轉為PCI-E 接口。

「DL」如何配置一臺深度學習工作站?

M.2 轉接卡


內存

內存容量的選擇通常大於顯存,比如單卡配 16GB 內存,四卡配 64GB 內存。由於有數據生成器(DataLoader),數據不必全部加載到內存裡,通常不會成為瓶頸。


電源

先計算功率總和,如單卡 CPU 100W,顯卡 250W,加上其他的大概 400W,那麼就買 650W 的電源。

雙卡最好買 1000W 以上的電源,四卡最好買 1600W 的電源,我這裡實測過四卡機用 1500W 的電源來帶,跑起來所有的卡以後會因為電源不足而自動關機。

一般牆上的插座只支持 220V 10A,也就是 2200W 的交流電,由於電源要把交流電轉直流電,所以會有一些損耗,最高只有1600W,因此如果想要支持八卡,最好不要在家嘗試。八卡一般是雙電源,並且需要使用專用的 PDU 插座,並且使用的是 16A 插口,如果在家使用,會插不上牆上的插座。


網卡

一般主板自帶千兆網卡。如果需要組建多機多卡集群,請聯繫供應商諮詢專業的解決方案。


機箱

如果配單卡,可以直接買個普通機箱,注意顯卡長度能放下就行。

如果配四卡機器,建議買一個 Air 540 機箱,因為我正在用這一款。

「DL」如何配置一臺深度學習工作站?

Air 540


顯示器

深度學習工作站裝好系統以後就不需要顯示器了,裝系統的時候使用手邊的顯示器就行。


鍵盤鼠標

深度學習工作站裝好系統以後就不需要鍵盤鼠標了,裝系統的時候使用手邊的鍵盤鼠標就行。


分享到:


相關文章: