全網第一篇,小白阿里雲GPU完全搭建手冊(1)

引子:

在進行深度學習的第一步就是搭建GPU環境,自己購買NVIDIA顯卡費用不菲,阿里雲推出的虛擬GPU環境是個不錯的選擇,但是網上鮮有詳細的搭建教程,前一階段,項目中使用了阿里雲的vgn5i的環境搭建了一箇中文OCR的深度學習項目,這個文章是個總結,也將阿里雲GPU環境搭建過程中的坑一一填上,算是階段總結吧。

這篇文章算是個系列文章的頭吧,計劃如下:

1.阿里雲GPU環境搭建(1):通用GPU環境搭建

2.阿里雲GPU環境搭建(2):VGN5i環境搭建

3.中文OCR識別工程搭建實例(1):環境和工程搭建

4.中文OCR識別工程搭建實例(2):踩坑和工程優化


1、 阿里雲虛擬GPU介紹

1.虛擬化GPU和常規GPU區別:


全網第一篇,小白阿里雲GPU完全搭建手冊(1)

虛擬化GPU服務是一種彈性GPU計算服務,虛擬化GPU是指在物理GPU上虛擬的GPU設備,虛擬GPU計算服務價格便宜。虛擬化GPU服務器和常規GPU雲服務器詳細的區別參考下表:


2. 虛擬化GPU適用場景:

虛擬化GPU服務是通過GPU虛擬化技術將物理GPU資源進行切分,虛擬化的GPU依然具有物理GPU的所有計算特性。用戶可以使用虛擬化GPU實例搭建自己的AI推理計算業務、圖形計算、深度學習計算、雲遊戲、VR/AR和DL教學等業務。

更多關於阿里雲虛擬化GPU VGN5i實例的詳細配置及價格參考:

https://yq.aliyun.com/articles/697585

裡面有去年發佈會的鏈接和實際業務場景的說明,推薦觀看。

全網第一篇,小白阿里雲GPU完全搭建手冊(1)


全網第一篇,小白阿里雲GPU完全搭建手冊(1)

3.大白話虛擬化GPU

其實虛擬化GPU的推出,最大程度方便了很多想"嚐鮮"的人士,大家對照下面價格就深有體會:

全網第一篇,小白阿里雲GPU完全搭建手冊(1)

傳統GPU的ecs最低的也得3000-4000元/月,現在使用最便宜的vgn5i也就500/月,價格的優勢太大了。

一句話:窮,但是還像嚐鮮,這個場景下,虛擬化GPU的推出太吸引人了,但是奇怪的是,網上關於阿里雲vgn5i或其他型號的完整搭建過程,網上鮮有教程和例子,只在一些文章上有隻言片語,這就促成這篇文章。


2、 通用GPU環境搭建

網上關於通用GPU環境搭建很多文章,為什麼這裡還要費這口舌,主要是為了對照後面的阿里雲的安裝和部署,以期望有個直觀的對比,這一部分會比較簡略,需要詳細信息,網上很多資料參考。後面例子說明均以centos7進行說明,其他OS自行參考。


1. 查看自己的GPU型號,找到對應的驅動

#查看支持CUDA的GPU列表: https://developer.nvidia.com/cuda-gpus

#查看支持的linux系統http://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements

<code>lspci | grep -i nvidia
uname -m && cat /etc/redhat-release/<code>

2.禁用nouveau

<code>sudo vim /etc/modprobe.d/blacklist-nouveau.conf

#寫入以下內容
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0

#生成kernel initramfs
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)

#reboot/<code>

3.驅動下載&安裝

http://www.nvidia.com/Download/Find.aspx 。選型號和OS後下載

這裡需要單獨說明的是目前官網提供的方式僅提供RPM包下載和yum 安裝,但是網上有人說rpm安裝有問題,建議採用run包方式安裝,這裡也提供一個可以下載run文件的方式,我個人感覺用run方式比較好,細節提示比較多,就算出錯,日誌地址也非常清晰,建議使用run方式安裝

https://us.download.nvidia.com/tesla/${NVIDIA_DRIVER_VERSION}/NVIDIA-Linux-x86_64-${NVIDIA_DRIVER_VERSION}.run

根據上面找到的驅動的版本號,替換上面的對應地址,比如我下載的版本是440.64.00,則真實下載地址為:

替換為https://us.download.nvidia.com/tesla/440.64.00/NVIDIA-Linux-x86_64-440.64.00.run

<code>chmod 777 ./NVIDIA-Linux-x86_64-440.64.00.run
./NVIDIA-Linux-x86_64-440.64.00.run
#如果刪除使用
./NVIDIA-Linux-x86_64-440.64.00.run --uninstall/<code>

4. 驗證驅動是否安裝正確

<code>yum -y install kernel-devel kernel-headers
yum -y install epel-release
yum -y install dkms libstdc++.i686
yum install gcc-c++ bzip2
yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
#驗證安裝是否正常
dkms status
nvidia-smi/<code>

如果出現類似下面的界面,即表示驅動安裝正確

全網第一篇,小白阿里雲GPU完全搭建手冊(1)


CUDA和cuDNN在阿里雲vgn5i安裝步驟中講述。

未完待續......


分享到:


相關文章: