引子:
在進行深度學習的第一步就是搭建GPU環境,自己購買NVIDIA顯卡費用不菲,阿里雲推出的虛擬GPU環境是個不錯的選擇,但是網上鮮有詳細的搭建教程,前一階段,項目中使用了阿里雲的vgn5i的環境搭建了一箇中文OCR的深度學習項目,這個文章是個總結,也將阿里雲GPU環境搭建過程中的坑一一填上,算是階段總結吧。
這篇文章算是個系列文章的頭吧,計劃如下:
1.阿里雲GPU環境搭建(1):通用GPU環境搭建
2.阿里雲GPU環境搭建(2):VGN5i環境搭建
3.中文OCR識別工程搭建實例(1):環境和工程搭建
4.中文OCR識別工程搭建實例(2):踩坑和工程優化
1、 阿里雲虛擬GPU介紹
1.虛擬化GPU和常規GPU區別:
![全網第一篇,小白阿里雲GPU完全搭建手冊(1)](http://p2.ttnews.xyz/loading.gif)
虛擬化GPU服務是一種彈性GPU計算服務,虛擬化GPU是指在物理GPU上虛擬的GPU設備,虛擬GPU計算服務價格便宜。虛擬化GPU服務器和常規GPU雲服務器詳細的區別參考下表:
2. 虛擬化GPU適用場景:
虛擬化GPU服務是通過GPU虛擬化技術將物理GPU資源進行切分,虛擬化的GPU依然具有物理GPU的所有計算特性。用戶可以使用虛擬化GPU實例搭建自己的AI推理計算業務、圖形計算、深度學習計算、雲遊戲、VR/AR和DL教學等業務。
更多關於阿里雲虛擬化GPU VGN5i實例的詳細配置及價格參考:
https://yq.aliyun.com/articles/697585
裡面有去年發佈會的鏈接和實際業務場景的說明,推薦觀看。
![全網第一篇,小白阿里雲GPU完全搭建手冊(1)](http://p2.ttnews.xyz/loading.gif)
3.大白話虛擬化GPU
其實虛擬化GPU的推出,最大程度方便了很多想"嚐鮮"的人士,大家對照下面價格就深有體會:
傳統GPU的ecs最低的也得3000-4000元/月,現在使用最便宜的vgn5i也就500/月,價格的優勢太大了。
一句話:窮,但是還像嚐鮮,這個場景下,虛擬化GPU的推出太吸引人了,但是奇怪的是,網上關於阿里雲vgn5i或其他型號的完整搭建過程,網上鮮有教程和例子,只在一些文章上有隻言片語,這就促成這篇文章。
2、 通用GPU環境搭建
網上關於通用GPU環境搭建很多文章,為什麼這裡還要費這口舌,主要是為了對照後面的阿里雲的安裝和部署,以期望有個直觀的對比,這一部分會比較簡略,需要詳細信息,網上很多資料參考。後面例子說明均以centos7進行說明,其他OS自行參考。
1. 查看自己的GPU型號,找到對應的驅動
#查看支持CUDA的GPU列表: https://developer.nvidia.com/cuda-gpus
#查看支持的linux系統http://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements
<code>lspci | grep -i nvidia uname -m && cat /etc/redhat-release/<code>
2.禁用nouveau
<code>sudo vim /etc/modprobe.d/blacklist-nouveau.conf #寫入以下內容 blacklist nouveau blacklist lbm-nouveau options nouveau modeset=0 #生成kernel initramfs mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak dracut /boot/initramfs-$(uname -r).img $(uname -r) #reboot/<code>
3.驅動下載&安裝
http://www.nvidia.com/Download/Find.aspx 。選型號和OS後下載
這裡需要單獨說明的是目前官網提供的方式僅提供RPM包下載和yum 安裝,但是網上有人說rpm安裝有問題,建議採用run包方式安裝,這裡也提供一個可以下載run文件的方式,我個人感覺用run方式比較好,細節提示比較多,就算出錯,日誌地址也非常清晰,建議使用run方式安裝
https://us.download.nvidia.com/tesla/${NVIDIA_DRIVER_VERSION}/NVIDIA-Linux-x86_64-${NVIDIA_DRIVER_VERSION}.run
根據上面找到的驅動的版本號,替換上面的對應地址,比如我下載的版本是440.64.00,則真實下載地址為:
替換為https://us.download.nvidia.com/tesla/440.64.00/NVIDIA-Linux-x86_64-440.64.00.run
<code>chmod 777 ./NVIDIA-Linux-x86_64-440.64.00.run ./NVIDIA-Linux-x86_64-440.64.00.run #如果刪除使用 ./NVIDIA-Linux-x86_64-440.64.00.run --uninstall/<code>
4. 驗證驅動是否安裝正確
<code>yum -y install kernel-devel kernel-headers yum -y install epel-release yum -y install dkms libstdc++.i686 yum install gcc-c++ bzip2 yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r) #驗證安裝是否正常 dkms status nvidia-smi/<code>
如果出現類似下面的界面,即表示驅動安裝正確
CUDA和cuDNN在阿里雲vgn5i安裝步驟中講述。
未完待續......