引子:
本篇是承接上篇《全網第一篇,小白阿里雲GPU完全搭建手冊》的姊妹篇,主要介紹阿里雲vgpu機器vgn5I的實際安裝部署教程。需要說明的是,這個vgpu的環境搭建和自己的gpu環境搭建完全不同,安裝的方式和細節點有很多坑,本文主要是填坑指南。
一、顯卡驅動安裝
阿里雲的的vgn5i選擇主要是便宜,它的gpu型號是tesla P4,按照通用的驅動安裝標準,我們需要知道我們的操作系統(Centos7)是否有可以支持的驅動型號。
![零基礎玩轉AI工程--阿里雲虛擬GPU機器vgn5i環境部署](http://p2.ttnews.xyz/loading.gif)
<code>lspci
| grep -i nvidia
Tesla
P4 6.1 在列表中
/<code>
按照常規操作,我們就應該從NVIDIA上下載驅動安裝了,但是這裡千萬不要按此操作,我就是在此處耽誤了太多的時間,最後才找得到了阿里的幫助文檔
https://help.aliyun.com/document_detail/118852.html
1.禁用nouveau
<code>vim
/etc/modprobe.d/blacklist-nouveau.conf
blacklist
nouveau
blacklist
lbm-nouveau
options
nouveau modeset=0
mv
/boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut
/boot/initramfs-$(uname -r).img $(uname -r)
/<code>
2.安裝GRID驅動
按照阿里雲的說法:”如果您的GPU計算型實例需要支持OpenGL圖形顯示,必須安裝GRID驅動“,那我如果不適用OpenGL,是不是就可以不用裝這個驅動了呢,很抱歉,不管你用不用OpenGL都是要安裝的。
<code>wget
http://nvidia-418.oss-cn-shenzhen.aliyuncs.com/NVIDIA-Linux-x86_64-418.70-grid.run chmod +x NVIDIA-Linux-x86_64-418
.70
-grid.run ./NVIDIA-Linux-x86_64-418
.70
-grid.run /<code>
3.驗證驅動是否安裝正常
<code>-v
rpm
--import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm
-Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
yum
install nvidia-detect
-v
nvidia-smi
/<code>
如果出現下面的顯示,就說明驅動安裝正常了
![零基礎玩轉AI工程--阿里雲虛擬GPU機器vgn5i環境部署](http://p2.ttnews.xyz/loading.gif)
二、CUDA和cuDNN安裝
這也是一個比較大大大大的坑,這個坑折騰了我將近2天的時間,一直在找尋原因和解決辦法,到最後才發現,必要要安裝License,雖然阿里雲的文檔上寫了這個步驟,但是沒告訴我們為什麼要這個做,做這個是為了解決什麼問題,我無語。一句話,如果你需要使用CUDA,就需要安裝License server並配置好。
1.CUDA和cuDNN的安裝
這部分沒有什麼特別的,按照常規的安裝即可。
<code>https:
//docs.nvidia.com/cuda
/cuda-toolkit-release-notes/index
.html 找到對應CUDA為10.1
https:
//developer.nvidia.com/rdp
/cudnn-archive 找到cuDNN版本7.6.4
/<code>
在上一篇文章中我提到了最好的方法,是用run文件的方式,具體的操作步驟詳見上一篇文章《全網第一篇,小白阿里雲GPU完全搭建手冊》,主要如果有錯誤的話,run的安裝可以直接看到錯誤日誌,很方便定位到具體的原因
2.License操作
阿里雲也算是一半貼心吧,可以提工單申請臨時的License的地址
<code>cd
/etc/nvidia
cp
gridd.conf.template gridd.conf
vim
gridd.conf
ServerAddress
=ServerPort
=FeatureType
=1
/<code>
如果要長久使用,需要單獨部署一臺windows服務器,作為License server,然後去NVIDIA官網申請,下面有一篇比較詳細的配置文檔,可做參考:
https://forum.huawei.com/enterprise/zh/thread-475551.html
3.驗證是否可以正常運行AI項目
不同的項目採用的框架不同,下面的演示是採用的pytorch的方式,具體詳細的細節,在下一篇關於中文OCR的AI項目實戰中,我會詳細介紹步驟的,這裡採用一個比較簡單的pytorch文件來驗證
<code>import
torchif
__name__ =='__main__'
:"Support CUDA ?: "
, torch.cuda.is_available()) x = torch.Tensor([1.0
]) xx = x.cuda()2
,3
) yy = y.cuda()from
torch.backendsimport
cudnn"Support cudnn ?: "
,cudnn.is_acceptable(xx))/<code>
執行python test_cuda.py ,如果現實下面的輸出,即為驗證CUDA通過
至此,阿里雲的vgn5i的環境就算徹底配置完成,下面就是享受自己的AI之旅了,順便給自己的下一篇文章做個預熱:《github最火的中文OCR的AI識別工程--全填坑指南及真實工程優化》