零基礎玩轉AI工程--阿里雲虛擬GPU機器vgn5i環境部署頭條網

2021-04-03 10:12:59 佚名

引子：

本篇是承接上篇《全網第一篇，小白阿里雲GPU完全搭建手冊》的姊妹篇，主要介紹阿里雲vgpu機器vgn5I的實際安裝部署教程。需要說明的是，這個vgpu的環境搭建和自己的gpu環境搭建完全不同，安裝的方式和細節點有很多坑，本文主要是填坑指南。

一、顯卡驅動安裝

阿里雲的的vgn5i選擇主要是便宜，它的gpu型號是tesla P4，按照通用的驅動安裝標準，我們需要知道我們的操作系統（Centos7）是否有可以支持的驅動型號。

<code> 
lspci
 | grep -i nvidia
 
 
Tesla
 P4	6.1 在列表中
/<code>

按照常規操作，我們就應該從NVIDIA上下載驅動安裝了，但是這裡千萬不要按此操作，我就是在此處耽誤了太多的時間，最後才找得到了阿里的幫助文檔

https://help.aliyun.com/document_detail/118852.html

1.禁用nouveau

<code>vim
 /etc/modprobe.d/blacklist-nouveau.conf
 
blacklist
 nouveau
blacklist
 lbm-nouveau
options
 nouveau modeset=0
 
mv
 /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut
  
/boot/initramfs-$(uname -r).img $(uname -r)
/<code>

2.安裝GRID驅動

按照阿里雲的說法：”如果您的GPU計算型實例需要支持OpenGL圖形顯示，必須安裝GRID驅動“，那我如果不適用OpenGL，是不是就可以不用裝這個驅動了呢，很抱歉，不管你用不用OpenGL都是要安裝的。

<code>

wget

http://nvidia-418.oss-cn-shenzhen.aliyuncs.com/NVIDIA-Linux-x86_64-418.70-grid.run chmod +x NVIDIA-Linux-x86_64-

418

-grid.run ./NVIDIA-Linux-x86_64-

418

-grid.run /<code>

3.驗證驅動是否安裝正常

<code>  -v
 
 
rpm
 --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
 
rpm
 -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
 
yum
 install nvidia-detect
 
   
-v
 
 

nvidia-smi
/<code>

如果出現下面的顯示，就說明驅動安裝正常了

二、CUDA和cuDNN安裝

這也是一個比較大大大大的坑，這個坑折騰了我將近2天的時間，一直在找尋原因和解決辦法，到最後才發現，必要要安裝License，雖然阿里雲的文檔上寫了這個步驟，但是沒告訴我們為什麼要這個做，做這個是為了解決什麼問題，我無語。一句話，如果你需要使用CUDA，就需要安裝License server並配置好。

1.CUDA和cuDNN的安裝

這部分沒有什麼特別的，按照常規的安裝即可。

<code>

https:

/docs.nvidia.com/cuda

/cuda-toolkit-release-notes/index

.html 找到對應CUDA為

10.1

https:

/developer.nvidia.com/rdp

/cudnn-archive 找到cuDNN版本7.6.4

/<code>

在上一篇文章中我提到了最好的方法，是用run文件的方式，具體的操作步驟詳見上一篇文章《全網第一篇，小白阿里雲GPU完全搭建手冊》，主要如果有錯誤的話，run的安裝可以直接看到錯誤日誌，很方便定位到具體的原因

2.License操作

阿里雲也算是一半貼心吧，可以提工單申請臨時的License的地址

<code>cd
 /etc/nvidia
cp
 gridd.conf.template gridd.conf
vim
 gridd.conf
ServerAddress
=
ServerPort
=
FeatureType
=1
/<code>

如果要長久使用，需要單獨部署一臺windows服務器，作為License server，然後去NVIDIA官網申請，下面有一篇比較詳細的配置文檔，可做參考：

https://forum.huawei.com/enterprise/zh/thread-475551.html

3.驗證是否可以正常運行AI項目

不同的項目採用的框架不同，下面的演示是採用的pytorch的方式，具體詳細的細節，在下一篇關於中文OCR的AI項目實戰中，我會詳細介紹步驟的，這裡採用一個比較簡單的pytorch文件來驗證

<code>import torch

if
 __name__ == '__main__':
	print
("Support CUDA ?: ", torch.cuda.is_available())
	x = torch.Tensor([1.0])
	xx = x.cuda()
	print(xx)

	y = torch.randn(2
, 3)
	yy = y.cuda()
	print(yy)

	zz = xx + yy
	print(zz)

	 
	from
 torch.backends import cudnn
	print
("Support cudnn ?: "
,cudnn.is_acceptable(xx))/<code>