零基礎玩轉AI工程--阿里雲虛擬GPU機器vgn5i環境部署

引子:

本篇是承接上篇《全網第一篇,小白阿里雲GPU完全搭建手冊》的姊妹篇,主要介紹阿里雲vgpu機器vgn5I的實際安裝部署教程。需要說明的是,這個vgpu的環境搭建和自己的gpu環境搭建完全不同,安裝的方式和細節點有很多坑,本文主要是填坑指南。

一、顯卡驅動安裝

阿里雲的的vgn5i選擇主要是便宜,它的gpu型號是tesla P4,按照通用的驅動安裝標準,我們需要知道我們的操作系統(Centos7)是否有可以支持的驅動型號。

零基礎玩轉AI工程--阿里雲虛擬GPU機器vgn5i環境部署

<code> 

lspci

| grep -i nvidia

Tesla

P4 6.1 在列表中

/<code>

按照常規操作,我們就應該從NVIDIA上下載驅動安裝了,但是這裡千萬不要按此操作,我就是在此處耽誤了太多的時間,最後才找得到了阿里的幫助文檔

https://help.aliyun.com/document_detail/118852.html

1.禁用nouveau

<code>

vim

/etc/modprobe.d/blacklist-nouveau.conf

blacklist

nouveau

blacklist

lbm-nouveau

options

nouveau modeset=0

mv

/boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut

/boot/initramfs-$(uname -r).img $(uname -r)

/<code>

2.安裝GRID驅動

按照阿里雲的說法:”如果您的GPU計算型實例需要支持OpenGL圖形顯示,必須安裝GRID驅動“,那我如果不適用OpenGL,是不是就可以不用裝這個驅動了呢,很抱歉,不管你用不用OpenGL都是要安裝的。

<code>

wget

http://nvidia-418.oss-cn-shenzhen.aliyuncs.com/NVIDIA-Linux-x86_64-418.70-grid.run chmod +x NVIDIA-Linux-x86_64-

418

.

70

-grid.run ./NVIDIA-Linux-x86_64-

418

.

70

-grid.run /<code>

3.驗證驅動是否安裝正常

<code>  

-v

rpm

--import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org

rpm

-Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm

yum

install nvidia-detect

-v

nvidia-smi

/<code>

如果出現下面的顯示,就說明驅動安裝正常了


零基礎玩轉AI工程--阿里雲虛擬GPU機器vgn5i環境部署

二、CUDA和cuDNN安裝

這也是一個比較大大大大的坑,這個坑折騰了我將近2天的時間,一直在找尋原因和解決辦法,到最後才發現,必要要安裝License,雖然阿里雲的文檔上寫了這個步驟,但是沒告訴我們為什麼要這個做,做這個是為了解決什麼問題,我無語。一句話,如果你需要使用CUDA,就需要安裝License server並配置好。

1.CUDA和cuDNN的安裝

這部分沒有什麼特別的,按照常規的安裝即可。

<code> 

https:

/

/docs.nvidia.com/cuda

/cuda-toolkit-release-notes/index

.html 找到對應CUDA為

10.1

https:

/

/developer.nvidia.com/rdp

/cudnn-archive 找到cuDNN版本7.6.4

/<code>

在上一篇文章中我提到了最好的方法,是用run文件的方式,具體的操作步驟詳見上一篇文章《全網第一篇,小白阿里雲GPU完全搭建手冊》,主要如果有錯誤的話,run的安裝可以直接看到錯誤日誌,很方便定位到具體的原因

2.License操作

阿里雲也算是一半貼心吧,可以提工單申請臨時的License的地址

<code>

cd

/etc/nvidia

cp

gridd.conf.template gridd.conf

vim

gridd.conf

ServerAddress

=

ServerPort

=

FeatureType

=

1

/<code>

如果要長久使用,需要單獨部署一臺windows服務器,作為License server,然後去NVIDIA官網申請,下面有一篇比較詳細的配置文檔,可做參考:

https://forum.huawei.com/enterprise/zh/thread-475551.html

3.驗證是否可以正常運行AI項目

不同的項目採用的框架不同,下面的演示是採用的pytorch的方式,具體詳細的細節,在下一篇關於中文OCR的AI項目實戰中,我會詳細介紹步驟的,這裡採用一個比較簡單的pytorch文件來驗證

<code>

import

torch

if

__name__ ==

'__main__'

:

print

(

"Support CUDA ?: "

, torch.cuda.is_available()) x = torch.Tensor([

1.0

]) xx = x.cuda()

print

(xx) y = torch.randn(

2

,

3

) yy = y.cuda()

print

(yy) zz = xx + yy

print

(zz)

from

torch.backends

import

cudnn

print

(

"Support cudnn ?: "

,cudnn.is_acceptable(xx))/<code>

執行python test_cuda.py ,如果現實下面的輸出,即為驗證CUDA通過


零基礎玩轉AI工程--阿里雲虛擬GPU機器vgn5i環境部署

至此,阿里雲的vgn5i的環境就算徹底配置完成,下面就是享受自己的AI之旅了,順便給自己的下一篇文章做個預熱:《github最火的中文OCR的AI識別工程--全填坑指南及真實工程優化》


分享到:


相關文章: