撸某度平台GPU

配置环境:
1. AIstudio平台环境:

  • CPU 8 core
  • RAM 32GB
  • GPU v100
  • Video RAM 16GB
  • Disk 100GB
  • OS Ubuntu 16.04 LTS
  • NVIDIA GPU Card Driver 9.0.176
2. Tensorflow环境:
  • Python 3.6.10 (注:AiStudio 默认的版本可能是3.7,所以需要新建虚拟环境)
  • Tensorflow 1.9.0 (tensorflow_gpu-1.9.0-cp36-cp36m-manylinux1_x86_64.whl)
  • cudnn 9.2, v7.6.5.32.tgz
  • cuda 9.0.176
3. 步骤:
一、准备相关的下载文件,其中包括,
  • wget cuda_9.0.176.xxxx.run
  • wget cudnn-9.2-linux-x64-v7.6.5.32.tgz
  • wget tensorflow_gpu-1.9.0-cp36-cp36m-manylinux1_x86_64.whl
二、静默安装cuda9.0
  • sh cuda_9.0.176_linux-run --silent --toolkit --toolkitpath=$HOME/cuda-9.0
三、解压cudnn9.2,并拷贝相关的库文件到cuda9.0
  • tar -zxvf cudnn-9.2-xxxxxxxx.tgz
  • cp cuda/include/cudnn.h ~/cuda-9.0/include/
  • cp cuda/lib64/libcudnn* ~/cuda-9.0/lib64/
四、建立脚本文件
  • envm其中内容为:
export PATH=$HOME/cuda_9.0/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HOME/cuda_9.0/lib64
export CUDA_HOME=$HOME/cuda_9.0
  • envn_setting.sh,其内容为:
#!bin/bash
chmod a+r ~/cuda_9.0/include/cudnn.h
chmod a+r ~/cuda_9.0/lib64/libcudnn*
source ~/envm
pip install ~/tensorflow_gpu-1.9.0-cp36-cp36m-manylinux1_x86_64.whl
注:步骤一到四,只需要运行一次即可。
五、建立虚拟Python3.6环境,并激活
  • conda create -n env_name python=3.6
  • source activate env_name
六、运行脚本
  • source ~/envn_setting.sh
注:步骤五和六,需要每次重启后再次运行。至此全部的步骤完成。顺利的话可以欢快的撸平台了。
注:由于AiStudio平台版本的限制,请严格遵循上面的版本信息,否则可能造成TensorFlow不可用,或者GPU不可用。其他cuda和对应的TensorFlow版本,需要在AiStudio上做进一步测试,目前待定。
注:根据不同的应用需求,可以还需要在虚拟环境中单独的安装一些库,比如运行VGG16可能还需要安装:
  • pip install matplotlib
  • pip install h5py
  • pip install pillow
  • pip install scipy
【撸某度平台GPU】=========================我是分割线===========================
一些必要的Linux命令
查看系统:head -n 1 /etc/issue
查看GPU资源:nvidia-smi
查看GPU版本:nvcc -V
查看python和pip版本:python -V,pip -V
查看tensorflow版本和GPU是否可以用的python脚本:
import tensorflow as tf
tensorflow_version = tf.__version__
gpu_available = tf.test.is_gpu_available()
print("tensorflow version:", tensorflow_version, "\tGPU available:", gpu_available)
最后,小撸怡情,樯橹灰飞烟灭。共勉~

    推荐阅读