Проект содержит bash-скрипты для подготовки хост-машины для предоставления доступа к GPU в docker контейнерах. Подготовка состоит из:
- Установка драйвера для NVIDIA GPU необходимой версии
- Установка nvidia-container-toolkit
- Сборка базового docker образа с CUDA 10.X и cuDNN 7.6
Внимание! Все нижеописанные инструкции предназначены для Ubuntu 16.04-20.04. В других ОС работоспособность не гарантируется!
Примечание: после клонирования проекта, скорее всего нужно будет предоставить скриптам права на запуск. Это можно сделать следующим способом (находясь в папке с проектом):
chmod +x *.shДля успешной подготовки хост-машины требуется установленный Docker версии 19.03 или выше.
Для установки Docker в Ubuntu 16.04-20.04 воспользуйтесь официальной инструкцией или скриптом install_docker-ubuntu.sh:
sudo ./install_docker-ubuntu.shТак же можно вручную в терминале выполнить (краткая выжимка из официальной инструкции):
sudo apt-get -y install apt-transport-https ca-certificates curl gnupg-agent software-properties-common
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
sudo apt-key fingerprint 0EBFCD88
sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" -y
sudo apt-get -y update
sudo apt-get -y install docker-ce docker-ce-cli containerd.io docker-composeДля выполнения всех действий сразу можно воспользоваться скриптом install_all.sh. Поддерживается CUDA версии 10.0, 10.1 и 10.2. Для того, что бы указать конкретную версию CUDA, нужно передать аргумент при запуске:
sudo ./install_all.sh [cuda10.0|cuda10.1|cuda10.2]Значения аргумента (если не передавать аргумент - использовать значение cuda10.2):
cuda10.0: установкаnvidia-driver-440,nvidia-container-toolkitи сборка docker-образа сCUDA 10.0иcuDNN 7.6на основе Ubuntu 19.10 с меткойcuda10.0_cudnn7.6:develcuda10.1: установкаnvidia-driver-440,nvidia-container-toolkitи сборка docker-образа сCUDA 10.1иcuDNN 7.6на основе Ubuntu 19.10 с меткойcuda10.1_cudnn7.6:develcuda10.2: установкаnvidia-driver-440,nvidia-container-toolkitи сборка docker-образа сCUDA 10.2иcuDNN 7.6на основе Ubuntu 19.10 с меткойcuda10.2_cudnn7.6:devel
После выполнения скрипта необходмо перезагрузить хост-машину. Проверить работоспособность можно следующим образом:
sudo docker run --gpus all -ti --rm cuda10.2_cudnn7.6:devel nvidia-smiРезультат должен быть такой же, как и в разделе 1 ниже.
Для работы с CUDA 10.X необходим драйвер для видеокарты определённой версии (источник):
- CUDA 10.0: драйвер версии 410.48 или выше
- CUDA 10.1: драйвер версии 418.39 или выше
- CUDA 10.2: драйвер версии 440.33 или выше
Установить драйвер нужной версии можно следующими способами:
- Самостоятельно, загрузив необходимый пакет с официального сайта nvidia
- Воспользоваться скриптом
install_nvidia-driver.sh, который в качестве аргумента принимает версию драйвера (если не передавать аргумент - установить версию440):
sudo ./install_nvidia-driver.sh [410|418|440|...]- Вручную в терминале выполнить:
sudo add-apt-repository -y ppa:graphics-drivers/ppa
sudo apt-get -y update
sudo apt-get -y install nvidia-driver-440После установки необходимо перезагрузить хост-машину. Что бы убедиться, что драйвер успешно установлен, можно вызвать в терминале nvidia-smi. Результат должен быть примерно следующий:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.59 Driver Version: 440.59 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce RTX 208... Off | 00000000:08:00.0 Off | N/A |
| 39% 42C P0 18W / 250W | 0MiB / 11019MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+2. Установка nvidia-container-toolkit
Что бы видеокарта была доступна в docker-контейнере, необходимо установить nvidia-container-toolkit. Сделать это можно следующими способами:
- Воспользоваться скриптом
install_nvidia-container-toolkit.sh:
sudo ./install_nvidia-container-toolkit.sh- Вручную в терминале выполнить (краткая выжимка из репозитория):
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get -y update
sudo apt-get -y install nvidia-container-toolkit
sudo systemctl restart dockerЧто бы убедиться, что установка прошла успешно, можно выполнить в терминале:
sudo docker run --gpus all -ti --rm nvidia/cuda:10.2-base nvidia-smiРезультат должен быть такой же, как и в подразделе 1.
Для работы с библиотеками машинного обучения на GPU, такими как TensorFlow и PyTorch, так же необходимы библиотеки CUDA 10.X и cuDNN 7.6. Для упрощения сборки пользовательских docker-образов, можно использовать заранее собранный docker-образ с данными библиотеками в качестве основы (т.е. в качестве базового образа).
В проекте доступны 2 вида Dockerfile: runtime и devel. Образы с меткой runtime используются для запуска уже готовых проектов на GPU, а с меткой devel - для сборки проектов из исходников с поддержкой GPU (подробно про разницу между ними можно посмотреть в репозитории nvidia-docker).
Для сборки docker-образа с CUDA 10.2 и cuDNN 7.6, находясь в папке с проектом, нужно выполнить (-f Dockerfile_cuda10.2_runtime — использовать файл Dockerfile_cuda10.2_runtime в качестве Dockerfile для сборки образа, -t — запуск в терминале, . — директория, из которой вызывается docker build (точка — значит в текущей директории находятся все файлы для образа), cuda10.2_cudnn7.6:runtime — метка образа и его версия):
sudo docker build -f Dockerfile_cuda10.2_runtime -t cuda10.2_cudnn7.6:runtime .В качестве базовой ОС для образа используется Ubuntu 20.04.
Для сборки docker-образов с другими версиями CUDA в проекте присутствуют соответствующие Dockerfile:
- CUDA 10.0: Dockerfile_cuda10.0_runtime и Dockerfile_cuda10.0_devel
- CUDA 10.1: Dockerfile_cuda10.1_runtime и Dockerfile_cuda10.1_devel
- CUDA 10.2: Dockerfile_cuda10.2_runtime и Dockerfile_cuda10.2_devel
Данные Dockerfiles сделаны на основе Dockerfiles из репозитория nvidia.
После успешной сборки, проверить работоспособность образа можно следующим образом (--gpus all - предоставить контейнеру доступ ко всем GPU на хост-машине, -t — запуск терминала, -i — интерактивный режим, --rm — удалить контейнер после завершения его работы):
sudo docker run --gpus all -ti --rm cuda10.2_cudnn7.6:runtime nvidia-smiРезультат должен быть такой же, как и в подразделе 1.
Примечание: размер собранного docker-образа с CUDA 10.X и cuDNN 7.6 равен 1.3-1.8 Гб для runtime и 3.1-3.8 Гб для devel.
Для сборки любого пользовательского docker-образа с библиотеками CUDA 10.X и cuDNN 7.6 нужно:
- Изменить образ, на основе которого собирается пользовательский образ, на созданный ранее
cuda10.2_cudnn7.6:runtime - При установке пакетов для Python использовать версии библиотек для работы на GPU, например, вместо TensorFlow использовать TensorFlow-GPU
- Предусмотреть в исходном коде запускаемого в docker-контейнере проекта обнаружение и использование GPU
Что бы docker-образ имел доступ к видеокарте, при запуске образа необходимо передать параметр --gpus all, например:
sudo docker run --gpus all -ti --rm my_image:versionПараметр --gpus all предоставит контейнеру доступ сразу ко всем имеющимся на хост-машине видеокартам. Что бы указать, сколько видеокарт использовать или какие именно, нужно вместо all передать 2 (использовать первые 2 видеокарты) или "device=2,3" (использовать 2 и 3 видеокарту), например:
sudo docker run --gpus '"device=1,2"' -ti --rm my_image:versionБолее подробно про параметр --gpus можно посмотреть в репозитории nvidia-docker.
По умолчанию TensorFlow-GPU использует всю доступную видеопамять, по этому не получится одновременно запустить несколько docker-образов, использующих TensorFlow-GPU на одном GPU.
Если проект написан на Python и для работы с TensorFlow используется Keras, можно это исправить следующим образом (данный фрагмент кода необходимо добавить в самое начало .py файла, перед первым использованием TensorFlow-GPU) (источник):
import tensorflow as tf
from keras.backend.tensorflow_backend import set_session
# Включение динамического выделения памяти GPU в TensorFlow
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
sess = tf.Session(config=config) # применение новой конфигурации для сессии TensorFlow
set_session(sess) # установка данной сессии TensorFlow в качестве основной для KerasЕсли у вас возникнут вопросы или вы хотите сотрудничать, можете написать мне на почту: vladsklim@gmail.com или в LinkedIn.