cuda11.2升级安装

发布时间 2023-08-21 14:04:12作者: 永远抽象派

1 安装指定版本驱动和cuda

驱动版本网址:https://developer.nvidia.com/cuda-toolkit-archive下载cuda11.2,以我们服务器为例,进行勾选

得到下载命令

wget https://developer.download.nvidia.com/compute/cuda/11.2.1/local_installers/cuda_11.2.1_460.32.03_linux.runsudo

下载完成后进行安装:

sh cuda_11.2.1_460.32.03_linux.run

机器如果已经安装过驱动,在安装cuda11.2时候如果勾选了driver就会报错,所以不用不勾选driver,只安装工具包。但是要注意,如果driver的版本太低,需要卸载重新安装driver,driver是向下兼容的,可以安装较新版本的。

如下图,执行sh cuda_11.2.1_460.32.03_linux.run 如果已经安装driver,只勾选cuda

环境配置

打开文件

vim ~/.bashrc

添加路径

export PATH=/usr/local/cuda-11.2/bin{PATH:+:{PATH}}

export LD_LIBRARY_PATH=/usr/local/cuda-11.2/lib64{LD_LIBRARY_PATH:+:{LD_LIBRARY_PATH}}

生效文件

source ~/.bashrc

验证安装

执行命令:

nvcc --version

看到如下类似信息代表成功:

卸载cuda

run cuda-uninstaller in /usr/local/cuda-11.2/bin

cuDNN安装

CUDNN是NVIDIA深度神经网络库,需要与CUDA配合使用。要安装CUDNN,请按照以下步骤进行:

  1. 需要先注册英伟达开发者账号,
  2. 将下载的CUDNN压缩文件解压缩到一个临时目录中。
  3. 打开终端并进入解压后的CUDNN目录。
  4. 执行以下命令以将CUDNN库文件复制到CUDA安装目录中:

执行下面代码

cp include/cudnn*.h /usr/local/cuda/include

cp lib/libcudnn* /usr/local/cuda/lib64

chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

现在,CUDNN已经安装到CUDA的安装目录中了。要验证CUDNN是否正确安装,可以编译和运行一个简单的CUDNN示例程序。

注意,安装CUDNN需要具有管理员权限。另外,请确保您已经正确地安装了CUDA,并且CUDA和CUDNN的版本匹配。

NCCL安装

NCCL(NVIDIA Collective Communications Library)是一个高性能的多GPU通信库,由NVIDIA开发并维护。它提供了一些针对深度学习场景的高效通信算法和优化,使得在多个GPU上进行深度学习计算变得更加容易和高效。简单说NCCL是一种用于多GPU训练的库。

  1. 该网址下载安装包:https://developer.nvidia.com/nccl/nccl-download
  2. 将下载的NCCL2压缩文件解压缩到一个临时目录中。
  3. 打开终端并进入解压后的NCCL2目录。
  4. 运行以下命令以安装NCCL2:

执行下面

sudo dpkg -i nccl-repo-ubuntu1604-<version>.deb

sudo apt update sudo

apt install libnccl2 libnccl-dev

卸载nvdia驱动

1 禁用NVIDIA驱动程序

首先,需要禁用NVIDIA驱动程序,以便卸载它。您可以通过以下命令在终端中禁用它:

sudo systemctl stop nvidia-persistenced sudo systemctl disable nvidia-persistenced sudo nvidia-smi -pm 1

2 卸载NVIDIA驱动程序

要卸载NVIDIA驱动程序,请使用以下命令:

sudo systemctl stop nvidia-persistenced sudo systemctl disable nvidia-persistenced sudo nvidia-smi -pm 1

这将删除所有与NVIDIA驱动程序相关的软件包和配置文件。

3 重新启用NVIDIA持久性守护程序

如果您需要重新安装新的NVIDIA驱动程序,则需要重新启用NVIDIA持久性守护程序。使用以下命令启用它:

sudo systemctl enable nvidia-persistenced sudo systemctl start nvidia-persistenced

4 重启系统

最后,重新启动您的系统以使更改生效:

sudo reboot

这些步骤将卸载CUDA 10.2对应的NVIDIA驱动程序,而不卸载CUDA本身。