英伟达显卡 RTX A4000 环境安装

发布时间 2023-12-12 18:29:41作者: 一点飞鸿

​1. 安装显卡驱动

驱动下载地址: 

https://www.nvidia.cn/Download/Find.aspx?lang=cn

此处下载的显卡驱动为(有的显卡型号可以选择cuda版本):

NVIDIA-Linux-x86_64-470.182.03.run

安装后,xshell中输入nvidia-smi显示:

也就是说安装的cuda版本不能高于11.4

 

2. 下载并安装miniconda

 

3. 创建并激活虚拟环境

conda create -n 名称 python=版本

此处版本等于3.8.0,其实python环境本身也是一个包,安完之后也可以通过pip或conda命令进行修改

conda activate 名称

 

4. 安装nvidia-tensorflow

安装nvidia维护的tensorflow1.15.5,下载后安装(直接安装遇到了各种各样的问题,此处没有记录,后来发现下载下来再安装比较清爽),下载地址:

https://developer.download.nvidia.cn/compute/redist/nvidia-tensorflow/ 

下载后安装命令:

pip install ./root/nvidia_tensorflow-1.15.5+nv22.01-3720650-cp38-cp38-linux_x86_64.whl

同时会安装相关依赖包,耗时较长

 

5. 安装pytorch

去torch官网选择对应版本:https://pytorch.org/get-started/previous-versions/

此处选择1.9.0版本,安装命令:

pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html

采用pip安装后,无需再安装cudatoolkit和cudnn

用conda命令安装,会安装cudatoolkit和cudnn包

 

其它

 1. 重启后nvidia-smi出现错误:Failed to initialize NVML: Driver/library version mismatch

原因:没有卸载之前的显卡驱动,就直接覆盖安装的

当采用./NIVIDIA***.run --uninstall后,又恢复成了原来的驱动

之后卸载之前的驱动,再重新安装新驱动 ,reboot就可以了

 

2. torch.cuda.is_available()返回true,但是预测仍使用cpu

原因:torch版本太低,从1.1.0升级到1.9.0后恢复正常

 

3.安装pytorch或者tensorflow时,其cuda版本不能高于nvidia-smi命令右上角的cuda版本(11.4)

 

4. pytorch(tensorflow)与cudatookit、cudnn之间有对应关系

 

5.Collecting nvidia-tensorflow[horovod]

  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/c7/b8/b96bd09cc7c9cf9dbd8b82313c4f9860fe615b3ce7f3f6efc962d166178b/nvidia-tensorflow-0.0.1.dev5.tar.gz (7.9 kB)

  Preparing metadata (setup.py) ... error

  error: subprocess-exited-with-error

 

  × python setup.py egg_info did not run successfully.

  │ exit code: 1

升级python版本到3.8后正常