GPU服务器常见问题汇总

发布时间 2023-12-30 19:16:56作者: 因为风的缘故~

Q1、从启动盘安装时黑屏/屏幕卡住?

A1:很大可能就是Ubuntu系统自带的Nouveau显卡驱动和Nvidia显卡不兼容了,需要手动添加显卡驱动选项。

配置方法如下:
a. 安装时,选择install ubuntu后,按e进入编辑模式,进入命令行模式;
b. 在splash 空格后面加(nouveau.modeset=0),---0之间用空格隔开;
c. 按F10进行正常安装。


Q2、1T固态硬盘Ubuntu系统磁盘分区策略:

A2:
a. EFI分区:

  • 大小:600MB
  • 类型:逻辑分区
  • 位置:空间起始位置
  • 用于:EFI系统分区
  • 强调安装启动引导器的设备,要挂载在EFI分区对应的设备

b. swap交换分区:

  • 大小:0MB
  • 类型:主分区
  • 位置:空间起始位置
  • 用于:交换空间

c. /: 根目录:

  • 大小:102400MB
  • 类型:逻辑分区
  • 位置:空间起始位置
  • 用于:Ext4日志文件系统

d. /usr 应用程序目录:

  • 大小:307,200MB
  • 类型:逻辑分区
  • 位置:空间起始位置(固态空间不足,可以安装在机械硬盘上)
  • 用于:Ext4日志文件系统

e. /home 家目录:

  • 大小:590005MB
  • 类型:逻辑分区
  • 位置:空间起始位置(固态空间不足,可以安装在机械硬盘上)
  • 用于:Ext4日志文件系统

f. /boot:

  • 大小:0MB
  • 类型:逻辑分区
  • 位置:空间起始位置
  • 用于:Ext4日志文件系统

g. /var:

  • 大小:0MB
  • 类型:逻辑分区
  • 位置:空间起始位置(固态空间不足,可以安装在机械硬盘上)
  • 用于:Ext4日志文件系统

Q3、安装Ubuntu需要选择更新吗?

A3:由于设备驱动的镜像都挂载在国外的服务器上,所以选择更新的安装速度会较慢,可以选择不更新,安装系统完毕后,更换镜像地址再更新,速度会更快。


Q4、安装Ubuntu后重启无法开机?

A4:因为显卡没有安装,所以BIOS无法正常引导。

解决办法如下:

a. 重新启动,并进入Ubuntu高级选项:Advanced options for Ubuntu
b. 选择mode2:Ubuntu,with Linux xxxxxxx(recovery mode)
c. 选择 <resume>,然后选择 <OK>


Q5、首次开机的配置代码?

A5:

sudo apt-get update  # 更新软件列表
# 远程桌面,安装teamviewer用到
# 第二行代码为安装本地程序,当安装本地软件出错时,可使用第三行代码修复
sudo dpkg -i *.deb  #(报错没关系,使用下面的代码修复)
sudo apt-get install -f
# a.配置镜像源
sudo update-grub
# 然后在<软件更新器>内将下载源配置为阿里云:Ubuntu软件-下载自-选定配置源】

# b.确定系统识别了N卡、检查可安装的驱动版本及gcc编译器
lspci | grep -i nvidia
sudo ubuntu-drivers devices
gcc --version

# c.更新软件列表和安装必要软件、依赖
sudo apt-get update
sudo apt-get install g++
sudo apt-get install gcc
sudo apt-get install make

# d.禁用nouveau(nouveau是Ubbuntu自带的核显,想要配置N卡独显,就需要禁掉它)
sudo gedit /etc/modprobe.d/blacklist-nouveau.conf
# 然后向文件写入:
blacklist nouveau
    options nouveau modeset=0
#【提示无法保存创建的blacklist_nouveau.conf文件】
# 提升用户权限:
cd /etc/modprobe.d/
sudo chmod 777 .
# 然后就可以保存创建的blacklist_nouveau.conf文件了。

# e.更新系统配置到内核
sudo update-initramfs -u

# f.重启

# g.验证是否禁用成功
lsmod | grep nouveau
# 如果没有任何输出,则表明禁用成功。

# h.卸载原有的nvidia驱动
sudo apt-get remove nvidia-*
sudo apt-get remove --purge nvidia*

# i.官网下载驱动:https://www.nvidia.cn/geforce/drivers/
# j.进入命令行安装界面
sudo telinit 3
#<进入黑色的命令行,输入用户名和密码>
sudo service gdm3 stop
# k.给安装文件赋权限,然后安装
sudo chmod a+x NVIDIA-Linux-x86_64-xxx.xxx.xx.run
sudo ./NVIDIA-Linux-x86_64-xxx.xxx.xx.run -no-opengl-files -no-x-check -no-nouveau-check
# <-no-opengl-files:只安装驱动文件,不安装OpenGL文件,避免出现循环登陆的问题>
# <-no-x-check:安装驱动时关闭X服务>
# <-no-nouveau-check:安装驱动时禁用nouveau>

# l.安装选项:continue installation—no—no—OK
# m.打开桌面:sudo service gdm3 start
# n.验证:nvidia-smi
# o.添加显卡驱动的镜像源
# sudo add-apt-repository ppa:graphics-drivers/ppa
# p.更新软件列表
# sudo apt-get update
# sudo apt-get upgrade

Q6、CUDA及cuDNN安装指南:

A6、安装步骤如下:

  1. 安装CUDA:

    • 访问英伟达官网并下载适合你系统的CUDA版本:CUDA Toolkit
    • deb版本会自动捆绑显卡驱动。而runfile版本提供了显卡驱动的选择,建议使用此安装方式。
  2. 下载并安装cuDNN:

    • 从英伟达官网下载相应版本的cuDNN:cuDNN Archive
    • 注意:cuDNN版本需与CUDA版本匹配,并且要与系统及硬件架构兼容。
  3. 驱动、CUDA、cuDNN的匹配:

    • 更高版本的驱动可能兼容低版本的CUDA。cuDNN应与CUDA系列匹配。查看CUDA所需的最低驱动版本需参考其Release Notes中的《CUDA Toolkit and Minimum Required Driver Version for CUDA Minor Version Compatibility》。
  4. 安装步骤:

a. 安装CUDA (runfile方案):

sudo sh cuad_xx.x.x_xxx.xx.xx_linux.run

根据需要配置安装项,通常建议覆盖低版本的驱动。

  • 配置环境变量:

    sudo gedit ~/.bashrc
    

    在文档末尾添加:

    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-xx.x/lib64
    export PATH=$PATH:/usr/local/cuda-xx.x/bin
    

    强调】请确保这些内容位于文档的最后一行,不要添加引号或缩进。

  • 激活环境变量:

    source ~/.bashrc
    
  • 验证安装:

    nvcc -V
    

    以及:

    /usr/local/cuda/extras/demo_suite/deviceQuery
    

b. 安装cuDNN (Ubuntu-*.deb方案):

sudo apt-get install zlib1g
sudo dpkg -i cudnn-local-repo-${OS}-8.x.x.x_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-*/cudnn-local-*-keyring.gpg /usr/sharekeyrings/
sudo apt-get update
sudo apt-get install libcudnn8=8.9.2.26-1+cuda11.8
sudo apt-get install libcudnn8-dev=8.9.2.26-1+cuda11.8
sudo apt-get install libcudnn8-samples=8.9.2.26-1+cuda11.8
  • 验证安装:
sudo apt-get install libfreeimage3 libfreeimage-dev
cp -r /usr/src/cudnn_samples_v8/ $HOME
cd $HOME/cudnn_samples_v8/mnistCUDNN
make clean && make
./mnistCUDNN

看到Test passed!表示安装成功。之后可删除 $HOME/cudnn_samples_v8mnistCUDNN 文件夹。

c. 卸载CUDA:

sudo cd /usr/local/cuda-xx.x/bin
./cuda-uninstaller
sudo cd /usr/local
sudo rm -r cuda-xx.x

Q7、Anaconda安装教程:

A7、安装步骤如下:

  1. 执行安装脚本:

    • 执行以下命令进行Anaconda的安装:
      bash Anaconda3-xxxx.xx.xx-Linux-x86_64.sh
      
    • 在安装过程中,根据需要配置安装路径。
  2. 配置环境变量:

    • 使用文本编辑器打开 ~/.bashrc 文件:

      sudo gedit ~/.bashrc
      
    • 在文件末尾添加以下内容:

      export PATH=$PATH:/usr/local/anaconda3/bin
      

      强调】: 请确保这一行位于文档的最后一行,不要加引号,也不要有缩进,与CUDA的配置相同。

    • 保存并关闭编辑器。

    • 激活新的环境变量配置:

      source ~/.bashrc
      
  3. 验证安装:

    • 检查Anaconda的版本以确认安装是否成功:
      conda --version
      
      如果输出类似于以下内容,则表示安装成功:
      conda xx.x.x
      
  4. 更新镜像源:

    • 使用文本编辑器打开 ~/.condarc 文件:
      sudo gedit ~/.condarc
      
    • 在文件中添加或修改镜像源配置,保存并关闭编辑器。
    • 为了验证配置是否正确,你可以运行:
      conda config --show
      

Q8、Pycharm安装教程:

Q8、Pycharm安装教程:

A8、安装方式如下:

a. 下载pycharm-professional-xxxx.x.tar.bz

<pycharm-professional-xxxx.x.tar.bz> 解压到 <Pycharm> 文件夹

sudo mv Pycharm /usr/local/
cd /usr/local/Pycharm/bin
sudo ./pycharm.sh

然后激活:

<linux2022-2023.zip> 解压缩,并且移动至电脑根目录 /home/siat-czm

打开 <scripts> 文件夹

bash install.sh

看到“done.you'd better log off first!”表示激活成功

重启电脑!!

返回上级文件夹,找到 <Activation_Code> 文件夹

找到要激活软件的 *.txt 激活码,并复制

cd /usr/local/Pycharm/bin
./pycharm.sh

把激活码粘贴至,<Activation code>,并点击 <Activate>

创建桌面快捷图标,并关联conda的解释器环境

汉化Pycharm:在Settings—Plugins—在 <Marketplace> 内检索Chinese—安装简体中文插件即可


Q9、Free Download Manager安装教程:

A9、安装方式如下:

  1. 下载并安装:
    • 运行 sudo dpkg -i fdm下载器.deb 安装下载的Free Download Manager。
    • 执行 sudo apt install -f 来安装任何依赖项或修复可能存在的依赖关系问题。
    • 再次运行 sudo dpkg -i fdm下载器.deb 以确保Free Download Manager完全安装。

Q10、Zotero安装教程:

Q10、Zotero安装教程:

A10、安装方式如下:

a. 下载Zotero-x.x.xx_linux-x86_64.tar.bz2
<Zotero-x.x.xx_linux-x86_64.tar.bz2> 解压到 <Zotero> 文件夹

sudo mv Zotero /usr/local/
cd /usr/local/Zotero
sudo ./set_launcher_icon    #更新桌面图标链接配置
./zotero         #看能不能正常运行,如果可以正常运行则继续建立快捷图标

修改链接路径为绝对路径:

sudo vim zotero.desktop

在编辑器中修改如下部分:

{
   ……
   Exec=bash /usr/local/Zotero/zotero #这里把执行路径改为绝对路径
   Icon= /usr/local/Zotero/chrome/icons/default/default256.png
   ……
}

生产快捷图标:

ln -s /usr/local/Zotero/zotero.desktop ~/.local/share/applications/zotero.desktop

删除快捷图标:

sudo rm ~/.local/share/applications/zotero.desktop

配置pdftk:

sudo apt-get install pdftk

然后,根据需要附加组件并安装浏览器插件。

最后,参考《全网最全Zotero部署教程》,对Zotero进行进一步的配置。


Q11、坚果云安装教程:

A11、两种安装方式分别参见如下代码:

a. .deb安装

wget [下载链接]/nautilus_nutstore_amd64.deb
sudo dpkg -i nautilus_nutstore_amd64.deb
sudo apt-get install -f  #使用dpkg安装,使用apt-get -f install安装依赖

b. 从源代码编译安装

sudo apt-get install libglib2.0-dev libgtk2.0-dev libnautilus-extension-dev python3-gi gir1.2-appindicator3-0.1
wget https://www.jianguoyun.com/static/exe/installer/nutstore_linux_src_installer.tar.gz
tar zxf nutstore_linux_src_installer.tar.gz
cd nutstore_linux_src_installer
./configure
make
sudo make install
nautilus -q
./runtime_bootstrap

c. 卸载方法

sudo apt purge nautilus-nutstore-public

然后清除坚果云的同步数据,即可实现彻底删除。

Q12、坚果云安装后,无法启动,启动停留在空白页:

A12、使用以下命令进行修改:

sudo vim ~/.nutstore/disk/conf/nutstore.properties

在打开的文件中,找到以下行:

#enable webUl when it is possible
webui.enable=true

将其修改为:

webui.enable=false

Q13、Clash.for.Windows安装教程:

A13、以下是详细的安装步骤:

  1. 下载与解压

    • 从Github下载Clash for Windows。
    • <Clash.for.Windows-x.xx.xx-x64.tar.bz>解压到<Clash.for.Windows>文件夹。
    sudo mv Clash.for.Windows /usr/local/
    cd /usr/local/Clash.for.Windows
    
  2. 启动Clash for Windows

    ./cfw
    
    • <General>菜单中,打开<Mixin><Start with Linux>
    • <Profiles>菜单中,装载订阅链接。
  3. 配置Ubuntu网络代理

    • 打开Ubuntu的<网络>设置。
    • 修改网络代理配置为<手动>
    HTTP代理:127.0.0.1        7890
    HTTPS代理:127.0.0.1      7890
    
  4. 汉化

    • 使用汉化插件<app.asar>替换 /usr/local/Clash.for.Windows/resources/中的插件。
  5. 创建桌面快捷图标

    • 这里 下载Clash图标。
    cd /usr/share/applications
    sudo gedit clash.desktop
    
    • 在打开的文本编辑器中写入以下配置:
    [Desktop Entry]
    Name=Clash
    Version=1.0
    Type=Application
    Exec=/home/caf/Clash-for-Windows/cfw
    Icon=/home/caf/Clash-for-Windows/logo.png
    Terminal=false
    StartupNotify=true
    

完成上述步骤后,您应该已经成功地安装并配置了Clash for Windows,并为其创建了一个桌面快捷方式。

Q14、查看CPU、GPU和温度传感器数据:

A14、以下是如何查看这些信息的步骤:

  1. 安装必要的工具:

    sudo apt install lm-sensors
    sudo apt install htop
    
  2. 查看CPU状态
    使用htop命令可以查看CPU的实时状态。

  3. 查看GPU状态
    使用以下命令每隔1秒刷新一次NVIDIA的状态:

    watch -n 1 nvidia-smi #1表示1s刷新一次
    
  4. 查看温度状态
    使用sensors命令可以查看PCI读取的温度状态。


Q15、安装无线网卡驱动:

A15、以下是安装无线网卡驱动的步骤:

  1. 将下载的Linux-1300M.zip解压缩到Ubuntu系统文件夹中。

  2. 进入解压后的文件夹,并在终端中执行编译操作:

    make
    
  3. 编译完成后,进行安装:

    sudo make install
    
  4. 安装完成后,重新拔插无线网卡,此时应该可以看到WIFI信号。


Q16、为无显示器的服务器配置远程桌面输出分辨率:

A16、以下是配置远程桌面输出分辨率的步骤:

  1. 获取现有的分辨率

    xrandr
    
  2. 创建新的分辨率模式

    cvt 1920 1080
    
  3. 创建新的分辨率模式

    sudo xrandr --newmode "1920x1080_60.00" 173.00 1920 2048 2248 2576 1080 1083 1088 1120 -hsync +vsync
    
  4. 为显示器添加新的分辨率模式

    sudo xrandr --addmode VGA-1 1920x1080_60.00
    
  5. 最后,在系统的设置中,进入【设置】-【显示】-【分辨率】,选择【1920×1080(16:9)】

这样,您就可以为无显示器的服务器配置所需的远程桌面输出分辨率了。