大模型在docker中运行(个人电脑)

发布时间 2023-11-29 17:27:56作者: 我的天啊~

1、 环境搭建

windows需要安装docker

参见:Windows Docker 安装 | 菜鸟教程 (runoob.com)

windows需要开启WSL2、并安装

 为了开启gpus加速,参见: win10 Docker Desktop使用GPU_windows docker 使用gpu_刘丶小歪的博客-CSDN博客

设置docker启动容器的内存,设置为12G,参见: 修改 WSL2 可用内存大小和交换分区大小_wsl swap-CSDN博客

2、启动镜像

docker run -itd --privileged --gpus all --name ubuntu --hostname ubuntu -p 50022:22 --network mynet --ip 172.19.0.42 -v /home/usr/local/docker/ubuntu20.04/swp:/swp ubuntu:20.04-v1

20.04-v1:是我基础软件安装好的镜像(python/pytorch/ssh等)。 你可以使用20.04共有版本自行安装和LLM匹配版本的软件

设置国内源后:  apt-get update, 参见:修改docker源和ubuntu源 - 我的天啊~ - 博客园 (cnblogs.com)

开启远程登录:  service ssh restart  参加:ubuntu服务器支持ssh远程登录 - 我的天啊~ - 博客园 (cnblogs.com)

3、挑选合适的LLM

我选择glm3, 因为部署门槛低, 参见:chatglm3-6b · 模型库 (modelscope.cn)

之前安装过qwen/Qwen-7B-Chat,可运行但是回答太慢。

glm: ChatGLM3: Mirror image (gitee.com)

类似 llama.cpp 的量化加速推理方案,实现笔记本上实时对话: chatglm.cpp: Mirror image (gitee.com)

4、部署

下载:git clone --recursive https://gitee.com/vividly/chatglm.cpp.git && cd chatglm.cpp