大模型在docker中运行（个人电脑）-526互联

1、环境搭建

windows需要安装docker

参见：Windows Docker 安装 | 菜鸟教程 (runoob.com)

windows需要开启WSL2、并安装

为了开启gpus加速，参见： win10 Docker Desktop使用GPU_windows docker 使用gpu_刘丶小歪的博客-CSDN博客

设置docker启动容器的内存，设置为12G，参见：修改 WSL2 可用内存大小和交换分区大小_wsl swap-CSDN博客

2、启动镜像

docker run -itd --privileged --gpus all --name ubuntu --hostname ubuntu -p 50022:22 --network mynet --ip 172.19.0.42 -v /home/usr/local/docker/ubuntu20.04/swp:/swp ubuntu:20.04-v1

20.04-v1：是我基础软件安装好的镜像（python/pytorch/ssh等）。你可以使用20.04共有版本自行安装和LLM匹配版本的软件

设置国内源后： apt-get update，参见：修改docker源和ubuntu源 - 我的天啊~ - 博客园 (cnblogs.com)

开启远程登录： service ssh restart 参加：ubuntu服务器支持ssh远程登录 - 我的天啊~ - 博客园 (cnblogs.com)

3、挑选合适的LLM

我选择glm3，因为部署门槛低，参见：chatglm3-6b · 模型库 (modelscope.cn)

之前安装过qwen/Qwen-7B-Chat，可运行但是回答太慢。

glm： ChatGLM3: Mirror image (gitee.com)

类似 llama.cpp 的量化加速推理方案，实现笔记本上实时对话： chatglm.cpp: Mirror image (gitee.com)

4、部署

下载：git clone --recursive https://gitee.com/vividly/chatglm.cpp.git && cd chatglm.cpp

个人电脑windows desktop docker

526互联

大模型在docker中运行（个人电脑）

1、 环境搭建

2、启动镜像

3、挑选合适的LLM

4、部署

1、环境搭建