vllm

使用vLLM和ChatGLM3-6b批量推理

当数据量大的时候，比如百万级别，使用 ChatGLM3-6b 推理的速度是很慢的。发现使用 vLLM 和 ChatGLM3-6b 批量推理极大的提高了推理效率。本文主要通过一个简单的例子进行实践。 1.安装 vLLM 和PyTorch [2] 除了 Python（本文使用 3.11）、CUDA（本文 ......

ChatGLM3 ChatGLM vLLM 6b更新时间 2023-12-23

【LLMOps】vllm加速机制及推理不一致根因剖析

介绍当前大模型主流推理方式包括：vllm、tgi、原生transformer 回顾目前主流大模型都是由transformer演变过来，transformer核心是attention，参考《Attention is All You Need》，attention核心则是3个矩阵：Query、Ke ......

机制 LLMOps vllm更新时间 2023-12-18

8卡3090GPU云服务器上采用VLLM部署中文llama2-70b模型及OpenAI格式接口

TigerBot-70b-4k-v4 推理部署模型本地部署（基于HuggingFace) 根据实际测试，加载模型需要约129G显存，最低需要6张3090显卡（流水线并行）如果使用vllm进行加速推理（张量并行），考虑8张3090显卡或者4张A100-40G（模型分割要求）模型下载截至目前，模 ......

模型接口格式服务器 OpenAI更新时间 2023-12-07

vLLM 部署大模型

vLLM 部署大模型 https://github.com/vllm-project/vllm/tree/v0.2.0 https://vllm.readthedocs.io/en/latest/getting_started/installation.html https://vllm.readt ......

模型 vLLM更新时间 2023-11-03

vllm kernels分析

vllm kernels分析接着上一节的架构分析，vllm的csrc目录下有一些手动实现的核函数，在上一节没有具体分析，这节详细来看看。文件结构 csrc/activation_kernels:对应的silu和gelu激活函数 csrc/attention: 存放的是sq_kv_attentio ......

kernels vllm更新时间 2023-09-19

[vllm]vllm架构分析

# vllm架构分析 ## 文件目录结构 benchmark: 测试延迟和吞吐的脚本 csrc: torch下的cuda扩展，一些关键kernels的cpp源码，包含了attention、激活函数、cache等核函数 vllm/core: 关键调度算法，调度策略以及维护cpu和gpu映射的关系表 v ......

vllm 架构更新时间 2023-09-06

共6篇 :1/1页 首页上一页1下一页尾页