triton
extract_triton_kernels.py
import sys filename = sys.argv[1] with open(filename, 'r') as f: lines = f.readlines() def extract_info(line): line = line.split() name = line[0].stri ......
triton部署基于wenet的流式asr服务
1、docker镜像下载 下载链接:https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver/tags 或者直接 docker pull nvcr.io/nvidia/tritonserver:23.01-py3 2、克隆w ......
使用Triton部署chatglm2-6b模型
一、技术介绍 NVIDIA Triton Inference Server是一个针对CPU和GPU进行优化的云端和推理的解决方案。 支持的模型类型包括TensorRT、TensorFlow、PyTorch(meta-llama/Llama-2-7b)、Python(chatglm)、ONNX Run ......
triton与paddlespeech部署ASR服务的性能对比
一、背景 最近在进行asr部署方案的技术选型工作,主要对比了triton部署与paddle部署两种方案 triton方案链接:https://github.com/wenet-e2e/wenet/tree/main/runtime/gpu paddlespeech方案链接:https://githu ......
chatglm2-6b模型在9n-triton中部署并集成至langchain实践
本文将介绍我利用集团9n-triton工具部署ChatGLM2-6B过程中踩过的一些坑,希望可以为有部署需求的同学提供一些帮助。 ......
Triton 源码初步研读
一、核心接口形态 def jit( fn: Optional[T] = None, *, version=None, do_not_specialize: Optional[Iterable[int]] = None, debug: Optional[bool] = None, ) -> Union ......