triton

extract_triton_kernels.py

import sys filename = sys.argv[1] with open(filename, 'r') as f: lines = f.readlines() def extract_info(line): line = line.split() name = line[0].stri ......

triton部署基于wenet的流式asr服务

1、docker镜像下载 下载链接:https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver/tags 或者直接 docker pull nvcr.io/nvidia/tritonserver:23.01-py3 2、克隆w ......
triton wenet asr

使用Triton部署chatglm2-6b模型

一、技术介绍 NVIDIA Triton Inference Server是一个针对CPU和GPU进行优化的云端和推理的解决方案。 支持的模型类型包括TensorRT、TensorFlow、PyTorch(meta-llama/Llama-2-7b)、Python(chatglm)、ONNX Run ......
chatglm2 模型 chatglm Triton 6b

triton与paddlespeech部署ASR服务的性能对比

一、背景 最近在进行asr部署方案的技术选型工作,主要对比了triton部署与paddle部署两种方案 triton方案链接:https://github.com/wenet-e2e/wenet/tree/main/runtime/gpu paddlespeech方案链接:https://githu ......
paddlespeech 性能 triton ASR

chatglm2-6b模型在9n-triton中部署并集成至langchain实践

本文将介绍我利用集团9n-triton工具部署ChatGLM2-6B过程中踩过的一些坑,希望可以为有部署需求的同学提供一些帮助。 ......
9n-triton langchain chatglm2 模型 chatglm

Triton 源码初步研读

一、核心接口形态 def jit( fn: Optional[T] = None, *, version=None, do_not_specialize: Optional[Iterable[int]] = None, debug: Optional[bool] = None, ) -> Union ......
源码 Triton
共6篇  :1/1页 首页上一页1下一页尾页