triton

extract_triton_kernels.py

import sys filename = sys.argv[1] with open(filename, 'r') as f: lines = f.readlines() def extract_info(line): line = line.split() name = line[0].stri ......

extract_triton_kernels extract kernels triton py更新时间 2023-12-15

triton部署基于wenet的流式asr服务

1、docker镜像下载下载链接：https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver/tags 或者直接 docker pull nvcr.io/nvidia/tritonserver:23.01-py3 2、克隆w ......

triton wenet asr更新时间 2023-10-20

使用Triton部署chatglm2-6b模型

一、技术介绍 NVIDIA Triton Inference Server是一个针对CPU和GPU进行优化的云端和推理的解决方案。支持的模型类型包括TensorRT、TensorFlow、PyTorch(meta-llama/Llama-2-7b)、Python(chatglm)、ONNX Run ......

chatglm2 模型 chatglm Triton 6b更新时间 2023-09-27

triton与paddlespeech部署ASR服务的性能对比

一、背景最近在进行asr部署方案的技术选型工作，主要对比了triton部署与paddle部署两种方案 triton方案链接：https://github.com/wenet-e2e/wenet/tree/main/runtime/gpu paddlespeech方案链接：https://githu ......

paddlespeech 性能 triton ASR更新时间 2023-08-24

chatglm2-6b模型在9n-triton中部署并集成至langchain实践

本文将介绍我利用集团9n-triton工具部署ChatGLM2-6B过程中踩过的一些坑，希望可以为有部署需求的同学提供一些帮助。 ......

9n-triton langchain chatglm2 模型 chatglm更新时间 2023-08-16

Triton 源码初步研读

一、核心接口形态 def jit( fn: Optional[T] = None, *, version=None, do_not_specialize: Optional[Iterable[int]] = None, debug: Optional[bool] = None, ) -> Union ......

源码 Triton更新时间 2023-05-06

共6篇 :1/1页 首页上一页1下一页尾页