ASR

ASR项目实战-交付过程中遇到的内核崩溃问题

当前参与交付的语音识别产品服务,算法模块基于经典的Kaldi,算法中的一部分运行在GPU之上。 算法团队采用的是声学模型+语言模型的1-pass方案。这个方案的特点在于,语言模型数据文件(HCLG文件)的大小,和训练语料的丰富程度正相关,即语言文本的语料越多,经过训练、转换后得到的语言模型文件越大。 ......
内核 实战 过程 项目 问题

ASR项目实战-交付过程中遇到的疑似内存泄漏问题

基于Kaldi实现语音识别时,需要引入一款名为OpenFST的开源软件,本文中提到的内存问题,即和这款软件相关。 考虑到过程比较曲折,内容相对比较长,因此先说结论。 在做长时间的语音识别时,集成了Kaldi和OpenFST的进程将会占用远超出预期的内存,这个现象可能和OpenFST、glibc的实现 ......
实战 内存 过程 项目 问题

ASR项目实战-任务队列在文件转写特性中的应用

转写时长超出60秒的语音文件,业界的竞品通常会使用创建异步转写任务的方式来提供支持。 一个简单、直接的实现方案,即: 网关服务接收到来自客户的转写请求时,将任务信息持久化至任务队列中。 由算法服务的实例从任务队列中提取任务,并执行转写操作。 待执行完毕之后,将转写结果保存至DB中,供调用方查询。 本 ......
队列 实战 特性 任务 文件

ASR项目实战-方案设计

对于语音识别产品的实施方案,给出简易的业务流程,仅供参考。 如下流程图,可以使用如下两个站点查看。 web chart Web Sequence Diagrams 文件转写 创建文件转写任务 客户应用->接入网关: 发送创建文件转写的请求 接入网关->安全网关: 转发请求 安全网关->安全网关: 对 ......
方案设计 实战 方案 项目 ASR

ASR项目实战-决策点

针对语音识别的产品,分别记录设计、开发过程中的决策点。 实时语音识别 对于实时语音识别来说,客户端和服务端之间实时交换语音数据和识别的结果。 客户端在启动识别时,即开始发送语音数据,期望在等待较短的时间后,即收到最初的识别结果。第一段语音数据和第一个识别结果之间的时延,一般称为首字时延。 客户端在停 ......
实战 项目 ASR

ASR项目实战-架构设计

一般而言,业务诉求作为架构设计的输入。 需求清单 对于语音识别产品而言,需满足的需求,举例如下: 功能需求 文件转写。 长文件转写,时长大于60秒,小于X小时,X可以指定为5。 短文件转写,时长小于60秒。 实时语音识别。 长语音识别,时长大于60秒,小于Y小时,Y可以指定为5。 短语音识别,时长小 ......
架构 实战 项目 ASR

ASR项目实战-项目交付历程

本文记录,作为项目主要负责人,完整参与语音识别项目的交付历程。 2019年12月中旬 接到项目交付任务,收集基本知识,启动业务分析工作。 2020年1月 完成竞品分析的整理。 梳理合作伙伴的清单,整理项目计划,启动和各合作伙伴的沟通工作。 启动架构方案、设计方案的准备工作。 2020年2月 和合作伙 ......
项目 实战 历程 ASR

ASR项目实战-交付团队的分工

对于通常的软件项目,参与角色,比如可以有用户,消费者,产品团队,研发团队(研发团队包括开发和测试),运营团队,运维团队,管理团队。 通常认为,用户,负责购买服务的群体,而消费者,负责使用业务的群体。这两个群体,不在本文的讨论范围之内,因此后续的介绍中,除非明确说明,否则默认均不涉及。 产品团队,研发 ......
实战 团队 项目 ASR

ASR项目实战-产品分析

分析Google、讯飞、百度、阿里、QQ、搜狗等大厂的ASR服务,可以罗列出一款ASR服务所需要具备的能力。 产品分类 ASR云服务产品,从用户体验、时效性、音频时长,可以划分为如下几类: 实时短音频转写,可以用于支撑输入法、搜索、导航等场景。 实时长音频转写,可以用于支撑视频字幕、图文直播、会议直 ......
实战 项目 产品 ASR

ASR项目实战-前处理

本文深入探讨前处理环节。 首先介绍一些基本的名词,比如 文件名后缀 文件格式 音频格式 采样率和位深 预备知识 文件名后缀、文件格式和音频格式 常见的音频文件,比如.wav、.mp3、.m4a、.wma等,这些都代表什么? 仅仅是这类音频文件的后缀而已,不一定和音频文件的编码、音频数据的编码相关。 ......
前处理 实战 项目 ASR

ASR项目实战-后处理

本文深入探讨后处理环节。 在本环节要处理的重要特性有分词、断句、标点符号、大小写、数字等的格式归一等。 分词 和NLP、搜索等场景下的分词含义不同。对于拼音类的语言,比如英语、法语等,句子由多个单词组成,语音输出的结果,需要按需在各个单词之间补充或者去掉空格。对于中文来说,字和词之间不以空格作为边界 ......
实战 项目 ASR

ASR项目实战-数据

使用机器学习方法来训练模型,使用训练得到的模型来预测语音数据,进而得到识别的结果文本,这是实现语音识别产品的一般思路。 本文着重介绍通用语音识别产品对于数据的诉求。 对数据的要求 训练集 相关要求,如下: 地域,需要覆盖使用人群所在的地域,且数据的比例适中。 口音,需要覆盖典型的口音。 年龄,从18 ......
实战 项目 数据 ASR

ASR项目实战-构建Kaldi

准备工作 安装构建时依赖的基础软件 软件清单如下: bzip2 python3 automake libtool cmake gcc g++ gfortran git subversion 不同平台安装软件的方式不同,比如可以使用yum或者apt-get等。 下载开源软件 软件清单如下: Libun ......
实战 项目 Kaldi ASR

ASR项目实战-语音识别

本文深入探讨语音识别处理环节。 本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。 语音识别 业界流派众多,比如Kaldi、端到端等,具体选择哪一种,需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等,作出相对合理的交付规划。 基于Kaldi的方案,优点在于其发挥稳 ......
实战 语音 项目 ASR

triton部署基于wenet的流式asr服务

1、docker镜像下载 下载链接:https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver/tags 或者直接 docker pull nvcr.io/nvidia/tritonserver:23.01-py3 2、克隆w ......
triton wenet asr

kaldi入门:搭建第一个中文ASR (AISHELL-1)

https://blog.csdn.net/Ephemeroptera/article/details/106634471?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522169690079216800197091653%2522%25 ......
AISHELL kaldi ASR

paddlespeech asr脚本demo

概述 paddlespeech是百度飞桨平台的开源工具包,主要用于语音和音频的分析处理,其中包含多个可选模型,提供语音识别、语音合成、说话人验证、关键词识别、音频分类和语音翻译等功能。 本文介绍利用ps中的asr功能实现批量处理音频文件的demo。 环境 centos 7.9 Python 3.10 ......
paddlespeech 脚本 demo asr

triton与paddlespeech部署ASR服务的性能对比

一、背景 最近在进行asr部署方案的技术选型工作,主要对比了triton部署与paddle部署两种方案 triton方案链接:https://github.com/wenet-e2e/wenet/tree/main/runtime/gpu paddlespeech方案链接:https://githu ......
paddlespeech 性能 triton ASR

微调用于多语言 ASR 的 MMS 适配器模型

**新内容 (06/2023)**: 这篇博文受到 [“在多语言 ASR 上微调 XLS-R”](https://huggingface.co/blog/zh/fine-tune-xlsr-wav2vec2) 的强烈启发,可以看作是它的改进版本。 **Wav2Vec2** 是自动语音识别 (ASR) ......
适配器 模型 ASR MMS

LoRa开启物联网新时代-ASR6500S、ASR6501/6502、ASR6505、ASR6601

在2018年杭州云栖大会上,阿里云首席智联网科学家丁险峰宣布启动“达尔文计划”,旨在通过一系列的包括平台、芯片和微基站在内的全链路生态服务,交付给企业客户一张自有可控的物联网。 在云栖大会户外上空悬停着一架印有“天空物联网”LOGO的飞艇,同时它搭载了LoRa物联网关,当它被启动,现场的物联网设备迅 ......
ASR 新时代 LoRa 6500 6501

基于ASR6601芯片的LORAWAN模块简介

E78-433LN22S(6601) LoraWan无线模块 芯片方案:ASR6601 载波频率:433.175~434.665MHZ 发射功率:22dBm 通信距离:5.6km 产品尺寸:20*14*2.8mm 产品简介:E78-433LN22S(6601)系列产品是设计生产的标准LoraWan节 ......
模块 芯片 LORAWAN 简介 6601
共21篇  :1/1页 首页上一页1下一页尾页