Whisper

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

Open AI 推出的 Whisper 是一个通用语音转录模型,在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜,被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据集的 58 种语言中也展现出了强大的多语言性能,在 ......
Speculative Decoding Whisper

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高 ......
王者 语音 Whisper 文字 FunAsr

win11上whisper安装

https://blog.csdn.net/zdm_0301/article/details/133854913#:~:text=UnicodeDecodeError%3A%20%27utf-8%27%20codec%20can%27t%20decode%20byte%200xb2%20in,9%3 ......
whisper win 11

结合SK和ChatGLM3B+whisper+Avalonia实现语音切换城市

结合SK和ChatGLM3B+whisper+Avalonia实现语音切换城市 先创建一个Avalonia的MVVM项目模板,项目名称GisApp 项目创建完成以后添加以下nuget依赖 <PackageReference Include="Mapsui.Avalonia" Version="4.1 ......
ChatGLM3B 语音 Avalonia ChatGLM3 ChatGLM

持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的 Whisper 模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等... ......
双语 Faster-Whisper 字幕 Whisper Python3

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

引言 2023年,IT领域的焦点无疑是ChatGPT,然而,同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。 Whisper是一款自动语音识别系统,可以识别来自99种不同语言的语音并将其转录为文字。 如果说ChatGPT为计算机赋予了大脑,那么Whisper则为其赋予了耳朵。 想象一 ......
Whisper NemoASR ChatGPT 语言 文字

whisper/fast-whipser/baidu-aip-AipSpeech对比

是什么 whisper OpeanAI 推出的多语言语音识别模型,通过了68万小时的语音数据训练,支持99种语言,英文识别准确率非常惊艳。 更重要的是,它开源免费,在电脑上就能离线使用。 fast-whisper 处理速度更快的whisper,具有完全的 whsiper 模型参数,且自带 VAD 加 ......

whisper安装

安装环境 官方使用的是Python 3.9.9 and PyTorch 1.10.1来训练和检验的程序,但兼容python 3.7以后的版本和pytorch近期更新版本。 大家在安装whisper的时候请尽量保证python版本与官方一致或更新版本,这样可以避免一些版本不同导致的莫名奇妙的错误。 1 ......
whisper

whisper

OpeanAI 推出的 Whipser 语音识别模型,离线也可以使用。它和 ChatGPT 是同门师兄弟。 ### whisper Whipser 多语言语音识别模型,通过了68万小时的语音数据训练,支持99种语言,对英文的表现更是强无敌。 更重要的是,它开源免费,在电脑上就能离线使用。 地址:ht ......
whisper

使用whisper批量生成字幕(whisper.cpp)

### 前言 最近发现了whisper这个语音生成字幕的本地工具,但是whisper速度不算快,然后在github上发现了whisper.cpp这个项目,执行速度更快,还可以在命令行使用,这样就可以自己定制了。 ### 命令行压缩包下载 命令行下载地址:https://github.com/Cons ......
whisper 字幕 cpp

Hugging News #0703: 在浏览器中运行 Whisper 模型、WAIC 分论坛活动邀请报名

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧! ## 重要更新 ### Wh ......
模型 浏览器 Hugging Whisper 论坛

使用 Transformers 为多语种语音识别任务微调 Whisper 模型

本文提供了一个使用 Hugging Face 🤗 Transformers 在任意多语种语音识别 (ASR) 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,并提供了数据准备和微调的相关代码。如果你想要一个 ......
多语种 Transformers 语音 模型 任务

实用模型推荐(三)语音转文本模型:whisper

1.开原地址:https://github.com/openai/whisper https://github.com/guillaumekln/faster-whisper 2.使用场景:语音转文字 3.api封装: import os import uvicorn from fastapi im ......
模型 语音 文本 whisper

Whisper

Whisper 是 OpenAI 公司开源的通用的语音识别模型。(https://github.com/openai/whisper ) 它是在包含各种音频的大型数据集上训练的,是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 它也是一个针对各种语音处理任务进行训练的 Transfor ......
Whisper

极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践

业界良心OpenAI开源的Whisper模型是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了 Core ML 支持,完美适配苹果M系列芯片。 ......
语音 人工智能 光速 字幕 实时

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

whisper介绍Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻 ......
模型 文本 音频 Whisper 项目

Buzz语音转文字安装使用(含Whisper模型下载)

https://blog.csdn.net/oXiaoWeiWuDi/article/details/128925672 简介:Transcribe and translate audio offline on your personal computer. Powered by OpenAI’s ......
语音 模型 Whisper 文字 Buzz

【C#】Whisper 离线语音识别(微软晓晓语音合成的音频)(带时间戳、srt字幕)...

https://blog.csdn.net/cxyhjl/article/details/129905927 用微软语音合成功能生成xiaoxiao的语音。 用Whisper离线识别合成的语音输出srt字幕。 一、语音合成 参考这个网址:https://www.bilibili.com/read/c ......
语音 字幕 音频 Whisper 时间

ChatGPT 和 Whisper 模型的区别

ChatGPT和Whisper模型是两个不同的模型,但都是由OpenAI开发的基于自然语言处理(NLP)的人工智能技术。 ChatGPT是一种基于GPT(Generative Pre-trained Transformer)架构的语言模型,它可以生成自然流畅的文本,用于生成对话、文章等各种文本内容。 ......
模型 ChatGPT Whisper

闻其声而知雅意,基于Pytorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

前文回溯,之前一篇:含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入),利用AI技术将文本合成语音,现在反过来,利用开源库Whisper再将语音转回文字,所谓闻其声而知雅意。 Whisper 是一个开源的语音识别库,它是由Facebook AI ......
雅意 人工智能 人工 语音 Pytorch
共20篇  :1/1页 首页上一页1下一页尾页