whisper/fast-whipser/baidu-aip-AipSpeech对比

发布时间 2023-09-14 15:10:53作者: qev211

是什么

whisper

OpeanAI 推出的多语言语音识别模型,通过了68万小时的语音数据训练,支持99种语言,英文识别准确率非常惊艳。
更重要的是,它开源免费,在电脑上就能离线使用。

fast-whisper

处理速度更快的whisper,具有完全的 whsiper 模型参数,且自带 VAD 加持。它使用了 CTranslate2 来重新实现 whsiper 模型,CT2 对 transformer 类网络进行了优化,使模型推理效率更高。github上说同等情况下是whisper处理速度的4倍。
VAD 即 Voice Activity Detection ——声音活动检测,在语音信号处理中,例如语音增强,语音识别等领域有着非常重要的作用。
它的作用是从一段语音(纯净或带噪)信号中标识出语音片段与非语音片段。在语音转写任务中,可以提前将语音和非语音部分分离出来,从而提升 whisper 网络识别速度,并减少模型幻听。

baidu-aip-AipSpeech

将60秒以内的完整音频文件识别为文字,需要联网,且需要收费的token