2023.34 语音转文字STT-526互联

在我们的日常生活和工作中，语音转文字（Speech-to-Text，简称STT）技术已经越来越普遍。无论是智能手机的语音助手、智能家居设备的语音控制，在线会议的实时字幕，还是录音转文字方便检索查阅，STT技术都在为我们提供便利。

STT技术的基础主要来自于语音识别（Speech Recognition）技术，该技术的目标是理解并转录人类的语音。语音识别的过程通常包括以下几个步骤：声音的采集和预处理、特征提取、模型预测和后处理。

1. 声音的采集和预处理：首先，我们需要一个麦克风或其他设备来采集声音，然后将模拟的声音信号转化为数字信号。

2. 特征提取：然后，我们需要从这些数字信号中提取出有用的特征，例如梅尔频率倒谱系数（MFCC）。

3. 模型预测：接下来，我们将这些特征输入到某种机器学习模型中，例如隐马尔可夫模型（HMM）或深度学习模型，以预测出可能的文字。

4. 后处理：最后，我们可能需要一些后处理步骤，例如语言模型，来改善模型的预测结果。

早期的STT技术主要基于HMM和GMM（高斯混合模型）等统计模型。然而，随着深度学习的兴起，尤其是循环神经网络（RNN）和卷积神经网络（CNN）在语音识别上的成功应用，STT技术的性能得到了显著提高。

近年来，Transformer和BERT等预训练模型也被广泛应用于STT技术中，进一步推动了其发展。此外，端到端（End-to-End）的模型，如CTC（Connectionist Temporal Classification）和Transformer Transducer，也为简化STT系统的构建和提高其性能提供了新的可能。

尽管STT技术已经取得了显著的进步，但仍然存在一些挑战。例如，对于有口音、语速快或者语言模糊的语音，STT技术可能难以准确识别。此外，噪声环境下的语音识别也是一个难题。然而，随着技术的不断发展，这些问题正在逐渐被解决。

未来，STT技术有望在更多场景中发挥作用，例如在医疗、法律和教育等领域，STT技术可以用于自动地生成病历、法律文件或教学笔记。STT技术将会变得更加成熟和普遍，为我们的生活带来更多便利和可能。

目前语音转文字的服务或工具很多，这里面免费且技术好的要属Whisper了。Whisper是OpenAI在2022年9月份开源的自动语音识别模型。官方宣传其英语的识别水平与人类接近。而2个月后，官方就发布了Whisper V2版本，是第一个版本继续训练2.5倍得到，且加了正则化技术。后面一位网友Sanchit Gandhi发布了Whisper JAX，对原有版本优化识别速度最高达到原始模型的70倍。不过基于大模型技术的Whisper，对本地电脑配置有要求，且不是开箱即用的，如果想使用方便可以用基于它的开源应用Buzz。Buzz 相当于是一个 Whisper 的可视化界面版本，在第一次使用 Buzz 的时候，会下载 Whisper 的模型，根据不同的质量要求，模型尺寸也非常可观：

质量	尺寸	English-only model	Multilingual model	必需的显存	行对速度
tiny	39 M	`tiny.en`	`tiny`	~1 GB	~32x
base	74 M	`base.en`	`base`	~1 GB	~16x
small	244 M	`small.en`	`small`	~2 GB	~6x
medium	769 M	`medium.en`	`medium`	~5 GB	~2x
large	1550 M	N/A	`large`	~10 GB	1x

Buzz - 开源、可离线的实时语音转文字工具

国内，Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架。本项目为Paraformer中文通用语音识别模型，采用工业级数万小时的标注音频进行模型训练，保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。在下面modelscope中，可以上传一个不超过10M的音频文件试用。

https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary

免费开源AI中文音频转文本Paraformer模型

下面这篇文章对比了目前常用的语音转文字工具，看测试结果，剪影和飞升妙记还不错，离线的还是Whisper或Buzz。

比较后才知道：这些语音转文字工具哪个才是真正的王者！