2023.34 语音转文字STT

发布时间 2023-08-26 19:00:32作者: 时间朋友
在我们的日常生活和工作中,语音转文字(Speech-to-Text,简称STT)技术已经越来越普遍。无论是智能手机的语音助手、智能家居设备的语音控制,在线会议的实时字幕,还是录音转文字方便检索查阅,STT技术都在为我们提供便利。
STT技术的基础主要来自于语音识别(Speech Recognition)技术,该技术的目标是理解并转录人类的语音。语音识别的过程通常包括以下几个步骤:声音的采集和预处理、特征提取、模型预测和后处理。
1. 声音的采集和预处理:首先,我们需要一个麦克风或其他设备来采集声音,然后将模拟的声音信号转化为数字信号。
2. 特征提取:然后,我们需要从这些数字信号中提取出有用的特征,例如梅尔频率倒谱系数(MFCC)。
3. 模型预测:接下来,我们将这些特征输入到某种机器学习模型中,例如隐马尔可夫模型(HMM)或深度学习模型,以预测出可能的文字。
4. 后处理:最后,我们可能需要一些后处理步骤,例如语言模型,来改善模型的预测结果。
早期的STT技术主要基于HMM和GMM(高斯混合模型)等统计模型。然而,随着深度学习的兴起,尤其是循环神经网络(RNN)和卷积神经网络(CNN)在语音识别上的成功应用,STT技术的性能得到了显著提高。
近年来,Transformer和BERT等预训练模型也被广泛应用于STT技术中,进一步推动了其发展。此外,端到端(End-to-End)的模型,如CTC(Connectionist Temporal Classification)和Transformer Transducer,也为简化STT系统的构建和提高其性能提供了新的可能。
尽管STT技术已经取得了显著的进步,但仍然存在一些挑战。例如,对于有口音、语速快或者语言模糊的语音,STT技术可能难以准确识别。此外,噪声环境下的语音识别也是一个难题。然而,随着技术的不断发展,这些问题正在逐渐被解决。
未来,STT技术有望在更多场景中发挥作用,例如在医疗、法律和教育等领域,STT技术可以用于自动地生成病历、法律文件或教学笔记。STT技术将会变得更加成熟和普遍,为我们的生活带来更多便利和可能。

目前语音转文字的服务或工具很多,这里面免费且技术好的要属Whisper了。Whisper是OpenAI在2022年9月份开源的自动语音识别模型。官方宣传其英语的识别水平与人类接近。而2个月后,官方就发布了Whisper V2版本,是第一个版本继续训练2.5倍得到,且加了正则化技术。后面一位网友Sanchit Gandhi发布了Whisper JAX,对原有版本优化识别速度最高达到原始模型的70倍。不过基于大模型技术的Whisper,对本地电脑配置有要求,且不是开箱即用的,如果想使用方便可以用基于它的开源应用Buzz。Buzz 相当于是一个 Whisper 的可视化界面版本,在第一次使用 Buzz 的时候,会下载 Whisper 的模型,根据不同的质量要求,模型尺寸也非常可观:
质量尺寸English-only modelMultilingual model必需的显存行对速度
tiny39 Mtiny.entiny~1 GB~32x
base74 Mbase.enbase~1 GB~16x
small244 Msmall.ensmall~2 GB~6x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x
Buzz - 开源、可离线的实时语音转文字工具

国内,Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架。本项目为Paraformer中文通用语音识别模型,采用工业级数万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。在下面modelscope中,可以上传一个不超过10M的音频文件试用。
https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 
免费开源AI中文音频转文本Paraformer模型

下面这篇文章对比了目前常用的语音转文字工具,看测试结果,剪影和飞升妙记还不错,离线的还是Whisper或Buzz。
比较后才知道:这些语音转文字工具哪个才是真正的王者!