526互联

ASR项目实战-数据

发布时间 2023-12-29 23:06:33作者: jackieathome

使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

相关要求，如下：

地域，需要覆盖使用人群所在的地域，且数据的比例适中。
口音，需要覆盖典型的口音。
年龄，从18~60，覆盖各年龄段，且数据的比例适中。
- 很多国家对未成年人有非常严格的保护措施，因此收集未成年人的数据比较困难。
- 未成年男性的声音和青年女性的声音，从生理角度存在一定的相似度，这给质量控制增加了复杂度和相应的工作量。
性别，男、女，比例适中。对于特定的语种，这个要求很难达成，比如某些严格执行教规的国家，很难采集到女性的声音。
录音条件。
- 一般要求静音，近场，10秒以内的短句，前、后静音不超出1秒。
- 假如业务场景要求模型具备一定的搞噪能力，则需要增加对应场景的数据。
母语人群提供的数据，其比例不低于某限定值。

测试集

相关要求，如下：

数据的特征，接近应用场景。
数据量适中，可以支撑功能和性能测试。

获取数据的方法

训练集

可行的方法有：

采集开源训练数据集。这类数据通常用于研究，因此数据质量相对可控，唯一的问题在于数量较少，直白的说，用来写论文也许够用，但在工业强度下应用，则远远不满足要求。
采购商业数据。数据公司可以通过如下方式收集数据：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用转包的方式，将任务包交给当地有资质的公司来收集数据。
- 采用众包的方式，收集语音数据。
自行采集数据。类似数据公司的操作方式，可以有如下方式：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用众包的方式，收集语音数据。

难点在于：

交付周期长。收集数据的操作，从提出诉求到最终收到数据，中间耗时良久，进度基本不可控。
质量不可控。语音数据没有比较好的手段可以实现自动化检查，因此需要花费相当的人力来整理、清洗数据，剔除质量差或者不满足要求的数据。

测试集

可行的方法有：

客户提供带有标注的测试集。
客户提供测试集的获取方法，交付团队按照要求采集数据用于测试。
客户提供测试集的标准，交付团队按照要求自行准备数据。

注意：测试集用于验证模型的有效性，为保证公平性和有效性，测试集中的数据，绝对不允许作为训练集来使用。

参考资料

如何正确使用机器学习中的训练集、验证集和测试集？

实战项目数据asr

实战语音项目asr

项目实战历程asr

架构实战项目asr

前处理实战项目asr

实战项目产品asr

实战项目asr

实战项目kaldi asr

实战团队项目asr