ASR项目实战-项目交付历程-526互联

本文记录，作为项目主要负责人，完整参与语音识别项目的交付历程。

2019年12月中旬
接到项目交付任务，收集基本知识，启动业务分析工作。

2020年1月
完成竞品分析的整理。
梳理合作伙伴的清单，整理项目计划，启动和各合作伙伴的沟通工作。
启动架构方案、设计方案的准备工作。

2020年2月
和合作伙伴A谈好合作方案，基于云云对接的方式，启动项目交付工作。
架构设计、方案设计（文件转写）完成文档的输出和评审。
月底，支持短文件转写（即时长在60秒以内的语音文件）的服务，在生产环境顺利上线。

按照部门要求，后续按照月度版本的方式组织交付，即月初启动交付，月底完成版本发布和生产环境的变更。

本月版本交付的内容：

短文件转写（即时长在60秒以内的语音文件）的服务。
支持中文的识别。

2020年3月
基于云云对接的方式，支持长文件转写（即时长大于60秒，小于5小时的语音文件）的服务，在生产环境顺利上线。
端侧SDK的第一个版本，完成功能联调。

为支持端侧SDK的瘦身方案，本月启动了一个调测版本的开发工作。

本月版本交付的内容：

支持长文件转写（即时长大于60秒，小于5小时的语音文件）的服务。
输出运维数据。

2020年4月
支持端侧SDK的瘦身方案的版本，本月月底完成开发和交付，并在生产环境顺利上线。
基于集成模型的方式，在生产环境顺利上线如下服务：

支持短文件转写（即时长在60秒以内的语音文件）的服务。
支持实时语音识别（即时长在60秒以内的语音文件）的服务。

本月版本交付的内容：

短文件转写（即时长在60秒以内的语音文件）的服务。
实时语音识别的服务，支持时长在60秒以内。
支持中文、英语的识别。
集成业务运维系统。
集成客户支撑系统。
构建业务流量控制方案。
完善运维数据。

2020年5月

本月版本交付的内容：

例行更新语音识别的模型：
- 更新中文的模型。
- 更新英语的模型。
扩充语种，增加对法语的支持。
完善前处理阶段：
- 支持重采样。
- 支持多种音频格式，PCM、AAC、AMR。
新增后处理阶段：
- 支持数字格式归一化，支持中文、英语。
- 支持标点符号，基于静音时长的规则。
- 支持大小写，基于规则。
完善运维数据。

2020年6月

本月版本交付的内容：

例行更新语音识别的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
完善后处理阶段：
- 数字格式归一化，完善中文、英语对特定领域比如计算机、物理等词汇的支持。
完善短文件转写服务：
- 增加文本的时间偏移的特性。
- 支持基于URL的方式，加载语音数据文件。

2020年7月

本月版本交付的内容：

例行更新语音识别的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
完善后处理阶段：
- 数字格式归一化，增加法语的支持。
完善运维能力，把一些复杂的配置项，通过运维系统来管理。

基于云云对接的方案，和合作伙伴B启动集成工作。

由于组织架构调整，项目人力有比较重大的调整，开发团队中的骨干开发人员离开项目，我变成了光标司令。
还好算法团队、测试团队仍然完整，并且战斗力很强。

2020年8月

基于集成模型的方式，在生产环境顺利上线如下服务：

支持长文件转写（即时长在60秒以上，5小时以内的语音文件）的服务。
支持实时语音识别（即时长在60秒以上，5小时以内的语音文件）的服务。

本月版本交付的内容：

例行更新语音识别的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
长文件转写服务。
实时语音长时间识别服务。
完善后处理：
- 基于机器学习模型的方式支持标点符号特性。
- 基于机器学习模型的方式支持大小写特性。
基于合作伙伴B的能力，支持实时语音识别（时长小于60秒），支持4个小语种。

2020年9月
本版本的交付内容，合并至10月版本一并上线。

2020年10月

本月版本交付的内容：

例行更新语音识别的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
例行标点符号的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
例行更新大小写的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
完善文本时间偏移的实现，解决各种场景下不准确、不对齐的问题。
完善系统的可靠性，解决各种奇怪的内存、死锁类的问题。
完善运维系统。
- 并发路数的分配和管理。
使用逻辑集群的方式支持现有的4款产品，各产品支持独立扩容。
优化文件转写的效率，降低端到端处理时延。

2020年11月

本月版本交付的内容：

例行更新语音识别的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
例行标点符号的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
例行更新大小写的模型：
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
完善系统的可靠性，解决时序不对齐导致的底层识别会话无法释放的问题。

2020年12月
本月版本交付的内容：

扩充语种，支持西班牙语。
- 集成语音识别的模型。
- 集成标点符号的模型。
- 集成大小写的模型。
- 增加数字归一化。
完善前处理阶段：
- 扩充支持音频格式，增加speex。

启动项目交接，语音识别的项目进入维护状态。

2021年1月
正式离开项目。

总结
前期需求交付的路标规划不完整，因此对于人力的诉求，没有明确的估计，导致项目整个交付过程中，受限于人力，进度压力很大，加班很多，项目成员均有怨言。这是后续独立负责项目交付时的一个比较大的改进点。