AIGC数据标注的影响与应用等-526互联

数据标注是将原始数据进⾏加⼯处理，⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。

国内数据标注⼚商，⼴义称之为基础数据服务提供商，通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作，为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究对象。

数据标注一般流程：

数据标注中的⼆⼋定律

通常在一个AI项目中，数据准备工作需要80%时长，模型训练和部署仅占20%

根据原始数据类型以及训练任务划分：

【⽂本】：词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等；

【图像】：图像分类、语义分割、实例分割、拉框、OCR转写等；

【⾳频】语⾳识别、声纹识别、语⾳转写等；

【视频】⽬标跟踪、⾏为识别等；

【3D点云】

大模型时代下的数据标注

以SAM模型为代表的图像分割模型开源；GPT-4、GPT-4V为代表的⼤模型也被验证在⽂本、图像领域标注具有可⾏性，并衍⽣出专⻔做数据标注的⼤模型，⼤幅降低⾃动化标注⻔槛。国内不少数据服务商进⾏相关⼤模型研发，部分产品已经发布：
• 海天瑞声：数据⽣产垂直⼤模型（研发阶段）
• 曼孚科技：⾃动驾驶数据标注视觉⼤模型（已完成研发）
• ⻰猫数据：⾃动驾驶⼤模型AutopilotGPT（发布）
• 商汤：明眸SenseAnnotation⾃动化数据标注平台（发布）
• 标⻉科技：烘焙师⼤模型Baker-GPT（发布）