AIGC数据标注的影响与应用等

发布时间 2023-11-22 10:08:50作者: Syw_文

数据标注是将原始数据进⾏加⼯处理,⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。

国内数据标注⼚商,⼴义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作,为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究对象。

数据标注一般流程:

 数据标注中的⼆⼋定律

通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%

根据原始数据类型以及训练任务划分:

【⽂本】:词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等;

【 图像】:图像分类、语义分割、实例分割、拉框、OCR转写等;

【⾳频】语⾳识别、声纹识别、语⾳转写等;

【视频】⽬标跟踪、⾏为识别等;

【3D点云】

大模型时代下的数据标注

以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的⼤模型也被验证在⽂本、图像领域标注具有可⾏性,并衍⽣出专⻔做数据标注的⼤模型,⼤幅降低⾃动化标注⻔槛。国内不少数据服务商进⾏相关⼤模型研发,部分产品已经发布:
• 海天瑞声:数据⽣产垂直⼤模型(研发阶段)
• 曼孚科技:⾃动驾驶数据标注视觉⼤模型(已完成研发)
• ⻰猫数据:⾃动驾驶⼤模型AutopilotGPT(发布)
• 商汤:明眸SenseAnnotation⾃动化数据标注平台(发布)
• 标⻉科技:烘焙师⼤模型Baker-GPT(发布)

 需求变化:与⾏业场景强相关,高质量数据需求长期且持续

数据处理流程设计涉及⼤模型Know-how,直接决定⼤模型性能好坏。尤其后两个阶段需要专业⼈⼠⽣成数据或对数据进⾏改写或排序,最终形成符合⼈类标准(⽐如专业逻辑、核⼼价值观等)⾼质量数据;

⼴泛认知⾥,⼤模型是以数据为中⼼的产物。数据数量和质量很⼤程度决定着⼤模型能⼒的上限
n 以模型为中⼼:迭代模型,数据相对固定。
n 以数据为中⼼:关注数据本⾝,模型成为了数据的「容器」。

⽽后随着⼤模型持续地实时更新迭代、朝着多垂直领域落地,尤其通⽤智能、具⾝智能等相关探索,如何快速扩展到更多真实边缘场景,⾼质量场景数据也将成为刚需

 数据标注从劳动密集朝着知识密集型转变

三⼤影响因素:以技术+场景聚合的⻜轮效应

⼀、看技术能⼒

数据标注作为AI底层服务,最本质是为客⼾降本增效。持续迭代技术能⼒的企业
将有机会脱颖⽽出,包括不限于以下⼏点:
1、数据闭环⼯具链的智能化⽔平
2、 对⼤模型/算法Know-how的理解
3、 数据⼯程化能⼒、数据基础设施建设
……

⼆、看场景资源 

 

三、看飞轮效应

1、数据标注仍具备⻜轮效应;
2、 新创业公司⼊局⻔槛进⼀步提⾼;
3、 专业数据服务商更多机会将在垂类场景,帮助企业完成私有化部署;
4、 对外输出数据服务的⼤模型公司/AI企业也存在竞争优势。

市场竞争格局

数据标注⾏业传统依靠渠道、⼈⼒等形成的低成本竞争优势将被重塑,数据需求⽅将更看重数据质量、场景多样性和可扩展性