画像体系(三)：平台-526互联

三、标签平台管理

标签平台是一个中间层的服务，为前台提供的是数据支持。另外一方面标签平台的加工，依赖底层的基础数据平台的原始数据

1、新建标签

2、标签视图与查询

3、标签管理

四、标签数据开发

1、标签开发流程

标签的开发在hive库完成，因为标签的模型体系是基于数据仓库而来，所以大致流程也和数据仓库的开发流程类似，具体工作流程如下：

2、标签表模型设计

表结构设计也是画像开发过程中需要解决的一个重要问题。表结构设计的重点是要考虑如下这3个方面的问题。

不同业务背景有不同的设计方式：

2.1 横表

以Hive为例，我们最常用的就是横表，也就是一个 key，跟上它的所有标签。横表的问题：

由于用户的标签会非常多，而且随着用户画像的深入，会有很多细分领域的标签，这就意味着标签的数量会随时增加，而且可能会很频繁。
不同的标签计算频率不同，比如说学历一周计算一次都是可以接受的，但是APP登录活跃情况却可能需要每天都要计算。
计算完成时间不同，如果是以横表的形式存储，那么最终需要把各个小表的计算结果合并，此时如果出现了一部分结果早上3点计算完成，一部分要早上10点才能计算完成，那么横表最终的生成时间就要很晚。
大量空缺的标签会导致存储稀疏，有一些标签会有很多的的缺失，这在标签用户画像中很常见，主要是当标签数据量开始快速增加的时候会遇到的问题。

2.2 竖表

竖表其实就是将标签都拆开，一个用户有多少标签，那么在这里面就会有几条数据。竖表能比较好地解决上面宽表的问题。但是它也会带来了新的问题，

2.3 横表+竖表

如前面所分析，竖表和横表各有所长和所短，那么能不能两者结合呢？

这其实也要考虑横表和竖表的特性，整体来讲就是竖表对计算层支持的好，横表对查询层支持的好。那么设计的化就可以这样：

3、标签开发

统计类标签：是最为基础也最为常见的标签类型，例如，对于某个用户来说，其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。
规则类标签：基于用户行为及确定的规则产生。例如，对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中，由于运营人员对业务更为熟悉，而数据人员对数据的结构、分布、特征更为熟悉，因此规则类标签的规则由运营人员和数据人员共同协商确定。
机器学习挖掘类标签：通过机器学习挖掘产生，用于对用户的某些属性或某些行为进行预测判断。例如，根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。

五、标签存储

1、Hive存储