数据仓库之星型模型和雪花模型

发布时间 2023-12-19 16:39:23作者: 玩转大数据

在了解星型模型和雪花模型之前,我们需要先了解一下事实表和维度表到底是什么?

一、事实表与维度表

事实表

  • 在数据仓库中,保存度量值的详细值或存储事实记录的表称为事实表。事实数据表通常包含大量的行。
  • 事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据。事实表的粒度决定了数据仓库中数据的详细程度。
  • 常见事实表:订单事实表
  • 事实表的特点:表多(各种各样的事实表);数据量大
  • 事实表根据数据的粒度可以分为:事务事实表、周期快照事实表、累计快照事实表

常见的事实表有:订单表,销售事实表、库存事实表等。销售事实表包含销售数量、销售单价、销售总额、利润等指标,库存事实表包含库存数量、入库数量、出库数量等指标

维度表

  • 维度表(维表)可以看作是用来分析数据的角度,纬度表中包含事实数据表中事实记录的特性。有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息。
  • 常见维度表:时间维度、地域维度、商品维度
  • 总结:事实表是关注的内容(如:销售额、销售量),维表是观察事务的角度。

常见的维度表有:日期维表(存储与日期对应的周、月、季度等属性)、地区维表(包含国家、省/州、城市等属性)、商品维表等。

二、星型模型和雪花模型

星型模型

  1. 星型模是一种多维的数据关系,它由一个事实表和一组维表组成;
  2. 事实表在中心,周围围绕地连接着维表;
  3. 事实表中包含了大量数据,没有数据冗余;
  4. 维表是逆规范化的,包含一定的数据冗余;

雪花模型

  1. 雪花模式是星型模型的变种,维表是规范化的,模型类似雪花的形状;特点:雪花型结构去除了数据冗余。
  2. 星型模型存在数据冗余,所以在查询统计时只需要做少量的表连接,查询效率高;
  3. 星型模型不考虑维表正规化的因素,设计、实现容易;星型模型不考虑维表正规化的因素,设计、实现容易;