DB - 数据仓库原理

发布时间 2023-05-31 01:41:58作者: HOUHUILIN

 

2023年5月31日 01:13:14,刷B站的时候,刷到了李鹏程大佬的B站作品。

 

数据仓库的诞生原因

数据仓库的基本概述

数据仓库的特点

数据仓库 vs 数据库

 

 

 

 

 

 

数据仓库的诞生原因

1、历史数据积存;2、企业数据分析需要。

  • 历史数据积存:历史数据使用频率低,堆积在业务库中,导致性能下降
  • 企业数据分析需要:各个部门自己建立独立的数据抽取系统,导致数据不一致。

 

数据仓库的基本概述

由数据仓库之父比尔·恩门(Bill Inmon)提出

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合

主要用于组织积累的历史数据,并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能。

 

数据仓库的特点

面向主题:为数据分析提供服务,根据主题将原始数据集合在一起

集成:原始数据来源于不同数据源,要整合成最终数据,需要经过抽取、清洗、转换的过程

非易失:保存的数据是一系列历史快照,不允许被修改,只允许通过工具进行查询、分析

时变性:数仓会定期接收、集成新的数据,从而反映出数据的最新变化

 

数据仓库 vs 数据库

数据库是面向事务设计的,属于OLTP(在线事务处理)系统,主要操作是随机读写;在设计时尽量避免冗余,常采用符合范式规范来设计

数据仓库是面向主题设计的,属于OLAP(在线分析处理)系统,主要操作是批量读写;关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方式设计。

  数据库 数据仓库
面向 事务 分析
数据类型 细节、业务 综合、清洗过的数据
数据特点 当前的、最新的 历史的、跨时间维护
目的 日常操作 长期信息需求、决策支持
设计模型 基于ER模型,面向应用 星形/雪花模型,面向主题
操作 读/写 大多为读
数据规模 GB到TB >=TB