数据仓库、数据湖、湖仓一体的区别?

发布时间 2024-01-05 21:55:29作者: guoyu1

https://www.cnblogs.com/miketwais/articles/data_lakehouse.html

 

数仓:存储结构化数据,基于指标需求,面向主题组织数据,协助经营者进行决策;

数据湖:存储结构化,半结构化,非结构化,二进制数据,强调的是对于原始数据的存储,保留数据的完整性。随用随取。存储成本更低;

湖仓一体:将数仓构建在数据湖上,使得存储变得更为廉价和弹性,同时lakehouse能够有效地提升数据质量,减小数据冗余。

数据湖虽然适合数据的存储,但又缺少一些关键功能,比如不支持事务、缺乏一致性/隔离性、不保证执行数据质量等,这样的短板决定了,让数据湖来承载读写访问、批处理、流作业是不现实的。而且,数据湖缺乏结构性,一旦没有被治理好,就会变成数据沼泽。