Iceberg过期快照清理

发布时间 2024-01-02 10:32:11作者: 黑水滴

总结

指标
清理前(已优化小文件)
清理后
查询速度 13秒 15秒(波动)
表总大小 26.4G 17.2G
metadata目录文件数 75 42
data目录文件数 1501 602

!!!需要先做小文件合并,然后再做过期快照比较好。

小文件合并:Iceberg小文件合并测试

一、清理任务资源使用情况

1、清理命令(修改时间戳,在这之前的会被清理)

CALL iceberg_catalog.system.expire_snapshots(table => 'data_lake_ods.order_info1', older_than => TIMESTAMP '2023-12-07 10:40:00.000');

2、任务运行时间(32秒)

 

二、清理后文件信息统计

1、查询速度(第一次15秒,第二次6秒大概是goosfs缓存)

2、表总大小(17.2G)

3、单个文件大小例子(单个文件接近60MB)

4、文件数量

hdfs dfs -du -h /user/hive/warehouse/data_lake_ods.db/order_info1/data | wc -l

路径:/user/hive/warehouse/data_lake_ods.db/order_info1/data

文件数:602

路径:/user/hive/warehouse/data_lake_ods.db/order_info1/metadata

文件数:42