总结
指标
|
清理前(已优化小文件)
|
清理后
|
---|---|---|
查询速度 | 13秒 | 15秒(波动) |
表总大小 | 26.4G | 17.2G |
metadata目录文件数 | 75 | 42 |
data目录文件数 | 1501 | 602 |
!!!需要先做小文件合并,然后再做过期快照比较好。
小文件合并:Iceberg小文件合并测试
一、清理任务资源使用情况
1、清理命令(修改时间戳,在这之前的会被清理)
CALL iceberg_catalog.system.expire_snapshots(table => 'data_lake_ods.order_info1' , older_than => TIMESTAMP '2023-12-07 10:40:00.000' ); |
2、任务运行时间(32秒)
二、清理后文件信息统计
1、查询速度(第一次15秒,第二次6秒大概是goosfs缓存)
2、表总大小(17.2G)
3、单个文件大小例子(单个文件接近60MB)
4、文件数量
hdfs dfs -du -h /user/hive/warehouse/data_lake_ods.db/order_info1/data | wc -l
路径:/user/hive/warehouse/data_lake_ods.db/order_info1/data
文件数:602
路径:/user/hive/warehouse/data_lake_ods.db/order_info1/metadata
文件数:42