hudi记录

发布时间 2023-05-28 16:05:38作者: 平平淡淡以明志

hudi好文档-hudi-resources

https://github.com/leesf/hudi-resources
【Hudi】数据湖(三):Hudi概念术语
https://blog.csdn.net/u013522009/article/details/125243952
【Hudi】数据湖Hudi核心概念与架构设计总结

https://blog.csdn.net/u013522009/article/details/123982386
Hudi 原理 | 17张图带你彻底理解 Hudi Upsert 原理
https://toutiao.io/posts/m3mm3hw/preview
开源大数据平台E-MapReduce>组件操作指南>Hudi>常见问题常见问题
https://help.aliyun.com/document_detail/450996.html

hudi
HUDI preCombinedField 总结
https://blog.csdn.net/dkl12/article/details/122309954

hudi
1.3 spark写hudi并启用同步至hive中时:分区的schema信息默认会写到hudi文件中,此时通过spark-sql进行查询可用正常返回,但通过Hive或Presto查询时会移动位置,可用通过hoodie.datasource.write.drop.partition.columns=true配置进行修复同时推荐hoodie.datasource.write.hive_style_partitioning=true。
1.4 优化DLH中默认创建的default catalog增加hive.parquet.use-column-names"="true"属性信息,避免presto读写hudi表时字段移位。
1.5 DLH 执行show create catalog语法错误:在Hive中HiveOperationType缺少对应操作语法的声明导致。
1.6 DLH新建hudi表时默认不会初始化表配置信息,在插入数据时进行初始化,初始化增加一些默认配置如:keygenerator调整为ComplexKeyGenerator支持分区表和非分区表。
1.7 Spark写hudi并启用同步至Hive时,提示某些配置缺失:由于Hudi升级至0.10.1后,其一些hudi表属性信息hoodie.datasource.write.precombine.field、hoodie.datasource.write.table.type、hoodie.datasource.write.recordkey.field等调整到了.hoodie.properties表配置中,同步至DLH时会校验这些字段是否存在;优化为从hudi表的表配置元数据文件中读取。
1.8 Presto查询mor近实时表失败:近实时表没有增量日志文件时,日志文件数组中包含空字符串导致。
1.9 适配Hudi的ctas场景有功能有限,暂不考虑支持:再次插入数据会覆盖初次导入数据,且无法创建分区表,hive也不支持,仅支持建表后查询数据,不支持再对表进行更新。