技术员2023.04联盟ghost

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

本篇详细描述hoodie数据读写流程,进一步加深对数据湖技术的理解。理论后转战集成Spark的使用,通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例,了解创建表、修改表结构、查询分区、删除分区基本用法,为进一步使用奠... ......
数据 双管齐下 下一代 实战 原理

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

本篇演示了Hudi集成Spark的Scala编程示例,并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中,接着集成Flink的环境准备,通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据,了解字节... ......
数据 双管齐下 下一代 实战 原理

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续

本篇实战Hudi集成Flink SQl编程示例实现从生成器表写入Hudi表,打包集群验证;然后通过Hudi Flink CDC实现采集MySQL binlog日志写入Kafka再入到hudi表的完整示例,了解Hudi Flink的基础调试只是,最后通过Hudi集成Hive实现Flink Hive C... ......
数据 双管齐下 下一代 实战 原理

Redux 的困扰与如何技术选型

文章的名字我想了很久,备选项有“我再不推荐 Redux”,“Redux 为什么令我头疼”,“Redux 进化启示录”等等。通过这一系列名字我想你大概能猜到我接下来想聊的问题是什么 ......
Redux 技术

技术管理之如何协调加班问题

今天刚好跟一个前同事聊一些以前加班的事情,他跟我吐槽公司加班的问题,但我管理的技术部门一直没怎么加班。就想起来之前为了达成这件事做的一些努力,本来想细说,但他好像不太感兴趣,结果我自己憋了一肚子话,不吐不快,不如分享给其他人吧。所以特此写了这一篇。 1,不加班的基本原则 原则上尽可能不加班,是为了把 ......
技术管理 问题 技术
共3455篇  :116/116页 首页上一页116下一页尾页