hadoop apache org rpcnosuchprotocolexception

云原生API网关全生命周期管理Apache APISIX探究实操

了解传统Nginx网关和基于Open Resty的Kong网关的痛点,抛出本篇主角一个云原生网关Apache APISIX,先了解其定义、特性、架构,并进一步理解其使用场景,再通过三种安装方式一步步部署和验证,也涉及到对部分Admin API的使用,最后通过apisix-dashboard可视化页面... ......
网关 周期 生命 Apache APISIX

云原生时代顶流消息中间件Apache Pulsar部署实操之轻量级计算框架

本篇逐层递进了解Pulsar Functions的基本概念和理论,如工作原理、处理保证模式、窗口函数;进一步搭建Pulsar函数运行环境,一步步操作演示函数也包括窗口函数的示例使用,最后通过Java语言实现原生语言接口和Pulsar函数SDK两种方式的代码示例、打包、部署和结果验证。 ......
轻量 轻量级 中间件 框架 消息

云原生时代顶流消息中间件Apache Pulsar部署实操之Pulsar IO与Pulsar SQL

本篇重点了解Pulsar IO的基础,通过两个示例演示如何一步步实操安装Cassandra和JDBC PostgreSQL的年连接器,进而配置和创建Pulsar Sink 并验证结果,也进一步熟悉一些常见pulsar-admin命令,最后还演示Pulsar SQL简单使用。 ......
Pulsar 中间件 消息 时代 Apache

Apache Kafka教程--Kafka新手入门

Apache Kafka教程--Kafka新手入门 Kafka Assistant 是一款 Kafka GUI 管理工具——管理Broker,Topic,Group、查看消费详情、监控服务器状态、支持多种消息格式。 摘要 今天,我们开始了我们的新旅程,这就是Apache Kafka教程。在这个Kaf ......
Kafka 新手入门 新手 教程 Apache

Apache HttpClient使用和源码分析

在上文中分析了 HttpURLConnection的用法,功能还是比较简单的,没有什么封装 接下来看看Apache HttpClient是如何封装httpClient的 使用的版本 <dependency> <groupId>org.apache.httpcomponents.client5</gr ......
HttpClient 源码 Apache

Apache Maven Assembly自定义打包插件的使用

前言 本文主要记录在SpringBoot项目中使用Apache Maven Assembly插件进行打包的相关内容; 官网说明:https://maven.apache.org/plugins/maven-assembly-plugin/ 概述 是什么:Apache Maven Assembly是M ......
插件 Assembly Apache Maven

Apache Hudi 流转批 场景实践

背景 在某些业务场景下,我们需要一个标志来衡量hudi数据写入的进度,比如:Flink 实时向 Hudi 表写入数据,然后使用这个 Hudi 表来支持批量计算并通过一个 flag 来评估它的分区数据是否完整从而进一步写入分区数据进行分区级别的ETL,这也就是我们通常说的流转批。 EventTime计 ......
场景 Apache Hudi

Apache Hudi 负载类Payload使用案例剖析

在 Hudi 中可以根据业务场景为 Hudi 表配置负载类Payload,它用于在更新期间合并同一记录的两个版本。本文将深入了解有效负载类的用途以及可以使用的所有不同方式。 配置:hoodie.datasource.write.payload.class 注意:对于新的记录合并API ,这些可能会发 ......
案例 Payload Apache Hudi

云原生时代顶流消息中间件Apache Pulsar部署实操-上

本篇先部署Apache Pulsar 最新版本2.11.0的 Locally Standalone,并通过创建Topic、生产消息和消费消息验证基础环境;接着通过二进制也即是所谓裸机部署方式一步步演示如何部署Pulsar的分布式集群,并通过Admin客户端验证基于租户、命名空间一些消息管理和使用简单... ......
中间件 消息 时代 Apache Pulsar

Centos7系统编译Hadoop3.3.4

1、背景 最近在学习hadoop,此篇文章简单记录一下通过源码来编译hadoop。为什么要重新编译hadoop源码,是因为为了匹配不同操作系统的本地库环境。 2、编译源码 2.1 下载并解压源码 [root@hadoop01 ~]# mkdir /opt/hadoop [root@hadoop01 ......
Centos7 Hadoop3 Centos Hadoop 系统

Centos7搭建hadoop3.3.4分布式集群

1、背景 最近在学习hadoop,本文记录一下,怎样在Centos7系统上搭建一个3个节点的hadoop集群。 2、集群规划 hadoop集群是由2个集群构成的,分别是hdfs集群和yarn集群。2个集群都是主从结构。 2.1 hdfs集群规划 | ip地址 | 主机名 |部署服务| |--|--| ......
分布式 集群 Centos7 hadoop3 Centos

05安装一个Hadoop分布式集群

安装一个Hadoop分布式集群 最小化的Hadoop已经可以满足学习过程中大部分需求,但是为了研究Hadoop集群运行机制,部署一个类生产的环境还是有必要的。因为集群机器比较少,笔者没有配置ssh,所以就需要在每一台机器上手动启动服务。启动上相对繁琐一些,优点是可以高度自定义集群中的任务节点数量,从 ......
分布式 集群 Hadoop

基于Apache Hudi 构建Serverless实时分析平台

NerdWallet 的使命是为生活中的所有财务决策提供清晰的信息。 这涵盖了一系列不同的主题:从选择合适的信用卡到管理您的支出,到找到最好的个人贷款,再到为您的抵押贷款再融资。 因此,NerdWallet 提供了跨越众多领域的强大功能,例如信用监控和警报、用于跟踪净值和现金流的仪表板、机器学习 ( ......
Serverless 实时 Apache 平台 Hudi

让Apache Beam在GCP Cloud Dataflow上跑起来

简介 在文章《Apache Beam入门及Java SDK开发初体验》中大概讲了Apapche Beam的简单概念和本地运行,本文将讲解如何把代码运行在GCP Cloud Dataflow上。 本地运行 通过maven命令来创建项目: mvn archetype:generate \ -Darche ......
Dataflow Apache Cloud Beam GCP

大数据实时多维OLAP分析数据库Apache Druid入门分享-上

Apache Druid是⼀款针对海量数据进⾏⾼性能实时分析OLAP引擎的实时分析型数据库,本篇了解其特征和适用场景,并与其他框架横向对比;最后部署一个最新版本25.0.0单机版演示本地文件摄取入库,并演示基于Json API本地查询和SQL两种查询方式 ......
据实 大数 数据库 数据 Apache

大数据实时多维OLAP分析数据库Apache Druid入门分享-下

了解Apache Druid的基础概念后,本篇进一步研究其核心架构和核心设计原理部分,了解相关外部依赖,对其数据摄取和查询有一定认识,然后通过搭建分布式集群进一步理解其架构组成,最后用一个示例从HDFS将数据摄取到Druid并演示两种查询方式 ......
据实 大数 数据库 数据 Apache

开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-上

再下一城又一个实时多维交互式分析数仓利器,了解其特性和架构组成,进一步阐述相关概念和其生态圈;介绍作为开发测试最快捷方式的Docker单机部署;也基于Hadoop环境一步步部署最新v4.0.3二进制并解决遇到的问题,最后通过一个读取hive数据示例介绍kylin创建项目、选择数据源、创建Model、... ......
数据 数据分析 分布式 仓库 规模

开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下

本篇先通过Kylin对连接条件、维度和度量限制的示例弄清Kylin的使用注意事项,在此基础上研究Kylin查询引擎,并配置spark查询下压实现没有cube的查询;理解Cube的构建优化,通过官方提供RestAPI实现动态灵活查询和cube构建,最后通过集成JDBC的Java代码实现简单查询操作。 ......
数据 数据分析 分布式 仓库 规模

使用docker安装hadoop(已实现)

1.拉镜像 这里推荐第一个 docker pull registry.cn-hangzhou.aliyuncs.com/hadoop_test/hadoop_base 或者 docker pull qianiqan/hadoop_only 2.创建容器 三个容器的名称分别是Master、Slave1 ......
docker hadoop

Apache IoTDB C# SDK 介绍

最近今天写了IoTDB的三篇相关文章,完成了安装部署和客户端连接:Windows Server上部署IoTDB 集群DBeaver 连接IoTDBDriver将IoTDB注册为Windows服务TsFile 是 IoTDB 的底层数据文件,一种专门为时间序列数据设计的列式文件格式。IoTDB TsF ......
Apache IoTDB SDK

避免用Apache Beanutils进行属性的copy。why?让我们一起一探究竟

在实际的项目开发中,对象间赋值普遍存在,随着双十一、秒杀等电商过程愈加复杂,数据量也在不断攀升,效率问题,浮出水面。 问:如果是你来写对象间赋值的代码,你会怎么做? 答:想都不用想,直接代码走起来,get、set即可。 问:下图这样? 答:对啊,你怎么能把我的代码放到网上? 问:没,我只是举个例子 ......
Beanutils 属性 Apache copy why

Apache RocketMQ 5.0 笔记

RocketMQ 5.0:云原生“消息、事件、流”实时数据处理平台,覆盖云边端一体化数据处理场景。 核心特性 云原生:生与云,长与云,无限弹性扩缩,K8s友好 高吞吐:万亿级吞吐保证,同时满足微服务与大数据场景 流处理:提供轻量、高扩展、高性能和丰富功能的流计算引擎 金融级:金融级的稳定性,广泛用于 ......
RocketMQ 笔记 Apache 5.0

Apache Kafka 的基本概念

基本概念 主题 Topic topic 是 Kafka 最基础的组织单位,类似于关系数据库中的数据表。做为使用 kafka 的开发者,你最应该考虑的是和 topic 相关的抽象。创建不同的 topic 保存不同种类的 events,或者通过不同的 topic 保存各种版本经过过滤、转换后的同类 ev ......
概念 Apache Kafka

Apache HttpClient 5 笔记: SSL, Proxy 和 Multipart Upload

HttpClient 版本已经到 5.2.1 了. 在版本4中的一些方法已经变成 deprecated, 于是将之前的工具类升级一下, 顺便把中间遇到的问题记录一下 ......
HttpClient Multipart 笔记 Apache Upload

Apache Kafka 移除 ZK Proposals

Zookeeper 和 KRaft 这里有一篇 Kafka 功能改进的 proposal 原文。要了解移除 ZK 的原因,可以仔细看看该文章。以下是对该文章的翻译。 动机 目前,Kafka 使用 Zookeeper 保存与分区(patitions)、brokers 相关的元数据,以及选举 Kafka ......
Proposals Apache Kafka ZK

Apache Dubbo 官方正式发布 Spring 6 & Spring Boot 3 支持

Dubbo 简介 Apache Dubbo 是一款 RPC 服务开发框架,用于解决微服务架构下的服务治理与通信问题,官方提供了 Java、Golang 等多语言 SDK 实现。使用 Dubbo 开发的微服务原生具备相互之间的远程地址发现与通信能力, 利用 Dubbo 提供的丰富服务治理特性,可以实现 ......
Spring 官方 Apache Dubbo Boot

一文聊透Apache Hudi的索引设计与应用

Hudi索引在数据读和写的过程中都有应用。读的过程主要是查询引擎利用MetaDataTable使用索引进行Data Skipping以提高查找速度;写的过程主要应用在upsert写上,即利用索引查找该纪录是新增(I)还是更新(U),以提高写入过程中纪录的打标(tag)速度。 MetaDataTabl ......
索引 Apache Hudi

Hadoop如何保证自己的江湖地位?Yarn功不可没

前言 任何计算任务的运行都离不开计算资源,比如CPU、内存等,那么如何对于计算资源的管理调度就成为了一个重点。大数据领域中的Hadoop之所以一家独大,深受市场的欢迎,和他们设计了一个通用的资源管理调度平台Yarn密不可分,那Yarn是如何做进行资源管理的呢?它的通用性体现在哪里呢?它是如何保证Ha ......
功不可没 地位 江湖 Hadoop Yarn

一图看懂Hadoop中的MapReduce与Spark的区别:从单机数据系统到分布式数据系统经历了哪些?

今日博主思考了一个问题:Hadoop中的MapReduce与Spark他们之间到底有什么关系? 直到我看到了下面这张图 废话不多说先上图👇 我们知道,单机数据系统,在本地主机上针对数据有单机本地存储操作(localFS)和单机计算操作(SQL) 这是在数据量比较小方便在一台主机就完成任务的情况。 ......
数据 系统 分布式 单机 MapReduce

医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用

背景 在 Apache Hudi支持完整的Schema演变的方案中(https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q), 读取方面,只完成了SQL on Spark的支持(Spark3以上,用于离线分析场景),Presto(用于在线OLAP场景)及A ......
场景 模式 医疗 Apache OLAP