hadoop2 hadoop hive 7.2

hadoop数据迁移

使用Distcp进行Hadoop数据迁移 DispCP官方文档在进行数据迁移前确认数据量大小和数据文件数,源端和目的端都需要确认： hdfs dfs -count / 59790 7008 22875716090 / 59790：表示目录 / 下的文件总数，即包括目录和文件在内的所有对象的数量。 ......

数据 hadoop更新时间 2023-12-26

dremio hive jdbc arp date 类型问题记录

简单记录下碰到的一些问题分析 arthas stack 查看调用 ffect(class count: 2 , method count: 4) cost in 329 ms, listenerId: 11 ts=2023-12-26 06:18:17;thread_name=e3 - 1a758 ......

类型 dremio 问题 date hive更新时间 2023-12-26

Hive的体系架构

Hello，大家好，上一篇博文聊了一下Hive的基本知识，为了让大家更深入地理解Hive，本篇就写一下Hive的体系架构吧。先看一张图：大概解释一下： command-line shell & thrift/jdbc 可以用 command-line shell 和 thrift／jdbc 两种 ......

架构体系 Hive更新时间 2023-12-26

Hive“横空出世”的原因

在沸沸扬扬的大数据江湖里，有这么一个框架，它刚开始很低调，然而，就在那么一个不起眼的一天，突然展示出其绝妙的武功，让大数据各大框架的掌门人暗挑大拇指，好了，不卖关子了，这个“横空出世”的框架就是——Hive。一：Hive产生的背景万事有因果，Hive的出现也不是无缘无故的，总体来说，Hive出现 ......

原因 Hive更新时间 2023-12-25

大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队

摘要：在大数据领域中，Hive SQL被广泛应用于数据仓库的数据查询和分析。然而，由于数据量庞大和复杂的查询需求，Hive SQL查询的性能往往不尽人意。本文针对Hive SQL的性能优化进行深入研究，提出了一系列可行的调优方案，并给出了相应的优化案例和优化前后的SQL代码。通过合理的优化策略和技巧 ......

从业者团队技巧数据技术更新时间 2023-12-25

Hive 3.1.3 生产安装

1.安装用于存储元数据的关系数据库生产环境中一般存储元数据采用独立的关系型数据库而非Hive本地的嵌入式数据库本地的嵌入式数据库无法支持多个请求同时访问。本示例采用Mysql8.0作为示例具体的支持列表参考官方文档： https://cwiki.apache.org/confluence/d ......

Hive更新时间 2023-12-24

Hadoop YARN Cgroups 资源隔离讲解

目录一、概述二、Hadoop 环境准备三、内存资源限制四、CPU 资源限制1）启用 LCE2）启用 CGroup3）配置 Yarn CGroup 目录3）CPU 资源限制一、概述 Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups（Co ......

Cgroups Hadoop 资源 YARN更新时间 2023-12-24

Hadoop集群迁移(元数据及HDFS数据）

1.背景老集群采用的腾讯emr集群，使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题，因此决定采用自建hadoop集群，需要将emr的元数据和hdfs基础数据迁移过来。 EMR版本：3.1.2 自建Hadoop版本：3.1.3 2.集群迁移步骤 2.1 数据迁移 nohup hadoop di ......

数据集群 Hadoop HDFS更新时间 2023-12-24

Hive 3.1.3最小化安装

1.解压 mkdir /usr/hive tar -zxvf apache-hive-3.1.3-bin.tar.gz -C /usr/hive 2.配置Hive环境变量在/etc/profile.d中配置 1.新建hive.sh vi /etc/profile.d/hive.sh export ......

Hive更新时间 2023-12-24

Spark写hive insertInto和saveAsTable的差别和错误

insertInto必须保证源表字段顺序和hive表字段顺序一致，不然会插入乱序，如果字段数不一致，会报错 saveAsTable append模式下，如果字段数不一致，会报错，overwrite模式下，会重建表如果是外部表，已经存在了数据，saveAsTable会报错 org.apache.sp ......

saveAsTable insertInto 差别错误 Spark更新时间 2023-12-23

ClickHouse(19)ClickHouse集成Hive表引擎详细解析

目录Hive集成表引擎创建表使用示例如何使用HDFS文件系统的本地缓存查询 ORC 输入格式的Hive 表在 Hive 中建表在 ClickHouse 中建表查询 Parquest 输入格式的Hive 表在 Hive 中建表在 ClickHouse 中建表查询文本输入格式的Hive表在Hive 中建 ......

ClickHouse 引擎 Hive 19更新时间 2023-12-23

Hive-mapjoin详解（mapjoin原理）

笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。一 .Common Join 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作 ......

mapjoin Hive-mapjoin 原理 Hive更新时间 2023-12-22

Hive和Spark生产集群搭建

1.环境准备 1.1 版本选择序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 MySQL-8.0.31 mysql Datax Datax Datax Datax Datax Datax Spark-3.3.1 Spar ......

集群 Spark Hive更新时间 2023-12-21

Hadoop生产集群搭建

1.环境准备 1.1 集群规划序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 IP x x x x x x xxx xxx xxx 组件 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5 节 ......

集群 Hadoop更新时间 2023-12-21

大数据hadoop理论面试题

1、列举几个hadoop生态圈的组件并做简要描述？（1）Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务，配置维护，命名服务。（2）Flume:一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。（3）Hbase:是一个分布式的、面向列 ......

理论数据 hadoop更新时间 2023-12-20

报错：org.apache.hadoop.hbase.util.GetJavaProperty

hbase和flume查看版本时显示如下 [root@slave1 flume-1.9.0]# hbase version 错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty SLF4J: Class path contains m ......

GetJavaProperty apache hadoop hbase util更新时间 2023-12-19

day16监控体系部署管理-K8S集群层面监控-基于Prometheus的HPA自动伸缩 (7.1-7.2)

一、打造基于Prometheus的全方位监控平台 1.1 前言官网：https://prometheus.io/docs/prometheus/latest/getting_started/ 灵活的时间序列数据库定制各式各样的监控规则 Prometheus的开发人员和用户社区非常活跃独立的开源 ......

集群 Prometheus 层面体系 day更新时间 2023-12-18

hadoop集群常见错误

虚拟及没有启动任何服务器查看jps会显示jps，如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2 ......

集群常见错误 hadoop更新时间 2023-12-18

hadoop启动时报错process information unavailable

启动hadoop，jps查看报错 [root@slave1 home]# jps 7798 -- process information unavailable 7081 -- process information unavailable 查看进程是否存在 [root@slave1 home]# ......

information unavailable 时报 process hadoop更新时间 2023-12-18

Hadoop的“前世今生”

Hello，小伙伴们，作为大数据的第一篇博文，肯定要先介绍一下大数据中的“大哥大”Hadoop了，别急，咱们慢慢介绍。一：Hadoop名称由来与很多其他的开源框架不同，Hadoop的名字并不是一个缩写，而是一个生造出来的词。据说是Hadoop之父Doug Cutting用儿子毛绒玩具大象的名字命 ......

Hadoop更新时间 2023-12-18

Hadoop Yarn Tool接口接入

项目搭建参考 Java实现对Hadoop HDFS的API操作 1.驱动类 package cn.coreqi.mapreduce.tool; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.util.Too ......

接口 Hadoop Yarn Tool更新时间 2023-12-17

Hadoop Yarn 调度器多队列

1.容量调度器多队列 1.为何需要多队列调度器默认就1个default队列，不能满足生产的要求。 1个队列在任务极限的情况下，容易资源耗尽。特殊时期通过对任务的区分可以保证重要的任务队列资源充足按照框架区分队列，如hive/spark/flink 每个框架的任务放入指定的队列(企业用的不是特别 ......

队列 Hadoop Yarn更新时间 2023-12-17

Hadoop YARN生产环境核心配置参数

1.ResourceManager相关配置参数说明默认值备注 yarn.resourcemanager.scheduler.class 配置调度器,默认为容量调度器(Apache) org.apache.hadoop.yarn.server.resourcemanager.scheduler ......

核心参数环境 Hadoop YARN更新时间 2023-12-17

Hadoop YARN

1.Yarn资源调度器 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.Yarn基础架构 Yarn主要由ResourceManager、NodeManager、Applicatio ......

Hadoop YARN更新时间 2023-12-16

Hadoop 数据压缩

1.概述 1.好处 & 坏处优点：减少磁盘IO、减少磁盘存储空间缺点：增加CPU开销 2.压缩的原则运算密集型的Job，少用压缩 IO密集型的Job，多用压缩 2.MR 支持的压缩编码 1.压缩算法对比介绍压缩格式 Hadoop自带? 算法文件扩展名是否可切片换成压缩格式后,原来的程序 ......

数据 Hadoop更新时间 2023-12-16

Hadoop快速入门

Hadoop快速入门一、大数据思维分而治之所谓“分而治之”，就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分，然后逐个分别找出各部分的解，再把各部分的解组成整个问题的解。传统的计算都是基于内存去完成的，但是内存是有限的，数据量太大，导致无法在较短时间内迅速解决，也就是 ......

Hadoop更新时间 2023-12-16

hive Metastore 启动报错 Version information not found in metastore报错处理

修改 conf/hive-site.xml中的 hive.metastore.schema.verification 设置为false。 hive Metastore 启动报错 [main]: Metastore Thrift Server threw an exception... org.apa ......

information Metastore metastore Version found更新时间 2023-12-15

关于再次出现 Could not open client transport with JDBC Uri: jdbc:hive2://node1:10000: java.net.ConnectException: 拒绝连接 (Connection refused) (state=08S01,code=0)

写在最前边——我报错是因为空间不足当我时隔两个月再次看到这个报错的时候我是感到绝望的—— ——然而当我查了一遍百度发现唯一一个拥有相同报错解决方法的博客出自我之手的时候我的崩溃的—— ——在我发现曾经的方法无法解决现在的我的报错的时候，我觉得我的心都碎了QAQ 在经历了三天无果的尝试之后，我决定试 ......

ConnectException Connection transport 再次 refused更新时间 2023-12-14

Hadoop MapReduce框架原理

1.InputFormat数据输入 1.数据切片与MapTask并行度决定机制一个Job的Map阶段并行度由客户端在提交Job时的切片数决定每一个Split切片分配一个MapTask并行实例处理默认情况下，切片大小 = BlockSize 切片时不考虑数据集整体，而是逐个针对每一个文件单独切片 ......

MapReduce 框架原理 Hadoop更新时间 2023-12-14

Hadoop 数据类型及序列化

1.Hadoop数据类型 Java类型 Hadoop Writable类型 Boolean BooleanWritable Writable Writable Writable Writable Writable Writable Writable Writable Writable 2.为何Had ......

序列类型数据 Hadoop更新时间 2023-12-13

共790篇 :3/27页 首页上一页123456下一页尾页