hadoop2 hadoop hive 7.2

Hive常见问题

Hive常见问题 1、hive创建数据库在使用hive指令创建数据库时，指定创建位置 create database bigdata_demo1 location '/bigdata_29'; 在shell脚本中显示创建返回结果但是在hdfs中并未找到该数据库；这里可能是bug，于是我们通过第 ......

常见问题常见问题 Hive更新时间 2024-01-13

Hadoop YARN ResourceManager 未授权访问

Hadoop YARN ResourceManager 未授权访问原理 Hadoop是一款由Apache基金会推出的分布式系统框架，它通过著名的MapReduce算法进行分布式处理，Yarn是Hadoop集群的资源管理系统。yarn提供有默认开放在8088和8090的REST API（默认前者）允 ......

ResourceManager Hadoop YARN更新时间 2024-01-12

Hive - 面试题

什么是Hive？答案：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 Hive的数据存储在哪里？答案：Hive的数据通常存储在Hadoop分布式文件系统（HDFS）上。Hive将HDFS上的数据映射成表格形式，并提供类似SQL的查询语 ......

Hive更新时间 2024-01-11

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架，它们之间既有紧密的联系也有显著的区别。联系：生态兼容：Spark可以无缝运行在Hadoop之上，利用Hadoop Distributed File System (HDFS) 进行数据存储，并且可以通过YARN（Yet Another ......

hadoop spark更新时间 2024-01-11

Hadoop之mapreduce参数大全-5

101.指定任务启动过程中允许的最大跳过尝试次数 mapreduce.task.skip.start.attempts 是 Hadoop MapReduce 框架中的一个配置属性，用于指定任务启动过程中允许的最大跳过尝试次数。在 MapReduce 作业中，如果某个任务（Map 任务或 Reduc ......

mapreduce 参数大全 Hadoop更新时间 2024-01-10

Hadoop之mapreduce参数大全-6

126.指定 Map 任务运行的节点标签表达式 mapreduce.map.node-label-expression 是 Hadoop MapReduce 框架中的一个配置属性，用于指定 Map 任务运行的节点标签表达式。节点标签是在 Hadoop 集群中为节点分配的用户定义的标签，可用于将 Ma ......

mapreduce 参数大全 Hadoop更新时间 2024-01-10

面试题：Hadoop的基于进程的计算和Spark基于线程方式优缺点？

Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享数据，执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map t ......

优缺点线程进程方式 Hadoop更新时间 2024-01-10

让黑群7.2支持AME

开启SSH 临时切换root用户（输入当前用户密码）执行：curl http://code.imnks.com/ame3patch/ame72-3005.py | python 成功： ......

7.2 AME更新时间 2024-01-10

装载数据时报错：Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'

错误还原 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1 Launching ......

Failed spark HiveException exception metadata更新时间 2024-01-10

Hadoop之mapreduce参数大全-4

76.指定在 MapReduce 作业中，哪些输出文件应该在任务失败时保留 mapreduce.task.files.preserve.filepattern 是 Hadoop MapReduce 框架中的一个配置属性，用于指定在 MapReduce 作业中，哪些输出文件应该在任务失败时保留。在 ......

mapreduce 参数大全 Hadoop更新时间 2024-01-09

Hadoop之mapreduce参数大全-3

51.指定Shuffle传输过程中可以同时连接的节点数 mapreduce.shuffle.max.connections是Hadoop MapReduce中的一个配置参数，用于指定Shuffle传输过程中可以同时连接的节点数。该参数用于控制Shuffle传输的并发度，以保障任务的稳定性和性能。可 ......

mapreduce 参数大全 Hadoop更新时间 2024-01-09

作业6 数据仓库Hive

一. 单选题（共3题，9分） 1. (单选题, 3分)下面关于Hive的描述错误的是： A. Hive是一个构建在Hadoop之上的数据仓库工具 B. Hive是由Facebook公司开发的 C. Hive在某种程度上可以看作是用户编程接口，其本身并不存储和处理数据 D. Hive定义了简单的类似S ......

仓库数据 Hive更新时间 2024-01-09

安装HUE并配置连接Hive&Flink&TIDB

安装依赖包 yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel mak ......

amp Flink Hive TIDB HUE更新时间 2024-01-09

Flink Sql On Hive

TableEnvironment // ********************** // FLINK STREAMING QUERY // ********************** import org.apache.flink.streaming.api.environment.Stream ......

Flink Hive Sql On更新时间 2024-01-09

Hive建表语句示例

CREATE EXTERNAL TABLE `ods_baidu_news`( `domain` string, `sitename` string, `sourceurl` string, `casedatatype` string, `fetchtype` int, `casename` str ......

示例语句 Hive更新时间 2024-01-09

Hive之set参数大全-5

I 限制外部表数据插入 set hive.insert.into.external.tables=true; 在Apache Hive中，通过INSERT INTO语句向外部表（External Table）插入数据时，有一些注意事项和限制。外部表是Hive中的一种特殊表，它与Hive管理的存储位置 ......

参数大全 Hive set更新时间 2024-01-08

Hive之set参数大全-6

L 指定是否启用延迟评估（lazy evaluation）的扩展布尔字面量在 Apache Hive 中，hive.lazysimple.extended_boolean_literal 是一个配置属性，用于指定是否启用延迟评估（lazy evaluation）的扩展布尔字面量。延迟评估可以提高性 ......

参数大全 Hive set更新时间 2024-01-08

Hive之set参数大全-7

指定 Hive LLAP（Live Long and Process）守护进程的委托令牌的生存期在 Apache Hive 中，hive.llap.daemon.delegation.token.lifetime 是一个配置属性，用于指定 Hive LLAP（Live Long and Proc ......

参数大全 Hive set更新时间 2024-01-08

Hive之函数解析

1.1 查看系统自带的函数 -- 查看系统自带函数 show functions; -- 查看自带函数的用法 desc/describe function 函数名; -- 查看自带函数的具体用法 desc/describe function extended 函数; 1.2 窗口函数 1.2.1 相 ......

函数 Hive更新时间 2024-01-08

Hive文件存储格式

结论： Text File，Parquet ，ORC Files结合使用，优先使用前两种，对存储及查询性能有极高要求时使用ORC。存储格式使用场景 Text File 数据直观，便于查看和编辑，数据量较小的维表可以使用. Parquet 支持深度嵌套，可用于多种数据处理框架（Hive/Spark ......

格式文件 Hive更新时间 2024-01-08

Hive 数据写入流程

概念简介外部表：删除表时，外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景，便于数据共享。内部表：删除表时，内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。分区表：数据较多，为提高计算速度时使用。内部表&外部表写入流程图具体流程Demo 以外部表为例： ......

流程数据 Hive更新时间 2024-01-08

hive分区表数据导入

数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间，主要包括两种分区形式：水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区，一般是通过对表的垂直划分来减少目标表的宽度，常用的是水平分区. 1. hive建立分区表 create external ta ......

数据 hive更新时间 2024-01-08

Hive 复杂数据类型Array，Map，Struct

建表语句，支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p ......

类型数据 Struct Array Hive更新时间 2024-01-08

Hive写入JSON数据

优缺点： 1.JsonSerDe对json数据格式有严格要求，创建的表结果必须与json结构能对应上，否则会报错。配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。必须定义好详细字段嵌套的规则类型，不适合提取ODS原文。 2.g ......

数据 Hive JSON更新时间 2024-01-08

Hive Array数据处理

建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE ......

数据处理数据 Array Hive更新时间 2024-01-08

安装HUE并配置连接Hive&Flink&TIDB

创建用户 groupadd hadoop useradd -g hadoop hadoop 解压编译 wget https://cdn.gethue.com/downloads/hue-4.8.0.tgz PREFIX=/usr/share make install 集成Hive Conf 在/op ......

amp Flink Hive TIDB HUE更新时间 2024-01-08

Atlas集成Hive

修改atlas-application.properties 添加atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=pri ......

Atlas Hive更新时间 2024-01-08

Hadoop（3.3.4）-HDFS操作

Apache Hadoop 3.3.4 – Overview 01.appendToFile hadoop fs -appendToFile localfile /user/hadoop/hadoopfile hadoop fs -appendToFile localfile1 localfile2 ......

Hadoop HDFS更新时间 2024-01-07

Hadoop之mapreduce参数大全-1

1.设置Map/Reduce任务允许使用的最大虚拟内存大小 mapred.task.maxvmem是MapReduce的一个配置参数，用于指定每个Map/Reduce任务允许使用的最大虚拟内存大小（以字节为单位）。如果一个任务使用的虚拟内存超过了此参数指定的值，则任务会被认为是失败的，并且MapRe ......

mapreduce 参数大全 Hadoop更新时间 2024-01-07

Hadoop之mapreduce参数大全-2

26.指定在Reduce任务在shuffle阶段的网络重试之间的最大延迟时间 mapreduce.reduce.shuffle.retry-delay.max.ms是Apache Hadoop MapReduce任务配置中的一个属性，用于指定在Reduce任务在shuffle阶段的网络重试之间的最大 ......

mapreduce 参数大全 Hadoop更新时间 2024-01-07

共790篇 :1/27页 首页上一页1234下一页尾页