spark-hive spark hive

hive(四)

## 内部表和外部表默认情况下创建的表就是内部表，Hive拥有该表的结构和文件。换句话说，Hive完全管理表（元数据和数据）的生命周期，类似于RDBMS中的表。当你删除内部表时，它会删除数据以及表的元数据。可以使用DESCRIBE FORMATTED tablename,来获取表的元数据描述信息， ......

hive更新时间 2023-05-21

sqoop导数到hive任务状态一直是Accepted或Running

昨天晚上装了sqoop准备将数据从pg库导入Hive库备用，写了个sqoop脚本，运行脚本本后从yarn ui上看任务状态一直 Accepted，卡了三四个小时，最后发现是 yarn-site.xml 配置问题，给的资源太少，无法运行任务。在 yarn-site.xml 中添加下面的内容： ``` ......

导数 Accepted 状态任务 Running更新时间 2023-05-21

hive(三)

## HQL基础语法 Hive中的语句叫做HQL语句,是一种类似SQL的语句,基本上和SQL相同但是某些地方也是有很大的区别. ### 数据库操作 **创建数据库** - 1.创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 ```sql create d ......

hive更新时间 2023-05-20

提高数据的安全性和可控性，数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路

在企业级应用中，数据的安全性和隐私保护是极其重要的。Spark 作为数栈底层计算引擎之一，必须确保数据只能被授权的人员访问，避免出现数据泄露和滥用的情况。为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性，数栈基于 Apache Ranger 实现了 Spark SQL 对数据 ......

可控性安全性权限数据 Ranger更新时间 2023-05-17

HIVE跨集群迁移

查看mysql使用端口 ps -ef | grep mysql ss -antp | grep [ps查出来的pid] 停止HIVE写入服务创建备份路径 mkdir -p /root/hivebackup/ 执行备份数据库命令：(在目标集群执行) mysqldump -uroot -pPasswo ......

集群 HIVE更新时间 2023-05-17

impala jdbc导出hive数据字典

####业务需求太多了，给完整导出为html文件，以及之前搞的 public static void main(String[] args) throws Exception { kerberos(); } public static void kerberos() { URL resource = ......

字典数据 impala hive jdbc更新时间 2023-05-17

Hive3安装

Hive3安装 Mysql安装卸载Centos7自带的mariadb [root@node3 ~]# rpm -qa|grep mariadb mariadb-libs-5.5.64-1.el7.x86_64 [root@node3 ~]# rpm -e mariadb-libs-5.5.64-1 ......

Hive3 Hive更新时间 2023-05-09

spark资源动态调整--内容搬运，周知

动态资源分配 Spark的动态资源分配就是executor数据量的动态增减，具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为：如果executor数据量不够，则增加数量，如果executor在一段时间内空闲，则移除这个executor。动态增加executor配置项：spark.dyn ......

动态内容资源 spark更新时间 2023-05-09

Hudi学习笔记4 - Hudi配置之Spark配置

Spark Datasource Configs 读配置 |配置项|是否必须|默认值|配置说明| |:-|:-|:-|:-| |as.of.instant|Y|N/A|0.9.0 版本新增，时间旅行查询从哪儿开始，有两种格式的值：yyyyMMddHHmmss 和 yyyy-MM-dd HH:mm:s ......

Hudi 笔记 Spark更新时间 2023-05-08

【大数据】Hive Join 的原理与机制

一、概述 Hive是一个基于Hadoop的数据仓库解决方案，它提供了类似于SQL的查询语言，称为HiveQL，用于处理结构化数据。在Hive中，JOIN操作用于将两个或多个表中的数据连接在一起，以便进行联合查询和分析。 Hive 中的 Join 可分为 Common Join（Reduce阶段完成 ......

原理机制数据 Hive Join更新时间 2023-05-07

基于Hadoop3.1.3安装Hive3.1.2

Hive是什么？ \t Hive 是一个基于 Hadoop 的数据仓库工具，它提供了类似 SQL 的查询语言 HQL（Hive Query Language），使得开发人员可以使用类 SQL 语言来查询和处理存储在大规模分布式文件系统（如 HDFS）中的数据。 Hive有哪些功能？ Hive 的主 ......

Hadoop3 Hadoop Hive3 Hive 1.3更新时间 2023-05-06

[HiBench] 安装HiBench，测试在Spark上跑PageRank与修改源码测试

[HiBench] 安装HiBench，测试在Spark上跑PageRank与修改源码测试背景：我想在HiBench上测试在Spark上跑PageRank性能，并想要修改PageRank的源码进行测试。本来，HiBench在README里写的已经挺清楚的了，直接照着做就行。奈何我用的服务器没有珂学 ......

HiBench 源码 PageRank Spark更新时间 2023-05-06

【大数据】Hive DDL 操作与视图讲解

一、概述 Hive是建立在Hadoop上的数据仓库工具，它允许用户通过类SQL的语法来查询和管理数据。在Hive中，DDL（数据定义语言）和视图操作是非常常见的。 1）表和视图关系表和视图都是数据存储的逻辑表示方式。它们之间有以下关系：视图可以基于一个或多个表创建，而表不可以基于其他表或视图创建 ......

视图数据 Hive DDL更新时间 2023-05-05

【大数据】Hive 内置函数和 UDF 讲解

一、概述 Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供类SQL语句操作。Hive内置了很多函数，可以满足基本的查询需求，同时还支持自定义函数(UDF)来实现更加灵活的操作。官方文档：https://cwiki.apache.org/confluenc ......

函数数据 Hive UDF更新时间 2023-05-05

【大数据】Hive 分区和分桶的区别及示例讲解

一、概述在大数据处理过程中，Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式，它们的区别如下： 1）分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。在Hive中，数据被存储在HDFS中，每个分区实际上对应HDFS下的一个文件夹，这个文件夹中保存了 ......

示例数据 Hive更新时间 2023-05-03

Hive单机安装与测试

安装MySQL并运行在当前用户下运行 sudo apt update sudo apt install mysql-server 安装成功后启动MySQL服务，运行 sudo service mysql start 查看MySQL的默认用户名和密码，运行 sudo cat /etc/mysql/d ......

单机 Hive更新时间 2023-04-30

Spark安装部署与基础实践

安装 java 运行命令 sudo apt install openjdk-8-jdk-headless 进行安装运行java -version测试安装是否成功，结果如下，安装成功安装Spark 运行wget http://mirror.bit.edu.cn/apache/spark/spark ......

基础 Spark更新时间 2023-04-30

hive on spark报错

Error in query: Detected implicit cartesian product for LEFT OUTER join between logical plansUnion Join condition is missing or trivial.Either: use th ......

spark hive on更新时间 2023-04-28

Windows平台下单机Spark环境搭建

为了在有限的资源上学习大数据处理与分析技术，借鉴Linux以及部分网上的教程，在Windows10平台搭建Spark环境。本文将简单记录搭建流程以及其中遇到的坑。 Spark的部署模式主要有四种： Local模式（单机模式） Standalone模式（使用Spark自带的简单集群管理器） YARN模 ......

单机 Windows 环境 Spark 平台更新时间 2023-04-27

在CentOS上安装和配置Spark Standalone

1.确认Java已安装在CentOS上运行以下命令以确认Java是否已安装： java -version 如果Java未安装，请按照以下步骤进行安装： sudo yum install java-1.8.0-openjdk-develx 修改/etc/profile文件，末尾添加 export J ......

Standalone CentOS Spark更新时间 2023-04-25

使用 OpenCV、Kafka 和 Spark 技术进行视频流分析

核心要点为了可靠且高效地处理大规模的视频流数据，需要有一个可扩展、能容错、松耦合的分布式系统；本文中的示例应用使用开源的技术来构建这样的系统，这些技术包括 OpenCV、Kafka 和 Spark。另外，还可以使用 Amazon S3 或 HDFS 进行存储；该系统包含了三个主要的组件：视频流 ......

视频流 OpenCV Kafka Spark 技术更新时间 2023-04-24

Video Stream Analytics Using OpenCV, Kafka and Spark Technologies

Key Takeaways For reliable handling and efficient processing of large scale video stream data, there is a need for a scalable, fault tolerant and loos ......

Technologies Analytics Stream OpenCV Video更新时间 2023-04-24

Ubuntu系统python连接hive遇到的一些问题

1.第一个问题，sasl这个库安装不上，报缺少sasl.h的问题（#include ＜sasl/sasl.h＞）解决方法：sudo apt-get install -y libsasl2-dev gcc python-dev 2.第二个问题，连接的时候报 Could not start SASL ......

Ubuntu python 问题系统 hive更新时间 2023-04-24

Hive On Spark调优

第1章集群环境概述 1.1 集群配置概述本课程所用集群由5台节点构成其中2台为master节点：用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点，用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master ......

Spark Hive On更新时间 2023-04-22

datax从hive向pg同步踩的坑

1. [INFO] 2023-04-21 14:11:00.836 - [taskAppId=TASK-9296114303648_1-2137236-2376388]:[61] - -> 2023-04-21 14:11:00.783 [job-0] ERROR RetryUtil - Excep ......

datax hive更新时间 2023-04-21

hive出现MetaException(message:Metastore contains multiple versions (2)异常

1、使用Spark操作Hive表时发生的报错 2、错误日志 23/04/19 08:49:28 WARN metadata.Hive: Failed to access metastore. This class should not accessed in runtime. org.apache. ......

MetaException Metastore contains multiple versions更新时间 2023-04-21

Hive 修改计算引擎方法

前置说明各位应该清楚，hive 默认计算引擎是 mr，当集群配置了 hive-ob-spark 后可以根据需要自行切换计算引擎其它计算引擎切换为mapreduce set hive.execution.engine=mr; 其它计算引擎切换为 spark set hive.execution.e ......

引擎方法 Hive更新时间 2023-04-20

spark

首先安装JAVA，SCALA scala安装解压包 [root@master ~]# tar -zxvf scala-2.11.8.tgz -C /usr/local/src/ 配置环境变量 #SCALA_HOME export SCALA_HOME=/usr/local/src/scala ex ......

spark更新时间 2023-04-20

hive

解压hive到/usr/local/src目录下并修改名称为hive mv apache-hive-3.1.3-bin hive 配置hive的环境变量 #HIVE_HOME export HIVE_HOME=/usr/local/src/hive export PATH=$PATH=$HIVE_H ......

hive更新时间 2023-04-20

Spark持久化

众所周知，RDD只会保留血缘关系，不存储计算结果。如果想要让计算结果持久化存储，那就要引入cache和persist方法。提前感受变化禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac ......

Spark更新时间 2023-04-20

共620篇 :18/21页 首页上一页15161718192021下一页尾页