pyspark hive

hive身份验证

Hive 通过HiveServer2对外提供服务,HiveServer2 是一种能使客户端执行 Hive 查询的服务。 HiveServer2 实现了一个新的基于 Thrift 的 RPC 接口,该接口可以处理客户端并发请求。当前版本支持 Kerberos,LDAP 以及自定义可插拔身份验证。新的 ......
身份 hive

EMR-hive集成openldap

LDAP认证:https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/use-ldap-authentication?spm=a2c4g.11186623.0.i4 OpenLDAP试用说明参考:https://help.aliyun.com/zh/ ......
EMR-hive openldap hive EMR

实验6熟悉的hive的基本操作

今天完成了大数据实验六的hive的基本操作 参照实验6 熟悉Hive的基本操作_hive环境搭建实验报告-CSDN博客、 这位博主的代码,但是前期的启动hive并没有按照博主的来,启动hive大家参照我之前的一篇博客来就行 我是从黑马教程跟着下载的hive ......
基本操作 hive

hive执行sql报错 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

前言: 执行hive sql报错,sql逻辑是两个表左连接并将数据插入新的表中。 报错信息: [ERROR] 2023-12-05 15:49:49.165 +0800 - execute sql error: Error while processing statement: FAILED: Ex ......
hive MapredLocalTask Execution FAILED apache

DBeaver连接hive

配置maven仓库:窗口,首选项,连接,驱动,Maven,添加 https://repo.huaweicloud.com/repository/maven/ ......
DBeaver hive

datax采集txt文件数据到hive

1、提前创建hive表结构 DROP TABLE IF EXISTS ods.ods_log_1diu; CREATE TABLE IF NOT EXISTS ods.ods_log_1diu ( SI_NO STRING, --varchar(10) not null,主键 SEND_TABLE ......
文件 数据 datax hive txt

关于hadoop hive中使用hive分区功能

很多人习惯了使用第三方的工具 去连接hive或者hbase数据库,并且 使用其中的sql编辑器进行失去了语句 的使用来进行数据的分析等一系列的 操作,但是一些shell命令也可以在其中 运行例如: 1. set hive.exec.dynamic.partition=true; 2. set hiv ......
hive 功能 hadoop

hive向表中导入数据出现FAILED: SemanticException

完整错误信息 FAILED: SemanticException Line 1:23 Invalid path ''~/Downloads/stocks.csv'': No files matching path file:/home/lcz/~/Downloads/stocks.csv 路径错误, ......
SemanticException 数据 FAILED hive

hive启动出现Cannot create directory /tmp/hive. Name node is in safe mode.

原因:进入了安全模式,hdfs在启动开始时会进入安全模式,这时文件系统中的内容不允许修改也不允许删除,直到安全模式结束。 执行命令: hadoop dfsadmin -safemode leave 退出安全模式即可 出现 Safe mode is OFF 表示成功退出 ......
hive directory Cannot create Name

hive启动时有一堆WARN信息

hive启动时有一堆WARN信息 比如: SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/usr/local/hive/lib/log4j-slf4j-impl-2.17.1 ......
信息 hive WARN

Hive的安装与配置

第1关:Hive的安装与配置 在修改 conf 下面的hive-site.xml文件这里,题目给的信息是错误的,正确的内容如下: <?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xs ......
Hive

hive启动出现Either your MetaData is incorrect, or you need to enable "datanucleus.schema.autoCreateTables"

hive启动出现: Required table missing : "`VERSION`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either ......

hive升级元数据报错The reference to entity "useSSL" must end with the ';' delimiter.

使用Hive自带的schematool工具升级元数据,也就是把最新的元数据重新写入MySQL数据库中。 执行以下命令 cd /usr/local/hive ./bin/schematool -initSchema -dbType mysql 出现The reference to entity "us ......
quot delimiter reference 数据 entity

hadoop高可用集群集成hive

hive和hadoop的关系 从上图可以看出实际上外界是通过thrift server这个节点和hadoop的hdfs以及rm进行交互的,中间为driver 因此当我修改完hadoop集群为高可用的时候,hive也需要重新配置环境以下是我hive的全新配置 <configuration> <!-- ......
集群 hadoop hive

java使用hive-jdbc查询超时:java.sql.SQLException: org.apache.thrift.transport.TTransportException: java.net.SocketTimeoutException: Read timed out

java.sql.SQLException: org.apache.thrift.transport.TTransportException: java.net.SocketTimeoutException: Read timed out at org.apache.hive.jdbc.HiveSt ......

spark离线分析--本地Spark1.6版本读写hive表

1. 搭建好hive环境,并将hive-site.xml文件放到本地工程的resources目录下 2. java测试代码 public class SparkHiveTest{ public static void main(String[] args){ JavaSparkContext jav ......
版本 Spark1 spark Spark hive

hive+mysql的伪分布式数据仓库搭建

1.前言 1.1所使用的配置 VMware 16pro #虚拟机 unbuntu22.04 #操作系统 jdk-8u202 hadoop-3.3.6 hive-3.1.1 mysql-8.054 mysql-connect-j-8.1.0 2.mysql和navicat的安装和使用 2.1mysql ......
分布式 仓库 数据 mysql hive

crontab任务以user用户执行hive -f命令不生效解决记录

现象:创建了一个shell脚本任务,使用crontab进行任务调度,其中hive执行为: hive -f /opt/test.sql > /opt/test.log 2>&1 任务调度起来后一直报错提示: /usr/bin/hive:行3: /parcels/sbin/configure.sh: 没 ......
命令 任务 crontab 用户 user

Hive_解析 get_json_object

get_json_object ( string json_string, string path ) 说明: 第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组。 如果输入的json字符串无效,那么返回NULL。 每次只能返回一个数据项。 举 ......
get_json_object object Hive json get

开始pyspark------------jupyter notebook 读取CSV文件

1 开始pyspark 1 查看版本信息¶ In [1]: import sys print(sys.version_info) sys.version_info(major=3, minor=11, micro=5, releaselevel='final', serial=0) In [2]: ......
notebook pyspark jupyter 文件 CSV

datax抽取mysql数据到hive报错:javax.net.ssl.SSLException: Connection reset

datax抽取mysql数据报错: [INFO] 2023-11-09 12:35:14.090 +0000 - -> 2023-11-09 20:35:13.492 [0-0-0-reader] ERROR ReaderRunner - Reader runner Received Excepti ......
SSLException Connection 数据 datax mysql

pyspark UDF调用自定义python函数

从 Pyspark UDF 调用另一个自定义 Python 函数 Python 编码的 PySpark UDF 提供了调用其他Python 函数的能力,无论它们是内置函数还是来自外部库的用户定义函数。通过使用户能够利用现有的 Python 代码,此功能提高了 UDF 的模块化和可重用性。在分布式 P ......
函数 pyspark python UDF

hive事务得设置

1. 通过命令行方式开启事务,当前session有效 set hive.support.concurrency = true; set hive.enforce.bucketing = true; set hive.exec.dynamic.partition.mode = nonstrict; s ......
事务 hive

hive3.0新特性

hive3.0新特性: 1、不再支持Mr.取而用Tez查询引警且支持两种查询模式.Container 和 LLAP 2、Hive CLI不再支持(被beeline取代) 3、SQL Standard Authorization 不再支持,且默认建的表就已经是ACID表。 4、支持“批查询”(TEZ) ......
特性 hive3 hive

0.Hive+MySQL安装记录

1.确定安装版本 如何通过官网查找hadoop、hbase、hive版本兼容信息 2.安装流程大概 B站视频 3.安装mysql数据库 centos安装mysql8 check: tar命令 配置文件(/etc/下)--/etc/profile mysql环境变量配置 mysql: error wh ......
MySQL Hive

hive ACID事务得应用场景

Hive的ACID语义可以完成以下使用场景: 1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。 这些工具都是每秒百万行级的数据写入,而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区 ......
场景 事务 hive ACID

PySpark判断Hdfs文件路径是否存在

背景 从ScalaSpark代码转PySpark代码,同时实现连续读多个文件,避免因某些路径不存在导致程序终止。 在Scala的Spark中可以直接导下面两个模块的包 import org.apache.hadoop.conf.Configuration import org.apache.hado ......
路径 PySpark 文件 Hdfs

Hive累积值、平均值、首尾值的计算学习

Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM() 、AVG()等使用;可以结合FIRST_VALUE() 和LAST_VALUE(),返回窗口的第一个和最后一个值。 如果只使用partition by子句,未指定order by的话, ......
首尾 平均值 Hive

hive快速入门

hive快速入门 一、简介 hive是facebook,用于解决海量结构化数据的统计分析,现在属于apache软件基金会。hive是一个构建在hadoop之上的数据分析工具,hive没有存储数据的能力只有使用数据的能力,底层是由HDFS来提供数据存储,可以将结构化的数据映射为一张数据表,并且提供类似 ......
hive

Finalshell给虚拟机安装JDK1.8,hadoop-3.3.3,hive3.1.2并配置环境

点击红框按钮,把下载好的jdk,hadoop,hive安装包上传到指定路径 我的路径是/home/用户名/Downloads 查看上传文件 sudo tar -zxvf /home/hxf/Downloads/jdk-8u391-linux-x64.tar.gz -C /opt/module/ su ......
Finalshell 环境 hadoop hive3 JDK1