spark-hive spark hive

Spark算子总结

Spark的算子分为两大类：transform（转换算子）和action（行动算子） transform算子：map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r ......

算子 Spark更新时间 2023-04-20

hive使用trino查询时报分区不存在问题

1.使用sql界面查询时报错”分区不存在“ 2.后台查看文件不存在 $ hdfs dfs -s /warehouse/cleaned.db/dataitem1 202304/f=20230412 2se/warehouse/cleaned.db/dataitem1 202304/f=20230412 ......

时报问题 trino hive更新时间 2023-04-18

Windows10系统下Hadoop和Hive环境搭建

文章部分内容来自：https://www.cnblogs.com/sheng-sjk/p/16186508.html 结合实际搭建过程中的问题，对文章进行了优化环境准备 | 软件 | 版本 | 备注 | | : : | : : | : : | | Windows | 10 | 操作系统 | | J ......

Windows 环境 Hadoop 系统 Hive更新时间 2023-04-17

解决Spark读取tmp结尾的文件报错的问题

业务场景 flume采集文件到hdfs中，在采集中的文件会添加.tmp后缀。一个批次完成提交后，会将.tmp后缀重名名，将tmp去掉。所以，当Spark程序读取到该hive外部表映射的路径时，在出现找不到xxx.tmp文件的问题出现。解决思路： Hdfs提供了读取文件筛选的接口PathFilte ......

文件问题 Spark tmp更新时间 2023-04-14

Spark高级

Spark 宽依赖和窄依赖窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、 filter等宽依赖(Shuffle Dependency)：父RDD的每个分区都可能被子RDD的多个分区使用，例如groupByKey、 redu ......

Spark更新时间 2023-04-13

Hive解析Json字符串

在Hive中会有很多数据是用Json格式来存储的，如开发人员对APP上的页面进行埋点时，会将多个字段存放在一个json数组中，因此数据平台调用数据时，要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。 Hive自带的json解析函数 1. get_json_object 语法：g ......

字符串字符 Hive Json更新时间 2023-04-13

Hive构造数据踩坑

运维哥哥为了获取每个表的访问时间，开启了Hive钩子，在集群参数里面配置了hive.exec.pre.hooks= org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec，结果导致在使用图1的sql时报找不到虚拟表的错误(如 ......

数据 Hive更新时间 2023-04-12

Pandas实现Hive中的窗口函数

1、Hive窗口函数我们先来介绍一下Hive中几个常见的窗口函数，row_number(),lag()和lead()。 1.1 row_number() 该函数的格式如下： row_Number() OVER (partition by 分组字段 ORDER BY 排序字段排序方式asc/des ......

函数 Pandas Hive更新时间 2023-04-12

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

一、概述 XGBoost是一种基于决策树的集成学习算法，它在处理结构化数据方面表现优异。相比其他算法，XGBoost能够处理大量特征和样本，并且支持通过正则化控制模型的复杂度。XGBoost也可以自动进行特征选择并对缺失值进行处理。二、代码实现步骤 1、导入相关库 import org.apach ......

Spark 集群算法 XGboost 语言更新时间 2023-04-12

Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器

一、贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率，生活中，我们可能很容易知道P（A|B），但是我需要求解P（B|A），学习了贝叶斯定理，就可以解决这类问题，计算公式如下： P（A）是A的先验概率 P（B）是B的先验概率 P（A|B）是A的后验概率（已经知道B发生过了） P（B|A）是B的后验 ......

Spark 集群语言 Spark3 MLlib更新时间 2023-04-12

Hive元数据信息表

--Hive元数据表 1.表信息（1）TBLS--记录数据表信息，可作为左表，关联其他表信息（2）TABLE_PARAMS—存储Hive表的属性信息具体数据内容：（3）COLUMNS_V2—保存表的字段信息 2.分区信息（1）PARTITIONS （2）PARTITIONS_PARAMS— ......

数据信息 Hive更新时间 2023-04-12

Hive元数据配置到Mysql

1. 将mysql的JDBC驱动拷贝到Hive的lib目录下 [root@hadoop1 lib]# ls mysql-connector-java-5.1.34.jar 2. 配置MetaStore到Mysql [root@hadoop1 conf]# vi hive-site.xml <conf ......

数据 Mysql Hive更新时间 2023-04-12

spark 20220804笔记本3

......

20220804 笔记本笔记 spark更新时间 2023-04-11

Hive启动成功

1. 启动hive [root@hadoop1 ~]# /root/tools/hive/hive/bin/hive SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/root ......

Hive更新时间 2023-04-11

Hive的SQL优化

--HiveSQL优化 1.查看执行计划 --基本信息 explain select * from part1 where id<10; --显示输入属性 explain dependency --查看SQL相关权限信息 explain authorization --查看SQL向量化描述信息，显示 ......

Hive SQL更新时间 2023-04-11

Hive是什么

Hive是一种基于Hadoop的数据仓库工具，它可以将结构化数据映射为一张数据库表，提供了类似于SQL的查询语言，使得数据分析师和开发人员可以使用SQL语句对分布式存储的数据进行查询和分析。 Hive可以将Hadoop分布式文件系统（HDFS）中的数据转换为SQL查询，从而使得分布式数据分析变得更加 ......

Hive更新时间 2023-04-11

Hive3安装

1、下载安装包地址：http://archive.apache.org/dist/hive/ 2、安装mysql 参考：https://www.cnblogs.com/jpxjx/p/16817724.html 3、上传安装包并解压 tar zxvf apache-hive-3.1.2-bin.t ......

Hive3 Hive更新时间 2023-04-10

hive快速入门

Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言（HiveQL）来对存储在Hadoop分布式文件系统（HDFS）中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析，而无需编写MapReduce程序。 Hive将查询语句翻译为Ma ......

hive更新时间 2023-04-10

分布式计算技术（上）：经典计算框架MapReduce、Spark 解析

当一个计算任务过于复杂不能被一台服务器独立完成的时候，我们就需要分布式计算。分布式计算技术将一个大型任务切分为多个更小的任务，用多台计算机通过网络组装起来后，将每个小任务交给一些服务器来独立完成，最终完成这个复杂的计算任务。本篇我们介绍两个经典的计算框架MapReduce和Spark。 — MapR ......

分布式 MapReduce 框架经典 Spark更新时间 2023-04-10

Hive学习记录

数仓概念数据仓库（英语：Data Warehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（Decision Support） SQL语法分类 SQL主要语法分为两个部分：数据定义语言 (DDL)和数据操 ......

Hive更新时间 2023-04-10

使HIve字段注释、表注释、分区键、索引注解支持中文

进入Hive元存储数据库，这里为MySQL 修改字段注释字符集 alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8; 修改表注释字符集 alter table TABLE_PARAMS modify ......

注释注解字段索引 HIve更新时间 2023-04-07

远程连接Hive

0 准备工作启动了Hadoop 启动了Hive元存储数据库 1 开启Hive远程连接服务 # 前台开启 hive --service metastore hive --service hiveserver2 # 后台开启 hive --service metastore & hive --serv ......

Hive更新时间 2023-04-07

hive OpenCSVSerde

OpenCSVSerDe 1.如果数据包含使用双引号 (") 括起的值 2.您的数据具有 UNIX 数字 TIMESTAMP 值 (时间戳) create table tab_name (element element_type...) row format serde 'org.apache.ha ......

OpenCSVSerde hive更新时间 2023-04-07

Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000:

解决方法：配置超级用户代理其他用户在hadoop配置文件core-site.xml添加 <property> <name>hadoop.proxyuser.super.hosts</name> <value>host1,host2</value> </property> <property> <n ......

transport hadoop1 client hadoop Error更新时间 2023-04-06

Hive下载安装配置

0 准备工作下载安装jdk：https://www.cnblogs.com/lgjb/p/17292890.html 搭建Hadoop完全分布式集群：https://www.cnblogs.com/lgjb/p/17292835.html 下载安装MySQL：https://www.cnblogs ......

Hive更新时间 2023-04-06

hive 数据仓库分层

1：为什么要分层大多数情况下，我们完成的数据体系却是依赖复杂、层级混乱的。如下图，在不知不觉的情况下，我们可能会做出一套表依赖结构混乱，甚至出现循环依赖的数据体系我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序，这就是谈到的数据分层。数据分层并不能解决所有的数据问题 2：数仓的三 ......

仓库数据 hive更新时间 2023-04-06

spark 的几个简单实例

最近写了几个简单的spark structured streaming 的代码实例。目的是熟悉spark 开发环境搭建， spark 代码开发流程。开发环境：系统：win 11 java : 1.8 scala:2.13 工具：idea 2022.2 ，maven 3, git 2.37 sp ......

实例 spark更新时间 2023-04-06

Spark on Yarn配置

1、Spark on Yarn配置 1.)在搭建好的Spark上修改spark-env.sh文件： # vim $SPARK_HOME/conf/spark-env.sh 添加以下配置： export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop export ......

Spark Yarn on更新时间 2023-04-06

hive Serde(默认)

Hive 读文件机制首先调用InputFormat(默认TextFormat),返回一条一条的键值对记录（默认是一行对一行键值对）。然后用Serde（默认为LazySimpleSerde）的Deserializer,将一条记录的value根据分隔符切分为各个字段。 | HDFS files | I ......

Serde hive更新时间 2023-04-06

Spark学习笔记01

1、spark程序开发完成后，打包成jar包。如何将jar包分发到 spark集群？1、启动集群启动master ./sbin/start-master.sh 启动worker ./bin/spark-class org.apache.spark.deploy.worker.worker spa ......

笔记 Spark更新时间 2023-04-05

共620篇 :19/21页 首页上一页161718192021下一页尾页