spark-hive spark hive

hadoop hive hbase

公司报表是基于数仓开发的,分层是ods>dwd>dwm>dm,sqoop再同步到传统数据库,帆软展示,或tableau展示,这块涉及的是离线计算。 记录下大数据开发设计的概念: 1、hadoop:分布式计算(MapReduce)+分布式文件系统(HDFS),后者可以独立运行,前者可以选择性使用,也可 ......
hadoop hbase hive

HIVE中对于时间变换的处理

### 一、获取月份第一天/最后一天 ``` --需求一:获取月份第一天/最后一天 --方式一:last_day --获取当月第一天 select date_add(last_day(add_months('2020-06-14',-1)),1); --获取当月最后一天 select last_da ......
时间 HIVE

hive表数据导出

第二种,是放到了本地的不是放在HFDS里的 ......
数据 hive

Spark

# 001 Spark框架 1、spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 2、Spark VS Hadoop > 时间 Hadoop 2003(Yahoo开发)-> 2011(1.0) -> 2013(2.X) Spark 2009(伯克利大学)-> 2013(Apach ......
Spark

Hive安装与启动

## 一、mysql安装 在配置Hive之前一般都需要安装和配置MySQL,因为Hive为了能操作HDFS上的数据集,那么他需要知道数据的切分格式,如行列分隔符,存储类型,是否压缩,数据的存储地址等信息。 为了方便以后操作所以他需要将这些信息通过一张表存储起来,然后将这张表(元数据)存储到mysql ......
Hive

史上最全Hive面试题,高薪必备,架构必备

文章很长,且持续更新,建议收藏起来,慢慢读![**疯狂创客圈总目录 博客园版**](https://www.cnblogs.com/crazymakercircle/p/9904544.html) 为您奉上珍贵的学习资源 : 免费赠送 :[**《尼恩Java面试宝典》**](https://www. ......
架构 高薪 Hive

sql 练习(hive,spqrk)

# 数据准备 ## 表1 课程表(course) | ***\*字段名\**** | ***\*数据类型\**** | | | | | 课程编号(CNO) | string | | 课程名称(CNAME) | string | | 教室编号(TNO) | string | ## 表2 成绩表(sco ......
spqrk hive sql

spark-HIVE

什么是数仓 hive特性 结构化查询语言 ......
spark-HIVE spark HIVE

spark2

Rdd 几个基本的转换算子 窍诀 :textfile得到的是按行读取的集合 filter就是一行为对象 split对象也是行,按照空格将行分割“ “1“ '2" ”” ”flat 展平,,将外层的引号去掉 map就是生成一个键值对的形式,gruopbykey就是生成键+迭代器的形式 ruduceby ......
spark2 spark

Sqoop 数据导入hive size大小如何控制?

描述:sqoop 从 hana 导入数据到 hive,数据量1300万,当 设置参数 -m 7 时,产生7个文件,但只有 3 个有数据,且大小不一,600多m,300dm,40m,修改参数为 -m 5,文件变成了5个,但是有数据的还是那三个,奇怪 该如何控制文件大小接近块大小。 修改 -m 1时,倒 ......
大小 数据 Sqoop hive size

invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved

``` ... 1 more Caused by: java.io.FileNotFoundException: File does not exist: hdfs://ns1/user/hive/warehouse/dw.db/dw_uniswapv3_position_detail/pk_day ......

Hive分区/分桶

# 分区 hive的分区的是针对于数据库的分区,将原来的数据(有规律的数据)分为多个区域,数据和表的信息是不会有变化的,但是会增加namenode的压力 分区的目的是提升查询效率,将原来的文件进行多层次的管理 分区有三种,静态分区,动态分区,混合分区 关键字:**partitioned by(字段) ......
Hive

Hive列值转换为列名处理方案

1.背景 最近有个朋友问了一个问题,如何把列值转换为列名进行展示,比如一个表有销售名称,销售日期,销售金额,他想统计这个销售每个月的销售额,然后每个月作为列字段。 2.实施 方法1使用case when: select t1.sale_name ,sum(case when t1.month_id= ......
方案 Hive

源码安装Spark

# 前提条件 Spark 使用的语言是 Scala,而 Scala 需要运行在 JVM 之上。因此,搭建 Spark 的运行环境应该是 JDK 和 Scala。由于学习 Spark 源码的参考书籍是《Spark内核设计的艺术架构设计与实现》,所以就按照作者安装的版本进行安装: * Java8 * S ......
源码 Spark

大数据生态圈/Hadoop/Spark/Flink/数据仓库/实时分析/推荐系统

课程实用性很强,老师讲的很透彻,都是面试容易问到的;紧扣当前企业所用技术,对于从事大数据或者转行大数据行业,都有很大的帮助。 比屋教育,秉承“活学活用”的教育理念,集合资深专家讲师团队,依托完善的线上教学管控平台,专注于大数据、云计算、互联网架构师等领域的职业技能培训,着力培养满足互联网企业实际需求 ......
数据 仓库 实时 生态 Hadoop

2023 Hive 面试大纲

#### 先说一些废话 总结一下Hive面试大纲,方便读者快速过一遍Hive面试所需要的知识点 ## Hive的介绍 ### Hive和Hadoop的关系 1. Hive利用hdfs存储数据,利用MapReduce查询数据 2. Hive的数据存储在hdfs上,简单的说Hive就是hdfs的简单一种 ......
大纲 2023 Hive

基于CDH环境下的Hive数仓配置及优化

# 基于CDH环境下的Hive数仓配置及优化 原文连接地址:https://blog.csdn.net/sinat_31854967/article/details/127274575 ## YARN的基础配置 ### NodeManager CPU配置 - 在YARN界面中,点击配置,然后搜索配置 ......
环境 Hive CDH

spark 的踩坑记录(二)spark 字符串截取问题

前言 接之前的spark踩坑记录,回想起当时折磨很久的一个问题,结果导致开发中花了很长时间才完全解决。主要原因为spark 和 java 的字符串截取函数不一致导致的。 主要技术框架背景介绍 spark : 2.4.3scala : 2.11.12 背景 实际工作中会处理很多文本数据流,例如文章信息 ......
spark 字符串 字符 问题

未安装HBase时Hive on Spark任务卡顿处理如何解决

操作场景 此功能适用于Hive组件。 按如下操作步骤设置参数后,在未安装HBase的环境执行Hive on Spark任务时,可避免任务卡顿。 说明:Hive on Spark任务执行Hive on Spark任务。如果没有安装HBase,默认在执行Spark任务时,会尝试去连接Zookeeper访 ......
任务 HBase Spark Hive on

Hive SQL 之 date()函数

当使用Hive SQL中的 date 函数时,你可以从时间戳中提取日期部分,或将日期的字符串表示转换为日期数据类型。 date 函数的语法如下: ``` date(date_string) ``` 这里, date_string 是表示日期或时间戳的输入字符串。 date 函数将输入的日期部分作为日 ......
函数 Hive date SQL

HIVE sql 初识笔记

一、sql 1. 向hive里的某张表添加数据load data local inpath '/home/ocdp/hfb/sex.txt' OVERWRITE into table TD_NP_ENUM_COC_BATCH1_DAY_COLUMN_013; 2. 查询 select * from ......
笔记 HIVE sql

Hive 的执行优化问题小结

hive 的谓词下推和optimize优化功能的讨论 sql 核心的大概结构为 with user_table as ( select user_id from user ) select t1.user_id from ( select t1.user_id, .... from ( select ......
小结 问题 Hive

hive执行truncate table报错堆栈信息

Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Got exception: org.apache.hadoop.ipc.RemoteExcepti on The directory ......
堆栈 truncate table 信息 hive

Hadoop中hive的使用

启动元数据管理服务(必须启动,否则无法工作) 前台启动:bin/hive --service metastore 后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 & 启动客户端 Hive Shell方式(可以直接写 ......
Hadoop hive

绝密100个Spark面试题,熟背100遍,猛拿高薪

文章很长,且持续更新,建议收藏起来,慢慢读![**疯狂创客圈总目录 博客园版**](https://www.cnblogs.com/crazymakercircle/p/9904544.html) 为您奉上珍贵的学习资源 : 免费赠送 :[**《尼恩Java面试宝典》**](https://www. ......
100 高薪 Spark

Hive初体验

首先,确保启动了Metastore服务。jps下,如何有如下则启动了Metastore服务 可以执行:bin/hive,进入到Hive Shell环境中,可以直接执行SQL语句。创建表CREATE TABLE test(id INT, name STRING, gender STRING);插入数据 ......
Hive

用 Spark's MinHashLSH进行文本语料去重

(1)MinHashLSH进行文本去重的算法原理 MinHash (最小哈希) 是一种用于估计两个集合的 Jaccard 相似度的方法,而 MinHashLSH (局部敏感哈希) 则是一种使用 MinHash 来近似查找相似项的技术。 MinHash 算法基于以下观察:如果我们随机排列所有可能的元素 ......
语料 MinHashLSH 文本 Spark 39

hadoop2.7.2上安装hive

hive版本1.21 mysql版本5.6.24 1.解压hive tar -zxf apache-hive-1.2.1-bin.tar.gz -C ../app/ cd ../app/ ln -s apache-hive-1.2.1-bin hive 2.安装mysql 注:参考Linux安装My ......
hadoop2 hadoop hive 7.2

Hive 组件(进阶中级)

## Hive 组件(进阶中级) ### 1. 实验一:Hive 组件部署 #### 1. 实验任务一:环境需求 ##### 1.1. 步骤一:解压安装文件 ~~~bash [root@master ~]# ls anaconda-ks.cfg jdk-8u152-linux-x64.tar.gz ......
组件 Hive

mac spark+hive+hadoop 数据分析环境搭建(单机简版)

apache产品下载地址: http://archive.apache.org/dist/ mysql5.6 brew方式安装配置: Icon mysql做为元数据存储使用。 brew search mysql brew install mysql@5.6 配置mysqlhome: export M ......
数据分析 单机 环境 数据 hadoop