spark-hive spark hive

hadoop hive hbase

公司报表是基于数仓开发的，分层是ods>dwd>dwm>dm，sqoop再同步到传统数据库，帆软展示，或tableau展示，这块涉及的是离线计算。记录下大数据开发设计的概念： 1、hadoop：分布式计算（MapReduce）+分布式文件系统（HDFS），后者可以独立运行，前者可以选择性使用，也可 ......

hadoop hbase hive更新时间 2023-07-25

HIVE中对于时间变换的处理

### 一、获取月份第一天/最后一天 ``` --需求一：获取月份第一天/最后一天 --方式一：last_day --获取当月第一天 select date_add(last_day(add_months('2020-06-14',-1)),1); --获取当月最后一天 select last_da ......

时间 HIVE更新时间 2023-07-25

hive表数据导出

第二种，是放到了本地的不是放在HFDS里的 ......

数据 hive更新时间 2023-07-24

Spark

# 001 Spark框架 1、spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 2、Spark VS Hadoop > 时间 Hadoop 2003（Yahoo开发）-> 2011(1.0) -> 2013（2.X） Spark 2009（伯克利大学）-> 2013（Apach ......

Spark更新时间 2023-07-24

Hive安装与启动

## 一、mysql安装在配置Hive之前一般都需要安装和配置MySQL，因为Hive为了能操作HDFS上的数据集，那么他需要知道数据的切分格式，如行列分隔符，存储类型，是否压缩，数据的存储地址等信息。为了方便以后操作所以他需要将这些信息通过一张表存储起来，然后将这张表（元数据）存储到mysql ......

Hive更新时间 2023-07-23

史上最全Hive面试题，高薪必备，架构必备

文章很长，且持续更新，建议收藏起来，慢慢读！[**疯狂创客圈总目录博客园版**](https://www.cnblogs.com/crazymakercircle/p/9904544.html) 为您奉上珍贵的学习资源：免费赠送 :[**《尼恩Java面试宝典》**](https://www. ......

架构高薪 Hive更新时间 2023-07-22

sql 练习（hive，spqrk）

spqrk hive sql更新时间 2023-07-20

spark-HIVE

什么是数仓 hive特性结构化查询语言 ......

spark-HIVE spark HIVE更新时间 2023-07-20

spark2

Rdd 几个基本的转换算子窍诀：textfile得到的是按行读取的集合 filter就是一行为对象 split对象也是行，按照空格将行分割“ “1“ '2" ”” ”flat 展平，，将外层的引号去掉 map就是生成一个键值对的形式，gruopbykey就是生成键＋迭代器的形式 ruduceby ......

spark2 spark更新时间 2023-07-20

Sqoop 数据导入hive size大小如何控制？

描述：sqoop 从 hana 导入数据到 hive，数据量1300万，当设置参数 -m 7 时，产生7个文件，但只有 3 个有数据，且大小不一，600多m，300dm，40m，修改参数为 -m 5，文件变成了5个，但是有数据的还是那三个，奇怪该如何控制文件大小接近块大小。修改 -m 1时，倒 ......

大小数据 Sqoop hive size更新时间 2023-07-20

invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved

``` ... 1 more Caused by: java.io.FileNotFoundException: File does not exist: hdfs://ns1/user/hive/warehouse/dw.db/dw_uniswapv3_position_detail/pk_day ......

invalidate recreating DataFrame the tableName更新时间 2023-07-18

Hive分区/分桶

# 分区 hive的分区的是针对于数据库的分区,将原来的数据(有规律的数据)分为多个区域,数据和表的信息是不会有变化的,但是会增加namenode的压力分区的目的是提升查询效率,将原来的文件进行多层次的管理分区有三种,静态分区,动态分区,混合分区关键字:**partitioned by(字段) ......

Hive更新时间 2023-07-18

Hive列值转换为列名处理方案

1.背景最近有个朋友问了一个问题，如何把列值转换为列名进行展示，比如一个表有销售名称，销售日期，销售金额，他想统计这个销售每个月的销售额，然后每个月作为列字段。 2.实施方法1使用case when: select t1.sale_name ,sum(case when t1.month_id= ......

方案 Hive更新时间 2023-07-17

源码安装Spark

# 前提条件 Spark 使用的语言是 Scala，而 Scala 需要运行在 JVM 之上。因此，搭建 Spark 的运行环境应该是 JDK 和 Scala。由于学习 Spark 源码的参考书籍是《Spark内核设计的艺术架构设计与实现》，所以就按照作者安装的版本进行安装： * Java8 * S ......

源码 Spark更新时间 2023-07-16

大数据生态圈/Hadoop/Spark/Flink/数据仓库/实时分析/推荐系统

课程实用性很强，老师讲的很透彻，都是面试容易问到的；紧扣当前企业所用技术，对于从事大数据或者转行大数据行业，都有很大的帮助。比屋教育，秉承“活学活用”的教育理念，集合资深专家讲师团队，依托完善的线上教学管控平台，专注于大数据、云计算、互联网架构师等领域的职业技能培训，着力培养满足互联网企业实际需求 ......

数据仓库实时生态 Hadoop更新时间 2023-07-15

2023 Hive 面试大纲

#### 先说一些废话总结一下Hive面试大纲，方便读者快速过一遍Hive面试所需要的知识点 ## Hive的介绍 ### Hive和Hadoop的关系 1. Hive利用hdfs存储数据，利用MapReduce查询数据 2. Hive的数据存储在hdfs上，简单的说Hive就是hdfs的简单一种 ......

大纲 2023 Hive更新时间 2023-07-13

基于CDH环境下的Hive数仓配置及优化

# 基于CDH环境下的Hive数仓配置及优化原文连接地址：https://blog.csdn.net/sinat_31854967/article/details/127274575 ## YARN的基础配置 ### NodeManager CPU配置 - 在YARN界面中，点击配置，然后搜索配置 ......

环境 Hive CDH更新时间 2023-07-12

spark 的踩坑记录（二）spark 字符串截取问题

前言接之前的spark踩坑记录，回想起当时折磨很久的一个问题，结果导致开发中花了很长时间才完全解决。主要原因为spark 和 java 的字符串截取函数不一致导致的。主要技术框架背景介绍 spark ： 2.4.3scala ： 2.11.12 背景实际工作中会处理很多文本数据流，例如文章信息 ......

spark 字符串字符问题更新时间 2023-07-11

未安装HBase时Hive on Spark任务卡顿处理如何解决

操作场景此功能适用于Hive组件。按如下操作步骤设置参数后，在未安装HBase的环境执行Hive on Spark任务时，可避免任务卡顿。说明：Hive on Spark任务执行Hive on Spark任务。如果没有安装HBase，默认在执行Spark任务时，会尝试去连接Zookeeper访 ......

任务 HBase Spark Hive on更新时间 2023-07-11

Hive SQL 之 date()函数

当使用Hive SQL中的 date 函数时，你可以从时间戳中提取日期部分，或将日期的字符串表示转换为日期数据类型。 date 函数的语法如下： ``` date(date_string) ``` 这里， date_string 是表示日期或时间戳的输入字符串。 date 函数将输入的日期部分作为日 ......

函数 Hive date SQL更新时间 2023-07-11

HIVE sql 初识笔记

一、sql 1. 向hive里的某张表添加数据load data local inpath '/home/ocdp/hfb/sex.txt' OVERWRITE into table TD_NP_ENUM_COC_BATCH1_DAY_COLUMN_013; 2. 查询 select * from ......

笔记 HIVE sql更新时间 2023-07-11

Hive 的执行优化问题小结

hive 的谓词下推和optimize优化功能的讨论 sql 核心的大概结构为 with user_table as ( select user_id from user ) select t1.user_id from ( select t1.user_id, .... from ( select ......

小结问题 Hive更新时间 2023-07-11

hive执行truncate table报错堆栈信息

Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Got exception: org.apache.hadoop.ipc.RemoteExcepti on The directory ......

堆栈 truncate table 信息 hive更新时间 2023-07-11

Hadoop中hive的使用

启动元数据管理服务（必须启动，否则无法工作）前台启动：bin/hive --service metastore 后台启动：nohup bin/hive --service metastore >> logs/metastore.log 2>&1 & 启动客户端 Hive Shell方式（可以直接写 ......

Hadoop hive更新时间 2023-07-11

绝密100个Spark面试题，熟背100遍，猛拿高薪

100 高薪 Spark更新时间 2023-07-09

Hive初体验

首先，确保启动了Metastore服务。jps下，如何有如下则启动了Metastore服务可以执行：bin/hive，进入到Hive Shell环境中，可以直接执行SQL语句。创建表CREATE TABLE test(id INT, name STRING, gender STRING);插入数据 ......

Hive更新时间 2023-07-09

用 Spark's MinHashLSH进行文本语料去重

（1）MinHashLSH进行文本去重的算法原理 MinHash (最小哈希) 是一种用于估计两个集合的 Jaccard 相似度的方法，而 MinHashLSH (局部敏感哈希) 则是一种使用 MinHash 来近似查找相似项的技术。 MinHash 算法基于以下观察：如果我们随机排列所有可能的元素 ......

语料 MinHashLSH 文本 Spark 39更新时间 2023-07-09

hadoop2.7.2上安装hive

hive版本1.21 mysql版本5.6.24 1.解压hive tar -zxf apache-hive-1.2.1-bin.tar.gz -C ../app/ cd ../app/ ln -s apache-hive-1.2.1-bin hive 2.安装mysql 注：参考Linux安装My ......

hadoop2 hadoop hive 7.2更新时间 2023-07-08

Hive 组件（进阶中级）

## Hive 组件（进阶中级） ### 1. 实验一：Hive 组件部署 #### 1. 实验任务一：环境需求 ##### 1.1. 步骤一：解压安装文件 ~~~bash [root@master ~]# ls anaconda-ks.cfg jdk-8u152-linux-x64.tar.gz ......

组件 Hive更新时间 2023-07-06

mac spark+hive+hadoop 数据分析环境搭建(单机简版)

apache产品下载地址： http://archive.apache.org/dist/ mysql5.6 brew方式安装配置： Icon mysql做为元数据存储使用。 brew search mysql brew install mysql@5.6 配置mysqlhome： export M ......

数据分析单机环境数据 hadoop更新时间 2023-07-06

共620篇 :14/21页 首页上一页11121314151617下一页尾页