hadoop hbase hive

【博学谷学习记录】超强总结,用心分享 | hive

【博学谷IT技术支持】 # 一、介绍 `hive`是基于`hadoop`的数据仓库工具,用来进行数据的提取、转化、加载,是一种可以存储、查询和分析存储在`hadoop`中的大规模数据机制。`hive`将结构化的数据文件映射为一张数据库表,并提供`SQL`查询功能,将SQL语句变成`MapReduce ......
hive

博学谷学习记录】超强总结,用心分享 | hive的内置函数

【博学谷IT技术支持】 # 操作 ## 内置函数 ### 数学函数 - 取整函数round ``` -- 取整函数 第一个为值,第二个为保留几位小数,取证规则四舍五入 select round(2.2222); -- 2 select round(2.5); 3 select round(2.555 ......
函数 hive

【博学谷学习记录】超强总结,用心分享 | hive 查询、分组、join

【博学谷IT技术支持】 ## 查询 ### 常用函数 - 常用函数 ``` 常用函数 -- 求总行数(count) select count(1) from score; -- 36 -- 求分数的最大值(max) select max(sscore) from score; 99 -- 求分数的最 ......
hive join

【博学谷学习记录】超强总结,用心分享 | hadoop的组成

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # hadoop的构成 hadoop集群主要包含:HDFS集群、MapReduce、YARN集群。HDFS集群复制海量数据的存储,MapReduce负责海量计算,Yarn集群存在数据运算时的资源调度。 - hdfs集群主要包含了角色na ......
hadoop

【博学谷学习记录】超强总结,用心分享 | hive 日期函数与条件函数

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 操作 ## 日期函数 - 获取当前时间 ``` -- 获取当前时间 -- 获取年月日 select `current_date`(); -- 2022-10-30 -- 获取年月日时分秒 select `current_timest ......
函数 条件 日期 hive

【博学谷学习记录】超强总结,用心分享 | hive分区与分桶的区别

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 概念 - 分区表: 将数据分散到多个子目录中,在执行查询是,可以根据条件加快查询效率 - 分桶表:是相对分区更细的颗粒度划分,分桶表是将表查分到不同的文件中,根据数据表某列的hash值进行分区,对某列数据分区就是对该列属性值的has ......
hive

【博学谷学习记录】超强总结,用心分享 | hbase基础操作

【博学谷IT技术支持】 # HBase的介绍 - HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式操作系统。 - 它是建立在HDFS之上的数据库系统,HBase是不支持SQL的,没有表关系,也无法join,不支持事务。 - HBase是基于google发布BigTable这篇论文而产生的, ......
基础 hbase

大数据面试题集锦-Hadoop面试题(二)-HDFS

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、 HDFS 中的 block 默认保存几份? 默认保存3份 ## 2、HDFS 默认 BlockS ......
试题集锦 集锦 试题 数据 Hadoop

Hive核心实战

### Hive中数据库的操作 ```sql show databases; # 查看数据库列表 use default; # 选择数据库 create database mydb1; # 创建数据库 create database mydb2 location '/user/hive/mydb2' ......
实战 核心 Hive

Hive中的表类型

在Mysql中没有表类型这个概念,因为它就只有一种表。但是Hive中是有多种表类型的,我们可以分为四种,内部表、外部表、分区表、桶表 下面来一个一个学习一下这些类型的表 ### 内部表 内部表也可以称为受控表,它是Hive中的默认表类型,表数据默认存储在 warehouse 目录中。 在加载数据的过 ......
类型 Hive

Windows 配置 Hadoop and Spark

一 JDK环境配置 由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME 下载JDK11 链接:https://www.oracle.com/java/technologies/javase/j ......
Windows Hadoop Spark and

Hive基础使用

### Hive的使用方式 可以在Shell命令行下操作Hive,或者使用JDBC代码的方式操作 ### 命令行方式 针对命令行这种方式,其实还有两种使用 - 第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式 - 后来又出现一个beeline命令,它是通过HiveSer ......
基础 Hive

Hive - 言出法随

-- 显示当前数据库 select current_database(); -- 设置hive属性在命令行显示当前数据库 set hive.cli.print.current.db=true; ......
言出法随 Hive

关于Hadoop集群无法正常关闭的问题

### 原生命令 正常情况我们是通过以下命令来停止和开启集群的 ```sh sbin/stop-all.sh sbin/start-all.sh ``` 但有时候不生效,通过ps还能查看到,但jps命令查看不到 ### 自定义停止命令 ```sh #!/bin/bash # 停止hadoop进程 h ......
集群 Hadoop 问题

Hive详解

### 什么是Hive Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。 Hive 定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者 ......
Hive

Hadoop之YARN详解

### YARN的由来 从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。所以YARN可以实现HADOOP集群的资源共享,不仅仅可以跑MapRedcue,还可以跑Spark、Flink。 ### YARN架构分析 ......
Hadoop YARN

Hadoop - hadoop介绍

Hadoop是什么 Hadoop的发展历史 Hadoop的优势 Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上讲,Hadoop通常是指一个更广泛的概念 —— Hadoop生态圈。 Hadoop的发展历史 L ......
Hadoop hadoop

hadoop3.x-ec

一、EC原理 二、常用命令与对应解释 1.查看当前支持的EC策略 hdfs ec -listPolicies 2023-05-30 10:10:43,251 WARN util.NativeCodeLoader: Unable to load native-hadoop library for yo ......
hadoop3 hadoop x-ec ec

Hadoop之MapReduce性能优化

现在大家已经掌握了MapReduce程序的开发步骤,注意了,针对MapReduce的案例我们并没有讲太多,主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了,因为后面我们会学习一个大数据框架Hive,Hive支持SQL,这个Hive底层会把SQL转化为MapReduc ......
MapReduce 性能 Hadoop

Hadoop之MapReduce详解

### 前言 前面我们学习了Hadoop中的HDFS,HDFS主要是负责存储海量数据的,如果只是把数据存储起来,除了浪费磁盘空间,是没有任何意义的,我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容,这个时候就需要有一个比较厉害的计算框架,来快速计算这一批海量数据,所以MapRe ......
MapReduce Hadoop

hadoop安装使用

# hadoop相关介绍 ## 1.什么是hadoop? Hadoop是一个开源的分布式计算框架,它可以让我们在大规模集群中存储和处理海量数据。Hadoop基于Google的MapReduce和Google文件系统(GFS)的思想而设计。它的目标是能够在成百上千台普通计算机上并行处理大数据,提供高可 ......
hadoop

hadoop序列化相关问题

**什么时候需要使用序列化?** *需要在不同服务器传递内存数据时,用序列化。* **序列化后的所有属性需要再反序列化,那么有先后顺序反序列化吗?** *有的,比如序列化的属性有a b c* *则反序列化的属性必须是 ca b c* **数据切片一般为数据块的倍数,为什么?** *一般一个数据切片对 ......
序列 hadoop 问题

Hive的分区、分桶

Hive的分区表、分桶表 一、 Hive库的分区表 1.1概述 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从 ......
Hive

HBase部署

# HBase部署-基于Hbase自带的Zookeeper ## 时间同步 ```bash #查看三台主机时间是否同步,可容忍5秒内偏差 [root@master ~]# for i in master slave1 slave2;do ssh root@$i 'date';done Thu Apr ......
HBase

Hadoop全分布部署

安装包下载(百度网盘)链接: https://pan.baidu.com/s/1XrnbpNNqcG20QG_hL4RJoQ?pwd=aec9 提取码: aec9 ## 基础配置(所有节点) ### 关闭防火墙,selinux安全子系统 ````bash #关闭防火墙,设置开机自动关闭 [root@ ......
Hadoop

centos7上Hadoop2.7.2完全分布式部署

1.规划 node1 node2 node3datanode datanode datanodenamenode resourcemanager secondarynamenodenodemanager nodemanager nodemanager 2.设置环境 2.1 修改hostname主机名 ......
分布式 centos7 Hadoop2 centos Hadoop

centos7.9上hadoop-2.7.2伪分布式部署

1.安装jdk 1.1 在Oracle官网上现在jdk1.8 ,然后上传到Linux服务器中 1.2 安装jdk rpm -ivh jdk-8u371-linux-x64.rpm 2 创建部署用户 hadoop useradd -d /hadoop hadoop echo 123 |passwd - ......
分布式 centos7 centos hadoop

hive优秀文章

hiveserver2源码: 转 Hive源码分析——HiveServer2启动过程 https://zhizhi.pcwanli.com/front/article/9514.html 【原创】大数据基础之Hive(1)Hive SQL执行过程之代码流程 https://blog.csdn.net ......
文章 hive

本地spark通过spark集群连接hive

最近在学习spark,上周将spark集群搭建起来了,今天在idea中创建了一个测试程序读取hive库中的数据,程序很简单,但是踩到一些坑,卡了四五个小时,做个记录。 搭建Spark集群比较简单: 1、安装scala,scala版本要和spark使用的scala版本一致(因为这个问题卡了五六个小时) ......
spark 集群 hive

尚硅谷Hadoop的WordCount案例实操练习出现的bug

这个错误是由于WordCount程序在Windows系统上运行时,尝试调用了Hadoop的NativeIO类的access0方法,但无法找到正确的JNI库导致的UnsatisfiedLinkError异常。 NativeIO类是Hadoop用来执行一些本地文件操作的类,它依赖于JNI来调用Windo... ......
WordCount 案例 Hadoop bug