hadoop hbase hive
19-Hive-DDL
数据定义语言(Data Definition Language,DDL)是 SQL 语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括 database(schema)、table、view、index 等。核心语法由 CREATE、ALTER 与 DROP 三个所组 ......
18-Hive入门&安装
# 1. Hive 概述 ## 1.1 什么是 Hive? Apache Hive 是一款**建立在 Hadoop 之上的开源数据仓库工具**,可以将存储在 Hadoop 文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似 SQL 的查询模型,称为 Hive 查询语言(HQL) ......
Windows本地IDEA运行mapreduce报错java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
## 问题原因 在windows运行hadoopJob程序的时候需要模拟下hadoop的运行环境。否则出现会出现标题的问题。 ## 解决方案 1. 下载Hadoop的bin目录 https://github.com/s911415/apache-hadoop-3.1.3-winutils 2. 将步 ......
Hive查看所有表/分区更新时间
业务需求: 开始环境可能不太稳定, 需要每天手动检查 Hive 里面的数据是否同步 ```shell ## 步骤 1. 查看分区 show partitions table_name; 2.查看分区更新时间 - 获取hdfs路径 desc formatted table_name; 3. 通过dfs ......
HBase Compaction 原理与线上调优实践
本文对 HBase Compaction 的原理、流程以及限流的策略进行了详细的介绍,列举了几个线上进行调优的案例,最后对 Compaction 的相关参数进行了总结。 ......
Hive SQL之表与建表
数据类型: 建表 create database itheima; --1.创建一张表 -- 表名 --字段 名称 类型 顺序 --字段之间的分隔符 create table itheima.t_archer( id int, name string , hp_max int, mp_max int ......
数据仓库——Hive
数据仓库:是一个用于储存,分析,报告的数据系统 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持 数仓专注分析 数据仓库仓库为何而来,解决什么问题的? 为了分析数据而来,分析结果给企业决策提供支撑。 ......
hadoop hive hbase
公司报表是基于数仓开发的,分层是ods>dwd>dwm>dm,sqoop再同步到传统数据库,帆软展示,或tableau展示,这块涉及的是离线计算。 记录下大数据开发设计的概念: 1、hadoop:分布式计算(MapReduce)+分布式文件系统(HDFS),后者可以独立运行,前者可以选择性使用,也可 ......
HIVE中对于时间变换的处理
### 一、获取月份第一天/最后一天 ``` --需求一:获取月份第一天/最后一天 --方式一:last_day --获取当月第一天 select date_add(last_day(add_months('2020-06-14',-1)),1); --获取当月最后一天 select last_da ......
hbase中查询命令 hbase怎么查询
Hbase表结构 1.进入Hbase shell >./bin/hbase shell2.查看当前操作用户 > whoami3.创建一个表 // 表名 列族1 列族2> create 'Rumenz','user','userInfo'4.查看数据库的表 > list5.添加数据 // 表名 row ......
大数据面试题集锦-Hadoop面试题(五)-优化
> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 ## 1、MapReduce优化方法 1)数据输入 (1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产 ......
HBase架构和技术原理介绍
一、HBase数据模型(☆) 1.NameSpace 命名空间,类似于关系型数据库的 DataBase 概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。 2 ......
Hive安装与启动
## 一、mysql安装 在配置Hive之前一般都需要安装和配置MySQL,因为Hive为了能操作HDFS上的数据集,那么他需要知道数据的切分格式,如行列分隔符,存储类型,是否压缩,数据的存储地址等信息。 为了方便以后操作所以他需要将这些信息通过一张表存储起来,然后将这张表(元数据)存储到mysql ......
hadoop学习笔记
hadoop之MapReduce的学习虽然目前的框架里已经很少用到但是底层的思想还是可以借鉴。 MapReduce分为map阶段和reduce阶段,map阶段即是将数据进行搜集,reduce即是将数据进行分发,例如wordcount命令,首先将单词进行按照一定规则处理,例如分割,然后按照首字母排序, ......
史上最全Hive面试题,高薪必备,架构必备
文章很长,且持续更新,建议收藏起来,慢慢读![**疯狂创客圈总目录 博客园版**](https://www.cnblogs.com/crazymakercircle/p/9904544.html) 为您奉上珍贵的学习资源 : 免费赠送 :[**《尼恩Java面试宝典》**](https://www. ......
sql 练习(hive,spqrk)
# 数据准备 ## 表1 课程表(course) | ***\*字段名\**** | ***\*数据类型\**** | | | | | 课程编号(CNO) | string | | 课程名称(CNAME) | string | | 教室编号(TNO) | string | ## 表2 成绩表(sco ......
Sqoop 数据导入hive size大小如何控制?
描述:sqoop 从 hana 导入数据到 hive,数据量1300万,当 设置参数 -m 7 时,产生7个文件,但只有 3 个有数据,且大小不一,600多m,300dm,40m,修改参数为 -m 5,文件变成了5个,但是有数据的还是那三个,奇怪 该如何控制文件大小接近块大小。 修改 -m 1时,倒 ......
hadoop安装
# hadoop安装 ## 零、hadoop启动命令 ```shell start-all.sh start-dfs start-yarn hadoop-deamons.sh yarn-deamons.sh hadoop-deamon.sh yarn-deamon.sh mr-jobhistorys ......
Hive分区/分桶
# 分区 hive的分区的是针对于数据库的分区,将原来的数据(有规律的数据)分为多个区域,数据和表的信息是不会有变化的,但是会增加namenode的压力 分区的目的是提升查询效率,将原来的文件进行多层次的管理 分区有三种,静态分区,动态分区,混合分区 关键字:**partitioned by(字段) ......
Hadoop的hdfs云服务器配置踩坑记录
本章更多的是通过hdfs的API接口问题角度记录坑点 # 坑点记录 ## 一、能够远程访问和通过web端访问hdfs 1. 在java代码中添加或更改如下: ```java Configuration conf = new Configuration(); conf.set("dfs.client. ......
Hive列值转换为列名处理方案
1.背景 最近有个朋友问了一个问题,如何把列值转换为列名进行展示,比如一个表有销售名称,销售日期,销售金额,他想统计这个销售每个月的销售额,然后每个月作为列字段。 2.实施 方法1使用case when: select t1.sale_name ,sum(case when t1.month_id= ......
大数据生态圈/Hadoop/Spark/Flink/数据仓库/实时分析/推荐系统
课程实用性很强,老师讲的很透彻,都是面试容易问到的;紧扣当前企业所用技术,对于从事大数据或者转行大数据行业,都有很大的帮助。 比屋教育,秉承“活学活用”的教育理念,集合资深专家讲师团队,依托完善的线上教学管控平台,专注于大数据、云计算、互联网架构师等领域的职业技能培训,着力培养满足互联网企业实际需求 ......
Hadoop大数据2
HDFS 文件系统 overview9870 8088 shell操作 echo如果,没有它会自己创建 上传不必加本地和外部前缀他会根据默认自动识别 echo 输入的内容和cin要各有空格,否则它不会生效 文件夹只有用门槛低而 或者递归创建 文件夹是没有大小的,只存储具体的一个个文件 文件夹后面不用 ......
启动Hadoop时需要进行的操作
首先切换到hadoop用户 su - hadoop 启动hdfs集群 start-dfs.sh 启动yarn集群 start-yarn.sh 启动hive 首先切换到hive文件夹 cd /export/server/hive 然后再运行下述命令 #先启动metastore服务 然后启动hivese ......
hadoop学习笔记第一次
这周学习了大数据之hadoop,这一周的学习主要围绕在hadoop集群配置及其华宁的搭建,hadoop是采用多态服务器的分布式系统,主要的核心就是hdfs,mapreduce,yarn等等,hadoop配置时候在主机上遇到了蛮多的问题现在就来记录一下。 1.首先是一些基础命令: 回退/进入目录命令: ......