hadoop hbase hive

Centos7安装配置Hive

Centos7安装配置 # 一 、 安装 安装就不多做详述,选择好自己的镜像设置好路径即可 # 二 、配置 #### 2.1 网络配置 桌面右键进入 `cmd` 命令编辑窗口,在 Linux 中设置网络的相关配置都需要管理员权限,需要先切换到 root 用户。 ```markdown vim /et ......
Centos7 Centos Hive

hive(七) -- 拉链表、数据存储及优化配置

## 拉链表 ### 数据同步问题 Hive在实际工作中主要用于构建离线数据仓库,定期的从各种数据源中同步采集数据到Hive中,经过分层转换提供数据应用。比如每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中,进行订单分析、用户分析。 ![image](https://img ......
拉链 数据 hive

hadoop安装过程与踩雷记录

1. 安装教程 https://blog.csdn.net/weixin_47749831/article/details/109607682 在粘贴脚本修改代码时需要注意用自己的路径替换博客中代码的路径 2. 报错:‘-Dhadoop.security.logger‘ 不是内部或外部命令,也不是可 ......
过程 hadoop

HDFS文件因Hadoop版本原因导致append操作失败的问题

**问题重现: 2023.05.24练习B站尚硅谷Hadoop3里的HDFS的Shell操作(append)** [atguigu@hadoop102 hadoop-3.3.4]$ hadoop fs -appendToFile liubei.txt /sa 点击查看代码 ``` [atguigu@ ......
原因 版本 文件 Hadoop append

hive(六)

## 函数 Hive的函数分为两大类∶内置函数(Built-in Functions )、用户定义函数UDF (User-Defined Functions ) . 内置函数可分为︰数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等; 用户定义函数根据输入输出的行数可分为3类:UDF、 ......
hive

hive学习基础与调优

一、Hive基础知识 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(hive的HQL语法设计实际模仿Mysql的语法)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一 ......
基础 hive

hive查询练习

## 练习1 ```SQl 2022-08-07 1,liuyan 2,tangyan 3,jinlian 4,dalang 5,ximenqing 2022-08-08 1,liuyan 2,tangyan 4,dalang 6,wusong -- 创建分区表记录每天用户登陆信息 create t ......
hive

Hive函数大全

Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns th ......
函数 大全 Hive

hadoop集群搭建后,启动集群后网络畅通,却无法访问web页面的解决办法

# hadoop集群搭建后,启动集群后网络畅通,却无法访问web页面的解决办法 > 问题引入:在学习hadoop搭建完全分布式集群时,已经集群配置了4个核心文件,并且启动所有相关进程,在使用jps命令检查进程,该集群启动完整正常,但是无法访问hdfsweb页面和yarnweb页面,我尝试了ping通 ......
集群 办法 页面 hadoop 网络

Hive - Hive介绍

是 基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 类SQL查询功能。 Hive处理的数据存储在HDFS上,数据分析底层实现是MR,执行程序运行在Yarn上。 ......
Hive

hive(四)

## 内部表和外部表 默认情况下创建的表就是内部表,Hive拥有该表的结构和文件。换句话说,Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS中的表。当你删除内部表时,它会删除数据以及表的元数据。可以使用DESCRIBE FORMATTED tablename,来获取表的元数据描述信息, ......
hive

sqoop导数到hive任务状态一直是Accepted或Running

昨天晚上装了sqoop准备将数据从pg库导入Hive库备用,写了个sqoop脚本,运行脚本本后从yarn ui上看任务状态一直 Accepted,卡了三四个小时,最后发现是 yarn-site.xml 配置问题,给的资源太少,无法运行任务。 在 yarn-site.xml 中添加下面的内容: ``` ......
导数 Accepted 状态 任务 Running

hadoop 2.7.7 ERROR datanode.DataNode: BlockSender.sendChunks() exception: java.io.IOException: 你的主机中的软件中止了一个已建立的连接。

最近在测试Hbase在windows上的单机版的功能。 版本:hadoop 2.7.7 hbase 2.0.0 错误: ERROR datanode.DataNode: BlockSender.sendChunks() exception: java.io.IOException: 你的主机中的软件 ......

hive(三)

## HQL基础语法 Hive中的语句叫做HQL语句,是一种类似SQL的语句,基本上和SQL相同但是某些地方也是有很大的区别. ### 数据库操作 **创建数据库** - 1.创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 ```sql create d ......
hive

Hbase - hbase hbck介绍

HBaseFsck(hbck)是一种命令行工具,可检查hbase集群的region一致性和表完整性的问题,同时可以修复损坏的集群数据 hbase hbck [options] options: -fixAssignments -fixMeta -fixHdfsHoles -fixHdfsOrphan ......
Hbase hbase hbck

Hadoop-3.3.5单机版安装步骤

1.下载JDK和Hadoop[略] 2.解压[略] 3.创建hadoop数据存储的目录 mkdir -p /home/hadoop/tmp /home/hadoop/hdfs/data /home/hadoop/hdfs/name 4.配置JAVA环境和HADOOP_HOME vim /etc/pr ......
单机版 单机 步骤 Hadoop

hadoop多节点,单词数计算,java代码

1、pom.xml代码 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst ......
节点 单词 代码 hadoop java

HIVE跨集群迁移

查看mysql使用端口 ps -ef | grep mysql ss -antp | grep [ps查出来的pid] 停止HIVE写入服务 创建备份路径 mkdir -p /root/hivebackup/ 执行备份数据库命令:(在目标集群执行) mysqldump -uroot -pPasswo ......
集群 HIVE

hadoop distcp 参数详解

distcp 是一个用于数据复制的工具,它可以将数据从一个 Hadoop 集群复制到另一个 Hadoop 集群。 Usage: hadoop distcp [OPTIONS] <srcurl> <desturl> OPTIONS: -p[rbugpcax] Preserve status (rbug ......
参数 hadoop distcp

hadoop中distcp的mapreduce任务中的task0详解及优化

distcp 是 Hadoop 中一个用于数据复制的工具,可用于大规模数据复制场景。在 distcp 执行过程中,会运行多个 MapReduce 任务,其中第一个任务通常被称为 "task0" 或 "main task"。 task0 主要负责以下操作: 解析命令行参数并生成 distcp 配置。 ......
mapreduce 任务 hadoop distcp task0

impala jdbc导出hive数据字典

####业务需求太多了,给完整导出为html文件,以及之前搞的 public static void main(String[] args) throws Exception { kerberos(); } public static void kerberos() { URL resource = ......
字典 数据 impala hive jdbc

Hadoop API使用 大坑

这几天一直在困扰我 pycurl 版本和本机的版本不符合 他连接又连接的自己自带的版本 与系统不相同 低级也会报错 https://blog.csdn.net/u010910682/article/details/89496550/?ops_request_misc=&request_id=&biz ......
大坑 Hadoop API

hadoop基础

大数据的5v特征 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类 ......
基础 hadoop

Springboot-hbase增删改20230509

1、启动 2、ZK客户端 3、springboot+hbase实例 1)、pom <dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</ ......
Springboot-hbase Springboot 20230509 hbase

hadoop启动脚本

if (($# < 1)); then echo no args input, exit. exit 1 fi case $1 in start) echo [INFO] starting dfs ... start-dfs.sh echo [INFO] done. echo [INFO] star ......
脚本 hadoop

Hive3安装

Hive3安装 Mysql安装 卸载Centos7自带的mariadb [root@node3 ~]# rpm -qa|grep mariadb mariadb-libs-5.5.64-1.el7.x86_64 [root@node3 ~]# rpm -e mariadb-libs-5.5.64-1 ......
Hive3 Hive

Hadoop的运行模式

Hadoop官方网站 http://hadoop.apache.org/ Hadoop运行模式 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。 完全分 ......
模式 Hadoop

Hbase跨集群迁移以及常用命令

场景: 由于Hbase版本升级以及集群切换,现需要将Hbase从A集群(源)迁移至B集群(目的) 迁移过程: 将源A集群的Hbase需要迁移的表(注意namespace)通过snapshot方式打成快照,然后再通过ExportSnapshot方式迁移至目的B集群,此时目的集群的HDFS目录下的hba ......
集群 命令 常用 Hbase

hadoop前期环境搭建

主机名 ip ssh免密登陆 #修改主机名 hostnamectl set-hostname node1 #修改ip地址 vim /etc/sysconfig/network-scripts/ifcfg-ens33 #node1 IPADDR="192.168.88.101" NETMASK="22 ......
前期 环境 hadoop

【大数据】Hive Join 的原理与机制

一、概述 Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便进行联合查询和分析。 Hive 中 的 Join 可分为 Common Join(Reduce阶段完成 ......
原理 机制 数据 Hive Join