hadoop hbase hive

Centos7安装配置Hive

Centos7安装配置 # 一、安装安装就不多做详述,选择好自己的镜像设置好路径即可 # 二、配置 #### 2.1 网络配置桌面右键进入 `cmd` 命令编辑窗口,在 Linux 中设置网络的相关配置都需要管理员权限,需要先切换到 root 用户。 ```markdown vim /et ......

Centos7 Centos Hive更新时间 2023-05-26

hive(七) -- 拉链表、数据存储及优化配置

## 拉链表 ### 数据同步问题 Hive在实际工作中主要用于构建离线数据仓库，定期的从各种数据源中同步采集数据到Hive中，经过分层转换提供数据应用。比如每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中，进行订单分析、用户分析。 ![image](https://img ......

拉链数据 hive更新时间 2023-05-25

hadoop安装过程与踩雷记录

1. 安装教程 https://blog.csdn.net/weixin_47749831/article/details/109607682 在粘贴脚本修改代码时需要注意用自己的路径替换博客中代码的路径 2. 报错：‘-Dhadoop.security.logger‘ 不是内部或外部命令,也不是可 ......

过程 hadoop更新时间 2023-05-25

HDFS文件因Hadoop版本原因导致append操作失败的问题

**问题重现： 2023.05.24练习B站尚硅谷Hadoop3里的HDFS的Shell操作（append）** [atguigu@hadoop102 hadoop-3.3.4]$ hadoop fs -appendToFile liubei.txt /sa 点击查看代码 ``` [atguigu@ ......

原因版本文件 Hadoop append更新时间 2023-05-24

hive(六)

## 函数 Hive的函数分为两大类∶内置函数(Built-in Functions )、用户定义函数UDF (User-Defined Functions ) . 内置函数可分为︰数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等; 用户定义函数根据输入输出的行数可分为3类:UDF、 ......

hive更新时间 2023-05-24

hive学习基础与调优

一、Hive基础知识 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（hive的HQL语法设计实际模仿Mysql的语法）。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了hive可以理解为一 ......

基础 hive更新时间 2023-05-24

hive查询练习

## 练习1 ```SQl 2022-08-07 1,liuyan 2,tangyan 3,jinlian 4,dalang 5,ximenqing 2022-08-08 1,liuyan 2,tangyan 4,dalang 6,wusong -- 创建分区表记录每天用户登陆信息 create t ......

hive更新时间 2023-05-23

Hive函数大全

Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns th ......

函数大全 Hive更新时间 2023-05-23

hadoop集群搭建后，启动集群后网络畅通，却无法访问web页面的解决办法

# hadoop集群搭建后，启动集群后网络畅通，却无法访问web页面的解决办法 > 问题引入：在学习hadoop搭建完全分布式集群时，已经集群配置了4个核心文件，并且启动所有相关进程，在使用jps命令检查进程，该集群启动完整正常，但是无法访问hdfsweb页面和yarnweb页面，我尝试了ping通 ......

集群办法页面 hadoop 网络更新时间 2023-05-22

Hive - Hive介绍

是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 Hive处理的数据存储在HDFS上，数据分析底层实现是MR，执行程序运行在Yarn上。 ......

Hive更新时间 2023-05-22

hive(四)

## 内部表和外部表默认情况下创建的表就是内部表，Hive拥有该表的结构和文件。换句话说，Hive完全管理表（元数据和数据）的生命周期，类似于RDBMS中的表。当你删除内部表时，它会删除数据以及表的元数据。可以使用DESCRIBE FORMATTED tablename,来获取表的元数据描述信息， ......

hive更新时间 2023-05-21

sqoop导数到hive任务状态一直是Accepted或Running

昨天晚上装了sqoop准备将数据从pg库导入Hive库备用，写了个sqoop脚本，运行脚本本后从yarn ui上看任务状态一直 Accepted，卡了三四个小时，最后发现是 yarn-site.xml 配置问题，给的资源太少，无法运行任务。在 yarn-site.xml 中添加下面的内容： ``` ......

导数 Accepted 状态任务 Running更新时间 2023-05-21

hadoop 2.7.7 ERROR datanode.DataNode: BlockSender.sendChunks() exception: java.io.IOException: 你的主机中的软件中止了一个已建立的连接。

最近在测试Hbase在windows上的单机版的功能。版本：hadoop 2.7.7 hbase 2.0.0 错误： ERROR datanode.DataNode: BlockSender.sendChunks() exception: java.io.IOException: 你的主机中的软件 ......

BlockSender IOException sendChunks exception DataNode更新时间 2023-05-20

hive(三)

## HQL基础语法 Hive中的语句叫做HQL语句,是一种类似SQL的语句,基本上和SQL相同但是某些地方也是有很大的区别. ### 数据库操作 **创建数据库** - 1.创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 ```sql create d ......

hive更新时间 2023-05-20

Hbase - hbase hbck介绍

HBaseFsck（hbck）是一种命令行工具，可检查hbase集群的region一致性和表完整性的问题，同时可以修复损坏的集群数据 hbase hbck [options] options： -fixAssignments -fixMeta -fixHdfsHoles -fixHdfsOrphan ......

Hbase hbase hbck更新时间 2023-05-17

Hadoop-3.3.5单机版安装步骤

1.下载JDK和Hadoop[略] 2.解压[略] 3.创建hadoop数据存储的目录 mkdir -p /home/hadoop/tmp /home/hadoop/hdfs/data /home/hadoop/hdfs/name 4.配置JAVA环境和HADOOP_HOME vim /etc/pr ......

单机版单机步骤 Hadoop更新时间 2023-05-17

hadoop多节点，单词数计算，java代码

1、pom.xml代码 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst ......

节点单词代码 hadoop java更新时间 2023-05-17

HIVE跨集群迁移

查看mysql使用端口 ps -ef | grep mysql ss -antp | grep [ps查出来的pid] 停止HIVE写入服务创建备份路径 mkdir -p /root/hivebackup/ 执行备份数据库命令：(在目标集群执行) mysqldump -uroot -pPasswo ......

集群 HIVE更新时间 2023-05-17

hadoop distcp 参数详解

distcp 是一个用于数据复制的工具，它可以将数据从一个 Hadoop 集群复制到另一个 Hadoop 集群。 Usage: hadoop distcp [OPTIONS] <srcurl> <desturl> OPTIONS: -p[rbugpcax] Preserve status (rbug ......

参数 hadoop distcp更新时间 2023-05-17

hadoop中distcp的mapreduce任务中的task0详解及优化

distcp 是 Hadoop 中一个用于数据复制的工具，可用于大规模数据复制场景。在 distcp 执行过程中，会运行多个 MapReduce 任务，其中第一个任务通常被称为 "task0" 或 "main task"。 task0 主要负责以下操作：解析命令行参数并生成 distcp 配置。 ......

mapreduce 任务 hadoop distcp task0更新时间 2023-05-17

impala jdbc导出hive数据字典

####业务需求太多了，给完整导出为html文件，以及之前搞的 public static void main(String[] args) throws Exception { kerberos(); } public static void kerberos() { URL resource = ......

字典数据 impala hive jdbc更新时间 2023-05-17

Hadoop API使用大坑

这几天一直在困扰我 pycurl 版本和本机的版本不符合他连接又连接的自己自带的版本与系统不相同低级也会报错 https://blog.csdn.net/u010910682/article/details/89496550/?ops_request_misc=&request_id=&biz ......

大坑 Hadoop API更新时间 2023-05-09

hadoop基础

大数据的5v特征一、Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。二、Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类 ......

基础 hadoop更新时间 2023-05-09

Springboot-hbase增删改20230509

1、启动 2、ZK客户端 3、springboot+hbase实例 1)、pom <dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</ ......

Springboot-hbase Springboot 20230509 hbase更新时间 2023-05-09

hadoop启动脚本

if (($# < 1)); then echo no args input, exit. exit 1 fi case $1 in start) echo [INFO] starting dfs ... start-dfs.sh echo [INFO] done. echo [INFO] star ......

脚本 hadoop更新时间 2023-05-09

Hive3安装

Hive3安装 Mysql安装卸载Centos7自带的mariadb [root@node3 ~]# rpm -qa|grep mariadb mariadb-libs-5.5.64-1.el7.x86_64 [root@node3 ~]# rpm -e mariadb-libs-5.5.64-1 ......

Hive3 Hive更新时间 2023-05-09

Hadoop的运行模式

Hadoop官方网站 http://hadoop.apache.org/ Hadoop运行模式本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。完全分 ......

模式 Hadoop更新时间 2023-05-08

Hbase跨集群迁移以及常用命令

场景：由于Hbase版本升级以及集群切换，现需要将Hbase从A集群（源）迁移至B集群（目的）迁移过程：将源A集群的Hbase需要迁移的表（注意namespace）通过snapshot方式打成快照，然后再通过ExportSnapshot方式迁移至目的B集群，此时目的集群的HDFS目录下的hba ......

集群命令常用 Hbase更新时间 2023-05-08

hadoop前期环境搭建

主机名 ip ssh免密登陆 #修改主机名 hostnamectl set-hostname node1 #修改ip地址 vim /etc/sysconfig/network-scripts/ifcfg-ens33 #node1 IPADDR="192.168.88.101" NETMASK="22 ......

前期环境 hadoop更新时间 2023-05-08

【大数据】Hive Join 的原理与机制

一、概述 Hive是一个基于Hadoop的数据仓库解决方案，它提供了类似于SQL的查询语言，称为HiveQL，用于处理结构化数据。在Hive中，JOIN操作用于将两个或多个表中的数据连接在一起，以便进行联合查询和分析。 Hive 中的 Join 可分为 Common Join（Reduce阶段完成 ......

原理机制数据 Hive Join更新时间 2023-05-07

共900篇 :24/30页 首页上一页21222324252627下一页尾页