hadoop hbase hive

【Hive】窗口函数

窗口函数介绍: 概述: 窗口函数指的是 over()函数, 它可以结合特定的函数一起使用, 完成不同的功能. 目的/作用: 窗口函数 = 给表新增一列, 至于新增的内容是什么, 取决于窗口函数和什么函数一起使用. 格式: 能和窗口函数一起使用的函数 over(partition by 分组字 ......

函数 Hive更新时间 2023-06-08

【Interview】Hive原理及调优

关于Hive的参数配置: Hive的参数配置有 3 种配置方式: 方式1: 在hive的配置文件中直接进行修改. 方式2: 在开启Hive服务的时候, 设置参数 nohup hive --service hiveserver2 --hiveconf 参数名=参数值 & 方式3: 通过 set方式进行 ......

Interview 原理 Hive更新时间 2023-06-08

【Hive】DML及DQL语句

由于Hive是分布式语言(其本质是操作了HDFS上的文件，因为HSFS是分布式架构，所以就决定了Hive是一门分布式SQL)。丢，我解释的可能不是很专业，将就看看。通常来说存储在HDFS上的数据是不能修改的，但是appendTofile这个linux命令是个特例(hadoop fs -appendT ......

语句 Hive DML DQL更新时间 2023-06-08

Hive-DQL(续)及函数

Hive--DQL 正则匹配正则表达式(Regexp)介绍: 概述: 正确的, 符合特定规则的字符串. Regular Expression 细节: 正则表达式不独属于任意的一种语言, 市场上大多数的语言都支持正则, 例如: Java, Python, HiveSQL, JavaScript等 ......

函数 Hive-DQL Hive DQL更新时间 2023-06-08

Hive-DDL

学会了Hive的一些操作，发现Hive建过表，后续的数据并不是向MySQL是通过自己手写进行插入的，而是将TXT文件解析成为数据表的操作。其实是HDFS将文件映射成Hive表，然后然后通过写类SQL的语句来操作该文件，底层会被解析成为MR程序。 Hive的本质把HDFS文件映射成一张Hive表, ......

Hive-DDL Hive DDL更新时间 2023-06-08

hadoop学习

Hadoop 概述 1、Hadoop是什么 Hadoop是一个由Apache基金会开发的分布式系统基础架构；主要解决海量数据的存储和分析计算问题；广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈；【Hadoop 三大发行版本】 Apache：版本最原始（最基础）的版本，对 ......

hadoop更新时间 2023-06-08

Hive执行计划之hive依赖及权限查询和常见使用场景

[TOC] ## 概述 Hive查看执行计划的命令中还有两个不怎么常用但很重要的命令，接下来详细介绍一下。有一个问题：**如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系？** hive血缘是很多生产级数仓必须要提供的功能，大多数解决方案都是**使用hive hooks的方法通过SQL执 ......

场景权限常见 Hive hive更新时间 2023-06-07

Hadoop的完全分布式搭建

# Hadoop分布式安装 ## 集群规划 | 主机名 | Hadoop10 | Hadoop11 | Hadoop12 | | | | | | | 网络 | 192.168.10.10 | 192.168.10.11 | 192.168.10.12 | | 用户 | hadooproot | ha ......

分布式 Hadoop更新时间 2023-06-07

hadoop集群搭建(docker)

1.准备安装包（hadoop-3.3.2.tar.gz和jdk-8u371-linux-x64.tar.gz） 2.创建Dockerfile文件： # 镜像源 FROM centos:7 # 添加元数据 LABEL author="作者" date="2023/05/30" # 安装openssh- ......

集群 hadoop docker更新时间 2023-06-07

Hive - 多种表类型的CURD测试

关于torc、textfile、orc、es、hyperdrive表的CURD测试 TORC（支持事务的orc表）测试 TORC（分区表）测试 TEXTFILE 表测试 ORC 表测试 ES（ElasticSearch表）测试 hyperdrive 表测试 TORC（支持事务的orc表）测试 -- ......

多种类型 Hive CURD更新时间 2023-06-07

Hive - hive 安装部署

Hadoop - 分布式部署 > Hive - 安装部署准备工作安装部署准备工作 Hive版本：apache-hive-3.1.2 Hive官网：https://hive.apache.org/ Hive下载地址：https://downloads.apache.org/hive/ 角色部署： ......

Hive hive更新时间 2023-06-07

Hadoop - hadoop自带MR案例：词频 WordCount

词频 Word Count 1、在浏览器上访问 https://node01:9870 2、创建目录 /user 目录 bin/hdfs dfs -mkdir /user 如果未配置环境变量，需要到hadoop安装目录下执行 /opt/module/hadoop-2.5.2（这个是我的安装目录） 3 ......

词频 WordCount 案例 Hadoop hadoop更新时间 2023-06-07

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的？

这些技术是大数据领域的常用组件，它们之间的配置文件依赖关系如下： RDS是一种关系型数据库，可以独立安装和使用，不需要依赖其他组件。 HDFS是Hadoop分布式文件系统，通常与MapReduce一起使用。在Hadoop集群中，HDFS需要配置core-site.xml和hdfs-site.xml两 ......

mapreduce zookeeper 之间文件 hbase更新时间 2023-06-06

Hive执行计划之一文读懂Hive执行计划

**目录** [TOC] ## 概述 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤，通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程，进而对流程进行优化，实现更优的数据查询处理。同样，通过执行计划，还可以了解 ......

Hive更新时间 2023-06-06

Hadoop - 执行start-dfs.sh、stop-dfs.sh 报错处理

执行 sbin/start-dfs.sh 和 sbin/stop-dfs.sh 报错，且进程仍然在 ......

start-dfs dfs stop-dfs Hadoop start更新时间 2023-06-06

Hadoop - 两个Namenode都是standby状态怎么处理

在任意一个standby的NN节点执行 [root@node02 hadoop-2.5.2]# bin/hdfs haadmin -transitionToActive --forcemanual nn1 You have specified the forcemanual flag. This f ......

Namenode 状态两个 standby Hadoop更新时间 2023-06-06

Hadoop - 分布式部署

Zookeeper的分布式部署 >> Hadoop的分布式部署集群规划安装部署集群规划序号主机名 JDK Zookeeper NameNode JournalNode DataNode ResourceManager NodeManager 1 node01 JDK ZK NN JN DN ......

分布式 Hadoop更新时间 2023-06-06

亿级 GPS 数据处理用 NoSQL、MySQL 还是 HBase？数据库选型看这里

在车联网场景下，GPS 产生的时序数据量级通常都达到了亿级，高效写入、存储和快速查询是最基本的数据处理要求，但在具体实践上这却不是一件容易实现的事情。最近某企业就遇到了这样一个问题：服务端接收存储 GPS 相关数据，按 1 次/30 秒的上传频率，一天的数据条数估计在 1.2 亿条，其想要实现后台的 ......

数据数据处理还是数据库 NoSQL更新时间 2023-06-05

通过 docker-compose 快速部署 HBase 保姆级教程

[TOC] ## 一、概述 `HBase` 是一个开源的 `NoSQL` **列式分布式数据库**，它主要基于 `Hadoop` 分布式文件系统（HDFS）运行。`HBase` 最初是由 `Facebook` 公司贡献，其基于 `Google`的 `Bigtable` 模型开发，在强大的水平扩展性和 ......

docker-compose 保姆 compose 教程 docker更新时间 2023-06-04

hive初识

## **HIVE的认识：** #### 定义： hive 是基于 hadoop 的数据仓库工具，将结构化的数据映射成一张表，提供sql查询功能，可以对数据提取，转化，加载，简而言之：查询和分析存储在 hadoop大规模的数据工具，离线的大数据分析 #### hive在hadoop的生态圈 hiv ......

hive更新时间 2023-06-03

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下，仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......

Spark Hive更新时间 2023-06-02

Hadoop-3.3.5单节点开启Kerberos认证

1、Hadoop单节点部署部署过程看官方文档即可 https://hadoop.apache.org/ 为增加执行命令的便利性，添加hadoop的环境变量： vim /etc/profile.d/hadoop.sh export HADOOP_HOME=/usr/local/hadoop-3.3. ......

节点 Kerberos Hadoop更新时间 2023-06-02

Hadoop - HDFS 概述

什么是HDFS HDFS的优缺点 HDFS的文件块大小 HDFS的写数据流程 HDFS的副本配置策略 HDFS读数据的流程什么是HDFS HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器 ......

Hadoop HDFS更新时间 2023-06-01

hive - beeline命令行可以使用的命令

beeline> !help !all Execute the specified SQL against all the current connections !autocommit Set autocommit mode on or off !batch Start or execute a ......

命令 beeline hive更新时间 2023-06-01

flink安装（无hadoop）

下载Flink：访问Flink的官方网站（https://flink.apache.org/），在下载页面找到适合你操作系统的预编译二进制包。选择与你的操作系统和版本相对应的下载链接，点击下载。解压二进制包：下载完成后，将二进制包解压到你想要安装Flink的目录中。你可以使用命令行工具（如tar命 ......

hadoop flink更新时间 2023-06-01

Hbase入门

### Hbase简介 Hbase是一种NoSQL数据库，这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。Hbase是一种分布式存储的数据库，技术上来讲，它更像是分布式存储而不是分布式数据库，它缺少很多RDBMS系统的特性，比如列类型，辅助索引，触发器，和高级查询语言等待。那Hbas ......

Hbase更新时间 2023-06-01

hadoop 生态环境

HDFS角色及概念 hadoop体系中数据存储管理的基础，是一个高度蓉错的系统，用于在低成本的通用硬件上运行角色和概念 — Client — NameNode — Secondarynode — Datanode NameNode — Master节点，管理HDFS的（名称空间和数据块映射信息)就 ......

生态环境生态环境 hadoop更新时间 2023-06-01

Hive扩展内容

### 一个SQL语句的分析 ```sql SELECT a.Key, SUM(a.Cnt) AS Cnt FROM ( SELECT Key, COUNT(*) AS Cnt FROM TableName GROUP BY Key, CASE WHEN Key = 'KEY001' THEN Ha ......

内容 Hive更新时间 2023-06-01

Hive高级函数实战

### 函数的基本操作和mysql一样的，hive也是一个主要做统计的工具，所以为了满足各种各样的统计需要，它也内置了相当多的函数 ```sql show functions; # 查看所有内置函数 desc function functionName; # 查看指定函数的描述信息 desc fu ......

函数实战 Hive更新时间 2023-06-01

【博学谷学习记录】超强总结，用心分享 | Hadoop

【博学谷IT技术支持】 # 一、介绍 ## 概念 [Apache™ Hadoop®](https://hadoop.apache.org/) 项目为可靠、可扩展的分布式计算开发开源软件。允许简单的编程模型在大量计算机集群上对大型数据集群进行分布式处理。项目包含以下模块： - `Common`: 支 ......

Hadoop更新时间 2023-06-01

共900篇 :22/30页 首页上一页19202122232425下一页尾页