hadoop hbase hive

linux系统下Hadoop集群环境搭建

1、前言 基于redhat7.6系统搭建全分布式Hadoop3.3.5集群环境(模拟三台机,1主角色,2从角色)。 2、安装虚拟机 参考:https://www.cnblogs.com/jpxjx/p/16800831.html 3、虚拟机安装redhat7.6 参考:https://www.cnb ......
集群 环境 Hadoop 系统 linux

MongoDB、Redis、HBase、Cassandra、Elasticsearch、ClickHouse等NoSQL数据库简介及优缺点说明

MongoDB MongoDB是一个基于文档的NoSQL数据库,它使用BSON(二进制JSON)格式存储数据。MongoDB支持动态查询,可以轻松地处理非结构化数据。它还支持水平扩展,可以在多个节点上分布数据。 优点: 灵活性高,支持非结构化数据存储。 支持水平扩展,可以在多个节点上分布数据。 支持 ......

HBase在进行模型设计时重点在什么地方?一张表中定义多少个Column Family最合适?为什么?

锁屏面试题百日百刷,每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题: 1.Hbase中的memstore是用来做什么的? hbase为了保证随机读取的性能,所以hfile里面的rowkey是有序的。当客户端的请求在到达regionserver之后,为了保证写入rowke ......
模型 重点 地方 Column Family

Hadoop与Hadoop集群介绍

1、什么是Hadoop 狭义上Hadoop指的是Apache软件基金会的一款开源软件。用java语言实现,开源。允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。 2、Hadoop核心组件 Hadoop HDFS(分布式 ......
Hadoop 集群

大数据面试题集锦-Hadoop面试题(一)

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。 1、集群的最主要瓶颈 磁盘IO 2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服 ......
试题集锦 集锦 试题 数据 Hadoop

面试题百日百刷-HBase中HTable API有没有线程安全问题,在程序是单例还是多例?

锁屏面试题百日百刷,每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题: 1.HBase内部机制是什么? Hbase是一个能适应联机业务的数据库系统 物理存储:hbase的持久化数据是将数据存储在HDFS上。 存储管理:一个表是划分为很多region的,这些region分布 ......
线程 还是 程序 HTable 问题

面试题百日百刷-HBase HRegionServer宕机如何处理

锁屏面试题百日百刷,每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线,官网地址:https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容,还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你在面试中先人一步!接下来的是今日的面试题: 1.HBa ......
HRegionServer HBase

使HIve字段注释、表注释、分区键、索引注解支持中文

进入Hive元存储数据库,这里为MySQL 修改字段注释字符集 alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8; 修改表注释字符集 alter table TABLE_PARAMS modify ......
注释 注解 字段 索引 HIve

远程连接Hive

0 准备工作 启动了Hadoop 启动了Hive元存储数据库 1 开启Hive远程连接服务 # 前台开启 hive --service metastore hive --service hiveserver2 # 后台开启 hive --service metastore & hive --serv ......
Hive

hadoop学习记录

Hadoop简介安装 狭义上Hadoop指的是Apache软件基金会的一款开源软件用java语言实现,开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和 ......
hadoop

hive OpenCSVSerde

OpenCSVSerDe 1.如果数据包含使用双引号 (") 括起的值 2.您的数据具有 UNIX 数字 TIMESTAMP 值 (时间戳) create table tab_name (element element_type...) row format serde 'org.apache.ha ......
OpenCSVSerde hive

Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000:

解决方法:配置超级用户代理其他用户 在hadoop配置文件core-site.xml添加 <property> <name>hadoop.proxyuser.super.hosts</name> <value>host1,host2</value> </property> <property> <n ......
transport hadoop1 client hadoop Error

Hive下载安装配置

0 准备工作 下载安装jdk:https://www.cnblogs.com/lgjb/p/17292890.html 搭建Hadoop完全分布式集群:https://www.cnblogs.com/lgjb/p/17292835.html 下载安装MySQL:https://www.cnblogs ......
Hive

hive 数据仓库分层

1:为什么要分层 大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系 我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题 2:数仓的三 ......
仓库 数据 hive

Hadoop3常用端口

Namenode默认端口: | 端口 | 介绍 | | | | | 9820 | NameNode默认的内部端口 | | 9870 | NameNode的web访问(http访问)端口 | | 9871 | NameNode的web访问(https访问)端口 | Secondary Namenode ......
端口 常用 Hadoop3 Hadoop

Hadoop完全分布式集群搭建

0 准备工作 首先需要准备三台虚拟机,这里准备的是hadoop1,hadoop1,hadoop3,虚拟机机要求如下: 配置了静态IP。 关闭了防火墙的。 虚拟机下载安装:https://www.cnblogs.com/lgjb/p/17292698.html 1 配置ssh免密登录 配置ssh免密登 ......
分布式 集群 Hadoop

hive Serde(默认)

Hive 读文件机制 首先调用InputFormat(默认TextFormat),返回一条一条的键值对记录(默认是一行对一行键值对)。然后用Serde(默认为LazySimpleSerde)的Deserializer,将一条记录的value根据分隔符切分为各个字段。 | HDFS files | I ......
Serde hive

EasyMR 安全架构揭秘:如何管理 Hadoop 数据安全

2017年,美国信用评级机构 Equifax 遭受黑客攻击,导致1.4亿个人的敏感信息泄露; 2020年,发生了 SolarWinds 公司的软件供应链遭受恶意代码攻击事件,涉及多个行业和国家; 2022年,网信办依据《数据安全法》等法律法规,对滴滴公司开出人民币80.26亿元的巨额罚款,对互联网企 ......
架构 数据 EasyMR Hadoop

通过 docker-compose 快速部署 Hive 详细教程

一、概述 其实通过 docker-compose 部署 hive 是在继上篇文章 Hadoop 部署的基础之上叠加的,Hive 做为最常用的数仓服务,所以是有必要进行集成的,感兴趣的小伙伴请认真阅读我以下内容,通过 docker-compose 部署的服务主要是用最少的资源和时间成本快速部署服务,方 ......
docker-compose compose 教程 docker Hive

MongoDB 和 Hadoop的对比

MongoDB 和 Hadoop 都是当前非常流行的大数据处理技术。虽然它们都可以用于处理大规模数据,但是它们之间有许多区别。本文将对 MongoDB 和 Hadoop 进行比较,并提供一些指导,以帮助您选择最适合您应用程序的技术。 ###数据存储 MongoDB 是一个文档型数据库,使用类似于 J ......
MongoDB Hadoop

Hadoop搭建(集群)

HADOOP配置文件 | | core-site.xml | | | | | hadoop.tmp.dir | /opt/hadoop/tmp | | fs.defaultFS | hdfs://master:9000 | | | hdfs-site.xml | | | | | hadoop.nam ......
集群 Hadoop

Hadoop、Hive和Spark的关系

大数据技术生态中,Hadoop、Hive、Spark是什么关系?| 通俗易懂科普向 Hadoop、Hive和Spark,都是大数据相关的系统和技术。 大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题,一个是数据怎么存储?一个是数据怎么计算? 为了方便理解,我们需要从单机的时代来讲解。 在 ......
Hadoop Spark Hive

Springboot 系列 (29) - Springboot+HBase 大数据存储(七)| Springboot 项目通过 Phoenix 组件使用 JDBC 访问 HBase

Phoenix 是 HBase 的开源 SQL 皮肤,通过 Phoenix 可以使用标准 JDBC API 代替 HBase 客户端 API 来创建表,插入数据和查询 HBase 数据。Phoenix 会把 SQL 编译成一系列的 Hbase 的 scan 操作,然后把 scan 结果生成标准的 J ......
Springboot HBase 组件 Phoenix 项目

查看hbase表没有,但是新建却显示存在这个表的问题解决方案

转: https://blog.csdn.net/leng91060404/article/details/106956315 zookeeper数据存储及查看hbase信息1.zookeeper数据存储:1.1内存数据存储、磁盘数据存储. 内存数据存储: 数据模型是一棵树。包括所有节点路径,节点信 ......
解决方案 方案 问题 hbase

查看hbase表没有,但是新建却显示存在这个表的问题原因

转:https://www.cnblogs.com/superhedantou/p/5936460.html hbase源码分析:ERROR: Table already exists问题诊断 问题描述: 重新安装了测试环境的hadoop,所以之前hbase所建的表数据都丢失了,但是zookeepe ......
原因 问题 hbase

A3--Hadoop部署

基础环境:Centos 7.9 一、版本信息 JDK 1.8 Hadoop 3.1.3 二、部署前准备: 1.执行init.sh(环境初始化脚本) 2.执行java.sh(安装java环境) 3.hosts主机名映射 4.ssh免密登录(管理节点对数据节点) 5.集群时间同步 6.部署zookeep ......
Hadoop A3

A4--Hive部署

一、版本信息 JDK 1.8 Hive 3.1.3 MySQL 8.0.30 二、安装部署Mysql 参考地址:离线安装MySql8.0(主从模式) 三、安装部署Hive 1. 安装准备 1) 把 apache-hive-3.1.3-bin.tar.gz 上传到 linux 的/opt/src 目录 ......
Hive A4

CDH+Hive部署

CDH介绍: CDH 全称 Cloudera’s Distribution Including Apache Hadoop,是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成,并且加入了集群自动化安装、中心化管理、集群监 ......
Hive CDH

Hive 如何巧用分布函数percent_rank()剔除极值求均值

场景描述 前期写过一篇关于剔除订单极值求订单均值的案例,之前使用的是 dense_rank 函数对订单金额进行排序后,过滤掉最大值最小值后进行处理,最近工作刚好使用到分布函数percent_rank,想起来应该也可以用到这个场景; percent_rank() 简介 percent_rank() 函 ......
极值 均值 percent_rank 函数 percent

大数据经典论文解读 - Hive

Hive 基于HDFS和MapReduce提供了一个基本的SQL的数据仓库方案。关键点:在数据库系统设计时,如何把查询语言和计算框架分离,做好对现有系统的复用 设计目标 写SQL执行MapReduce任务 数据模型 从MapReduce任务到SQL语言间存在很多鸿沟 序列化和类型信息,基于SQL的数 ......
经典 数据 论文 Hive