hadoop hbase hive

Hadoop-3.3.3分布式集群的文件配置，启动hadoop历史服务和启动日志聚集

一、分布式集群的文件配置涉及$HADOOP_HOME/etc/hadoop路径下的5个文件 workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 首先修改workers 进入$HADOOP_HOME/etc/hadoop ......

分布式集群文件 Hadoop hadoop更新时间 2023-11-04

云计算-hadoop的安装（书接上回+分布式搭建）

书接上回，这次来进行分布式集群的搭建。执行命令：echo $JAVA_HOME 查看路径，我的路径如图所示：然后在/usr/local/hadoop目录下，执行命令gedit ./etc/hadoop/hadoop-env.sh 打开文本，然后再第一行添加刚刚的路径，如图所示：因为之前一节咱们 ......

分布式 hadoop更新时间 2023-11-04

hadoop 将nn节点的环境配置同步到dn节点

使用scp命令克隆配置输入 sudo scp -r jdk1.8.0_391/ hxf@slaver2:/opt/module 报错ssh: Could not resolve hostname hxf: Temporary failure in name resolution lost conn ......

节点环境 hadoop更新时间 2023-11-04

Finalshell给虚拟机安装JDK1.8，hadoop-3.3.3，hive3.1.2并配置环境

点击红框按钮，把下载好的jdk，hadoop，hive安装包上传到指定路径我的路径是/home/用户名/Downloads 查看上传文件 sudo tar -zxvf /home/hxf/Downloads/jdk-8u391-linux-x64.tar.gz -C /opt/module/ su ......

Finalshell 环境 hadoop hive3 JDK1更新时间 2023-11-04

Hadoop3.x和Hive3.x环境搭建

Hadoop3.3.6 创建hadoop用户 useradd hadoop su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys ......

Hadoop3 环境 Hadoop Hive3 Hive更新时间 2023-11-03

hbase知识点

定义 Hbase 是一个分布式的、面向列的 NoSQL 数据库，是 Google BigTable 的开源实现，基于 Hadoop 和 Zookeeper 构建，可以提供海量结构化和半结构化数据的存储和随机访问。 NOSql和传统Sql的区别：传统sql需要设计好结构化的建表语句，而NOSql不需 ......

知识点知识 hbase更新时间 2023-11-03

HBase启动异常：Master is initializing

org.apache.hadoop.hbase.PleaseHoldException: Master is initializing master.hmaster: master failed to complete initialization after 900000ms. please co ......

initializing Master HBase is更新时间 2023-11-02

javaapi、spark、flink 创建Iceberg表，hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中，元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......

javaapi Iceberg impala flink spark更新时间 2023-11-02

Hive grouping函数

Grouping函数: 可以接受一列，返回0或1。如果列值为空，则返回1，非空则返回0。它只能在rollup和或cube函数中使用，因为在统计中显示“全部”的那一项统计值时，那一项的标签通常是空的，这时grouping就非常有用，还可以在grouping的基础上进行decode, case等进行美化 ......

函数 grouping Hive更新时间 2023-11-02

hadoop 基础学习

......

基础 hadoop更新时间 2023-11-01

hadoop 基础组件详解

......

组件基础 hadoop更新时间 2023-11-01

pyspark数据写入文件及数据库hive

原始数据如下 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 POD9_352858578708f144bb166a77bad743f4|#$2023- ......

数据 pyspark 数据库文件 hive更新时间 2023-10-31

hadoop初体验1——官方案例pi值计算

1.执行命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar pi 2 2 hadoop jarHadoop jar命令 hadoop-mapreduce-examples-3.3.6.jar程序 ......

案例官方 hadoop更新时间 2023-10-30

hadoop初体验2——官方案例wordcount

1.命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount /wordcount/input /wordcount/output 执行命令hadoop jar hadoop-ma ......

wordcount 案例官方 hadoop更新时间 2023-10-30

Hive

因为传统数仓的不足，大家希望使用上分布式存储，也就是HDFS。然而使用HDFS后发现，基于数据库的数据仓库用SQL就能做查询，现在换到HDFS上面，只能用Mapreduce任务去做分析。给分析代码极大的不便，因此需要一个框架，使用SQL来做HDFS的查询。Hive正是基于类似SQL的语言完成对hdf ......

Hive更新时间 2023-10-30

Hadoop三大组件（HDFS,MapReduce,Yarn）

1、HDFS HDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。 2、MapReduce MapReduce是一个软件 ......

组件 MapReduce 三大 Hadoop HDFS更新时间 2023-10-30

window10安装单机hadoop

一、配置jdk 默认已配置二、下载hadoop3.2.2 http://archive.apache.org/dist/hadoop/common/hadoop-3.2.2/ 三、下载hadoop-winutils https://github.com/cdarlint/winutils 下载后将 ......

单机 window hadoop 10更新时间 2023-10-30

Hive中json格式字段清洗与提取

废话不多说，直接上案例如下是某json字段的查询结果，可以看出它是一个json数组 select sales_price from order_goods where order_number = 'R1001'; -- 结果： [{"threshold_number":1,"group_id": ......

字段格式 Hive json更新时间 2023-10-30

作业6 数据仓库Hive

请在以下两题中任选一题作答，其中第一题编程实践满分30，第二题应用调查满分20（1）编程实践：参考教程https://dblab.xmu.edu.cn/blog/4309/，编写HiveQL语句实现WordCount算法，在input文件夹中创建两个测试文件file1.txt和file2.txt，然 ......

仓库数据 Hive更新时间 2023-10-29

Hbase教程

Hbase是一个Hadoop Database，是分布式、弹性、大数据存储引擎 Hbase的目标是托管大表-数十亿行数百万列。 1 安装 Hbase版本和java版本以及Hadoop版本之间存在依赖关系。可以在这里查看https://hbase.apache.org/book.html#java 1 ......

教程 Hbase更新时间 2023-10-29

云计算-hadoop的安装

云计算的课程，主要还是要梳理逻辑（尽管我不是做这个方向的，但是课程还是要好好完成！）前提：安装好虚拟机VirtualBox，并且下载好Ubuntu的光盘映像文件。文章思路： 1.配环境（SSH免密码登录，JAVA环境）２.配Hadoop（下载包，配置相应的环境）３.运行（感受一下实际例子） ......

hadoop更新时间 2023-10-26

Hadoop-大数据组件版本号查看

1．操作系统 cat /etc/redhat-release ; 2．JDK java -version 3．SCALA scala --version 4．MySQL mysql --version 5．Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 ......

组件版本数据 Hadoop更新时间 2023-10-26

Hive学习笔记：nvl和coalesce函数的区别

nvl 函数和 coalesce 函数都是用来处理空值的函数，但略有不同。注意：非 NULL 值为 NULL，如果是''，' '， 'null'， 'NULL'等视为字符串，返回参数本身。一、nvl函数 nvl 只能处理2个参数，如果第1个不是 null，则返回第1个参数，否则返回第2个参数 ......

函数 coalesce 笔记 Hive nvl更新时间 2023-10-25

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存当本地内存不足时，可以使用虚拟内存将一些内存数据转移到硬盘上，从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序，不会出现内存不足的情况。减轻物理存储器不足的压力，设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上，解决内存不足问题。通过虚拟内存， ......

集群 zookeeper docker hadoop hbase更新时间 2023-10-24

基于docker容器，搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......

集群容器 Zookeeper docker hadoop更新时间 2023-10-24

Hive学习笔记：多列求最大值、最小值

一、最大值当在 Hive 中需要对多列数据求最大值时，可以使用函数 greatest(a, b, c, d) 实现。 select greatest(a, b, c) from ( select 10 as a, 20 as b, 30 as c ) dd; -- 结果：30 举个具体栗子：计算用 ......

最大值笔记 Hive更新时间 2023-10-23

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）

安装Ubuntu Linux元信息两台机器，每台机器两台Ubuntu Ubuntu版本：ubuntu-22.04.3-desktop-amd64.iso 处理器数量2，每个处理器的核心数量2，总处理器核心数量4 单个虚拟机内存8192MB（8G），最大磁盘大小30G 参考链接清华大学开源软件镜像 ......

节点集群实体机器 Hadoop更新时间 2023-10-22

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候上面的错误可能有以下几种问题： 1.版本问题不匹配 2.时间参数问题设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功当时也在想是不是内存出现了问题 ......

Failed Spark HiveException exception 7bdabefe更新时间 2023-10-22

Unexpected character '=' (code 61); expected a semi-colon after the reference for entity 'useSSL' at [row,col,system-id]: [8,75,"file:/usr/bigdata/hive-3.1.3/conf/hive-site.xml"]

在初始化hive时报错，出现如下问题：错误原因：hive-site.xml 配置文件中，数据库的地址带有 & 符号。将数据库地址中的 & 符号调整为 &，详情如下：再次初始化hive，执行结果如下： ......

39 hive quot Unexpected semi-colon更新时间 2023-10-21

hadoop集群大数据项目实战_电信用户行为分析_day04

进行HIVE环境配置 1.上传相关的包 2.对上传的包进行下载和创建软连接 3.配置相关的文件 4.分别发送给其他机子假设你需要在所有机器执行同一个指令，则你就需要相关设置 5.在hive的onf文件中创建hive-site.xml进行相关设置 ```xml<configuration> <-- ......

行为分析大数集群实战行为更新时间 2023-10-20

共900篇 :7/30页 首页上一页45678910下一页尾页