hadoop hbase hive

spark离线分析--本地Spark1.6版本读写hive表

1. 搭建好hive环境,并将hive-site.xml文件放到本地工程的resources目录下 2. java测试代码 public class SparkHiveTest{ public static void main(String[] args){ JavaSparkContext jav ......
版本 Spark1 spark Spark hive

大数据实验(Mysql、hbase、redis、MongoDBjava客户端连接)

1.MySQL 启动:虚拟机输入mysql -u root -p 输入密码: hadoop(黑马的mysql密码是hadoop) pom.xml需要引入mysql <properties> <maven.compiler.source>8</maven.compiler.source> <maven ......
据实 大数 MongoDBjava 客户端 客户

虚拟机打开Hbase shell

1、打开所有hadoop的进程 start-all.sh 2、打开yarn的进程 start-yarn.sh 这是为了防止start-all.sh,没有打开所有,其实不用管他的。 3、node1,node2,node3都打开zookeeper cd /export/server/apache-zoo ......
Hbase shell

hive+mysql的伪分布式数据仓库搭建

1.前言 1.1所使用的配置 VMware 16pro #虚拟机 unbuntu22.04 #操作系统 jdk-8u202 hadoop-3.3.6 hive-3.1.1 mysql-8.054 mysql-connect-j-8.1.0 2.mysql和navicat的安装和使用 2.1mysql ......
分布式 仓库 数据 mysql hive

Hadoop MapReduce 历史服务器配置

1.在mapred-site.xml中配置历史服务器 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!-- 设置MapReduce程序默认运行模式: ......
MapReduce 服务器 Hadoop 历史

Hadoop 常用命令

1.文件类 1.新建文件夹 hadoop fs -mkdir {folderName} hadoop fs -mkdir /coreqi 2.上传文件 hadoop fs -put {localPath} {hadoopPath} hadoop fs -put /home/coreqi.txt /c ......
命令 常用 Hadoop

Hadoop-3.3.6分布式集群搭建步骤

1.下载JDK8 Linux 安装Openjdk 2.下载Hadoop3.3.6 Hadoop 安装及环境变量配置 3.创建hadoop数据存储的目录 mkdir -p /opt/hadoop/tmp /opt/hadoop/hdfs/data /opt/hadoop/hdfs/name 4.配置h ......
分布式 集群 步骤 Hadoop

Hadoop运行模式之本地模式(wordcount)

本地模式总结起来大概有以下几点: 单机运行,常用来演示,生产环境不适用 文件存储在操作系统的文件系统中而非Hadoop的HDFS中 1.安装JDK https://www.cnblogs.com/fanqisoft/p/16949738.html 2.安装Hadoop https://www.cnb ......
模式 wordcount Hadoop

Hadoop 环境变量配置

1.下载 https://hadoop.apache.org/releases.html 2.环境变量配置 在/etc/profile.d中配置 1.新建hadoop.sh vi /etc/profile.d/hadoop.sh export HADOOP_HOME=/usr/hadoop/hado ......
变量 环境 Hadoop

一、Hadoop概述与初步学习

一、Hadoop的发展史 Google 爬取全球的网站,然后计算页面的PageRank 要解决网站的问题: a:这些网站怎么存放 b:这些网站应该怎么计算 发布了三篇论文 a:GFS(Google File System) b:MapReduce(数据计算方法) c:BigTable-->HBase ......
Hadoop

大数据实验(HBase基础操作)

(一)Hadoop提供的HBase Shell命令完成任务 (1)列出hbase所有表信息 (2)打印表的所有数据 (3)添加、删除指定列族或列 (4)清空指定表的数据(先禁用表在清空) (5)统计行数 (二)HBase数据库操作 1.根据给出的表数据在HBase建表并存入数据 数据比较多可以先在t ......
据实 大数 基础 HBase

运行hadoop version时出现 此时不应有 \Hadoop\hadoop-3.2.4\bin\

在Windows环境下cmd运行Hadoop version命令时出现 此时不应有 \Hadoop\hadoop-3.2.4\bin\ 报错 在网上查到是因为环境变量的路径中有空格,但是我通过 where Java 和where hadoop 都没有发现空格 但是我的路径中存在括号,当尝试将括号删除 ......
hadoop version Hadoop bin

阿里云centos+Docker+hadoop

在阿里云上搭建hadoop 镜像:centos 容器:docker 软件:hadoop 阿里云centos+Docker+hadoop Docker 在Centos7下面安装docker (1)移除旧版: yum remove docker \ docker-client \ docker-clie ......
centos Docker hadoop

hadoop的文件存储格式parquet

hadoop 里支持许多压缩算法。压缩的好处主要有两点:1. 减少了文件占用的存储空间,原来上 T 的文件可能压缩完以后只需要两三百 G 的空间即可;2. 文件的体积小了以后,数据传输的速度自然就快了。在现在的大数据环境下,这两点显得更加重要。所以现在 hdfs 文件系统上存的文件,如果数据量大到一 ......
parquet 格式 文件 hadoop

Hadoop学习(一) 搭建伪分布式集群

文章结构 1.准备工作 1.1 配置IP 1.2 关闭防火墙 1.3 修改主机名并与IP绑定 1.4 创建新用户 1.5 配置免密匙 2.安装并配置Hadoop伪分布式集群 2.1 安装Java 2.2 安装配置Hadoop伪分布式集群 1.准备工作 1.1 配置IP 首先进入该路径下 cd /et ......
分布式 集群 Hadoop

2023/11/17 查看hbase版本号

首先 用hbase shell进入到hbase终端 然后用version命令查看版本号 ......
版本 hbase 2023 11 17

crontab任务以user用户执行hive -f命令不生效解决记录

现象:创建了一个shell脚本任务,使用crontab进行任务调度,其中hive执行为: hive -f /opt/test.sql > /opt/test.log 2>&1 任务调度起来后一直报错提示: /usr/bin/hive:行3: /parcels/sbin/configure.sh: 没 ......
命令 任务 crontab 用户 user

Hive_解析 get_json_object

get_json_object ( string json_string, string path ) 说明: 第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组。 如果输入的json字符串无效,那么返回NULL。 每次只能返回一个数据项。 举 ......
get_json_object object Hive json get

hadoop fs -test的相关命令

Hadoop FileSystem(HDFS)提供了多种命令来检查文件系统的状态和操作。以下是一些常用的hadoop fs -test命令: hadoop fs -test -e <path>: 检查指定路径是否存在。如果存在,返回0;否则返回非0值。 hadoop fs -test -d <pat ......
命令 hadoop test fs

datax抽取mysql数据到hive报错:javax.net.ssl.SSLException: Connection reset

datax抽取mysql数据报错: [INFO] 2023-11-09 12:35:14.090 +0000 - -> 2023-11-09 20:35:13.492 [0-0-0-reader] ERROR ReaderRunner - Reader runner Received Excepti ......
SSLException Connection 数据 datax mysql

11.9 hadoop学习

今天重新配置了hadoop,hbase,zookeeper,hive。 zk.sh start 启动zookeeperzk.sh stop 关闭zookeeperzk.sh status 查看zookeeper状态hbs.sh start 启动hbasehbs.sh stop 关闭hbaseall. ......
hadoop 11.9 11

使用HBase命令错误问题--ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master的解决

问题描述 按照以往的顺序和环境打开hbase的shell界面,出现了这样的问题: 问题解决 是的!还没解决~~ ......

hive事务得设置

1. 通过命令行方式开启事务,当前session有效 set hive.support.concurrency = true; set hive.enforce.bucketing = true; set hive.exec.dynamic.partition.mode = nonstrict; s ......
事务 hive

hive3.0新特性

hive3.0新特性: 1、不再支持Mr.取而用Tez查询引警且支持两种查询模式.Container 和 LLAP 2、Hive CLI不再支持(被beeline取代) 3、SQL Standard Authorization 不再支持,且默认建的表就已经是ACID表。 4、支持“批查询”(TEZ) ......
特性 hive3 hive

0.Hive+MySQL安装记录

1.确定安装版本 如何通过官网查找hadoop、hbase、hive版本兼容信息 2.安装流程大概 B站视频 3.安装mysql数据库 centos安装mysql8 check: tar命令 配置文件(/etc/下)--/etc/profile mysql环境变量配置 mysql: error wh ......
MySQL Hive

hive ACID事务得应用场景

Hive的ACID语义可以完成以下使用场景: 1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。 这些工具都是每秒百万行级的数据写入,而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区 ......
场景 事务 hive ACID

20231107学习总结-大型数据库-实验1.熟悉常用的Linux操作和Hadoop操作

实验1 熟悉常用的Linux操作和Hadoop操作 1.实验目的 Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.0 ......
20231107 常用 数据库 数据 Hadoop

Hive累积值、平均值、首尾值的计算学习

Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM() 、AVG()等使用;可以结合FIRST_VALUE() 和LAST_VALUE(),返回窗口的第一个和最后一个值。 如果只使用partition by子句,未指定order by的话, ......
首尾 平均值 Hive

Hadoop:Yarn资源调度

1、Yarn是什么? Apache Hadoop YARN (Yet Another Resource Negotiator 另一种资源协调者)是一种新的Hadoop资源管理器,提供一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。可以把Hadoop YARN理解为相当于一个分布 ......
Hadoop 资源 Yarn

hive快速入门

hive快速入门 一、简介 hive是facebook,用于解决海量结构化数据的统计分析,现在属于apache软件基金会。hive是一个构建在hadoop之上的数据分析工具,hive没有存储数据的能力只有使用数据的能力,底层是由HDFS来提供数据存储,可以将结构化的数据映射为一张数据表,并且提供类似 ......
hive