hadoop hbase hive

spark离线分析--本地Spark1.6版本读写hive表

1. 搭建好hive环境，并将hive-site.xml文件放到本地工程的resources目录下 2. java测试代码 public class SparkHiveTest{ public static void main(String[] args){ JavaSparkContext jav ......

版本 Spark1 spark Spark hive更新时间 2023-11-28

大数据实验(Mysql、hbase、redis、MongoDBjava客户端连接)

1.MySQL 启动：虚拟机输入mysql -u root -p 输入密码: hadoop（黑马的mysql密码是hadoop） pom.xml需要引入mysql <properties> <maven.compiler.source>8</maven.compiler.source> <maven ......

据实大数 MongoDBjava 客户端客户更新时间 2023-11-28

虚拟机打开Hbase shell

1、打开所有hadoop的进程 start-all.sh 2、打开yarn的进程 start-yarn.sh 这是为了防止start-all.sh，没有打开所有，其实不用管他的。 3、node1,node2,node3都打开zookeeper cd /export/server/apache-zoo ......

Hbase shell更新时间 2023-11-28

hive+mysql的伪分布式数据仓库搭建

1.前言 1.1所使用的配置 VMware 16pro #虚拟机 unbuntu22.04 #操作系统 jdk-8u202 hadoop-3.3.6 hive-3.1.1 mysql-8.054 mysql-connect-j-8.1.0 2.mysql和navicat的安装和使用 2.1mysql ......

分布式仓库数据 mysql hive更新时间 2023-11-28

Hadoop MapReduce 历史服务器配置

1.在mapred-site.xml中配置历史服务器 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!-- 设置MapReduce程序默认运行模式： ......

MapReduce 服务器 Hadoop 历史更新时间 2023-11-27

Hadoop 常用命令

1.文件类 1.新建文件夹 hadoop fs -mkdir {folderName} hadoop fs -mkdir /coreqi 2.上传文件 hadoop fs -put {localPath} {hadoopPath} hadoop fs -put /home/coreqi.txt /c ......

命令常用 Hadoop更新时间 2023-11-27

Hadoop-3.3.6分布式集群搭建步骤

1.下载JDK8 Linux 安装Openjdk 2.下载Hadoop3.3.6 Hadoop 安装及环境变量配置 3.创建hadoop数据存储的目录 mkdir -p /opt/hadoop/tmp /opt/hadoop/hdfs/data /opt/hadoop/hdfs/name 4.配置h ......

分布式集群步骤 Hadoop更新时间 2023-11-27

Hadoop运行模式之本地模式（wordcount）

本地模式总结起来大概有以下几点：单机运行，常用来演示，生产环境不适用文件存储在操作系统的文件系统中而非Hadoop的HDFS中 1.安装JDK https://www.cnblogs.com/fanqisoft/p/16949738.html 2.安装Hadoop https://www.cnb ......

模式 wordcount Hadoop更新时间 2023-11-26

Hadoop 环境变量配置

1.下载 https://hadoop.apache.org/releases.html 2.环境变量配置在/etc/profile.d中配置 1.新建hadoop.sh vi /etc/profile.d/hadoop.sh export HADOOP_HOME=/usr/hadoop/hado ......

变量环境 Hadoop更新时间 2023-11-26

一、Hadoop概述与初步学习

一、Hadoop的发展史 Google 爬取全球的网站，然后计算页面的PageRank 要解决网站的问题： a：这些网站怎么存放 b：这些网站应该怎么计算发布了三篇论文 a：GFS(Google File System) b：MapReduce(数据计算方法) c：BigTable-->HBase ......

Hadoop更新时间 2023-11-24

大数据实验（HBase基础操作）

（一）Hadoop提供的HBase Shell命令完成任务（1）列出hbase所有表信息（2）打印表的所有数据（3）添加、删除指定列族或列（4）清空指定表的数据(先禁用表在清空) （5）统计行数（二）HBase数据库操作 1.根据给出的表数据在HBase建表并存入数据数据比较多可以先在t ......

据实大数基础 HBase更新时间 2023-11-23

运行hadoop version时出现此时不应有 \Hadoop\hadoop-3.2.4\bin\

在Windows环境下cmd运行Hadoop version命令时出现此时不应有 \Hadoop\hadoop-3.2.4\bin\ 报错在网上查到是因为环境变量的路径中有空格，但是我通过 where Java 和where hadoop 都没有发现空格但是我的路径中存在括号，当尝试将括号删除 ......

hadoop version Hadoop bin更新时间 2023-11-21

阿里云centos+Docker+hadoop

在阿里云上搭建hadoop 镜像：centos 容器：docker 软件：hadoop 阿里云centos+Docker+hadoop Docker 在Centos7下面安装docker （1）移除旧版： yum remove docker \ docker-client \ docker-clie ......

centos Docker hadoop更新时间 2023-11-21

hadoop的文件存储格式parquet

hadoop 里支持许多压缩算法。压缩的好处主要有两点：1. 减少了文件占用的存储空间，原来上 T 的文件可能压缩完以后只需要两三百 G 的空间即可；2. 文件的体积小了以后，数据传输的速度自然就快了。在现在的大数据环境下，这两点显得更加重要。所以现在 hdfs 文件系统上存的文件，如果数据量大到一 ......

parquet 格式文件 hadoop更新时间 2023-11-19

Hadoop学习(一) 搭建伪分布式集群

文章结构 1.准备工作 1.1 配置IP 1.2 关闭防火墙 1.3 修改主机名并与IP绑定 1.4 创建新用户 1.5 配置免密匙 2.安装并配置Hadoop伪分布式集群 2.1 安装Java 2.2 安装配置Hadoop伪分布式集群 1.准备工作 1.1 配置IP 首先进入该路径下 cd /et ......

分布式集群 Hadoop更新时间 2023-11-17

2023/11/17 查看hbase版本号

首先用hbase shell进入到hbase终端然后用version命令查看版本号 ......

版本 hbase 2023 11 17更新时间 2023-11-17

crontab任务以user用户执行hive -f命令不生效解决记录

现象：创建了一个shell脚本任务，使用crontab进行任务调度，其中hive执行为： hive -f /opt/test.sql > /opt/test.log 2>&1 任务调度起来后一直报错提示： /usr/bin/hive:行3: /parcels/sbin/configure.sh: 没 ......

命令任务 crontab 用户 user更新时间 2023-11-15

Hive_解析 get_json_object

get_json_object ( string json_string, string path ) 说明：第一个参数填写json对象变量，第二个参数使用$表示json变量标识，然后用 . 或 [] 读取对象或数组。如果输入的json字符串无效，那么返回NULL。每次只能返回一个数据项。举 ......

get_json_object object Hive json get更新时间 2023-11-14

hadoop fs -test的相关命令

Hadoop FileSystem（HDFS）提供了多种命令来检查文件系统的状态和操作。以下是一些常用的hadoop fs -test命令： hadoop fs -test -e <path>: 检查指定路径是否存在。如果存在，返回0；否则返回非0值。 hadoop fs -test -d <pat ......

命令 hadoop test fs更新时间 2023-11-13

datax抽取mysql数据到hive报错：javax.net.ssl.SSLException: Connection reset

datax抽取mysql数据报错： [INFO] 2023-11-09 12:35:14.090 +0000 - -> 2023-11-09 20:35:13.492 [0-0-0-reader] ERROR ReaderRunner - Reader runner Received Excepti ......

SSLException Connection 数据 datax mysql更新时间 2023-11-10

11.9 hadoop学习

今天重新配置了hadoop，hbase，zookeeper，hive。 zk.sh start 启动zookeeperzk.sh stop 关闭zookeeperzk.sh status 查看zookeeper状态hbs.sh start 启动hbasehbs.sh stop 关闭hbaseall. ......

hadoop 11.9 11更新时间 2023-11-09

使用HBase命令错误问题--ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master的解决

问题描述按照以往的顺序和环境打开hbase的shell界面，出现了这样的问题：问题解决是的！还没解决~~ ......

KeeperErrorCode ConnectionLoss 命令错误 master更新时间 2023-11-09

hive事务得设置

1. 通过命令行方式开启事务，当前session有效 set hive.support.concurrency = true; set hive.enforce.bucketing = true; set hive.exec.dynamic.partition.mode = nonstrict; s ......

事务 hive更新时间 2023-11-09

hive3.0新特性

hive3.0新特性： 1、不再支持Mr.取而用Tez查询引警且支持两种查询模式.Container 和 LLAP 2、Hive CLI不再支持(被beeline取代) 3、SQL Standard Authorization 不再支持，且默认建的表就已经是ACID表。 4、支持“批查询”(TEZ) ......

特性 hive3 hive更新时间 2023-11-09

0.Hive+MySQL安装记录

1.确定安装版本如何通过官网查找hadoop、hbase、hive版本兼容信息 2.安装流程大概 B站视频 3.安装mysql数据库 centos安装mysql8 check： tar命令配置文件（/etc/下）--/etc/profile mysql环境变量配置 mysql: error wh ......

MySQL Hive更新时间 2023-11-09

hive ACID事务得应用场景

Hive的ACID语义可以完成以下使用场景: 1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。这些工具都是每秒百万行级的数据写入，而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区 ......

场景事务 hive ACID更新时间 2023-11-09

20231107学习总结-大型数据库-实验1.熟悉常用的Linux操作和Hadoop操作

实验1 熟悉常用的Linux操作和Hadoop操作 1.实验目的 Hadoop运行在Linux系统上，因此，需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作，为顺利开展后续其他实验奠定基础。 2.实验平台（1）操作系统：Linux（建议Ubuntu16.0 ......

20231107 常用数据库数据 Hadoop更新时间 2023-11-07

Hive累积值、平均值、首尾值的计算学习

Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等；可以结合聚集函数SUM() 、AVG()等使用；可以结合FIRST_VALUE() 和LAST_VALUE()，返回窗口的第一个和最后一个值。如果只使用partition by子句,未指定order by的话, ......

首尾平均值 Hive更新时间 2023-11-07

Hadoop：Yarn资源调度

1、Yarn是什么？ Apache Hadoop YARN （Yet Another Resource Negotiator 另一种资源协调者）是一种新的Hadoop资源管理器，提供一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。可以把Hadoop YARN理解为相当于一个分布 ......

Hadoop 资源 Yarn更新时间 2023-11-06

hive快速入门

hive快速入门一、简介 hive是facebook，用于解决海量结构化数据的统计分析，现在属于apache软件基金会。hive是一个构建在hadoop之上的数据分析工具，hive没有存储数据的能力只有使用数据的能力，底层是由HDFS来提供数据存储，可以将结构化的数据映射为一张数据表，并且提供类似 ......

hive更新时间 2023-11-05

共900篇 :6/30页 首页上一页3456789下一页尾页