hadoop hbase hive

hadoop官方文档解读

Hadoop是一个分布式计算框架,用于存储和处理大规模数据集。 首先搞清楚为什么需要使用Hadoop Hadoop进行数据处理可以充分利用分布式计算和存储的优势,适用于大规模数据的批处理和分布式计算场景。 裸机上进行数据处理则更适合小规模数据或需要实时处理的场景。 在裸机上进行数据处理和使用Hado ......
文档 官方 hadoop

Hadoop 1

hadoop 的核心架构:包括hdfs 和 mapReduce, HDFS 为海量数据提供了存储,而MapReduce 为海量数据提供了计算框架。 HBase:实时分布式数据库,MapReduce:分布式计算框架,HDFS:分布式文件系统。 HDFS中包含三个重要角色: NameNode, Data ......
Hadoop

hive表加字段

hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构 ......
字段 hive

dremio hive 连接

dremio 对于hive 的连接实际上有两种方法,一种使用的是hive 的meta store ,一种是使用的hive jdbc server第一中是官方支持的,第二种官方缺少直接的支持,需要自己开发相关的arp 扩展 一些参考实现 cdata 目前提供了一个开源实现,但是jdbc 驱动使用的是自 ......
dremio hive

Hive中的regexp_replace函数

正则表达式替换函数:regexp_replace 语法:regexp_replace(string subject,string pattern,string str) subject为被替换的字符串,pattern为正则表达式,str为替换正则表达式的字符串(将字符串subject中符合正则表达式 ......
regexp_replace 函数 replace regexp Hive

pyspark 连接hive

pyspark连接hive 想要spark能够连接上hive,就需要将hive的一些配置文件放到spark中,让spark可以通过配置文件中的metastore.uris找到hive的元数据库,从而访问hive. 1.将hive的conf文件夹下的hive-site.xml,复制到本地spark的c ......
pyspark hive

hadoop集群 大数据项目实战_电信用户行为分析_day03

配置系统环境 Reis 1.先把之前的dump.rdb删除掉 rm -rf dump.rdb 2.把原始项目给的dump.rdb 放进来,它里面包含了需要的数据,比如端口;在这部之前必须要进行关闭端口,随后传送文件,最后重启端口 相关指令: bin/redis-server conf/redis.c ......
行为分析 大数 集群 实战 行为

大数据Hive词频统计作业总结及出现的权限问题解决(每日总结10.18)

学习网站链接Hive3.1.3安装和使用指南_厦大数据库实验室博客 (xmu.edu.cn) 下面是我自己的作业完成过程 1.首先要启动hdfs集群和hive数据库 2.创建并导入文件 进入到hadop目录下 在命令行窗口输入下面的命令: hadoop fs -mkdir /input1 在电脑桌面 ......
词频 权限 数据 问题 10.18

HBase-通过外部表将Hive数据写入到HBase

a) 准备测试数据 这里准备的csv文件data_test.csv,内容没用''包裹,逗号作为列分隔符 171301,燕青,男,27,发展部 171207,武松,男,39,开发部 171307,李逵,男,41,开发部 320812,宋江,男,45,战略部 321009,顾大嫂,女,38,后勤部 17 ......
HBase 数据 Hive

关于Hive的常用HiveQL操作

创建hive数据仓库: create table docs(line string); 从hdfs上传文件到数据库: load data inpath 'file:///usr/local/hadoop/input' overwrite into table docs; 根据词汇查询词汇数量: cr ......
常用 HiveQL Hive

HBase-hbase shell操作

hbase shell操作 一、DDL操作 1.开启hbase shell hbase shell 2.查看hbase状态 Status 3.查看hbase版本 Version 4.创建命名空间 create_namespace '命名空间名' 5.显示所有命名空间 list_namespace 6 ......
HBase-hbase HBase hbase shell

Hbase-预分区

Hbase 预分区 HBase表在刚刚被创建时,只有1个分区(region),当一个region过大(达到hbase.hregion.max.filesize属性中定义的阈值,默认10GB)时,表将会进行split,分裂为2个分区。表在进行split的时候,会耗费大量的资源,频繁的分区对HBase的 ......
Hbase

使用go语言开发hive导出工具

前言 新版 hive 提供了 beeline 工具,可以执行SQL并导出数据,不过操作还是有点复杂的,团队里有些同学不会Linux的基本操作,所以我花了亿点点时间写了个交互式的命令行工具方便使用。 效果 命令行工具,就是这么朴实无华。 探索过程 一开始是打算用 bash 脚本,结果发现根本不会写,b ......
语言 工具 hive

HBase-表的压缩

一、如何选择压缩算法以及Block Encoding Type?(1)如果Key很长,或者有很多Column,那么推荐使用FAST_DIFF。(2)如果数据是冷数据,不经常被访问,那么使用GZIP压缩格式。因为虽然它比Snappy/LZO需要占用更多而CPU,但是它的压缩比率更高,更节省磁盘。(3) ......
HBase

HBase-统计表总行数的三种方式

由于Hbase是列式数据库,没有提供类似SQL的数据查询语句,可以通过以下三种方式获取表的总行数。 1. 使用Hbase自带的Count命令 hbase提供了count命令可以在hbase交互界面使用,获取总行数。 hbase> count ‘test′ hbase> count ‘t1′, INT ......
总行 统计表 方式 HBase

hive词频统计

1.首先在hadoop目录下创建一个input文件夹,并在文件夹里建立两个txt文件并写入信息 第三行的echo命令会讲引号里的内容写入后边的文件,文件不存在的话会自动创建一个. 2.启动hive,创建一个名为docs的表,只含一列,列名为line,类型为string 3.将第一步input文件夹中 ......
词频 hive

HBase-宽表和高表的对比

HBase表设计通常可以是宽表(wide table)模式,即一行包括很多列。同样的信息也可以用高表(tall table)形式存储,通常高表的性能比宽表要高出 50%以上,所以推荐大家使用高表来完成表设计。表设计时,我们也应该要考虑HBase数据库的一些特性: 1、在HBase表中是通过Rowke ......
HBase

hadoop集群 大数据项目实战_电信用户行为分析_day02

集群配置好后,运行一个小例子,统计单词 1.hdfs dfs -put 将本地系统的文件或文件夹复制到HDFS上 2.hdfs dfs -ls /output 将所有的文件显示出来 3.hdfs dfs -cat /output/ 将所有的文件读取出来 下载part-r-000000 安装Redis ......
行为分析 大数 集群 实战 行为

HBase入门指南

本文已收录至GitHub,推荐阅读 👉 Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 目录HBase特性Hadoop的限制基本概念NameSpaceTableRowKeyColumnTimeStampCell存储结构HBase 数据访问形式架构体系HB ......
入门指南 指南 HBase

终于知道如何利用hive的日期转换函数进行日期格式的清洗啦~(之前用的外部数据清洗)

1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter ......
日期 函数 格式 数据 hive

Hadoop-3.3.5 自动安装

Hadoop-3.3.5 自动安装脚本 为了方便数据科学与大数据技术的 hadoop-3.3.5 安装与配置 目前适用于新安装的纯净虚拟机,未配置冲突检测.. 所以安装的话请使用全新创建的机器以避免错误... 如何使用 ssh localhost 输入你目前用户的密码 exit 退出当前ssh终端( ......
Hadoop

hadoop集群 大数据项目实战_电信用户行为分析_day01

上图是相关配置的要求,主要创建了四个虚拟系统,有三台虚拟机搭建hadoop集群,一台作为业务系统。 涉及到相关的Linux指令有::set nu[显示行号] :6[到第6行 shift+G跳到最后一行 进入vi指令后查找相关东西/(你需要查找的东西) 1.配置环境、 第一步设置网络参数,设置静态网络 ......
行为分析 大数 集群 实战 行为

基于Docker搭建Hadoop+Hive

基于Docker搭建Hadoop+Hive 本文主要是照搬这篇文章的https://zhuanlan.zhihu.com/p/242658224,但是这篇文章有一些细节配置没有讲清楚,这里对其进行完善 零、环境信息 电脑配置 Ubuntu 20.04.6 LTS (Focal Fossa) 5.15 ......
Docker Hadoop Hive

hive清洗数据sql语句报错

在本次的测试中sql语句清洗数据时下面,同时观察第一个语句中Date为啥要加这个单引号,原因是Date是sql语句里的可以说是一个关键字的存在,所以必须要单独引用起来以示区别 insert overwrite table article select ip as ip ,`Date` as `Dat ......
语句 数据 hive sql

hive大数据测试(时间数据清洗UDF打包到hive中调用自定义函数,hive表数据导出到本机)

1.数据清洗 pom依赖: <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <project.build.sourceEnco ......
数据 hive 函数 时间 UDF

《Hive性能优化实战》读书笔记

写在前面 《Hive性能优化实战》是比较不错的一本hive技术书籍,介绍了hive相关的一些技术,一些基本的理论,看完能对hive优化方面略有了解; 但有俩地方每种不足,一是没有那么多的实际的综合情况分析优化案例,这个有点可惜,要是多几个案例就很不错了;而是执行计划部分大多数 整本书最吸引人的地方在 ......
实战 性能 笔记 Hive

Hadoop-Operation category READ is not supported in state standby 故障解决

在查询hdfs时或者执行程序向hdfs写入数据时遇到报错:Operation category READ is not supported in state standby 意思是:该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行,例如:hadoop fs -ls ......

Hive-服务启动和停止命令

1、启动命令 #!/bin/bash nohup hive --service metastore >> $HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >> $HIVE_HOME/logs/hiveserv ......
命令 Hive

虚拟机如何打开hive数据库

1、启动hodoop 2.、启动 hive的服务: metastore cd /export/server/apache-hive-3.1.2-bin/bin ./hive --service metastore 后台启动 nohup ./hive --service metastore & 3、 ......
数据库 数据 hive

Hadoop2伪分布式安装

最近有观看我主讲的《Hadoop基础与演练》课程的同学问到Hadoop环境到底应该怎么安装。Hadoop的安装其实非常的简单,网上有很多教程,官网也有示例。但是可能部分同学对于linux不太熟悉,导致安装的时候会遇到各种问题,打击学习激情。本文就来详细的讲解一下如何配置Hadoop2的伪分布式环境, ......
分布式 Hadoop2 Hadoop