hadoop hbase hive

hadoop官方文档解读

Hadoop是一个分布式计算框架，用于存储和处理大规模数据集。首先搞清楚为什么需要使用Hadoop Hadoop进行数据处理可以充分利用分布式计算和存储的优势，适用于大规模数据的批处理和分布式计算场景。裸机上进行数据处理则更适合小规模数据或需要实时处理的场景。在裸机上进行数据处理和使用Hado ......

文档官方 hadoop更新时间 2023-10-20

Hadoop 1

hadoop 的核心架构：包括hdfs 和 mapReduce, HDFS 为海量数据提供了存储，而MapReduce 为海量数据提供了计算框架。 HBase：实时分布式数据库，MapReduce：分布式计算框架，HDFS：分布式文件系统。 HDFS中包含三个重要角色： NameNode, Data ......

Hadoop更新时间 2023-10-20

hive表加字段

hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构 ......

字段 hive更新时间 2023-10-20

dremio hive 连接

dremio 对于hive 的连接实际上有两种方法，一种使用的是hive 的meta store ,一种是使用的hive jdbc server第一中是官方支持的，第二种官方缺少直接的支持，需要自己开发相关的arp 扩展一些参考实现 cdata 目前提供了一个开源实现，但是jdbc 驱动使用的是自 ......

dremio hive更新时间 2023-10-20

Hive中的regexp_replace函数

正则表达式替换函数：regexp_replace 语法：regexp_replace(string subject,string pattern,string str) subject为被替换的字符串，pattern为正则表达式，str为替换正则表达式的字符串（将字符串subject中符合正则表达式 ......

regexp_replace 函数 replace regexp Hive更新时间 2023-10-19

pyspark 连接hive

pyspark连接hive 想要spark能够连接上hive，就需要将hive的一些配置文件放到spark中，让spark可以通过配置文件中的metastore.uris找到hive的元数据库，从而访问hive. 1.将hive的conf文件夹下的hive-site.xml，复制到本地spark的c ......

pyspark hive更新时间 2023-10-19

hadoop集群大数据项目实战_电信用户行为分析_day03

配置系统环境 Reis 1.先把之前的dump.rdb删除掉 rm -rf dump.rdb 2.把原始项目给的dump.rdb 放进来，它里面包含了需要的数据，比如端口；在这部之前必须要进行关闭端口，随后传送文件，最后重启端口相关指令: bin/redis-server conf/redis.c ......

行为分析大数集群实战行为更新时间 2023-10-19

大数据Hive词频统计作业总结及出现的权限问题解决（每日总结10.18）

学习网站链接Hive3.1.3安装和使用指南_厦大数据库实验室博客 (xmu.edu.cn) 下面是我自己的作业完成过程 1.首先要启动hdfs集群和hive数据库 2.创建并导入文件进入到hadop目录下在命令行窗口输入下面的命令： hadoop fs -mkdir /input1 在电脑桌面 ......

词频权限数据问题 10.18更新时间 2023-10-18

HBase-通过外部表将Hive数据写入到HBase

a) 准备测试数据这里准备的csv文件data_test.csv,内容没用''包裹,逗号作为列分隔符 171301,燕青,男,27,发展部 171207,武松,男,39,开发部 171307,李逵,男,41,开发部 320812,宋江,男,45,战略部 321009,顾大嫂,女,38,后勤部 17 ......

HBase 数据 Hive更新时间 2023-10-18

关于Hive的常用HiveQL操作

创建hive数据仓库： create table docs(line string); 从hdfs上传文件到数据库： load data inpath 'file:///usr/local/hadoop/input' overwrite into table docs; 根据词汇查询词汇数量： cr ......

常用 HiveQL Hive更新时间 2023-10-17

HBase-hbase shell操作

hbase shell操作一、DDL操作 1．开启hbase shell hbase shell 2．查看hbase状态 Status 3．查看hbase版本 Version 4．创建命名空间 create_namespace '命名空间名' 5．显示所有命名空间 list_namespace 6 ......

HBase-hbase HBase hbase shell更新时间 2023-10-17

Hbase-预分区

Hbase 预分区 HBase表在刚刚被创建时，只有1个分区（region），当一个region过大（达到hbase.hregion.max.filesize属性中定义的阈值，默认10GB）时，表将会进行split，分裂为2个分区。表在进行split的时候，会耗费大量的资源，频繁的分区对HBase的 ......

Hbase更新时间 2023-10-17

使用go语言开发hive导出工具

前言新版 hive 提供了 beeline 工具，可以执行SQL并导出数据，不过操作还是有点复杂的，团队里有些同学不会Linux的基本操作，所以我花了亿点点时间写了个交互式的命令行工具方便使用。效果命令行工具，就是这么朴实无华。探索过程一开始是打算用 bash 脚本，结果发现根本不会写，b ......

语言工具 hive更新时间 2023-10-17

HBase-表的压缩

一、如何选择压缩算法以及Block Encoding Type?（1）如果Key很长，或者有很多Column，那么推荐使用FAST_DIFF。（2）如果数据是冷数据，不经常被访问，那么使用GZIP压缩格式。因为虽然它比Snappy/LZO需要占用更多而CPU，但是它的压缩比率更高，更节省磁盘。（3） ......

HBase更新时间 2023-10-17

HBase-统计表总行数的三种方式

由于Hbase是列式数据库，没有提供类似SQL的数据查询语句，可以通过以下三种方式获取表的总行数。 1. 使用Hbase自带的Count命令 hbase提供了count命令可以在hbase交互界面使用，获取总行数。 hbase> count ‘test′ hbase> count ‘t1′, INT ......

总行统计表方式 HBase更新时间 2023-10-17

hive词频统计

1.首先在hadoop目录下创建一个input文件夹,并在文件夹里建立两个txt文件并写入信息第三行的echo命令会讲引号里的内容写入后边的文件,文件不存在的话会自动创建一个. 2.启动hive,创建一个名为docs的表,只含一列,列名为line,类型为string 3.将第一步input文件夹中 ......

词频 hive更新时间 2023-10-17

HBase-宽表和高表的对比

HBase表设计通常可以是宽表（wide table）模式，即一行包括很多列。同样的信息也可以用高表（tall table）形式存储，通常高表的性能比宽表要高出 50%以上，所以推荐大家使用高表来完成表设计。表设计时，我们也应该要考虑HBase数据库的一些特性： 1、在HBase表中是通过Rowke ......

HBase更新时间 2023-10-17

hadoop集群大数据项目实战_电信用户行为分析_day02

集群配置好后，运行一个小例子，统计单词 1.hdfs dfs -put 将本地系统的文件或文件夹复制到HDFS上 2.hdfs dfs -ls /output 将所有的文件显示出来 3.hdfs dfs -cat /output/ 将所有的文件读取出来下载part-r-000000 安装Redis ......

行为分析大数集群实战行为更新时间 2023-10-16

HBase入门指南

本文已收录至GitHub，推荐阅读 👉 Java随想录微信公众号：Java随想录原创不易，注重版权。转载请注明原作者和原文链接目录HBase特性Hadoop的限制基本概念NameSpaceTableRowKeyColumnTimeStampCell存储结构HBase 数据访问形式架构体系HB ......

入门指南指南 HBase更新时间 2023-10-15

终于知道如何利用hive的日期转换函数进行日期格式的清洗啦~（之前用的外部数据清洗）

1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter ......

日期函数格式数据 hive更新时间 2023-10-15

Hadoop-3.3.5 自动安装

Hadoop-3.3.5 自动安装脚本为了方便数据科学与大数据技术的 hadoop-3.3.5 安装与配置目前适用于新安装的纯净虚拟机，未配置冲突检测.. 所以安装的话请使用全新创建的机器以避免错误... 如何使用 ssh localhost 输入你目前用户的密码 exit 退出当前ssh终端（ ......

Hadoop更新时间 2023-10-14

hadoop集群大数据项目实战_电信用户行为分析_day01

上图是相关配置的要求，主要创建了四个虚拟系统，有三台虚拟机搭建hadoop集群，一台作为业务系统。涉及到相关的Linux指令有::set nu[显示行号] :6[到第6行 shift+G跳到最后一行进入vi指令后查找相关东西/(你需要查找的东西) 1.配置环境、第一步设置网络参数，设置静态网络 ......

行为分析大数集群实战行为更新时间 2023-10-14

基于Docker搭建Hadoop+Hive

基于Docker搭建Hadoop+Hive 本文主要是照搬这篇文章的https://zhuanlan.zhihu.com/p/242658224，但是这篇文章有一些细节配置没有讲清楚，这里对其进行完善零、环境信息电脑配置 Ubuntu 20.04.6 LTS (Focal Fossa) 5.15 ......

Docker Hadoop Hive更新时间 2023-10-13

hive清洗数据sql语句报错

在本次的测试中sql语句清洗数据时下面,同时观察第一个语句中Date为啥要加这个单引号，原因是Date是sql语句里的可以说是一个关键字的存在，所以必须要单独引用起来以示区别 insert overwrite table article select ip as ip ,`Date` as `Dat ......

语句数据 hive sql更新时间 2023-10-13

hive大数据测试（时间数据清洗UDF打包到hive中调用自定义函数，hive表数据导出到本机）

1.数据清洗 pom依赖： <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <project.build.sourceEnco ......

数据 hive 函数时间 UDF更新时间 2023-10-13

《Hive性能优化实战》读书笔记

写在前面《Hive性能优化实战》是比较不错的一本hive技术书籍，介绍了hive相关的一些技术，一些基本的理论，看完能对hive优化方面略有了解；但有俩地方每种不足，一是没有那么多的实际的综合情况分析优化案例，这个有点可惜，要是多几个案例就很不错了；而是执行计划部分大多数整本书最吸引人的地方在 ......

实战性能笔记 Hive更新时间 2023-10-13

Hadoop-Operation category READ is not supported in state standby 故障解决

在查询hdfs时或者执行程序向hdfs写入数据时遇到报错：Operation category READ is not supported in state standby 意思是：该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行，例如：hadoop fs -ls ......

Hadoop-Operation Operation supported category 故障更新时间 2023-10-13

Hive-服务启动和停止命令

1、启动命令 #！/bin/bash nohup hive --service metastore >> $HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >> $HIVE_HOME/logs/hiveserv ......

命令 Hive更新时间 2023-10-13

虚拟机如何打开hive数据库

1、启动hodoop 2.、启动 hive的服务: metastore cd /export/server/apache-hive-3.1.2-bin/bin ./hive --service metastore 后台启动 nohup ./hive --service metastore & 3、 ......

数据库数据 hive更新时间 2023-10-13

Hadoop2伪分布式安装

最近有观看我主讲的《Hadoop基础与演练》课程的同学问到Hadoop环境到底应该怎么安装。Hadoop的安装其实非常的简单，网上有很多教程，官网也有示例。但是可能部分同学对于linux不太熟悉，导致安装的时候会遇到各种问题，打击学习激情。本文就来详细的讲解一下如何配置Hadoop2的伪分布式环境， ......

分布式 Hadoop2 Hadoop更新时间 2023-10-13

共900篇 :8/30页 首页上一页567891011下一页尾页