526互联

hadoop3 hadoop hive3 hive

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候上面的错误可能有以下几种问题： 1.版本问题不匹配 2.时间参数问题设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功当时也在想是不是内存出现了问题 ......

Failed Spark HiveException exception 7bdabefe更新时间 2023-10-22

Unexpected character '=' (code 61); expected a semi-colon after the reference for entity 'useSSL' at [row,col,system-id]: [8,75,"file:/usr/bigdata/hive-3.1.3/conf/hive-site.xml"]

在初始化hive时报错，出现如下问题：错误原因：hive-site.xml 配置文件中，数据库的地址带有 & 符号。将数据库地址中的 & 符号调整为 &，详情如下：再次初始化hive，执行结果如下： ......

39 hive quot Unexpected semi-colon更新时间 2023-10-21

hadoop集群大数据项目实战_电信用户行为分析_day04

进行HIVE环境配置 1.上传相关的包 2.对上传的包进行下载和创建软连接 3.配置相关的文件 4.分别发送给其他机子假设你需要在所有机器执行同一个指令，则你就需要相关设置 5.在hive的onf文件中创建hive-site.xml进行相关设置 ```xml<configuration> <-- ......

行为分析大数集群实战行为更新时间 2023-10-20

hadoop官方文档解读

Hadoop是一个分布式计算框架，用于存储和处理大规模数据集。首先搞清楚为什么需要使用Hadoop Hadoop进行数据处理可以充分利用分布式计算和存储的优势，适用于大规模数据的批处理和分布式计算场景。裸机上进行数据处理则更适合小规模数据或需要实时处理的场景。在裸机上进行数据处理和使用Hado ......

文档官方 hadoop更新时间 2023-10-20

Hadoop 1

hadoop 的核心架构：包括hdfs 和 mapReduce, HDFS 为海量数据提供了存储，而MapReduce 为海量数据提供了计算框架。 HBase：实时分布式数据库，MapReduce：分布式计算框架，HDFS：分布式文件系统。 HDFS中包含三个重要角色： NameNode, Data ......

Hadoop更新时间 2023-10-20

hive表加字段

hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构 ......

字段 hive更新时间 2023-10-20

dremio hive 连接

dremio 对于hive 的连接实际上有两种方法，一种使用的是hive 的meta store ,一种是使用的hive jdbc server第一中是官方支持的，第二种官方缺少直接的支持，需要自己开发相关的arp 扩展一些参考实现 cdata 目前提供了一个开源实现，但是jdbc 驱动使用的是自 ......

dremio hive更新时间 2023-10-20

Hive中的regexp_replace函数

正则表达式替换函数：regexp_replace 语法：regexp_replace(string subject,string pattern,string str) subject为被替换的字符串，pattern为正则表达式，str为替换正则表达式的字符串（将字符串subject中符合正则表达式 ......

regexp_replace 函数 replace regexp Hive更新时间 2023-10-19

pyspark 连接hive

pyspark连接hive 想要spark能够连接上hive，就需要将hive的一些配置文件放到spark中，让spark可以通过配置文件中的metastore.uris找到hive的元数据库，从而访问hive. 1.将hive的conf文件夹下的hive-site.xml，复制到本地spark的c ......

pyspark hive更新时间 2023-10-19

hadoop集群大数据项目实战_电信用户行为分析_day03

配置系统环境 Reis 1.先把之前的dump.rdb删除掉 rm -rf dump.rdb 2.把原始项目给的dump.rdb 放进来，它里面包含了需要的数据，比如端口；在这部之前必须要进行关闭端口，随后传送文件，最后重启端口相关指令: bin/redis-server conf/redis.c ......

行为分析大数集群实战行为更新时间 2023-10-19

大数据Hive词频统计作业总结及出现的权限问题解决（每日总结10.18）

学习网站链接Hive3.1.3安装和使用指南_厦大数据库实验室博客 (xmu.edu.cn) 下面是我自己的作业完成过程 1.首先要启动hdfs集群和hive数据库 2.创建并导入文件进入到hadop目录下在命令行窗口输入下面的命令： hadoop fs -mkdir /input1 在电脑桌面 ......

词频权限数据问题 10.18更新时间 2023-10-18

HBase-通过外部表将Hive数据写入到HBase

a) 准备测试数据这里准备的csv文件data_test.csv,内容没用''包裹,逗号作为列分隔符 171301,燕青,男,27,发展部 171207,武松,男,39,开发部 171307,李逵,男,41,开发部 320812,宋江,男,45,战略部 321009,顾大嫂,女,38,后勤部 17 ......

HBase 数据 Hive更新时间 2023-10-18

关于Hive的常用HiveQL操作

创建hive数据仓库： create table docs(line string); 从hdfs上传文件到数据库： load data inpath 'file:///usr/local/hadoop/input' overwrite into table docs; 根据词汇查询词汇数量： cr ......

常用 HiveQL Hive更新时间 2023-10-17

使用go语言开发hive导出工具

前言新版 hive 提供了 beeline 工具，可以执行SQL并导出数据，不过操作还是有点复杂的，团队里有些同学不会Linux的基本操作，所以我花了亿点点时间写了个交互式的命令行工具方便使用。效果命令行工具，就是这么朴实无华。探索过程一开始是打算用 bash 脚本，结果发现根本不会写，b ......

语言工具 hive更新时间 2023-10-17

hive词频统计

1.首先在hadoop目录下创建一个input文件夹,并在文件夹里建立两个txt文件并写入信息第三行的echo命令会讲引号里的内容写入后边的文件,文件不存在的话会自动创建一个. 2.启动hive,创建一个名为docs的表,只含一列,列名为line,类型为string 3.将第一步input文件夹中 ......

词频 hive更新时间 2023-10-17

hadoop集群大数据项目实战_电信用户行为分析_day02

集群配置好后，运行一个小例子，统计单词 1.hdfs dfs -put 将本地系统的文件或文件夹复制到HDFS上 2.hdfs dfs -ls /output 将所有的文件显示出来 3.hdfs dfs -cat /output/ 将所有的文件读取出来下载part-r-000000 安装Redis ......

行为分析大数集群实战行为更新时间 2023-10-16

终于知道如何利用hive的日期转换函数进行日期格式的清洗啦~（之前用的外部数据清洗）

1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter ......

日期函数格式数据 hive更新时间 2023-10-15

Hadoop-3.3.5 自动安装

Hadoop-3.3.5 自动安装脚本为了方便数据科学与大数据技术的 hadoop-3.3.5 安装与配置目前适用于新安装的纯净虚拟机，未配置冲突检测.. 所以安装的话请使用全新创建的机器以避免错误... 如何使用 ssh localhost 输入你目前用户的密码 exit 退出当前ssh终端（ ......

Hadoop更新时间 2023-10-14

hadoop集群大数据项目实战_电信用户行为分析_day01

上图是相关配置的要求，主要创建了四个虚拟系统，有三台虚拟机搭建hadoop集群，一台作为业务系统。涉及到相关的Linux指令有::set nu[显示行号] :6[到第6行 shift+G跳到最后一行进入vi指令后查找相关东西/(你需要查找的东西) 1.配置环境、第一步设置网络参数，设置静态网络 ......

行为分析大数集群实战行为更新时间 2023-10-14

基于Docker搭建Hadoop+Hive

基于Docker搭建Hadoop+Hive 本文主要是照搬这篇文章的https://zhuanlan.zhihu.com/p/242658224，但是这篇文章有一些细节配置没有讲清楚，这里对其进行完善零、环境信息电脑配置 Ubuntu 20.04.6 LTS (Focal Fossa) 5.15 ......

Docker Hadoop Hive更新时间 2023-10-13

hive清洗数据sql语句报错

在本次的测试中sql语句清洗数据时下面,同时观察第一个语句中Date为啥要加这个单引号，原因是Date是sql语句里的可以说是一个关键字的存在，所以必须要单独引用起来以示区别 insert overwrite table article select ip as ip ,`Date` as `Dat ......

语句数据 hive sql更新时间 2023-10-13

hive大数据测试（时间数据清洗UDF打包到hive中调用自定义函数，hive表数据导出到本机）

1.数据清洗 pom依赖： <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <project.build.sourceEnco ......

数据 hive 函数时间 UDF更新时间 2023-10-13

《Hive性能优化实战》读书笔记

写在前面《Hive性能优化实战》是比较不错的一本hive技术书籍，介绍了hive相关的一些技术，一些基本的理论，看完能对hive优化方面略有了解；但有俩地方每种不足，一是没有那么多的实际的综合情况分析优化案例，这个有点可惜，要是多几个案例就很不错了；而是执行计划部分大多数整本书最吸引人的地方在 ......

实战性能笔记 Hive更新时间 2023-10-13

Hadoop-Operation category READ is not supported in state standby 故障解决

在查询hdfs时或者执行程序向hdfs写入数据时遇到报错：Operation category READ is not supported in state standby 意思是：该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行，例如：hadoop fs -ls ......

Hadoop-Operation Operation supported category 故障更新时间 2023-10-13

Hive-服务启动和停止命令

1、启动命令 #！/bin/bash nohup hive --service metastore >> $HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >> $HIVE_HOME/logs/hiveserv ......

命令 Hive更新时间 2023-10-13

虚拟机如何打开hive数据库

1、启动hodoop 2.、启动 hive的服务: metastore cd /export/server/apache-hive-3.1.2-bin/bin ./hive --service metastore 后台启动 nohup ./hive --service metastore & 3、 ......

数据库数据 hive更新时间 2023-10-13

Hadoop2伪分布式安装

最近有观看我主讲的《Hadoop基础与演练》课程的同学问到Hadoop环境到底应该怎么安装。Hadoop的安装其实非常的简单，网上有很多教程，官网也有示例。但是可能部分同学对于linux不太熟悉，导致安装的时候会遇到各种问题，打击学习激情。本文就来详细的讲解一下如何配置Hadoop2的伪分布式环境， ......

分布式 Hadoop2 Hadoop更新时间 2023-10-13

hive数据清洗,导入mysql

-- 用于清洗的表create table data1( `ip` string comment '城市', `date1` string comment '日期', `day` string comment '天数', `traffic` double comment '流量', `type` s ......

数据 mysql hive更新时间 2023-10-12

转换日期数据的格式函数（hive）

1、转换成标准格式--from_unixtime和unix_timestamp--默认情况下转成yyyy-MM-dd:HH:mm:ss select from_unixtime(unix_timestamp('16/08/2018','dd/MM/yyyy')); 2、原文件字段含有英文--月份英文 ......

函数日期格式数据 hive更新时间 2023-10-12

hive数据库指定删除首行数据

在我们将csv文件或者txt文件导入到虚拟机本地时，要是不提前将首行的数据指引删除，就会跟随着我们的期望数据显示在hive的数据库里面，上次测试，我就是直接在csv文件里面删除了，但是运行起来确实稍微慢了一点，要是数据条数再多一些，就很难直接在根文件里面进行删除，所以，我找到了一个新的方法，来排 ......

数据数据库 hive更新时间 2023-10-11

共760篇 :7/26页 首页上一页45678910下一页尾页