spark-hive spark hive

火山引擎 LAS Spark 升级：揭秘 Bucket 优化技术

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群文章介绍了 Bucket 优化技术及其在实际业务中的应用，包括 Spark Bucket 的基本原理，重点阐述了火山引擎湖仓一体分析服务 LAS（下文以 LAS 指代）Spark 对 Bucket 优化的功能增强， ......

火山引擎 Bucket Spark 技术更新时间 2023-10-25

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存当本地内存不足时，可以使用虚拟内存将一些内存数据转移到硬盘上，从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序，不会出现内存不足的情况。减轻物理存储器不足的压力，设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上，解决内存不足问题。通过虚拟内存， ......

集群 zookeeper docker hadoop hbase更新时间 2023-10-24

基于docker容器，搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......

集群容器 Zookeeper docker hadoop更新时间 2023-10-24

虚拟机的Spark安装步骤

相关代码截图 //解压压缩包 tar -zxvf spark-3.2.4-bin-hadoop3.2.tgz //配置环境变量 vi /etc/profile //添加内容 # spark $PARK_HOME=/export/server/spark-3.2.4-bin-hadoop3.2 exp ......

步骤 Spark更新时间 2023-10-23

Hive学习笔记：多列求最大值、最小值

一、最大值当在 Hive 中需要对多列数据求最大值时，可以使用函数 greatest(a, b, c, d) 实现。 select greatest(a, b, c) from ( select 10 as a, 20 as b, 30 as c ) dd; -- 结果：30 举个具体栗子：计算用 ......

最大值笔记 Hive更新时间 2023-10-23

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候上面的错误可能有以下几种问题： 1.版本问题不匹配 2.时间参数问题设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功当时也在想是不是内存出现了问题 ......

Failed Spark HiveException exception 7bdabefe更新时间 2023-10-22

Unexpected character '=' (code 61); expected a semi-colon after the reference for entity 'useSSL' at [row,col,system-id]: [8,75,"file:/usr/bigdata/hive-3.1.3/conf/hive-site.xml"]

在初始化hive时报错，出现如下问题：错误原因：hive-site.xml 配置文件中，数据库的地址带有 & 符号。将数据库地址中的 & 符号调整为 &，详情如下：再次初始化hive，执行结果如下： ......

39 hive quot Unexpected semi-colon更新时间 2023-10-21

hive表加字段

hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构 ......

字段 hive更新时间 2023-10-20

dremio hive 连接

dremio 对于hive 的连接实际上有两种方法，一种使用的是hive 的meta store ,一种是使用的hive jdbc server第一中是官方支持的，第二种官方缺少直接的支持，需要自己开发相关的arp 扩展一些参考实现 cdata 目前提供了一个开源实现，但是jdbc 驱动使用的是自 ......

dremio hive更新时间 2023-10-20

【大数据】Spark On Yarn 理解（图文）

基本架构 1：ResourceManager（资源管理器）：ResourceManager是YARN的核心组件，负责管理和分配集群资源。它接收来自Spark应用程序的资源请求，并根据可用资源情况进行分配和调度。 2：NodeManager（节点管理器）：NodeManager是每个节点上的代理程序， ......

图文数据 Spark Yarn On更新时间 2023-10-19

Hive中的regexp_replace函数

正则表达式替换函数：regexp_replace 语法：regexp_replace(string subject,string pattern,string str) subject为被替换的字符串，pattern为正则表达式，str为替换正则表达式的字符串（将字符串subject中符合正则表达式 ......

regexp_replace 函数 replace regexp Hive更新时间 2023-10-19

【大数据】Spark部署与启动（文档）

Python 环境准备 Anaconda3： https://pan.baidu.com/s/1e4Wx48RsW0Pm_saotxTW4A?pwd=66ki [root@test1 ~]# cd /export/ [root@test1 export]# rz # 上传源文件包 [root@tes ......

文档数据 Spark更新时间 2023-10-19

pyspark 连接hive

pyspark连接hive 想要spark能够连接上hive，就需要将hive的一些配置文件放到spark中，让spark可以通过配置文件中的metastore.uris找到hive的元数据库，从而访问hive. 1.将hive的conf文件夹下的hive-site.xml，复制到本地spark的c ......

pyspark hive更新时间 2023-10-19

大数据Hive词频统计作业总结及出现的权限问题解决（每日总结10.18）

学习网站链接Hive3.1.3安装和使用指南_厦大数据库实验室博客 (xmu.edu.cn) 下面是我自己的作业完成过程 1.首先要启动hdfs集群和hive数据库 2.创建并导入文件进入到hadop目录下在命令行窗口输入下面的命令： hadoop fs -mkdir /input1 在电脑桌面 ......

词频权限数据问题 10.18更新时间 2023-10-18

HBase-通过外部表将Hive数据写入到HBase

a) 准备测试数据这里准备的csv文件data_test.csv,内容没用''包裹,逗号作为列分隔符 171301,燕青,男,27,发展部 171207,武松,男,39,开发部 171307,李逵,男,41,开发部 320812,宋江,男,45,战略部 321009,顾大嫂,女,38,后勤部 17 ......

HBase 数据 Hive更新时间 2023-10-18

LAS Spark+云原生：数据分析全新解决方案

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群随着数据规模的迅速增长和数据处理需求的不断演进，云原生架构和湖仓分析成为了现代数据处理的重要趋势。在这个数字化时代，企业面临着海量数据的挑战和机遇，而构建可扩展、灵活且高效的数据分析平台成为了迫切的需求。文章主要 ......

数据分析解决方案全新方案数据更新时间 2023-10-18

关于Hive的常用HiveQL操作

创建hive数据仓库： create table docs(line string); 从hdfs上传文件到数据库： load data inpath 'file:///usr/local/hadoop/input' overwrite into table docs; 根据词汇查询词汇数量： cr ......

常用 HiveQL Hive更新时间 2023-10-17

使用go语言开发hive导出工具

前言新版 hive 提供了 beeline 工具，可以执行SQL并导出数据，不过操作还是有点复杂的，团队里有些同学不会Linux的基本操作，所以我花了亿点点时间写了个交互式的命令行工具方便使用。效果命令行工具，就是这么朴实无华。探索过程一开始是打算用 bash 脚本，结果发现根本不会写，b ......

语言工具 hive更新时间 2023-10-17

spark sql使用--创建SparkDataFrame

Spark SQL模块这个模块是Spark中用来处理结构化数据的，提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。在RDD阶段，程序的执行入口对象是： SparkContext 在Spark 2.0后，推出了SparkSession对象，作为Spark编码的统一入 ......

SparkDataFrame spark sql更新时间 2023-10-17

hive词频统计

1.首先在hadoop目录下创建一个input文件夹,并在文件夹里建立两个txt文件并写入信息第三行的echo命令会讲引号里的内容写入后边的文件,文件不存在的话会自动创建一个. 2.启动hive,创建一个名为docs的表,只含一列,列名为line,类型为string 3.将第一步input文件夹中 ......

词频 hive更新时间 2023-10-17

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中，Apache Spark 以其独特的优势脱颖而出 ......

入门指南概念基础指南 Spark更新时间 2023-10-15

终于知道如何利用hive的日期转换函数进行日期格式的清洗啦~（之前用的外部数据清洗）

1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter ......

日期函数格式数据 hive更新时间 2023-10-15

基于Docker搭建Hadoop+Hive

基于Docker搭建Hadoop+Hive 本文主要是照搬这篇文章的https://zhuanlan.zhihu.com/p/242658224，但是这篇文章有一些细节配置没有讲清楚，这里对其进行完善零、环境信息电脑配置 Ubuntu 20.04.6 LTS (Focal Fossa) 5.15 ......

Docker Hadoop Hive更新时间 2023-10-13

hive清洗数据sql语句报错

在本次的测试中sql语句清洗数据时下面,同时观察第一个语句中Date为啥要加这个单引号，原因是Date是sql语句里的可以说是一个关键字的存在，所以必须要单独引用起来以示区别 insert overwrite table article select ip as ip ,`Date` as `Dat ......

语句数据 hive sql更新时间 2023-10-13

hive大数据测试（时间数据清洗UDF打包到hive中调用自定义函数，hive表数据导出到本机）

1.数据清洗 pom依赖： <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <project.build.sourceEnco ......

数据 hive 函数时间 UDF更新时间 2023-10-13

《Hive性能优化实战》读书笔记

写在前面《Hive性能优化实战》是比较不错的一本hive技术书籍，介绍了hive相关的一些技术，一些基本的理论，看完能对hive优化方面略有了解；但有俩地方每种不足，一是没有那么多的实际的综合情况分析优化案例，这个有点可惜，要是多几个案例就很不错了；而是执行计划部分大多数整本书最吸引人的地方在 ......

实战性能笔记 Hive更新时间 2023-10-13

Hive-服务启动和停止命令

1、启动命令 #！/bin/bash nohup hive --service metastore >> $HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >> $HIVE_HOME/logs/hiveserv ......

命令 Hive更新时间 2023-10-13

虚拟机如何打开hive数据库

1、启动hodoop 2.、启动 hive的服务: metastore cd /export/server/apache-hive-3.1.2-bin/bin ./hive --service metastore 后台启动 nohup ./hive --service metastore & 3、 ......

数据库数据 hive更新时间 2023-10-13

hive数据清洗,导入mysql

-- 用于清洗的表create table data1( `ip` string comment '城市', `date1` string comment '日期', `day` string comment '天数', `traffic` double comment '流量', `type` s ......

数据 mysql hive更新时间 2023-10-12

转换日期数据的格式函数（hive）

1、转换成标准格式--from_unixtime和unix_timestamp--默认情况下转成yyyy-MM-dd:HH:mm:ss select from_unixtime(unix_timestamp('16/08/2018','dd/MM/yyyy')); 2、原文件字段含有英文--月份英文 ......

函数日期格式数据 hive更新时间 2023-10-12

共620篇 :6/21页 首页上一页3456789下一页尾页