spark-hive spark hive

为什么物联网大数据平台,使用TDengine,可以不要Redis、Kafka和Spark等软件?

为什么物联网大数据平台,使用TDengine,可以不要Redis、Kafka和Spark等软件? - TDengine | 涛思数据 (taosdata.com) TDengine是一高效的时序空间大数据处理引擎,因为充分利用物联网、车联网、工业互联网等场景的数据特点并做了很多优化,因此性能上远胜通 ......
TDengine 数据 Redis Kafka Spark

hive数据库指定删除首行数据

在我们将csv文件或者txt文件导入到虚拟机本地时,要是不提前将首行的数据指引删除,就会跟随着我们的期望数据显示在hive的数据库里面, 上次测试,我就是直接在csv文件里面删除了,但是运行起来确实稍微慢了一点,要是数据条数再多一些,就很难直接在根文件里面进行删除,所以,我找到了一个新的方法, 来排 ......
数据 数据库 hive

LAS Spark 在 TPC-DS 的优化揭秘

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 文章主要介绍了火山引擎湖仓一体分析服务 LAS Spark(下文以 LAS Spark 指代)在 TPC-DS 上的性能突破与优化策略。TPC-DS 是一个模拟复杂数据仓库环境的测试基准,LAS Spark 通过采 ......
TPC-DS Spark LAS TPC DS

【大数据】FindBi配置Hive

安装FineBi 1:百度云链接:https://pan.baidu.com/s/1u9QHGzo9v9Wcrn5iJU4hQg?pwd=sotc (这里安装的时候你可能需要登录到官网注册获取激活码)https://www.finebi.com/ 2: 将Hive驱动包放入指定目录 D:\FineB ......
数据 FindBi Hive

1. Spark RDD

一、Spark RDD 1. RDD是什么 RDD,即弹性分布式数据集(Resilient Distributed Dataset),是Spark对数据的抽象,本质上是分布在多个节点上的数据集合。 弹性是指当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。 分布式数据集是指一个数据集 ......
Spark RDD

【大数据】HIVE大全

HIVE 内部表与外部表的区别 # HIVE储存数据位置 [hadoop@test1 hive]$ hadoop fs -ls /user/hive/warehouse/testhive.db/info/ Found 1 items -rw-r--r-- 3 hadoop supergroup .. ......
数据 大全 HIVE

Spark 使用遇到的问题

Spark 使用遇到的问题 环境信息 IDEA版本:Build #IU-232.8660.185, built on July 26, 2023 系统版本:Macos 14.0 Docker版本: 一、Docker运行Spark集群 这里使用bitnami发行的spark image github文 ......
问题 Spark

【大数据】HIVE部署(文档版本)

Mysql 安装配置远程登录 # 更新密钥 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 # 安装Mysql yum库 rpm -Uvh http://repo.mysql.com//mysql57-community-rele ......
版本 文档 数据 HIVE

Spark相关学习之基础认识

1、Spark相关概念介绍 是一个分布式计算框架; 2、Spark的框架模块 3、Spark运行模式 Spark总结概述: 4、Local模式 ......
基础 Spark

hive知识点散记

在不切换数据库的前提下查询某一数据库下的所有表 show tables in 数据库名; 查询显示某一张表的元数据信息 desc formatted 表名; 查询当前数据库名称 select current_databases(); 对查询结果进行去重 select distinct cname f ......
散记 知识点 知识 hive

Spark算子实现wordCount的十种方法

//groupBy def wordCount1(sc:SparkContext) = { val rdd = sc.makeRDD(List("hello scala","hello spark")) val words: RDD[String] = rdd.flatMap(_.split(" " ......
算子 wordCount 方法 Spark

LINUX:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

如图,问题表现为linux中可直接通过hive进行数据插入 但在通过datagrip却更改不了 此时,可能时yarn的运行分配的内存较少,或堆内存溢出。在yarn-site.xml中更改,以及mapred-site.xml中更改,完成。 yarn的 <property> <name>yarn.sch ......
MapRedTask Execution FAILED return apache

linux中hive常用命令

kill -9 29676 杀死进程 ps -ef|grep 23697 查看进程 tail -f logs/hiveserver2.log 查看2信息 nohup bin/hive --service hiveserver2 >> logs/hiveserver2.log 2>&1 & 后台加载报 ......
命令 常用 linux hive

MapReduce和Spark读取HBase快照表

1.概述 随着大数据技术的不断发展,处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型,为处理大规模数据提供了有效的解决方案。在这篇博客中,我们将探讨如何使用MapReduce框架读取快照表(Snapshot Table)的数据。快照表是一种记录某一时刻系统状态的表格,通过Ma ......
快照 MapReduce HBase Spark

MySQL到TiDB:Hive Metastore横向扩展之路

本文介绍了vivo在大数据元数据服务横向扩展道路上的探索历程,由实际面临的问题出发,对当前主流的横向扩展方案进行了调研及对比测试,通过多方面对比数据择优选择TiDB方案。其次分享了整个扩展方案流程、实施遇到的问题及解决方案,对于在大数据元数据性能上面临同样困境的开发者本篇文章具有非常高的参考借鉴价值... ......
横向 Metastore MySQL Hive TiDB

spark环境部署之wordCount初体验

一.安装spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 ......
wordCount 环境 spark

Hive函数高阶——explode函数、UDAF聚合函数

1、explode函数(输入一行,输出多行) 引入lateral view侧视图的概念解决上面问题的限制: 2、UDAF聚合函数 增强聚合——grouping sets(相当于union all) 增强聚合——cube 增强聚合——rollup(是cube的子集,以左侧维度为主) ......
函数 高阶 explode Hive UDAF

Hive函数入门——内置函数+用户定义函数

1、内置函数 1、字符串、时间类型函数 之前也是在c语言里面学过,包括concat、split等; 时间类型函数: 前不久用到的函数: date_add >当前日期的后的第几天的日期; date_sub >当前日期的前的第几天的日期; 2、数学函数、集合函数 round--取整数值(还能指定保留的精 ......
函数 用户 Hive

Hive内置运算符(就当是缓缓脑袋吧~)

1、查看所有运算符 show functions; 2、关系运算符--是二元运算符,执行的是比较运算 每个关系运算符返回的都是boolean类型; 3、算术运算符--操作数必须为数字类型,分为一元运算符和二元运算符 4、逻辑运算符 与之前学过的一样,没难度; ......
运算符 脑袋 Hive

每日随笔——hive数据分析4

在前面的博客中,我们已经完成了数据的导入,清洗以及将hive数据库中的数据导入到windows系统的mysql数据库 到目前为止,我们已将项目完成了大部分,现在就剩下实现可视化界面,完成柱状图了,这个需要eharts 下面是网址:https://echarts.apache.org/zh/index ......
数据分析 随笔 数据 hive

大数据 | Hive使用示例

数据库中,通常会针对一个或者几个列建立索引,因此对于少量的特定条件的数据的访问,数据库可以有很高的效率,较低的延迟。Hive对数据的访问延迟较高,决定了Hive不适合在线数据查询。 ......
示例 数据 Hive

大数据 | Spark基本使用示例

欢迎参观我的博客,一个Vue 与 SpringBoot结合的产物:https://poetize.cn 博客:https://gitee.com/littledokey/poetize-vue2.git 聊天室:https://gitee.com/littledokey/poetize-im-vue ......
示例 数据 Spark

Hive学习之CLIS和Commands客户端命令

1、Batch Mode批处理模式 在bin/hive后面使用-e或者-f时,就会进入到批处理模式,运行完成这一句命令,就会直接退出hive命令行 例如, bin/hive -e 'show databases' 2、Interactive Shell 交互式模式 该模式运行完成后并不退出hive命 ......
客户端 Commands 命令 客户 Hive

Hive学习之DQL

1、update和delete操作 hive表如果不是事务表,就无法进行update操作 stored as orc TBLPROPERTIES('transactional'='true') 将表定义为事务表,之后进行update操作,就不会报错了。 2、select查询数据 就是跟mysql十分 ......
Hive DQL

Hive中创建ETL表进行数据清洗

问题描述 今天看到这么一个问题: 看到清洗这两个字,就觉得可高级可高级了!!! 所以,就把这个问题的解决方法也看了看,学了学; 问题的具体解决方法 看到了对ETL的分析(抽取-->过滤-->加载): 首先创建一个在原表的结构基础上,新增我们所需数据的字段的表; 然后执行insert+select操作 ......
数据 Hive ETL

Hive学习4(ETL)

etl数据清洗:案例一 需求1:对字段为空的不合法数据进行过滤 Where过滤 需求2:通过时间字段构建天和小时字段 Substr函数 需求3:从GPS的经纬度中提取经度和维度 Split函数 需求4:将ETL以后的结果保存到一张新的Hive表中 Create table …… as select ......
Hive ETL

Hive数据仓库的学习——DML学习

1、load加载 load语法: 2、Hive3.X新特性 能够使用load将文件数据存储到分区中,将分区默认作为表格数据的最后一列; 3、insert+select向表插入数据 这个语法就是在上次测试的时候遇到过的问题嘞! insert+values这个语法执行效率就很慢,而换用insert+se ......
仓库 数据 Hive DML

Hive数据仓库的学习——DDL之内部表、外部表、分区表、分桶表

1、内部表和外部表 没有指定建表的类型的话,默认为内部表(Internal Table或者是Managed Table) 可以通过这行代码查看表的类型: describe formatted 表名; 内部表和外部表的区别以及适合使用的范围: 2、分区表--避免全表扫描,提高查询效率 需要注意的是,在 ......
仓库 数据 Hive DDL

本地测试Spark的svm算法

上一篇介绍了逻辑回归算法,发现分类效果不好,通过这次的svm发现是因为训练数据不行,于是网上找了部分训练数据,发现实际上分类效果还可以。 训练数据,第一个值是标签,下面的数据是某种花的相关特征。 1|5.1,3.5,1.4,0.2 1|4.9,3,1.4,0.2 1|4.7,3.2,1.3,0.2 ......
算法 Spark svm

Hive数据仓库的学习--DDL部分

1、建表语法 2、数据类型转换函数CAST--也就是强制转换 例如, CAST('100' AS INT) 3、有关于SerDe的描述 序列化和反序列化————用于从文件中读取和数据写入文件的操作(通俗来说,就是分辨分隔符,读取有效数据存储到数据库中); 4、rowformat 指定具体的分隔符是什 ......
仓库 部分 数据 Hive DDL