spark-hive spark hive

技术实践｜Hive数据迁移干货分享

导语 Hive是基于Hadoop构建的一套数据仓库分析系统，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。它的优点是可以通过类SQL语句快速实现简单的MapReduce统计，不用再开发专门的MapReduce应用程序，从而降低学习成本，十分适合对数据仓库进行统计分析。近几年 ......

干货数据技术 Hive更新时间 2023-08-28

Spring Boot集成Mybatis-plus+hive

运行环境 jdk1.8 springboot：2.7.15 1.在pom.xml文件中加入 <dependency> <groupId>com.baomidou</groupId> <artifactId>mybatis-plus-boot-starter</artifactId> <version ......

Mybatis-plus Mybatis Spring Boot plus更新时间 2023-08-27

hive SQL案例

上个月用户连续n天登录天数用户登录记录表user_login，包括用户id（user_id）、日期（login_date） user_id login_date 12333256 2021-01-03 84272916 2021-01-03 94038271 2021-01-02 20193401 ......

案例 hive SQL更新时间 2023-08-27

8.21-8.27学习总结博客七：Spark机器学习与实时处理

博客题目：学习总结七：Spark机器学习与实时处理入门内容概要：学习使用Spark进行机器学习和实时数据处理的基本知识，了解Spark的机器学习库和实时处理框架。学习资源：推荐的Spark机器学习和实时处理教程、案例和学习资源。实践内容：通过编写Spark应用程序，实践使用Spark进行机器学习和实 ......

实时机器 Spark 博客 8.21更新时间 2023-08-26

Spark任务提交到Yarn状态一直是Accepted

## 现象今天提交 Spark 任务到 Yarn 集群，但是任务状态一直是 Accepted: ``` 23/08/25 14:59:55 INFO Client: Application report for application_1692971614101_0018 (state: ACCE ......

Accepted 状态任务 Spark Yarn更新时间 2023-08-25

Hadoop 和 Spark 简介

# Hadoop 和 Spark 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop 过去一直是大数据的经典解决方案，它包含两个部分：Hadoop HDFS 和 Ha ......

简介 Hadoop Spark更新时间 2023-08-25

Hive 刷题——银行可以支付监测

场景说明有一个支付流水表，关键字段：用户，交易时间，交易金额，现在规定：两个小时内交易此时大于2且交易总结金大于100000的用户为可疑用户，现在需要使用HiveSQL 进行监测数据准备 CREATE TABLE transfer_log ( log_id INTEGER, log_ts TIM ......

银行 Hive更新时间 2023-08-25

Hive服务部署相关步骤

# 一、hiveserver2服务部署 # 1、配置hadoop下面的core-site.xml文件进入到相应的目录下： ``` cd /root/software/hadoop-3.0.0/etc/hadoop ``` 编辑core-site.xml文件，将下面的语句补充到里面： ``` had ......

步骤 Hive更新时间 2023-08-24

spingboot集成hive

因为开学要考就是把数据库换成hive那些做个web网站，所有提前做个小demo测试下。首先呢就是pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns ......

spingboot hive更新时间 2023-08-24

hive整个服务启动流程

首先是 start-all.sh 然后打开历史服务器： mapred --daemon start historyserver 最后首先启动metastore服务，然后启动hiveserver2服务 nohup bin/hive --service metastore >> logs/metasto ......

流程 hive更新时间 2023-08-24

org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state would be inconsistent !!问题的解决

# 问题描述上次还是初始化很快，这次直接出错，我觉得可能是已经初始化一次的原因； ![](https://img2023.cnblogs.com/blog/2808014/202308/2808014-20230824183000271-327012060.png) # 问题解决进入到mysql ......

HiveMetaException initialization inconsistent Metastore metastore更新时间 2023-08-24

apache spark connect 试用

spark connect 3.4 开始就支持了connect 模式，3.4.1 比较稳定了 connect server 启动实际上就是一个spark 引用，通过spark_submit 提交到spark 环境中启动 ./sbin/start-connect-server.sh --packa ......

connect apache spark更新时间 2023-08-22

Spark RDD惰性计算的自主优化

原创/朱季谦 RDD（弹性分布式数据集）中的数据就如final定义一般，只可读而无法修改，若要对RDD进行转换或操作，那就需要创建一个新的RDD来保存结果。故而就需要用到转换和行动的算子。 Spark运行是惰性的，在RDD转换阶段，只会记录该转换逻辑而不会执行，只有在遇到行动算子时，才会触发真正的运 ......

惰性 Spark RDD更新时间 2023-08-22

Hive执行计划详解

## 什么是Hive SQL执行计划 Hive SQL执行计划描绘了SQL实际执行的整体轮廓，即**SQL转化为对应计算引擎的执行逻辑**；毫无疑问，这一块对于Hive SQL的优化是非常重要的。 Hive SQL早期是基于规则的方式生成执行计划，在Hive 0.14及之后，集成了Apache Ca ......

Hive更新时间 2023-08-22

基于Hive数仓实现需求开发

# 1、建库建表与加载数据 ![](https://img2023.cnblogs.com/blog/2808014/202308/2808014-20230822101522516-97193522.png) 上传到HDFS，即加载数据，可以使用命令行进行上传，还可以直接在网页里面进行上传；在D ......

需求 Hive更新时间 2023-08-22

spark on k8s 开发部署简单实践

实际上就是一个简单的实践，方便参考，对于开发以及运行，集成ci/cd 以及dophinscheduler 任务调度为了方便开发的spark 应用共享以及使用基于s3 进行文件存储（当然dophinscheduler 也是支持自己的资源库的）参考图玩法说明基于gitlab 进行代码管理，通过ci ......

spark k8s on k8 8s更新时间 2023-08-21

Hive相关学习

# 1、服务启动 ![](https://img2023.cnblogs.com/blog/2808014/202308/2808014-20230821161258541-1598369060.png) ![](https://img2023.cnblogs.com/blog/2808014/20 ......

Hive更新时间 2023-08-21

hive sql运行时候reduce 只有2个问题解决

我们在explan sql 时候发现 width 是负数，事实上原因 width是通过data Size / rowNum计算出来的，这两个参数都是在执行计划中根据每个operator通过stats计算出来的。对于select query来说，data size是根据column stats、尤其是 ......

只有时候 reduce 问题 hive更新时间 2023-08-21

大数据技术Spark之RDD基础编程

# 大数据技术Spark之RDD基础编程 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 ### 一、RDD的两种创建方式 1. ......

基础数据 Spark 技术 RDD更新时间 2023-08-21

Spark安装的配置相关步骤

# 1、Spark下载地址：https://archive.apache.org/dist/spark/ 选择自己适合的版本： ![](https://img2023.cnblogs.com/blog/2808014/202308/2808014-20230817210052623-54781902 ......

步骤 Spark更新时间 2023-08-20

spark环境搭建

## 我们在上一篇文章中搭建了相关的Hadoop,现在我们来搭建spark环境 Hadoop搭建 [https://www.cnblogs.com/xiaozhounandu/p/14166282.html] ### 前言(注意，spark和Scala环境及配置文件必须每个节点都必须要有！！！) S ......

环境 spark更新时间 2023-08-19

Hive 刷题——查看每件商品的售价涨幅情况

题目描述从商品价格变更明细表（sku_price_modify_detail），得到最近一次价格的涨幅情况，并按照涨幅升序排序。结果如下： sku_id<string>（商品id）price_change<decimal(16,2)>（涨幅） 8 -200.00 9 -100.00 2 -70. ......

涨幅售价情况商品 Hive更新时间 2023-08-19

8.14-8.20学习总结博客五：Hive进阶与复杂查询

博客题目：学习总结五：Hive进阶与复杂查询实践内容概要：学习Hive进阶的使用方法，包括复杂查询、数据转换和性能优化等方面的知识。学习资源：推荐的Hive进阶教程、实践案例和性能优化技巧。实践内容：通过编写复杂的Hive查询语句，探索Hive的高级功能和性能优化方法，并分享实践中的挑战和解决方案。 ......

博客 8.14 8.20 Hive 14更新时间 2023-08-19

MYSQL与Hive配置的相关步骤

# 1、配置元数据到MYSQL #### 1、新建Hive元数据库登录Mysql： ``` mysql -uroot -p //不加分号 ``` ![](https://img2023.cnblogs.com/blog/2808014/202308/2808014-2023081715275115 ......

步骤 MYSQL Hive更新时间 2023-08-17

Apache hive安装配置的相关步骤

# 1、Hive下载地址http://archive.apache.org/dist/hive/ 我选择的是Hive的这个版本： ![](https://img2023.cnblogs.com/blog/2808014/202308/2808014-20230817095816544-1154047 ......

步骤 Apache hive更新时间 2023-08-17

hive排序函数 rank、dense_rank、row_number

rank函数：对有序序列编号，当排序字段取值相同时编号相同，且下一条取值不同记录的编号不连续。如序列为：13,13,13,13,13,14,…对应的排序编号为1,1,1,1,1,6,… dense_rank函数：对有序序列编号，当排序字段相同时编号相同，且下一条记录的编号仍连续。如序列为：13,13 ......

rank dense_rank row_number 函数 number更新时间 2023-08-17

Apache Hive相关基础学习

# 1、Hive概念 ![](https://img2023.cnblogs.com/blog/2808014/202308/2808014-20230816141336599-82360523.png) 使用Hive处理数据的好处： ![](https://img2023.cnblogs.com/ ......

基础 Apache Hive更新时间 2023-08-16

Spark异常总结

1、Spark读写同一张表报错问题Cannot overwrite a path that is also being read from 问题描述：Spark SQL在执行ORC和Parquet格式的文件解析时，默认使用Spark内置的解析器（Spark内置解析器效率更高），这些内置解析器不支持递 ......

Spark更新时间 2023-08-16

spark中decode函数

decode函数 decode(bin, charset) - 使用第二个参数字符集解码第一个参数。 decode(expr, search, result [, search, result ] ... [, default]) - 解码比较 expr 对每个搜索值一一进行。如果 expr 等于搜 ......

函数 decode spark更新时间 2023-08-15

HIve 刷题——同一时刻异地登录问题

题目描述从登录明细表（user_login_detail）中查询在相同时刻，多地登陆（ip_address不同）的用户题目需求从登录明细表（user_login_detail）中查询在相同时刻，多地登陆（ip_address不同）的用户期望结果如下： user_id<string>(用户id ......

异地时刻问题 HIve更新时间 2023-08-15

共620篇 :11/21页 首页上一页891011121314下一页尾页