每日总结0925

发布时间 2023-09-25 20:12:22作者: 十乂

HIVE数据分析检验报告

2105-3 张博文

  1. 数据导入

使用VM中下载的虚拟机工具将csv文件导入到虚拟机中并记住存储路径

 

建表:

 

DataGrip连接hive:

 

将数据导入到test2表中:

 

 

  1. 数据清洗:

创建一个一样的表test3,然后将数据清洗到该表

insert overwrite table test3 select date_add('2021-8-31',cast(day_id AS INT)) as day_id,sale_nbr,buy_nbr,cnt,round from test2;

 

  1. 数据处理分析:

  首先创建一个存储该数据的表text3_1

Create table text3_1(day_id varchar(30), sale_nbr varchar(30), cnt varchar(30), round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES

    (

        "separatorChar"=","

    )

STORED AS TEXTFILE;

 

以此类推创建其余的三个表。

 

 

4.处理结果入库:将数据导入到MySQL中

 

 

 

5.可视化分析: