Sqoop 数据导入hive size大小如何控制?

发布时间 2023-07-20 09:32:29作者: 墨梅青莲

描述:sqoop 从 hana 导入数据到 hive,数据量1300万,当 设置参数 -m 7 时,产生7个文件,但只有 3 个有数据,且大小不一,600多m,300dm,40m,修改参数为 -m 5,文件变成了5个,但是有数据的还是那三个,奇怪 该如何控制文件大小接近块大小。

 

修改 -m 1时,倒是变成了一个 1.04GB 的文件

修改 -m 2时,一个627.22MB,一个 437.36MB

修改 -m 3时,一个633.24 MB,一个392.31 MB,一个39.03 MB

修改 -m 4时,一个588.19 MB,一个392.31 MB,一个345.06 MB,一个39.03 MB

修改 -m 5时,一个633.24 MB,一个392.31 MB,一个39.03 MB

修改 -m 6时,一个588.19 MB,一个392.31 MB,一个345.06 MB,一个39.03 MB

 

查询 分区字段 按照四等分查询数量,没有明显差距

数量
11608524 16341564 2553845
16341564 21074603 3095375
21074603 25807643 3566136
25807643 30540682 4366937

很奇怪,不知道为什么。