Hadoop 数据压缩

发布时间 2023-12-16 18:51:50作者: SpringCore

1.概述

1.好处 & 坏处

优点:减少磁盘IO、减少磁盘存储空间
缺点:增加CPU开销

2.压缩的原则

  1. 运算密集型的Job,少用压缩
  2. IO密集型的Job,多用压缩

2.MR 支持的压缩编码

1.压缩算法对比介绍

压缩格式 Hadoop自带? 算法 文件扩展名 是否可切片 换成压缩格式后,原来的程序是否需要修改
DEFLATE 是,直接使用 DEFLATE .deflate 和文本处理一样,不需要修改
Gzip 是,直接使用 DEFLATE .gz 和文本处理一样,不需要修改
bzip2 是,直接使用 bzip2 .bz2 和文本处理一样,不需要修改
LZ0 否,需要安装 LZ0 .lzo 需要建索引,还需要指定输入格式
Snappy 是,直接使用 Snappy .snappy 和文本处理一样,不需要修改

2.压缩性能的比较