一、大数据生态

目前大数据生态圈中的核心技术总结下来如图1所示，分为以下9类，下面分别介绍。

数据采集也被称为数据同步。

随着互联网、移动互联网、物联网等技术的兴起，产生了海量数据。这些数据散落在各个地方，我们需要将这些数据融合到一起，然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础，没有数据采集，何谈大数据！

数据采集技术框架包括以几种。

Flume、Logstash和FileBeat的技术选型如图所示。

Sqoop和Datax之间的技术选型如图所示。

Cannal和Maxwell之间的技术选型如图4所示。

数据的快速增长推动了技术的发展，涌现出了一批优秀的、支持分布式的存储系统。

数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。

HDFS它可以解决海量数据存储的问题，但是其最大的缺点是不支持单条数据的修改操作，因为它毕竟不是数据库。
HBase是一个基于HDFS的分布式NoSQL数据库。这意味着，HBase可以利用HDFS的海量数据存储能力，并支持修改操作。但HBase并不是关系型数据库，所以它无法支持传统的SQL语法。
Kudu是介于HDFS和HBase之间的技术组件，既支持数据修改，也支持基于SQL的数据分析功能；目前Kudu的定位比较尴尬，属于一个折中的方案，在实际工作中应用有限。
Kafka常用于海量数据的临时缓冲存储，对外提供高吞吐量的读写能力。

在传统的IT领域中，企业的服务器资源（内存、CPU等）是有限的，也是固定的。但是，服务器的应用场景却是灵活多变的。例如，今天临时上线了一个系统，需要占用几台服务器；过了几天，需要把这个系统下线，把这几台服务器清理出来。

在大数据时代到来之前，服务器资源的变更对应的是系统的上线和下线，这些变动是有限的。

随着大数据时代的到来，临时任务的需求量大增，这些任务往往需要大量的服务器资源。

如果此时还依赖运维人员人工对接服务器资源的变更，显然是不现实的。

因此，分布式资源管理系统应运而生，常见的包括YARN、Kubernetes和Mesos，它们的典型应用领域如图所示。

4.数据计算技术框架

数据计算分为离线数据计算和实时数据计算。

（1）离线数据计算

大数据中的离线数据计算引擎经过十几年的发展，到目前为止主要发生了3次大的变更。

MapReduce可以称得上是大数据行业的第一代离线数据计算引擎，主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是，将计算逻辑抽象成Map和Reduce两个阶段进行处理。
Tez计算引擎在大数据技术生态圈中的存在感较弱，实际工作中很少会单独使用Tez去开发计算程序。
Spark最大的特点就是内存计算：任务执行阶段的中间结果全部被放在内存中，不需要读写磁盘，极大地提高了数据的计算性能。Spark提供了大量高阶函数（也可以称之为算子），可以实现各种复杂逻辑的迭代计算，非常适合应用在海量数据的快速且复杂计算需求中。

（2）实时数据计算

业内最典型的实时数据计算场景是天猫“双十一”的数据大屏。

数据大屏中展现的成交总金额、订单总量等数据指标，都是实时计算出来的。

用户购买商品后，商品的金额就会被实时增加到数据大屏中的成交总金额中。

用于实时数据计算的工具主要有以下3种。

Spark Streaming和Storm、Flink之间的区别见表。

Storm、Spark、Flink 之间的技术选型如图6所示。

目前企业中离线计算主要使用Spark，实时计算主要使用Flink。

数据分析技术框架包括Hive、Impala、Kylin、Clickhouse、Druid、Doris等，它们的典型应用场景如图所示。

Hive、Impala和Kylin属于典型的离线OLAP（Online AnalyticalProcessing）数据分析引擎，主要应用在离线数据分析领域，它们之间的区别见表。

Clickhouse、Druid和Doris属于典型的实时OLAP数据分析引擎，主要应用在实时数据分析领域，它们之间的区别见表。

Druid和Doris是可以支持高并发的，ClickHouse的并发能力有限；Druid中的SQL支持是有限的，ClickHouse支持非标准SQL，Doris支持标准SQL，对SQL支持比较好。
Druid和ClickHouse的成熟程度目前相对比较高，Doris处于快速发展阶段。