Spark开始-526互联

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。

简而言之，Spark 借鉴了 MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提

高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark是一款分布式内存计算的统一分析引擎。

其特点就是对任意类型的数据进行自定义计算。

Spark可以计算：结构化、半结构化、非结构化等各种类型的数据结构，同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用

程序计算数据。

Spark的适用面非常广泛，所以，被称之为统一的（适用面广）的分析引擎（数据处理）

尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop

 在计算层面，Spark相比较MR（MapReduce）有巨大的性能优势，但至今仍有许多计算工具基于MR构架，比如非常成熟的Hive

 Spark仅做计算，而Hadoop生态圈不仅有计算（MR）也有存储（HDFS）和资源管理调度（YARN），HDFS和YARN仍是许多大数据

体系的核心架构。