Hello,小伙伴们,作为大数据的第一篇博文,肯定要先介绍一下大数据中的“大哥大”Hadoop了,别急,咱们慢慢介绍。
一:Hadoop名称由来
与很多其他的开源框架不同,Hadoop的名字并不是一个缩写,而是一个生造出来的词。据说是Hadoop之父Doug Cutting用儿子毛绒玩具大象的名字命名的,这也太个性了吧!
二:Hadoop是干啥的?
长话短说,Hadoop是一个提供了分布式存储(一个文件被拆分成很多个块,并且以副本的方式存储在各个节点中)和计算的 分布式系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用。
三:Hadoop的核心组件
- Hadoop Common:支持其他Hadoop模块的通用工具
- Hadoop Distributed File System (HDFS):HDFS实现将文件分布式存储在很多的服务器上
- Hadoop YARN:YARN实现集群资源管理以及作业的调度分布式计算框架
- Hadoop MapReduce:MapReduce是基于YARN的、可以实现在多机器上分布式并行计算的系统
四:Hadoop生态圈